Brussel, 18 januari 2008
De Europese Commissie maakt computerondersteund vertalen gemakkelijker en
toegankelijker
De Europese Commissie heeft een stap verder gezet in haar inspanningen om
meertaligheid als een essentieel onderdeel van Europa's eenheid in
verscheidenheid te bevorderen. De Commissie maakt haar verzameling van circa
1 miljoen zinnen en de bijhorende kwaliteitsvertaling in 22 van de 23
officiële EU-talen - inclusief die van de nieuwe lidstaten - gratis
toegankelijk. Dit nooit geziene corpus van gegevens is uitermate gegeerd bij
ontwikkelaars van machinevertalingsystemen met programma's die uit manueel
vertaalde teksten "leren" hoe woorden en zinnen in een bepaalde context
correct moeten worden vertaald. Bovendien kan het corpus zijn nut bewijzen
bij de ontwikkeling van andere taalkundige programma's, zoals grammatica- en
spellingcheckers, onlinewoordenboeken en meertalige tekstindelingsystemen.
De heer Leonard Orban, Europees commissaris voor Meertaligheid: De
Europese Commissie wil met dit initiatief een forse impuls geven aan
de menselijke-spraaktechnologie, meertaligheid ondersteunen en
computerondersteund vertalen gemakkelijker, goedkoper en
toegankelijker maken. Burgers die tot kleine taalgemeenschappen
behoren, krijgen op die manier vlotter toegang tot documenten en
webpagina's die enkel in de meest gebruikte talen beschikbaar zijn
gesteld".
Janez Potocnik, Europees commissaris voor Wetenschap en Onderzoek:
"Deze unieke verzameling taalgegevens draagt bij tot het ontwikkelen
van een nieuwe generatie computerprogramma's voor de verwerking van
menselijke taal en tot het concurrentievermogen van de taalindustrie,
die nu al tot de snelst groeiende sectoren in de Europese Unie wordt
gerekend".
De verplichting de EU-wetgeving in de 23 officiële talen van de EU ter
beschikking te stellen, levert de instellingen van de EU meer
meertalige teksten op dan om het even welke andere organisatie. De
Europese instellingen werken met 253 mogelijke talenpaarcombinaties en
produceren elk jaar circa 1,5 miljoen vertaalde bladzijden.
Waar vertalingen van Engelse of Franse teksten in grote getale op het
Internet te vinden zijn, levert de zoektocht voor het Lets of het
Roemeens al veel minder resultaten op en is er voor een combinatie van
twee talen waarvoor weinig middelen beschikbaar zijn, nagenoeg niets
te vinden.
Daarom geeft de Commissie in samenwerking met haar vertalers en
interne wetenschappers uitgebreide verzamelingen zinnen vrij uit
wetsteksten in 22 talen over technische, politieke en sociale
onderwerpen. Zowel de zin in de taal waarin de oorspronkelijk tekst is
gesteld, als de vertaling ervan in alle andere officiële EU-talen is
in dit corpus te vinden. Vertalingen in het Iers zijn nog niet
beschikbaar. Met het vrijgeven van deze taalgegevens, dat volgt op de
terbeschikkingstelling van de communautaire documentatie- en
terminologiebestanden Eur-Lex en IATE, illustreert de Commissie haar
open beleid ten aanzien van het hergebruik van informatiebronnen.
Dankzij haar rijke ervaring met de ontwikkeling van systemen voor de
verwerking van meertalige teksten heeft de Commissie een onbetwistbare
expertise op het gebied van meertaligheid verworven die zij via
European Media Monitoring openbaar toegankelijk maakt in de vorm van
nieuwssites waarop tot 35 talen beschikbaar zijn. Bovendien wordt
onderzoek op het gebied van machinevertaling en andere aan taal
gerelateerde technologie gesteund via het Zevende Kaderprogramma voor
onderzoek en ontwikkeling, onder het thema informatie- en
communicatietechnologieën.
Voor meer informatie over de vertaalgegevens:
http://langtech.jrc.it/DGT-TM.htmlVoor toegang tot de European Media
Monitor: http://emm.jrc.it/overview.html
European Union