European Union

Brussel, 18 januari 2008

De Europese Commissie maakt computerondersteund vertalen gemakkelijker en toegankelijker

De Europese Commissie heeft een stap verder gezet in haar inspanningen om meertaligheid als een essentieel onderdeel van Europa's eenheid in verscheidenheid te bevorderen. De Commissie maakt haar verzameling van circa
1 miljoen zinnen en de bijhorende kwaliteitsvertaling in 22 van de 23 officiële EU-talen - inclusief die van de nieuwe lidstaten - gratis toegankelijk. Dit nooit geziene corpus van gegevens is uitermate gegeerd bij ontwikkelaars van machinevertalingsystemen met programma's die uit manueel vertaalde teksten "leren" hoe woorden en zinnen in een bepaalde context correct moeten worden vertaald. Bovendien kan het corpus zijn nut bewijzen bij de ontwikkeling van andere taalkundige programma's, zoals grammatica- en spellingcheckers, onlinewoordenboeken en meertalige tekstindelingsystemen.

De heer Leonard Orban, Europees commissaris voor Meertaligheid: De Europese Commissie wil met dit initiatief een forse impuls geven aan de menselijke-spraaktechnologie, meertaligheid ondersteunen en computerondersteund vertalen gemakkelijker, goedkoper en toegankelijker maken. Burgers die tot kleine taalgemeenschappen behoren, krijgen op die manier vlotter toegang tot documenten en webpagina's die enkel in de meest gebruikte talen beschikbaar zijn gesteld".

Janez Potocnik, Europees commissaris voor Wetenschap en Onderzoek: "Deze unieke verzameling taalgegevens draagt bij tot het ontwikkelen van een nieuwe generatie computerprogramma's voor de verwerking van menselijke taal en tot het concurrentievermogen van de taalindustrie, die nu al tot de snelst groeiende sectoren in de Europese Unie wordt gerekend".

De verplichting de EU-wetgeving in de 23 officiële talen van de EU ter beschikking te stellen, levert de instellingen van de EU meer meertalige teksten op dan om het even welke andere organisatie. De Europese instellingen werken met 253 mogelijke talenpaarcombinaties en produceren elk jaar circa 1,5 miljoen vertaalde bladzijden.

Waar vertalingen van Engelse of Franse teksten in grote getale op het Internet te vinden zijn, levert de zoektocht voor het Lets of het Roemeens al veel minder resultaten op en is er voor een combinatie van twee talen waarvoor weinig middelen beschikbaar zijn, nagenoeg niets te vinden.

Daarom geeft de Commissie in samenwerking met haar vertalers en interne wetenschappers uitgebreide verzamelingen zinnen vrij uit wetsteksten in 22 talen over technische, politieke en sociale onderwerpen. Zowel de zin in de taal waarin de oorspronkelijk tekst is gesteld, als de vertaling ervan in alle andere officiële EU-talen is in dit corpus te vinden. Vertalingen in het Iers zijn nog niet beschikbaar. Met het vrijgeven van deze taalgegevens, dat volgt op de terbeschikkingstelling van de communautaire documentatie- en terminologiebestanden Eur-Lex en IATE, illustreert de Commissie haar open beleid ten aanzien van het hergebruik van informatiebronnen.

Dankzij haar rijke ervaring met de ontwikkeling van systemen voor de verwerking van meertalige teksten heeft de Commissie een onbetwistbare expertise op het gebied van meertaligheid verworven die zij via European Media Monitoring openbaar toegankelijk maakt in de vorm van nieuwssites waarop tot 35 talen beschikbaar zijn. Bovendien wordt onderzoek op het gebied van machinevertaling en andere aan taal gerelateerde technologie gesteund via het Zevende Kaderprogramma voor onderzoek en ontwikkeling, onder het thema informatie- en communicatietechnologieën.

Voor meer informatie over de vertaalgegevens:

http://langtech.jrc.it/DGT-TM.htmlVoor toegang tot de European Media Monitor: http://emm.jrc.it/overview.html

vrijdag 18 januari 2008