Nederlandse Organisatie voor Wetenschappelijk Onderzoek
http://www.nwo.nl/nwohome.nsf/pages/NWOP_7XNLLH

10 november 2009

NWO-onderzoeker ontwikkelt 'zwarte lijst' van uitdrukkingen Lijst helpt computer om uitdrukkingen met meerdere betekenissen te begrijpen

Computers mogen dan 'bij de tijd zijn', maar van uitdrukkingen 'hebben ze geen kaas gegeten'. NWO-onderzoeker Nicole Grégoire heeft een oplossing voor dit probleem: zij stelde een lijst op van onvoorspelbare woordcombinaties, die bijvoorbeeld zowel een letterlijke als een figuurlijke betekenis hebben. Deze lijst is zo gestructureerd dat hij bruikbaar is voor veel verschillende computersystemen. Misschien gaat dan je navigatiesysteem ooit nog begrijpen dat je het ding het liefst om zeep zou helpen. Grégoire promoveert op 10 november aan de Universiteit Utrecht.

Het Nederlands kent veel woordcombinaties met kenmerken die niet te verklaren zijn door alleen te kijken naar de eigenschappen van de individuele woorden. De betekenis van 'de boot missen' is bijvoorbeeld niet altijd letterlijk 'te laat zijn om de boot te halen'. Voor mensen zijn dit soort woordcombinaties geen probleem, maar linguïstische computersystemen, zoals spraaksoftware of een programma dat automatisch samenvattingen maakt, herkennen deze uitdrukkingen niet. Dit komt doordat de betekenis afhangt van de context. Je kunt de boot natuurlijk écht missen.

Grégoire stelde een lijst op van zo'n 5000 onvoorspelbare woordcombinaties. Zij verdeelde de woordcombinaties op basis van hun structuur in verschillende klassen. Zo bekeek ze regels van meervoud of enkelvoud: je kunt niet 'het been nemen', alleen 'de benen nemen'. En 'die benen nemen' kan ook niet. Door het groeperen van de verschillende klassen van woordcombinaties, kan de hoeveelheid handmatig werk bij het incorporeren van de lijst in een computersysteem geminimaliseerd worden. Het maakt de lijst bruikbaar voor veel verschillende systemen.

Nicole Grégoire voerde een deel van haar onderzoek uit binnen STEVIN, een meerjarig onderzoeks- en stimuleringsprogramma voor Nederlandstalige taal- en spraaktechnologie dat gezamenlijk door de Vlaamse en Nederlandse overheid (OCW, NWO en EZ) wordt gefinancierd. Doel van het programma is de innovatiecapaciteit van deze sector vergroten en tegelijkertijd de positie van het Nederlands in de moderne informatie- en communicatiewereld versterken. De database van Grégoire wordt onder de naam DuELME gedistribueerd door de Centrale voor Taal- en Spraaktechnologie.