Computermodel bootst na hoe we woorden herkennen in spraak

Radboud Universiteit Nijmegen

Persbericht 10-88
Nijmegen, 29 juni 2010

Computermodel bootst na hoe we woorden herkennen in spraak

De manier waarop mensen woorden kunnen herkennen bij het horen van spraak kan nu worden onderzocht met een computermodel. Taalonderzoekster Odette Scharenborg van de Radboud Universiteit Nijmegen is er in geslaagd om een model te maken dat het proces simuleert van spraaksignaal tot herkenning van het woord. Scharenborg: "Mijn computermodel Fine-Tracker gebruikt technieken uit automatische spraakherkenning om het spraaksignaal te kunnen begrijpen." De resultaten van haar onderzoek worden deze maand gepubliceerd in het tijdschrift The Journal of the Acoustical Society of America.

Wanneer we naar spraak luisteren, worden allerlei woorden geactiveerd in onze hersenen. "Bij het horen van 'ham' bijvoorbeeld," zegt Scharenborg, "worden zowel 'ham' als 'hamster' geactiveerd." Om een beter beeld te krijgen van het proces in onze hersenen bij het herkennen van woorden, ontwikkelde ze het computermodel Fine-Tracker. Fine-Tracker is onderdeel van een breder onderzoeksproject waarin Scharenborg onderzoek naar menselijke spraakherkenning combineert met onderzoek op het gebied van automatische spraakherkenning. "Onderzoek naar menselijke spraakherkenning kan veel baat hebben bij de resources en tools die ontwikkeld zijn voor automatische spraakherkenners," aldus de onderzoekster. "Aan de andere kant kunnen ontwikkelaars van deze automatische spraakherkenners hun systemen weer verbeteren met de kennis die is opgedaan in onderzoek naar menselijke spraakherkenning."

Experimenten
Psycholinguistisch onderzoek naar hoe mensen woorden herkennen in spraak wordt veelvuldig gedaan met experimenten. Proefpersonen worden in een laboratorium op een stoel gezet en krijgen een zin te horen door een koptelefoon. De opdracht is, bijvoorbeeld, om op een computerscherm het plaatje aan te wijzen van het woord dat is genoemd in de zin. Naast een plaatje van dit woord en twee irrelevante plaatjes, ziet de proefpersoon ook een plaatje van een woord dat gelijk is aan de eerste lettergreep van het genoemde woord. "Dus naast een plaatje van een hamster staat een plaatje van een ham," legt Scharenborg uit. Door te registeren naar welk plaatje de proefpersoon kijkt tijdens het horen van de zin, kun je vaststellen welke woorden worden geactiveerd. Scharenborg: "Het onderzoek heeft bijvoorbeeld aangetoond dat mensen de tijdsduur van 'ham' gebruiken om al voor het einde van 'ham' te bepalen welke van de twee wordt bedoeld, het losse woord 'ham' of het woord waarin het ingebed zit: ' hamster'."

Computermodellen
Een andere manier om menselijke spraakherkenning te onderzoeken is het ontwikkelen van computermodellen die simuleren wat er in onze hersenen gebeurt bij het herkennen van woorden in spraak. Tot nu toe hebben onderzoekers daarmee slechts een deel van het proces kunnen nabootsen. Zo gebruiken de bestaande modellen als input niet het echte spraaksignaal, maar een symbolische weergave daarvan. Scharenborg: "Dat maakt het erg moeilijk om de resultaten van de computermodellen te vergelijken met wat mensen doen. Wij krijgen het spraaksignaal als input en gebruiken alle informatie die daarin aanwezig is voor het herkennen van woorden."

Spraakherkenning
Om een computermodel te maken dat uitgaat van het echte spraaksignaal gebruikt Scharenborg technieken uit de automatische spraakherkenning. Fine-Tracker splitst het spraaksignaal op in kleine stukjes (frames) en bepaalt automatisch welke eigenschappen dit stukje heeft. Zo wordt genoteerd of een frame wel of niet stemhebbend is ('b' in plaats van 'p'), en welke delen van de mond er gebruikt worden (bijvoorbeeld beide lippen, zoals bij het maken van de 'b' en de 'm'). Fine-Tracker gebruikt vervolgens een speciaal woordenboek om te bepalen welk woord gevormd wordt door de frames. In dit woordenboek staan geen definities van woorden, maar de uitspraak ervan, uitgedrukt in dezelfde eigenschappen. Door de eigenschappen van de frames in het spraaksignaal te vergelijken met de eigenschappen van de uitspraak van de woorden in het woordenboek, bepaalt Fine-Tracker welke woorden er gezegd zijn.

Tijdsduur belangrijke rol bij woordherkenning
Scharenborgs computermodel bevestigt dat tijdsduur een belangrijke rol speelt bij het herkennen van 'woorden in woorden'. Bij een langere tijdsduur van ham wordt vooral het losse woord 'ham' geactiveerd in onze hersenen, bij een kortere tijdsduur meer het woord 'hamster'. Dat komt omdat 'ham' in 'hamster' gemiddeld sneller uitgesproken wordt dan 'ham' als los woord en dus een kortere duur heeft dan de los uitgesproken 'ham'. "Ook Fine-Tracker profiteert van informatie over tijdsduur," concludeert Scharenborg. "Als het woordenboek onderscheid maakt tussen de tijdsduur van de uitspraak van 'ham' als los woord en van 'ham' als onderdeel van 'hamster', gaat de herkenning significant beter. En hoe groter het verschil in tijdsduur is, des te beter de herkenning."

Verschillen
Scharenborg vermoedt dat mensen naast de tijdsduur ook nog andere informatie in de spraak gebruiken om woorden te herkennen. "Er zijn behoorlijke verschillen tussen de resultaten van de mensen in de laboratoriumexperimenten en die van Fine-Tracker" zegt ze. "De informatie over tijdsduur heeft de verschillen al een stuk kleiner gemaakt, wat aangeeft dat deze een belangrijke rol speelt bij woordherkenning. Maar het lijkt erop dat mensen ook nog andere informatie uit het spraaksignaal gebruiken. Om Fine-Tracker ook te kunnen laten profiteren van die informatie is aanvullend onderzoek nodig."

dinsdag 29 juni 2010