PB 01/02 11 januari 2001
Slim zoeken op basis van taalmodellen
Een zoekmachine die klare taal verstaat
Een lukrake zoekactie naar informatie op Internet levert vaak
duizenden treffers op die helemaal niet relevant zijn. Voor
ongetrainde informatiezoekers is een goede selectie vaak een crime.
Promovendus ir. Djoerd Hiemstra ontwikkelde een nieuwe methode om
informatie te vinden en te rangschikken op relevantie. Deze benadering
staat dichter bij de natuurlijke taal, doordat gebruik gemaakt wordt
van modellen die taal op een wiskundige manier beschrijven. Met deze
taalmodellen is het ook mogelijk een meertalige zoekactie te doen: met
een vraag in het Nederlands zoekt de machine ook in documenten in
andere talen. Een prototype zoekmachine op basis van deze
taalmodellen, ontwikkeld door de UT en TNO, scoort in tests met grote
documentcollecties zeer hoog en behoort tot de wereldtop. Hiemstra
verwacht dan ook dat met taalmodellen een slimmer type zoekmachine
mogelijk is. Hij promoveert op 19 januari aan de faculteit Informatica
van de Universiteit Twente. Een dag eerder, op woensdag 18 januari,
organiseert de UT een workshop over informatie-zoeken.
Gebruikelijke zoekalgoritmen tellen vaak het aantal malen dat een woord of een aantal woorden voorkomt, kijken daarbij naar de positie van het woord in het document, en laten er een weging op los om het document te kunnen rangschikken op relevantie. Een ervaren gebruiker weet het aantal treffers te reduceren door zijn zoekvraag te verfijnen met operatoren zoals AND en OR. Bovendien heeft die gebruiker vaak al kennis van de documenten waarin hij of zij zoekt. Een ongetrainde gebruiker zal echter veel hits krijgen, en na het doorzoeken van hooguit de eerste tientallen documenten of webpaginas waarschijnlijk afhaken, in de verwachting dat de meest relevante documenten ook echt bovenáán staan. Hoewel de zoekmachines nog volop in ontwikkeling zijn, stelt Hiemstra dat veel zoekalgoritmen nog gebrekkig zijn, of onnodig ingewikkeld. Hij kiest daarom voor een aanpak met taalmodellen.
Natuurlijke taal
Taalmodellen staan dichtbij de taal die de gebruiker dagelijks
spreekt. Het zijn statistische beschrijvingen van natuurlijke taal,
die verbanden leggen tussen woorden en zinnen. Taalmodellen worden
bijvoorbeeld al veel gebruikt voor automatische spraakherkenning. Bij
het zoeken naar relevante documenten kunnen de modellen, beter dan
bestaande methoden, een uitspraak doen over de kans dat een document
past bij de vraag die de gebruiker heeft gesteld: een zin die een
gebruiker invoert krijgt daardoor een context, en is niet een zak met
woorden waarin alleen maar geturfd wordt.
Een groot voordeel van taalmodellen is ook dat ze gekoppeld kunnen
worden aan een vertalingsalgoritme: Hiemstra ziet dit als één geheel,
waarin een gebruiker een vraag kan invoeren in het Nederlands en
vervolgens ook in bijvoorbeeld Engelse of Franse documenten zoekt.
Vooral in internationale samenwerkingsverbanden is er al veel vraag
naar dit soort systemen, bijvoorbeeld in de Europese Unie, waar veel
landen samenwerken en documenten in verschillende talen uitwisselen.
Daarnaast heeft Hiemstra ook de mogelijkheid onderzocht om zoeksysteem
adaptief te maken op een intelligente manier. Daarbij geeft de
gebruiker terugkoppeling naar het zoeksysteem om de zoekvraag te
verfijnen en kan hij of zij ook online de manier van zoeken
beïnvloeden.
Met de taalmodellen is een prototype zoekmachine gebouwd door de UT en
TNO. Deze zoekmachine is getest op de afgelopen Text Retrieval
Conference (TREC) in Gaithersburg, waar jaarlijks zoeksystemen worden
getest op hun prestaties. Daarvoor is een testcollectie van miljoenen
documenten beschikbaar. De zoekmachine hoorde daar tot de wereldtop.
Workshop
Over het zoeken naar informatie, en vooral de interactie daarin met de
gebruiker, organiseert de Parlevink language engineering-groep van de
Universiteit Twente, waar Hiemstra zijn promotieonderzoek heeft
gedaan. op 18 januari de workshop User Interaction and Adaptive
Methods in Information Retrieval. Parlevink maakt deel uit van het
Centrum voor Telematica en Informatietechnologie (CTIT).
Centraal tijdens de workshop staan interactieve en adaptieve systemen, waarmee gebruikers tijdens het zoekproces de zoekparameters kunnen wijzigen. Key note speaker tijdens deze workshop is prof Stephen Robertson, van Microsoft Research in Cambridge.
Hiemstra heeft tijdens zijn promotie ook enige tijd op dit
researchlaboratorium van Microsoft gewerkt. Verder heeft hij nauw
samengewerkt met TNO in Delft en het Centrum voor Wiskunde en
Informatica in Amsterdam.
Noot voor de pers
Ir. Djoerd Hiemstra (Zwolle, 1971) studeerde tot 1996 Informatica aan
de Universiteit Twente. Zijn promotieonderzoek heeft hij gedaan in de
leerstoel Taal, Kennis en Interactie, een onderzoeksgroep binnen het
Centrum voor Telematica en Informatietechnologie (CTIT) van de
Universiteit Twente. Bij zijn promotie op 19 januari is prof. dr.
Franciska de Jong promotor.
Van het proefschrift Using Language Models for Information Retrieval
zijn recensie-exemplaren verkrijgbaar voor de pers. Meer informatie
over de workshop op 18 januari staat op
http://parlevink.cs.utwente.nl/conferences/dirw2.html
Contactpersoon Universiteit Twente, Communicatie en Transfer: ir. W.R.
van der Veen, tel (053) 489 42 44, e-mail
w.r.vanderveen@cent.utwente.nl
© Universiteit Twente 1997-2000