Promotie: Betere rangschikking internetzoekresulaten

Universiteit Twente

PB 01/02 11 januari 2001

Slim zoeken op basis van taalmodellen

Een zoekmachine die klare taal verstaat

Een lukrake zoekactie naar informatie op Internet levert vaak duizenden treffers op die helemaal niet relevant zijn. Voor ongetrainde informatiezoekers is een goede selectie vaak een crime. Promovendus ir. Djoerd Hiemstra ontwikkelde een nieuwe methode om informatie te vinden en te rangschikken op relevantie. Deze benadering staat dichter bij de natuurlijke taal, doordat gebruik gemaakt wordt van modellen die taal op een wiskundige manier beschrijven. Met deze taalmodellen is het ook mogelijk een meertalige zoekactie te doen: met een vraag in het Nederlands zoekt de machine ook in documenten in andere talen. Een prototype zoekmachine op basis van deze taalmodellen, ontwikkeld door de UT en TNO, scoort in tests met grote documentcollecties zeer hoog en behoort tot de wereldtop. Hiemstra verwacht dan ook dat met taalmodellen een slimmer type zoekmachine mogelijk is. Hij promoveert op 19 januari aan de faculteit Informatica van de Universiteit Twente. Een dag eerder, op woensdag 18 januari, organiseert de UT een workshop over informatie-zoeken.

Gebruikelijke zoekalgoritmen tellen vaak het aantal malen dat een woord of een aantal woorden voorkomt, kijken daarbij naar de positie van het woord in het document, en laten er een weging op los om het document te kunnen rangschikken op relevantie. Een ervaren gebruiker weet het aantal treffers te reduceren door zijn zoekvraag te verfijnen met operatoren zoals AND en OR. Bovendien heeft die gebruiker vaak al kennis van de documenten waarin hij of zij zoekt. Een ongetrainde gebruiker zal echter veel hits krijgen, en na het doorzoeken van hooguit de eerste tientallen documenten of webpaginas waarschijnlijk afhaken, in de verwachting dat de meest relevante documenten ook echt bovenáán staan. Hoewel de zoekmachines nog volop in ontwikkeling zijn, stelt Hiemstra dat veel zoekalgoritmen nog gebrekkig zijn, of onnodig ingewikkeld. Hij kiest daarom voor een aanpak met taalmodellen.

Natuurlijke taal
Taalmodellen staan dichtbij de taal die de gebruiker dagelijks spreekt. Het zijn statistische beschrijvingen van natuurlijke taal, die verbanden leggen tussen woorden en zinnen. Taalmodellen worden bijvoorbeeld al veel gebruikt voor automatische spraakherkenning. Bij het zoeken naar relevante documenten kunnen de modellen, beter dan bestaande methoden, een uitspraak doen over de kans dat een document past bij de vraag die de gebruiker heeft gesteld: een zin die een gebruiker invoert krijgt daardoor een context, en is niet een zak met woorden waarin alleen maar geturfd wordt.

Een groot voordeel van taalmodellen is ook dat ze gekoppeld kunnen worden aan een vertalingsalgoritme: Hiemstra ziet dit als één geheel, waarin een gebruiker een vraag kan invoeren in het Nederlands en vervolgens ook in bijvoorbeeld Engelse of Franse documenten zoekt. Vooral in internationale samenwerkingsverbanden is er al veel vraag naar dit soort systemen, bijvoorbeeld in de Europese Unie, waar veel landen samenwerken en documenten in verschillende talen uitwisselen.

Daarnaast heeft Hiemstra ook de mogelijkheid onderzocht om zoeksysteem adaptief te maken op een intelligente manier. Daarbij geeft de gebruiker terugkoppeling naar het zoeksysteem om de zoekvraag te verfijnen en kan hij of zij ook online de manier van zoeken beïnvloeden.

Met de taalmodellen is een prototype zoekmachine gebouwd door de UT en TNO. Deze zoekmachine is getest op de afgelopen Text Retrieval Conference (TREC) in Gaithersburg, waar jaarlijks zoeksystemen worden getest op hun prestaties. Daarvoor is een testcollectie van miljoenen documenten beschikbaar. De zoekmachine hoorde daar tot de wereldtop.

Workshop
Over het zoeken naar informatie, en vooral de interactie daarin met de gebruiker, organiseert de Parlevink language engineering-groep van de Universiteit Twente, waar Hiemstra zijn promotieonderzoek heeft gedaan. op 18 januari de workshop User Interaction and Adaptive Methods in Information Retrieval. Parlevink maakt deel uit van het Centrum voor Telematica en Informatietechnologie (CTIT).

Centraal tijdens de workshop staan interactieve en adaptieve systemen, waarmee gebruikers tijdens het zoekproces de zoekparameters kunnen wijzigen. Key note speaker tijdens deze workshop is prof Stephen Robertson, van Microsoft Research in Cambridge.

Hiemstra heeft tijdens zijn promotie ook enige tijd op dit researchlaboratorium van Microsoft gewerkt. Verder heeft hij nauw samengewerkt met TNO in Delft en het Centrum voor Wiskunde en Informatica in Amsterdam.

Noot voor de pers
Ir. Djoerd Hiemstra (Zwolle, 1971) studeerde tot 1996 Informatica aan de Universiteit Twente. Zijn promotieonderzoek heeft hij gedaan in de leerstoel Taal, Kennis en Interactie, een onderzoeksgroep binnen het Centrum voor Telematica en Informatietechnologie (CTIT) van de Universiteit Twente. Bij zijn promotie op 19 januari is prof. dr. Franciska de Jong promotor.

Van het proefschrift Using Language Models for Information Retrieval zijn recensie-exemplaren verkrijgbaar voor de pers. Meer informatie over de workshop op 18 januari staat op
http://parlevink.cs.utwente.nl/conferences/dirw2.html

Contactpersoon Universiteit Twente, Communicatie en Transfer: ir. W.R. van der Veen, tel (053) 489 42 44, e-mail
w.r.vanderveen@cent.utwente.nl

© Universiteit Twente 1997-2000

donderdag 11 januari 2001