Universiteit Twente

Persberichten > Nieuw > 02-024

02-024 23-04-2002

02/24 23 april 2002

Van zoekmachine naar vindmachine
`Webspace-methode' vindt de informatie die je wèl wilt

Zoekmachines vinden vaak niet wat je zoekt. Ze geven een lijst webadressen, en `succes ermee!'. De gehanteerde zoekmethode, `text retrieval', is beproefd maar ook beperkt. Promovendus Roelof van Zwol heeft daarom een nieuwe en onconventionele zoekmethode ontwikkeld. Deze `Webspace Methode' presenteert de gevraagde informatie uit verschillende documenten -tekst, maar ook foto's en video's- meteen in één scherm. In een `retrieval performance experiment' presteert de methode aanzienlijk beter in nauwkeurigheid en slaagkans. Roelof van Zwol promoveert op 26 april aan de faculteit Informatica van de Universiteit Twente.

De Webspace Methode die Van Zwol heeft ontwikkeld, kan overweg met lastige vragen. Bijvoorbeeld: "Ik zoek alle vrouwelijke tennisspelers, geboren ná 1970, die de Australian Open hebben gespeeld, maar niet gewonnen. Met een foto en een lijst van wedstrijden die ze in hun loopbaan wèl hebben gewonnen." De gebruiker maakt via een menu een keuze. Op één scherm presenteert de zoekmachine alle gegevens, bijeengesprokkeld in verschillende documenten. Van Zwol noemt dit een `materialised view'.

De methode kent niet de tekortkomingen van bestaande zoekmachines. "Moderne search engines zoals Google werken uitstekend, maar ze zijn nog steeds gebaseerd op de aloude `text retrieval': het vinden van woordcombinaties in tekstdocumenten. Door slimmer met taal om te gaan, worden ze steeds een stukje verfijnd, maar dat zijn steeds kleine stappen." De gebruiker moet een lijst doorworstelen en adres-na-adres kijken of de resultaten enigszins beantwoorden aan zijn vraag. Uit recent Amerikaans onderzoek blijkt dat de gebruiker na vier of vijf adressen al afhaakt, terwijl er vaak duizenden treffers worden gepresenteerd.

Eigenwijs
De Webspace Methode is niet zomaar te vertalen naar het hele Internet, geeft Van Zwol toe. Tot nu toe werkt zijn methode vooral op collecties van documenten die tot op zekere hoogte overzichtelijk en van beperkte omvang zijn, bijvoorbeeld in een intranet-omgeving. Als voorbeelden heeft hij de methode losgelaten op de site van de tenniswedstrijd `Australian Open' en de site van reisorganisatie `Lonely Planet'. "Omzetting naar Internet zou geen probleem zijn als niet iedereen zo eigenwijs zou zijn een eigen standaard te hanteren. Daarin tekent zich wel een verandering af met de overgang van `html' naar `xml'."

Filmfragmenten
In web-gebaseerde collecties van documenten maakt Van Zwol gebruik van de semantische samenhang -niet puur het woord, maar vooral de betekenis ervan- tussen verschillende documenten. "Het idee is: er zit een structuur in, waarom zou je die bij het zoeken dan niet gebruiken?" De gebruiker is geïnteresseerd in de informatie zèlf, niet zozeer in de locatie waar de gegevens zijn opgeslagen. Hierin onderscheidt zich een data-base georiënteerde aanpak van de gangbare manier om in `bestanden en kaartenbakken' te denken. Tegelijk maakt het niet meer uit hóe de informatie is opgeslagen. Van Zwol en zijn collega's beperken zich niet tot tekst: via de Webspace Methode is ook te zoeken in foto's en videofragmenten. Bij de bovengenoemde tennissers kunnen bijvoorbeeld spelmomenten in filmpjes worden gezocht, en meteen in beeld gebracht: de speler spoelt meteen door naar het gezochte moment. Hiervoor wordt onder meer gebruik gemaakt van het onderzoek van Milan Petkovic (Universiteit Twente) en Menzo Windhouwer (CWI, Amsterdam).

Nauwkeurig
De Webspace Methode is zeker nog geen commerciële zoekmachine. De methode werkt echter uitstekend in de onderzochte collecties. In een vergelijking met zoekmachines als Google, presteert Webspace in vrijwel alle gevallen beter. In `precision' en `recall' worden tweemaal betere resultaten geboekt, zo blijkt uit tests met een gebruikerspanel.

Noot voor de pers

Ir. Roelof van Zwol (Ede, 1972) studeerde tot 1998 Informatica aan de Universiteit Twente. Hij heeft zijn promotie-onderzoek gedaan in de Databases groep onder leiding van prof.dr. Peter Apers. Het onderzoek is ondergebracht in het Centrum voor Telematica en Informatietechnologie (CTIT). Van Zwol verdedigt zijn proefschrift op 26 april om 13.15 uur in zaal 2 van het BB-gebouw op de campus van de Universiteit Twente.

Kijk voor meer informatie op www.cs.utwente.nl/~zwol

Meer informatie: ir. Wiebe van der Veen, Bureau Communicatie UT, tel. (053) 489 4244, e-mail w.r.vanderveen@utwente.nl

© Universiteit Twente 2002