Universiteit van Tilburg

Persbericht 23 juni 2010

Natuurhistorisch erfgoed toegankelijk door slimme zoekmethoden

Promotie computerlinguiste Marieke van Erp

Onderzoekers van het Nationaal Natuurhistorisch Museum Naturalis in Leiden hebben de afgelopen twee eeuwen een schat aan informatie verzameld over het leven op aarde. Tot voor kort was deze informatie alleen toegankelijk via de originele handgeschreven logboeken. De Tilburgse computationeel linguïste Marieke van Erp verbeterde de toegankelijkheid tot de gedigitaliseerde versie van deze natuurhistorische data. Ze promoveert op woensdag 30 juni aan de Universiteit van Tilburg.

In haar proefschrift verbetert Van Erp de toegankelijkheid van de data met drie geautomatiseerde technieken: automatisch data opschonen, data structureren en data beter vindbaar maken met synoniemen. Ze presenteert twee opschoonmethoden voor de databases van Naturalis: een datagedreven methode die waarden voorspelt aan de hand van naburige data, en een kennisgedreven methode die gebruik maakt van een andere kennisbron dan de database zelf. Beide methoden sporen veel inconsistenties op en vullen elkaar aan in het soort fouten dat ze ontdekken.

Agapad
Van Erp ontwikkelde ook een methode die een platte databasestructuur verrijkt met relaties tussen kolommen, door kennis uit de online encyclopedie Wikipedia te halen. Ten slotte verbeterde ze de toegankelijkheid tot de database met een zoeksysteem dat domeinkennis gebruikt om zoekopdrachten preciezer te formuleren en uit te breiden met synoniemen.

De structurering en verrijking van de database zorgen voor een significante toename in het percentage zoekopdrachten dat automatisch beantwoord kan worden: dat steeg van 48 naar 94 procent. Zo kunnen onderzoekers van Naturalis nu een antwoord krijgen op de vraag 'Waar is de agapad de afgelopen twee eeuwen allemaal waargenomen?'

Symposium Text mining
Voorafgaand aan de promotie organiseert het Tilburg centre for Cognition en Communication (TiCC) het symposium Text mining in the real world, over het zoeken in tekstuele data in alledaagse praktijkomgevingen door middel van (taal)technologie. Sprekers zijn prof. Eduard Hovy (Information Sciences Institute, USC, Marina del Rey, VS) en prof. Piek Vossen (Computational Lexicology and Terminology Lab, VU Amsterdam). Zie voor het programma en meer informatie de ILK website.

Marieke van Erp (1982) studeerde Taal en Kunstmatige Intelligentie (BA en MA) aan de Universiteit van Tilburg. Haar promotieonderzoek maakte deel uit van het MITCH project (Mining for Information in Texts from the Cultural Heritage) dat werd gefinancierd door het NWO CATCH programma. Sinds oktober 2009 werkt ze als postdoc-onderzoeker aan de VU in Amsterdam, bij het departement Informatica.