CWI-onderzoekers gaan onzekerheid in modellen en berekeningen te lijf

Ingezonden persbericht

PERSBERICHT

Centrum voor Wiskunde en Informatica - Amsterdam
3 september 2004

CWI-onderzoekers gaan onzekerheid in modellen en berekeningen te lijf

Prestigieuze Vidi-beurzen toegekend voor vernieuwend wiskunde- en informatica-onderzoek

Wiskundige dr. Pieter Collins en informaticus dr. Peter Grünwald, beiden verbonden aan het Centrum voor Wiskunde en Informatica (CWI) te Amsterdam, hebben een Vidi-beurs van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) in de wacht gesleept. Vidi-beurzen zijn - in het kader van NWO's Vernieuwingsimpuls - bedoeld om jonge onderzoekers de kans te geven een eigen vernieuwende onderzoekslijn te ontwikkelen. Aan beide onderzoekers is het maximale bedrag dat een Vidi-beurs kan omvatten - 600.000 euro - toegekend.

Collins werkt aan wiskundige methodes waarmee de betrouwbaarheid van computerberekeningen bepaald kan worden. Nu is het zo dat computerberekeningen lang niet altijd nauwkeurig zijn en dat is onacceptabel als bijvoorbeeld veiligheid in het geding is. Om tot een preciezere zekerheidsmarge te komen, combineert Collins twee totaal verschillende wiskundige gebieden: de systeem- en regeltheorie die beschrijft hoe systemen reageren op signalen en de topologie, die de overeenkomst en verschillen tussen vormen beschrijft.

Grünwald gaat er in zijn onderzoek van uit dat de huidige wetenschappelijke modellen de werkelijkheid over het algemeen gebrekkig weergeven en dat de meeste modellen te complex zijn. Juist doordat ze erg volledig willen zijn en goede voorspellingen willen doen, zitten ze vol fouten en zijn ze onbetrouwbaar. Het is de kunst om de juiste balans tussen simpliciteit en complexiteit te vinden. Met behulp van statistiek, informatie-theorie en informatica wil Grünwald daartoe een algemene theorie ontwikkelen.

NWO honoreerde in het wetenschapsgebied Exacte Wetenschappen zeven aanvragen met een Vidi-beurs. Twee beurzen gingen naar wiskundigen, drie naar informatici, en twee naar (natuur- en) sterrenkunde. Het is de eerste keer dat informatici een Vidi-beurs hebben gekregen.

Dr. P.J. Collins: 'Topologie brengt revolutie teweeg in nauwkeurigheid computerberekeningen' Computers zijn onmisbaar voor het oplossen van zeer uiteenlopende technische problemen in alle mogelijke situaties en 'systemen' - variërend van lichaamsprocessen tot auto's, schepen en meet- en regelsystemen. Vaak is er te weinig bekend over de werking van een systeem, is er sprake van ongelijkwaardige componenten of worden er tegenstrijdige eisen aan gesteld. Mede daardoor zijn computerberekeningen lang niet altijd betrouwbaar en ontstaan er regelmatig veiligheidsproblemen of flinke schadeposten. Een berucht voorbeeld is het Sleipner olieplatform, waarvan midden op zee de betonconstructie lek raakte en dat vervolgens met een enorme dreun (3 op de schaal van Richter) op de zeebodem neerplofte. Schade: een slordige 700 miljoen dollar. Achteraf waren er twee oorzaken aan te wijzen: iets te weinig beton op een cruciale plaats en een fout in de eindige elementen analyse (een techniek van de numerieke wiskunde). Als het aan wiskundige Pieter Collins (1972, Colchester, UK) ligt, behoren dat soort ongelukken binnenkort tot het verleden. Zijn doel is het ontwikkelen van een theorie en methodes waarmee de berekeningen voor veranderende systemen te analyseren en te controleren zijn, waardoor er meer zekerheid te geven is over de betrouwbaarheid van computerberekeningen.

Computertopologie
Collins ziet de oplossing in het combineren van diverse wiskundige methodes. Uiteraard is systeem- en regeltheorie nodig om eigenschappen en gedrag van systemen te kunnen beschrijven en vooral het effect van (onverwachte of onvoorspelbare) veranderingen. Vaak kan dat slechts bij benadering. Daarnaast - en daarin zit het vernieuwende - kiest Collins een topologische aanpak voor de analyse van veranderende systemen. Topologie bestudeert de eigenschappen van vormen. Het is een ruim honderd jaar oude wiskundige techniek, die sinds een jaar of tien een nieuwe bloei beleeft dankzij de computer. Collins wil daarmee specifieke en algemene systeemeigenschappen van systeemgedrag vaststellen. De analyse heeft betrekking op systeemeigenschappen die weinig gevoelig zijn voor kleine veranderingen in het systeemgedrag. De topologische technieken maken het mogelijk niet alleen veranderingen in systemen vast te stellen en gedrag af te leiden, maar ook fouten in berekeningen komen daardoor aan het licht. Collins verwacht de nauwkeurigheid van computerberekeningen voor complexe systemen spectaculair te kunnen verbeteren.

Dr. P.D. Grünwald: 'Minder is vaak beter'
Veel wetenschappers verkopen eigenlijk onzin, vindt Peter Grünwald (1970, Geldrop), als hij kijkt naar de modellen die ze gebruiken om te voorspellen (het weer bijvoorbeeld) of te herkennen (zoals in irisscans). Veel van deze modellen zitten vol met foute veronderstellingen, missen belangrijke onderdelen of stellen de werkelijkheid te simpel voor. Helemaal te vermijden is dat niet, omdat situaties als weersomstandigheden en verschillen tussen ogen zo ingewikkeld zijn, dat het onmogelijk is daar een perfect model voor op te stellen. Laat staan er berekeningen mee te maken of goede voorspellingen mee te doen. Grünwald maakt in zijn onderzoek duidelijk waarom simplistische modellen die bepaalde, in principe wel relevante factoren negeren, in de praktijk vaak beter werken dan complexe modellen die met veel meer factoren rekening houden. Een compromis tussen 'simpel' en 'complex' werkt vaak het beste en Grünwald is dan ook op zoek naar een theorie voor het vinden van zo'n compromis, waarbij hij inzichten uit de statistiek combineert met informatica en informatie-theorie. Volgens de informaticus is dit relevant voor alle disciplines die zich bezighouden met modelleren en voorspellen. Door er - anders dan bij de Bayesiaanse en de traditionele statistische methode - van uit te gaan dat alle modellen de werkelijkheid gebrekkig weergeven en dat niet langer te ontkennen, wordt de weg vrijgemaakt voor sterk verbeterde statistische leermethodes.

All models are wrong
Niet voor niets gaf Grünwald zijn aanvraag voor de Vidi-beurs de titel: "Learning when all models are wrong'. Van oorsprong simpele modellen kunnen al doende 'leren' en daardoor kunnen ze betere resultaten behalen. Als voorbeeld noemt Grünwald een spamfilter, dat een mail in wezen beschouwt als een reeks willekeurige woorden. Maar zo'n filter kan leren spam te herkennen. De gebruiker geeft in het begin aan welke mails gewenst zijn en welke niet en zo traint hij zijn spamfilter. Eigenlijk klopt het model niet, maar toch werkt het heel aardig. Toch kan het beter. Volgens Grünwald zou je je methodes moeten aanpassen aan wat je wilt voorspellen. Je moet beoordelingscriteria in kunnen bouwen tijdens de training. De spamfilter bijvoorbeeld moet kunnen leren dat het niet zo erg is als hij iets geen spam noemt en jij wel, maar dat het andersom (de filter vindt het wel spam en jij niet) veel en veel erger is. Bestaande methodes houden hier veel te weinig rekening mee, aldus Grünwald.

Overfitting
Terwijl een eenvoudig model voor een spamfilter tot heel aardige resultaten kan leiden, is dat bij een complex model vaak juist niet het geval. Ingewikkelde modellen zoals die bijvoorbeeld in zwang zijn voor het voorspellen van de ontwikkeling van economische groei kunnen behoorlijk in de fout gaan. Het probleem van complexe modellen is, dat onderzoekers te veel factoren willen laten meetellen, ook zelden of eenmalig voorkomende factoren. Volgens Grünwald gaat het dan gegarandeerd mis. Hij laat het zien in grafieken: vroeger trok men het liefst een rechte lijn langs verschillende punten. In de huidige modellen zie je fluctuaties in de vorm van scherpe, diepe of minder diepe pieken en dalen, terwijl je het liefst een vloeiende lijn zou willen zien. Nu lijden modellen vaak aan 'overfitting': de bekende punten zijn heel goed beschreven, maar nieuwe, niet bekende punten heel slecht. 'Je beschrijft dan de ruis in plaats van de trend', aldus Grünwald. 'Als je je model 'optuigt' volgens standaard statistische methoden, krijg je een te optimistische kijk op de betrouwbaarheid van de voorspellingen die je kunt doen'. Door als uitgangspunt te nemen, dat - hij kan er niet genoeg op hameren - vrijwel alle modellen gebrekkig zijn, wil Grünwald uiteindelijk de mate van onzekerheid kunnen bepalen en betrouwbaarder modellen kunnen maken.

maandag 6 september 2004