De arrogantie van de statisticus
Van ongeveer 30% van de medische studies blijkt dat het beweerde
effect, achteraf geen stand houdt: `dit geneesmiddel werkt tóch niet',
stelt Peter Grünwald vandaag in zijn oratie. Dit is schrikbarend meer
dan op grond van de statistiek verwacht mag worden.
Algemeen fenomeen
Volgens Grünwald is dit slechts één voorbeeld van een algemeen
fenomeen: heel vaak menen onderzoekers - medici, biologen,
economen, beursvoorspellers - een echt patroon ontdekt te
hebben in hun data, terwijl dat patroon er eigenlijk niet is.
Dit gebeurt ondanks dat ze soms geavanceerde statistische
methoden gebruiken. Dit fenomeen is het thema van Grünwalds
oratie. Hij geeft er verschillende voorbeelden van, zoals de
statistiek in de rechtszaak tegen Lucia de B.,
weersvoorspellingen en - heel simpel - dobbelstenen.
Afbeelding - Peter Grünwald
Arrogant
Hoe komt het nu dat er zo vaak patronen gevonden worden die er
niet zijn? Het antwoord van statistici is vaak: dat komt omdat
men een verkeerde statistische methode gebruikt, of de juiste
methode verkeerd toepast. Dit antwoord is juist, maar ook
enigszins arrogant als je bedenkt dat statistici vrijwel nooit
met één stem spreken: verschillende statistici zullen geheel
verschillende methoden aanraden voor hetzelfde probleem. Dit
maakt het er voor de onderzoeker niet gemakkelijker op.
Bovendien draagt men soms methoden aan die zó tegen-intuïtief
zijn, dat ze er min of meer om vragen om verkeerd toegepast te
worden.
Lucia de B.
Grünwald gaat op deze `arrogantie van de statisticus' in aan de
hand van onder andere de rechtszaak tegen Lucia de B., de
verpleegkundige die in eerste instantie mede op statistische
gronden veroordeeld was voor de moord op een aantal patiënten.
Hier waren alle statistici het er wel over eens dat de
oorspronkelijke analyse niet correct was. Ook hier was een
patroon gevonden -een verband tussen Lucia en sterfgevallen op
haar afdeling - dat er misschien wel helemaal niet was. Maar
hoe moest men de statistische gegevens over Lucia dan wel
analyseren? Verschillende eminente statistici hebben hier heel
verschillende meningen over. Hier is destijds uitgebreid over
gediscussieerd in de Nederlandse kranten. Bij het publiek bleef
de indruk bestaan dat de statistici het ook allemaal niet
weten. En dat is jammer.
Richtingenstrijd
De oorzaak van de onenigheid ligt in een richtingenstrijd in de
statistiek die al meer dan 150 jaar oud is: de Bayesiaanse
school versus de frequentieschool. Grünwald betoogt dat beide
aanpakken zo hun zwakheden hebben en dat ook in de 21e eeuw
veel standaard statistische methoden voor verbetering vatbaar
zijn, tenminste vanuit het gezichtspunt van zijn eigen
vakgebied, statistisch leren. Statistisch leren combineert
inzichten uit de statistiek en het vak machine learning uit de
informatica: het gaat hierbij om het ontwerpen van zelf-lerende
software, zoals bijvoorbeeld zelflerende spamfilters en
zelflerende spraakherkenningssystemen.
Peter Grünwald (1970) is sinds 1 november 2008 hoogleraar aan
het Mathematisch Instituut van de Universiteit Leiden. Hij is
ook werkzaam aan het Centrum Wiskunde & Informatica in
Amsterdam, waar hij het Vidi-project Learning when all Models
are Wrong leidt. Hij is de auteur van het boek The Minimum
Description Length Principle (MIT Press, 2007). Hij was actief
betrokken bij de - uiteindelijk succesvolle - pogingen om de
zaak tegen Lucia de B. heropend te krijgen.
Vrijdag 6 november
Oratie prof.dr. P.Grünwald
Faculteit: Wiskunde en Natuurwetenschappen
Vakgebied: statistisch leren
Aanmelden voor deze oratie
(6 november 2009/SH)
Nieuwsredactie - 06/11/2009
Universiteit Leiden