Universiteit van Tilburg 10 juli 2006

World Wide Web telt minstens 14 miljard pagina's

Schattingen Google onbetrouwbaar

Hoe groot is het World Wide Web? Maurice de Kunder, student Bedrijfscommunicatie en Digitale Media in Tilburg wijdt zijn afstudeerscriptie aan deze vraag. De betrouwbaarste schatting is minstens 14,3 miljard webpagina's, aldus De Kunder. Het Nederlandse web telt minstens 291 miljoen webpagina's.

Om de grootte van het deel van internet waar iedereen bij kan te bepalen, gebruikte De Kunder een methode die uitgaat van woord- en documentfrequenties in verschillende tekstverzamelingen. Als een woord in dertig artikelen voorkomt in een verzameling van 30.000 krantenartikelen, dan is de verwachte documentfrequentie van dat woord
1 op 1000. Wanneer Google vervolgens meldt dat er 9 miljoen webpagina's bestaan waarop dat woord voorkomt, dan is dit getal te extrapoleren naar een totaal van 9 miljard webpagina's. Door deze rekensom te herhalen voor een groot aantal woorden kon De Kunder de grootte van de database van Google, Yahoo Search, MSN Search, en Ask schatten. Deze vier zoekmachines, de vier grootste op dit moment, dekken voor een groot deel dezelfde webpagina's af, waardoor de grootte van hun databases niet zomaar opgeteld kan worden. De Kunder heeft daarom ook met een grote steekproef de overlap tussen de zoekmachines bepaald, en de uiteindelijke schatting hiervoor gecorrigeerd. Het eindresultaat is 14,3 miljard webpagina's. De Kunder mat een groei van circa 2% per maand.

Opgeblazen?
Een opvallende uitkomst is dat de zoekmachine Google zeer verschillende resultaten teruggeeft; in een meetperiode van een maand, waarin iedere dag gemeten werd, varieerde de geschatte grootte van Google tussen de 25 en de 45 miljard webpagina's. Yahoo Search lijkt een veel betere dekking van het WWW te hebben wanneer de dekkingsgraad van willekeurige URLs (adressen van webpagina's) wordt gemeten. Bovendien overlapt de database van Yahoo meer met andere zoekmachines dan Google. De Kunder stelt dan ook dat Google's index niet de basis kan zijn voor een betrouwbare schatting van de grootte van het WWW, omdat de zoekmachine mogelijk geen realistische en wellicht opgeblazen getallen teruggeeft. Yahoo Search is een betere basis voor zo'n schatting.

Noot voor de pers
Maurice de Kunder presenteert zijn afstudeerscriptie en ontvangt zijn Master diploma op woensdag 19 juli om 11.00 uur in zaal A187 (Gebouw A) van de Universiteit van Tilburg, Warandelaan 2 te Tilburg. Afstudeerbegeleider is universitair hoofddocent Taal en Informatica dr. Antal van den Bosch, email: antal.vdnbosch@uvt.nl, tel: 013 466 3117. Persberichten van de UvT vindt u op www.uvt.nl/persberichten/. Meer informatie over UvT-wetenschappers: www.uvt.nl/webwijs/

UvT Persbericht