Universiteit van Tilburg 10 juli 2006
World Wide Web telt minstens 14 miljard pagina's
Schattingen Google onbetrouwbaar
Hoe groot is het World Wide Web? Maurice de Kunder, student
Bedrijfscommunicatie en Digitale Media in Tilburg wijdt zijn
afstudeerscriptie aan deze vraag. De betrouwbaarste schatting is
minstens 14,3 miljard webpagina's, aldus De Kunder. Het Nederlandse
web telt minstens 291 miljoen webpagina's.
Om de grootte van het deel van internet waar iedereen bij kan te
bepalen, gebruikte De Kunder een methode die uitgaat van woord- en
documentfrequenties in verschillende tekstverzamelingen. Als een woord
in dertig artikelen voorkomt in een verzameling van 30.000
krantenartikelen, dan is de verwachte documentfrequentie van dat woord
1 op 1000. Wanneer Google vervolgens meldt dat er 9 miljoen
webpagina's bestaan waarop dat woord voorkomt, dan is dit getal te
extrapoleren naar een totaal van 9 miljard webpagina's. Door deze
rekensom te herhalen voor een groot aantal woorden kon De Kunder de
grootte van de database van Google, Yahoo Search, MSN Search, en Ask
schatten. Deze vier zoekmachines, de vier grootste op dit moment,
dekken voor een groot deel dezelfde webpagina's af, waardoor de
grootte van hun databases niet zomaar opgeteld kan worden. De Kunder
heeft daarom ook met een grote steekproef de overlap tussen de
zoekmachines bepaald, en de uiteindelijke schatting hiervoor
gecorrigeerd. Het eindresultaat is 14,3 miljard webpagina's. De Kunder
mat een groei van circa 2% per maand.
Opgeblazen?
Een opvallende uitkomst is dat de zoekmachine Google zeer
verschillende resultaten teruggeeft; in een meetperiode van een maand,
waarin iedere dag gemeten werd, varieerde de geschatte grootte van
Google tussen de 25 en de 45 miljard webpagina's. Yahoo Search lijkt
een veel betere dekking van het WWW te hebben wanneer de dekkingsgraad
van willekeurige URLs (adressen van webpagina's) wordt gemeten.
Bovendien overlapt de database van Yahoo meer met andere zoekmachines
dan Google. De Kunder stelt dan ook dat Google's index niet de basis
kan zijn voor een betrouwbare schatting van de grootte van het WWW,
omdat de zoekmachine mogelijk geen realistische en wellicht opgeblazen
getallen teruggeeft. Yahoo Search is een betere basis voor zo'n
schatting.
Noot voor de pers
Maurice de Kunder presenteert zijn afstudeerscriptie en ontvangt zijn
Master diploma op woensdag 19 juli om 11.00 uur in zaal A187 (Gebouw
A) van de Universiteit van Tilburg, Warandelaan 2 te Tilburg.
Afstudeerbegeleider is universitair hoofddocent Taal en Informatica
dr. Antal van den Bosch, email: antal.vdnbosch@uvt.nl, tel: 013 466
3117. Persberichten van de UvT vindt u op www.uvt.nl/persberichten/.
Meer informatie over UvT-wetenschappers: www.uvt.nl/webwijs/
UvT Persbericht