Living web archives van start

Europees internetarchivering project van start

LiWA Living Web Archives is een driejarig Europees onderzoeksproject dat in februari jl. van start ging. Het doel van LiWA is technologie te ontwikkelen om websites op een efficiënte en duurzame manier te archiveren. Beeld en Geluid zal de technologie inzetten voor het conserveren en duurzaam toegankelijk maken van mediagerelateerde websites.

Achtergrond

Het internet biedt toegang tot een immense hoeveelheid informatie, verspreid over ontelbare websites van eveneens ontelbare gebruikers. Het is van groot belang de kennis die hierin besloten ligt duurzaam te bewaren. Voor het selecteren van relevante websites en deze onderbrengen in een archief is webharvesting technologie ontwikkeld. Het Internet Archive is het bekendste initiatief dat hier gebruik van maakt. Via 'The Wayback Machine' http://wa.archive.org/aroundtheworld biedt The Internet Archive toegang tot miljarden webpagina' s van 1996 tot nu. Ook in Nederland lopen soortgelijke initiatieven. Zo is de KB in 2006 gestart met het harvesten van een selectie van Nederlandse websites. Deze worden duurzaam opgeslagen in het e-Depot. http://www.kb.nl/hrd/dd/dd_projecten/webarchivering/index.html

Het archiveren van websites is lastig, doordat de pagina's steeds veranderen, verschillende bestandsformaten worden gebruikt en informatie op uiteenlopende manieren op websites geplaatst kan worden. LiWA ontwikkelt technologie die er niet alleen voor zorgt dat pagina's op een statische wijze worden opgeslagen, maar dat een 'levend' archief van het web ontstaat. 'Levend' houdt hier in dat:
* ...uiteenlopende soorten media (dus ook video's) in het archief ondergebracht kunnen worden.
* ...de kwaliteit en samenhang gewaarborgd blijft door irrelevante informatie (zoals spam) uit het archief te filteren. Het archiveren van websites gebeurt door in een bepaalde frequentie 'snapshots' (opnamen) te maken. Het is van groot belang dat goed bijgehouden wordt hoe en wanneer deze opnamen gemaakt zijn. Alleen zo kunnen bijvoorbeeld hyperlinks blijven functioneren.
* ...de gearchiveerde websites ook over langere tijd goed te interpreteren zijn door eindgebruikers. Zo is woordgebruik op het web aan verandering onderhevig; het 'levend' archief kan omgaan met deze dynamiek door o.m. verbindingen te leggen tussen oude en nieuwe terminologie.

Applicatie domeinen

LiWA kan voortbouwen op bestaande 'open source' technologie en doet dat in nauwe samenwerking met de IIPC, de International Internet Preservation Consortium www.netpreserve.org/. Verschillende leden van het LiWA consortium zijn lid van deze koepelorganisatie.

Er wordt binnen LiWA gewerkt aan een geïntegreerd en schaalbaar prototype, waarin resultaten uit de verschillende onderzoekslijnen samengebracht worden. In twee applicaties wordt de technologie uitgerold en geëvalueerd:
* Een applicatie gericht op het archiveren van het 'social web', met een focus op het thema politiek. Hierbij valt te denken aan blogs, nieuws websites, sociale netwerken en forums - afkomstig van politieke partijen, de overheid, journalisten en het grote publiek.
* Een applicatie gericht op het ontwikkelen van technologie voor het archiveren van websites met streaming content, zoals websites van omroepen. Beeld en Geluid is met name geïnteresseerd in dit tweede applicatiedomein. Op websites van omroepen is steeds meer videomateriaal te vinden dat exclusief voor het internet is geproduceerd. Dit vaak bijzonder interessante materiaal wordt op dit moment niet duurzaam en structureel geconserveerd en ontsloten, niet door de omroepen en niet door Beeld en Geluid. Door de techniek die LiWA ontwikkelt is Beeld en Geluid vanaf 2010 in staat complete media-gerelateerde websites, dus inclusief de video content, op te slaan, te beschrijven en te koppelen aan de catalogus van Beeld en Geluid, iMMix. De omroepen en andere belanghebbenden worden nauw betrokken bij LiWA, vanaf het initiële definiëren van gebruikerswensen tot het uittesten en uitrollen van de technologie.

Meer weten

De website van LiWA is te vinden op: http://www.liwa-project.eu/ Contactpersoon namens Beeld en Geluid: Johan Oomen

Totale bijdrage van de Europese Commissie ¤ 2.682.400

Het volledige consortium bestaat uit:
L3S Research Center Hannover, Duitsland (project coordinator) European Archive Foundation, Nederland
Max Planck Institut for Computer Science, Duitsland Computer and Automation Research Institute of the Hungarian Academy of Sciences, Hongarije Nederlands Instituut voor Beeld en Geluid, Nederland Hanzo Archives Limited, Groot-Brittannië
National Library of the Czech Republic, Tsjechie
Moravian Library, Tsjechië