Webbarkivering

Från Sydarkiveras Wiki

Definition

Sydarkivera samlar årligen in samtliga kommunmedlemmars externa webbplatser för arkivering, samt andra sidor som anses ha bevarandevärde. Processen sköts av Sydarkivera i dialog med förbundsmedlemmarna.

Kommuners offentliga webbplatser är i de flesta fall kommunens viktigaste kontaktyta mot allmänheten och innehåller ofta intressant kommunikation och information. Allt som kommunen publicerar på sin externa webbplats eller eventuella sociala medier är allmänna handlingar och ska därför arkiveras. Detta görs för att allmänhet och forskare kan ha intresse av att se hur en kommuns externa kommunikation sett ut under olika tidsperioder.

När en organisation blir medlem i Sydarkivera får den en leveransöverenskommelse där organisationen får ange kontaktpersoner med kunskap om extern webb, regler för arkivering av deras webbplatser samt fler webbplatser med bevarandevärde. Från och med 2020-01-01 gäller leveransöverenskommelser för webbarkivering tillsvidare och insamling sker löpande.

Om tekniken

Insamling av webbplatser görs med hjälp av crawlingverktyg.

Crawlingverktyg samlar in webbplatser genom att likt en mänsklig användare klicka sig runt på en webbplats och samla in informationen som skickas från webbplatsens server. I webbplatsens loggar kan crawlingverktyget se ut som en mycket ”klickflitig” användare som navigerat till i stort sett alla sidor på webbplatsen. En insamling av en normal kommunwebbplats kan ta allt från ett par timmar till tre dygn. Resultatet blir, om allt gått bra, en fullt navigerbar kopia av webbplatsen, precis så som den såg ut vid tidpunkten för insamlingen. I det stora hela påverkas inte användarstatistiken nämnvärt när insamlingar görs. Det är möjligen om statistik för just den aktuella insamlingsdagen tas fram.

Sydarkivera meddelar alltid medlemmar innan insamling påbörjas!

Heritrix

Heritrix är ett crawlingverktyg med öppen källkod utvecklat av olika bidragare inom Internet Archive, ursprungligen utvecklat av Xavier Roche. Sydarkivera administrerar en egen installation av Heritrix i vårt externa labb. Det drivs i första hand med hjälp av ett webbgränssnitt som tillåter administration och konfiguration av verktyget, planering av insamlingsjobb och minneshantering. Webb insamlad med Heritrix packas i formatet WARC (Web Archive) som är en internationell standard (ISO 28500:2009, standarden ersätts av ISO 28500:2017). I WARC-filen lagras den insamlade webbens innehåll, så som bilder och HTML-filer i separata mappar, packade tillsammans med förklarande information (metadata) som gör filen sökbar.

För att visa webb paketerade i WARC-format krävs speciella renderingsverktyg. Läs mer på rubriken Rendering.

Httrack

Httrack, liksom Heritrix, använder öppen källkod. Till skillnad från Heritrix lagrar Httrack inte det insamlade materialet i en WARC-fil utan lägger allt insamlat material i en mappstruktur. Verktyget skapar sedan en index-fil som användas för att surfa på den insamlade sidan. Webb som samlats in med Httrack kräver inget separat renderingsverktyg för att visas utan kan visas direkt i en webbläsare.

Insamlingsresultat

Rendering

För att kunna titta på insamlad webb paketerad i WARC-format krävs renderingsverktyg.

Sydarkivera använder Open Wayback Machine utvecklat av IIPC. Via Open Wayback Machine är det möjligt att söka fram insamlade sidor, se datum för insamlingar och klicka runt i det insamlade materialet.

Bedömning

I de flesta fall resulterar webbinsamling i en helt eller i stort sett identisk kopia av originalet. Det kan dock hända, av olika anledningar, att insamlingen resulterar i en kopia som ser ut, eller fungerar på ett otillfredsställande sätt. Sydarkivera tillämpar dubbel bevarandestrategi genom att använda två crawlingverktyg. Detta innebär att två insamlingar görs av samma webbplats på olika tidpunkter med olika verktyg, vilket kan säkra upp att åtminstone en insamling blir korrekt.

Resultatet bedöms efter en framtagen bedömningsrutin. Varje insamlad webb får ett betyg i form av ett nummer från 1 - 5 där 5 beskriver en helt eller i stort sett identisk kopia och 1 beskriver en misslyckad insamling där mycket få delar av kopian liknar originalet. För att få ett betyg krävs det att det inte skett någon innehållsförlust i form av text och länkar. I det fall en sida inte alls kunnat samlats in, det finns märkbar informationsförlust eller en insamling fått resultatet 1 eller 2 meddelas medlem som ansvarar för sidan.

Lagring

Samtlig insamlad webb som godkänts paketeras för slutförvaring i vårt digitala bevarandesystem. Sydarkivera paketerar leveransen med eget paketeringsverktyg med stöd för beslutad version av FGS paketstruktur. Katalogstruktur i informationspaketet, namngivning av metadata-filer som sparas i XML-format, inmatning av metadata enligt regelverk och paketering (TAR-format) hanteras i enlighet med Sydarkiveras dokumenterade rutiner.