Webbarkivering

Från Sydarkiveras Wiki

Definition

Sydarkivera samlar årligen in samtliga kommunmedlemmars externa webbplatser för arkivering, samt andra sidor som anses ha bevarandevärde. Processen sköts av Sydarkivera i dialog med förbundsmedlemmarna.

Kommuners offentliga webbplatser är i de flesta fall kommunens viktigaste kontaktyta mot allmänheten och innehåller ofta intressant kommunikation och information. Allt som kommunen publicerar på sin externa webbplats eller eventuella sociala medier är allmänna handlingar och ska därför arkiveras. Detta görs för att allmänhet och forskare kan ha intresse av att se hur en kommuns externa kommunikation sett ut under olika tidsperioder.

Om tekniken

Verktygen

Insamling av webbplatser görs med hjälp av crawlingteknik. Sydarkivera använder väl beprövade verktyg för detta ändamål, bland andra Heritrix, utvecklat av Internet Archive och Httrack, ursprungligen utvecklat av Xavier Roche.

Crawlingverktyg samlar in webbplatser genom att likt en mänsklig användare klicka sig runt på en webbplats och samla in informationen som skickas från webbplatsens server. I webbplatsens loggar kan crawlingverktyget se ut som en mycket ”klickflitig” användare som navigerat till i stort sett alla sidor på webbplatsen. En insamling av en normal kommunwebbplats kan ta allt från ett par timmar till tre dygn. Resultatet blir, om allt gått bra, en fullt navigerbar kopia av webbplatsen, precis så som den såg ut vid tidpunkten för insamlingen. I det stora hela påverkas inte användarstatistiken nämnvärt när insamlingar görs. Det är möjligen om statistik för just den aktuella insamlingsdagen tas fram.

Sydarkivera meddelar alltid medlemmar innan insamling påbörjas!

Lagringen

Samtlig insamlad webb som godkänts paketeras för slutförvaring i vårt digitala bevarandesystem. Sydarkivera paketerar leveransen med eget paketeringsverktyg med stöd för beslutad version av FGS paketstruktur. Katalogstruktur i informationspaketet, namngivning av metadata-filer som sparas i XML-format, inmatning av metadata enligt regelverk och paketering (TAR-format) hanteras i enlighet med Sydarkiveras dokumenterade rutiner.

Heritrix

Det insamlade materialet packas i formatet WARC (internationell standard ISO 28500:2009, standarden ersätts av ISO 28500:2017) tillsammans med förklarande information (metadata). För att kunna titta på innehållet används olika renderingsverktyg. Sydarkivera använder Open Wayback Machine som Internet Archive också står bakom. Via Open Wayback Machine är det möjligt att söka fram insamlade sidor, se datum för insamlingar och klicka runt i det insamlade materialet.

Httrack

Httrack lagrar inte det insamlade materialet i en WARC-fil utan lägger allt insamlat material i separata mappar. Verktyget skapar sedan en index-fil som kan användas för att surfa på den insamlade sidan. Webb som samlats in med Httrack kräver inget separat renderingsverktyg för att visas utan kan visas direkt i en webbläsare.

Insamlingsresultat

I de flesta fall resulterar webbinsamling i en helt eller i stort sett identisk kopia av originalet. Det kan dock hända, av olika anledningar, att insamlingen resulterar i en kopia som ser ut, eller fungerar på ett otillfredsställande sätt. Sydarkivera tillämpar dubbel bevarandestrategi genom att använda två crawlingverktyg. Detta innebär att två insamlingar görs av samma webbplats på olika tidpunkter med olika verktyg, vilket kan säkra upp att åtminstone en insamling blir korrekt.

Resultatet bedöms efter en framtagen bedömningsrutin. Varje insamlad webb får ett betyg i form av ett nummer från 1 - 5 där 5 beskriver en helt eller i stort sett identisk kopia och 1 beskriver en misslyckad insamling där mycket få delar av kopian liknar originalet. För att få ett betyg krävs det att det inte skett någon innehållsförlust i form av text och länkar. I det fall en sida inte alls kunnat samlats in, det finns märkbar informationsförlust eller en insamling fått resultatet 1 eller 2 meddelas medlem som ansvarar för sidan.