Webbarkivering

Från Sydarkiveras Wiki

Kommunhus.png
Denna sida är anpassad för: Medlemmar
Innehållet på denna sida är anpassat för Sydarkiveras förbundsmedlemmar.
Anpassning till den egna verksamheten kan behövas.


Sydarkivera samlar in samtliga kommunmedlemmars externa webbplatser för arkivering, samt andra sidor som anses ha bevarandevärde. Processen sköts av Sydarkivera i dialog med förbundsmedlemmarna.

Kommuners offentliga webbplatser är i de flesta fall kommunens viktigaste kontaktyta mot allmänheten och innehåller ofta intressant kommunikation och information. Allt som kommunen publicerar på sin externa webbplats eller eventuella sociala medier är allmänna handlingar och ska därför arkiveras. Detta görs för att allmänhet och forskare kan ha intresse av att se hur en kommuns externa kommunikation sett ut under olika tidsperioder.

När en organisation blir medlem i Sydarkivera får den en leveransöverenskommelse där organisationen får ange kontaktpersoner med kunskap om extern webb, regler för arkivering av deras webbplatser samt fler webbplatser med bevarandevärde. Från och med 2020-01-01 gäller leveransöverenskommelser för webbarkivering tillsvidare och insamling sker löpande.


Vad har bevarandevärde?

Allt innehåll som kan vara av intresse för forskare, journalister, allmänheten eller den egna verksamheten i framtiden anses ha bevarandevärde.

Inom webbarkivering kan det vara till exempel en blogg, nyhetsflöde eller ett dokumentbibliotek. Om en av verksamheten administrerad webbplats ska tas ned eller genomgå en stor förändring kan det vara lämpligt att samla in och arkivera sidan för att senare kunna återbesöka den.

Webbplatser vars innehåll inte uppdateras regelbundet anses oftast inte vara värda att samla in om sidan inte ska tas ned eller göras om.

Om du är osäker på om webbplatsen din verksamhet administrerar är lämplig för insamling och arkivering kan du kontakta oss så utvärderar vi webbplatsens bevarandevärde tillsammans.

Om tekniken

Insamling av webbplatser görs med hjälp av crawlingverktyg.

Crawlingverktyg samlar in webbplatser genom att likt en mänsklig användare klicka sig runt på en webbplats och samla in informationen som skickas från webbplatsens server. I webbplatsens loggar kan crawlingverktyget se ut som en mycket ”klickflitig” användare som navigerat till i stort sett alla sidor på webbplatsen. En insamling av en normal kommunwebbplats kan ta allt från ett par timmar till tre dygn. Resultatet blir, om allt gått bra, en fullt navigerbar kopia av webbplatsen, precis så som den såg ut vid tidpunkten för insamlingen. I det stora hela påverkas inte användarstatistiken nämnvärt när insamlingar görs. Det är möjligen om statistik för just den aktuella insamlingsdagen tas fram.

Heritrix

En insamling i Heritrix webbgränssnitt

Heritrix är ett crawlingverktyg med öppen källkod utvecklat av olika bidragare inom Internet Archive, ursprungligen utvecklat av Xavier Roche. Sydarkivera administrerar en egen installation av Heritrix i vårt externa labb. Det drivs i första hand med hjälp av ett webbgränssnitt som tillåter administration och konfiguration av verktyget, planering av insamlingsjobb och minneshantering. Webb insamlad med Heritrix packas i formatet WARC (Web Archive) som är en internationell standard (ISO 28500:2009, standarden ersätts av ISO 28500:2017). I WARC-filen lagras den insamlade webbens innehåll, så som bilder och HTML-filer i separata mappar, packade tillsammans med förklarande information (metadata) som gör filen sökbar.

För att visa webb paketerade i WARC-format krävs speciella renderingsverktyg. Läs mer på rubriken Rendering.

Httrack

Httrack i Windowsversion

Httrack, liksom Heritrix, använder öppen källkod. Till skillnad från Heritrix lagrar Httrack inte det insamlade materialet i en WARC-fil utan lägger allt insamlat material i en mappstruktur. Verktyget skapar sedan en index-fil som användas för att surfa på den insamlade sidan. Webb som samlats in med Httrack kräver inget separat renderingsverktyg för att visas utan kan visas direkt i en webbläsare.

Automatisk insamling

Från och med 2020 samlas utförs en stor del av insamlingsarbetet automatiskt med hjälp av ett av Sydarkivera utvecklat skript med namn AutoHeritrix. Skriptet publiceras öppet på Sydarkiveras Github.

AutoHeritrix använder sig av Heritrix REST-API för att med hjälp av en lista med webbplatser som ska samlas in automatiskt genomföra ett års, ett kvartals eller en månads insamlingar utan vidare handläggning. Varje batch använder sig av en konfigurationsmall som skiljer beroende på insamlingsomfattning. Publicering av det insamlade materialet till Sydarkiveras portal automatiseras under 2021.

Insamlingsresultat

Rendering och kontroll

En insamling av Sydarkivera.se sedd genom Open Wayback

För att kunna titta på insamlad webb paketerad i WARC-format krävs renderingsverktyg. Renderingsverktyget packar upp och gör innehållet i en WARC-fil navigerbart.

Sydarkivera använder Open Wayback Machine utvecklat av IIPC. Via Open Wayback Machine är det möjligt att söka fram insamlade sidor, se datum för insamlingar och klicka runt i det insamlade materialet.

Bedömning

I de flesta fall resulterar webbinsamling i en helt eller i stort sett identisk kopia av originalet. Det kan dock hända, av olika anledningar, att insamlingen resulterar i en kopia som ser ut, eller fungerar på ett otillfredsställande sätt. Sydarkivera tillämpar dubbel bevarandestrategi genom att använda två crawlingverktyg. Detta innebär att två insamlingar görs av samma webbplats på olika tidpunkter med olika verktyg, vilket kan säkra upp att åtminstone en insamling blir korrekt.

Resultatet bedöms efter en framtagen bedömningsrutin. Varje insamlad webb får ett betyg i form av ett nummer från 1 - 5 där 5 beskriver en helt eller i stort sett identisk kopia och 1 beskriver en misslyckad insamling där mycket få delar av kopian liknar originalet. För att få ett betyg krävs det att det inte skett någon innehållsförlust i form av text och länkar. I det fall en sida inte alls kunnat samlats in, det finns märkbar informationsförlust eller en insamling fått resultatet 1 eller 2 meddelas medlem som ansvarar för sidan.

Varför misslyckas en insamling?

Det finns många faktorer som kan påverka insamlingsresultatet. Det vanligaste är att insamlingsverktygen blockeras av webbplatsens robots.txt-fil. I robots.txt definieras de regler som crawling- och indexeringsverktyg ska följa när de navigerar en webbplats. Om regler som blockerar hela eller delar av sidan definierats i robots.txt så kommer de flesta verktyg att följa reglerna och undvika de definierade sidorna. Om reglerna blockerar webbinnehåll så som bilder, filmer och dokument så kommer dessa inte att samlas in och därför också inte visas när den insamlade webben renderas.

En annan faktor som kan leda till problem är vissa JavaScript. Under 2019 stötte Sydarkivera på ett problem där vissa webbinsamlingar inte kunde renderas alls trots att allt innehåll samlats in och fanns på plats. Orsaken var ett JavaScript vars uppgift var att omdirigera HTTP till HTTPS. Scriptet hade lagts till på webbplatserna via ett plugin för publiceringsverktyget Wordpress. Efter att ansvariga för webbplatserna deaktiverat funktionen som lade till skriptet fungerade insamlingarna mycket väl, utan påverkan på webbplatsernas drift.

Dynamiska länkar och länkar till innehåll utanför en webbplats domän kan ofta göra att innehållet inte samlas in. Detta gör att insamlad webb saknar stilscheman, skript och bilder som är nödvändiga för sidans funktion och utseende.

Lagring

Samtlig insamlad webb som godkänts paketeras för slutförvaring i vårt digitala bevarandesystem. Sydarkivera paketerar leveransen med eget paketeringsverktyg med stöd för beslutad version av FGS paketstruktur. Katalogstruktur i informationspaketet, namngivning av metadata-filer som sparas i XML-format, inmatning av metadata enligt regelverk och paketering (TAR-format) hanteras i enlighet med Sydarkiveras dokumenterade rutiner.


Granskad.png

Innehållet på denna sida är granskat och fastställt!
Kontrollera med informationsansvarig innan redigering eller vid frågor.
Ansvarig för sidan: Magnus Heimonen

▼ HANDBOKEN ▲

Verksamhetsområden

Arkivleveranser

Arkivredovisning

Arkivtillsyn

Dataskydd

Digitalisering - digitalt arbetssätt

Hantera, lagra och förvara

Hemliga handlingar

Informationshantering

Insyn och åtkomst

Organisation och roller

Praktiskt arbete i arkivet

Standarder

Systemförvaltning

Särskilda informationstyper

Guider till Sydarkiveras verktyg

External testbed / Extern testbädd

VerkSAM Arkivredovisning