Webbarkivering

Från Sydarkiveras Wiki

Granskad.png

Innehållet på denna sida är granskat och fastställt!
Kontrollera med informationsansvarig innan redigering eller vid frågor.
Ansvarig för sidan: Magnus Heimonen

Definition

Sydarkivera samlar årligen in samtliga kommunmedlemmars externa webbplatser för arkivering, samt andra sidor som anses ha bevarandevärde. Processen sköts av Sydarkivera i dialog med förbundsmedlemmarna.

Kommuners offentliga webbplatser är i de flesta fall kommunens viktigaste kontaktyta mot allmänheten och innehåller ofta intressant kommunikation och information. Allt som kommunen publicerar på sin externa webbplats eller eventuella sociala medier är allmänna handlingar och ska därför arkiveras. Detta görs för att allmänhet och forskare kan ha intresse av att se hur en kommuns externa kommunikation sett ut under olika tidsperioder.

När en organisation blir medlem i Sydarkivera får den en leveransöverenskommelse där organisationen får ange kontaktpersoner med kunskap om extern webb, regler för arkivering av deras webbplatser samt fler webbplatser med bevarandevärde. Från och med 2020-01-01 gäller leveransöverenskommelser för webbarkivering tillsvidare och insamling sker löpande.

Vad har bevarandevärde?

Allt innehåll som kan vara av intresse för forskare, journalister, allmänheten eller den egna verksamheten i framtiden anses ha bevarandevärde.

Inom webbarkivering kan det vara till exempel en blogg, nyhetsflöde eller ett dokumentbibliotek. Om en av verksamheten administrerad webbplats ska tas ned eller genomgå en stor förändring kan det vara lämpligt att samla in och arkivera sidan för att senare kunna återbesöka den.

Webbplatser vars innehåll inte uppdateras regelbundet anses oftast inte vara värda att samla in om sidan inte ska tas ned eller göras om.

Om du är osäker på om webbplatsen din verksamhet administrerar är lämplig för insamling och arkivering kan du kontakta oss så utvärderar vi webbplatsens bevarandevärde tillsammans.

Om tekniken

Insamling av webbplatser görs med hjälp av crawlingverktyg.

Crawlingverktyg samlar in webbplatser genom att likt en mänsklig användare klicka sig runt på en webbplats och samla in informationen som skickas från webbplatsens server. I webbplatsens loggar kan crawlingverktyget se ut som en mycket ”klickflitig” användare som navigerat till i stort sett alla sidor på webbplatsen. En insamling av en normal kommunwebbplats kan ta allt från ett par timmar till tre dygn. Resultatet blir, om allt gått bra, en fullt navigerbar kopia av webbplatsen, precis så som den såg ut vid tidpunkten för insamlingen. I det stora hela påverkas inte användarstatistiken nämnvärt när insamlingar görs. Det är möjligen om statistik för just den aktuella insamlingsdagen tas fram.

Sydarkivera meddelar alltid medlemmar innan insamling påbörjas!

Heritrix

En insamling i Heritrix webbgränssnitt

Heritrix är ett crawlingverktyg med öppen källkod utvecklat av olika bidragare inom Internet Archive, ursprungligen utvecklat av Xavier Roche. Sydarkivera administrerar en egen installation av Heritrix i vårt externa labb. Det drivs i första hand med hjälp av ett webbgränssnitt som tillåter administration och konfiguration av verktyget, planering av insamlingsjobb och minneshantering. Webb insamlad med Heritrix packas i formatet WARC (Web Archive) som är en internationell standard (ISO 28500:2009, standarden ersätts av ISO 28500:2017). I WARC-filen lagras den insamlade webbens innehåll, så som bilder och HTML-filer i separata mappar, packade tillsammans med förklarande information (metadata) som gör filen sökbar.

För att visa webb paketerade i WARC-format krävs speciella renderingsverktyg. Läs mer på rubriken Rendering.

Httrack

Httrack i Windowsversion

Httrack, liksom Heritrix, använder öppen källkod. Till skillnad från Heritrix lagrar Httrack inte det insamlade materialet i en WARC-fil utan lägger allt insamlat material i en mappstruktur. Verktyget skapar sedan en index-fil som användas för att surfa på den insamlade sidan. Webb som samlats in med Httrack kräver inget separat renderingsverktyg för att visas utan kan visas direkt i en webbläsare.

Insamlingsresultat

Rendering och kontroll

En insamling av Sydarkivera.se sedd genom Open Wayback

För att kunna titta på insamlad webb paketerad i WARC-format krävs renderingsverktyg. Renderingsverktyget packar upp och gör innehållet i en WARC-fil navigerbart.

Sydarkivera använder Open Wayback Machine utvecklat av IIPC. Via Open Wayback Machine är det möjligt att söka fram insamlade sidor, se datum för insamlingar och klicka runt i det insamlade materialet.

Bedömning

I de flesta fall resulterar webbinsamling i en helt eller i stort sett identisk kopia av originalet. Det kan dock hända, av olika anledningar, att insamlingen resulterar i en kopia som ser ut, eller fungerar på ett otillfredsställande sätt. Sydarkivera tillämpar dubbel bevarandestrategi genom att använda två crawlingverktyg. Detta innebär att två insamlingar görs av samma webbplats på olika tidpunkter med olika verktyg, vilket kan säkra upp att åtminstone en insamling blir korrekt.

Resultatet bedöms efter en framtagen bedömningsrutin. Varje insamlad webb får ett betyg i form av ett nummer från 1 - 5 där 5 beskriver en helt eller i stort sett identisk kopia och 1 beskriver en misslyckad insamling där mycket få delar av kopian liknar originalet. För att få ett betyg krävs det att det inte skett någon innehållsförlust i form av text och länkar. I det fall en sida inte alls kunnat samlats in, det finns märkbar informationsförlust eller en insamling fått resultatet 1 eller 2 meddelas medlem som ansvarar för sidan.

Varför misslyckas en insamling?

Det finns många faktorer som kan påverka insamlingsresultatet. Det vanligaste är att insamlingsverktygen blockeras av webbplatsens robots.txt-fil. I robots.txt definieras de regler som crawling- och indexeringsverktyg ska följa när de navigerar en webbplats. Om regler som blockerar hela eller delar av sidan definierats i robots.txt så kommer de flesta verktyg att följa reglerna och undvika de definierade sidorna. Om reglerna blockerar webbinnehåll så som bilder, filmer och dokument så kommer dessa inte att samlas in och därför också inte visas när den insamlade webben renderas.

En annan faktor som kan leda till problem är vissa JavaScript. Under 2019 stötte Sydarkivera på ett problem där vissa webbinsamlingar inte kunde renderas alls trots att allt innehåll samlats in och fanns på plats. Orsaken var ett JavaScript vars uppgift var att omdirigera HTTP till HTTPS. Scriptet hade lagts till på webbplatserna via ett plugin för publiceringsverktyget Wordpress. Efter att ansvariga för webbplatserna deaktiverat funktionen som lade till skriptet fungerade insamlingarna mycket väl, utan påverkan på webbplatsernas drift.

Dynamiska länkar och länkar till innehåll utanför en webbplats domän kan ofta göra att innehållet inte samlas in. Detta gör att insamlad webb saknar stilscheman, skript och bilder som är nödvändiga för sidans funktion och utseende.

Lagring

Samtlig insamlad webb som godkänts paketeras för slutförvaring i vårt digitala bevarandesystem. Sydarkivera paketerar leveransen med eget paketeringsverktyg med stöd för beslutad version av FGS paketstruktur. Katalogstruktur i informationspaketet, namngivning av metadata-filer som sparas i XML-format, inmatning av metadata enligt regelverk och paketering (TAR-format) hanteras i enlighet med Sydarkiveras dokumenterade rutiner.

Handboken

Verksamhetsområden

Arkivorganisation

Arkivleveranser

Arkivredovisning

Arkivinspektion / Tillsyn

Dataskydd

Digitisering och digitalisering

Hålla ordning

Hantera och förvara

Hemliga handlingar

Insyn och åtkomst

Systemförvaltning

Verktyg och mjukvara

External testbed / Extern testbädd

VerkSAM Arkivredovisning