Perché dovremmo pensare al web archiving

Home PA Digitale Gestione Documentale Perché dovremmo pensare al web archiving

La maggior parte degli archivi e delle biblioteche nazionali europee ha intrapreso progetti di web archiving, ovvero la conservazione dei siti web. In Italia siamo ancora molto indietro. In questo articolo alcune riflessioni su come orientare l’iniziativa nazionale, garantendo l’attendibilità delle informazioni e l’autorevolezza delle fonti

20 Marzo 2019

Cantieri PA

Gli articoli a firma della community di FPA impegnata nei processi di innovazione digitale della PA

Costantino Landino

Istituto Centrale per gli Archivi – ICAR

Lina Marzotti

Archivista

Photo by Max Langelott on Unsplash

Indice degli argomenti

0.1 Conservazione digitale del web
0.2 Web Archiving
0.3 Content Management System e web archiving
0.4 Aggiornamento continuo dei processi di web archiving
0.5 Iniziative internazionali
0.6 Conclusioni

L’11 marzo è stato presentato il Piano triennale per l’informatica nella Pubblica Amministrazione dove è descritta la strategia condivisa di trasformazione digitale del Paese. Leggendo le parti dedicate alla conservazione digitale, emerge la mancanza della previsione di una strategia di web archiving a livello nazionale

Fin dalla fine degli anni ‘90 del secolo scorso, si è posto il problema della conservazione dei siti web. Per recuperare parte dei contenuti di siti web databili a partire dal 1996, possiamo contare sul lavoro svolto da Internet Archive; mentre su timetravel possiamo recuperare contenuti web on line dal 2003.

Conservazione digitale del web

In Italia già da tempo è stata posta come prioritaria la necessità di curare la conservazione dei siti web, con particolare riferimento a quelli di tipo istituzionale, ma senza negare l’interesse per la conservazione di pagine web di altro tipo (Vitali, 2009).

Sempre più spesso infatti assistiamo alla scomparsa di siti internet o ci scontriamo concretamente con l’impossibilità di continuare a utilizzarli e, di conseguenza, dobbiamo prendere atto della perdita della loro valenza culturale e storica, oltre che delle risorse impiegate per realizzarli e gestirli nel tempo.

Negli ultimi dieci anni una quantità sempre maggiore di contenuti digitali sono stati generati e veicolati attraverso il web con la conseguente necessità di essere archiviati, conservati e tutelati nel tempo in modo affidabile, per consentire che queste risorse possano essere recuperate e riutilizzate in maniera efficace nel futuro.

Oggi la comunicazione politica e sociale si svolge in gran parte sul web: social network, web tv, testate giornalistiche o riviste disponibili su piattaforme in cloud. D’altro canto, il web – tanto quello corrente quanto gli archivi di diversi siti – è diventato fonte di informazione primaria per i media convenzionali come stampa e televisione. Questo ci porta a confrontarci con maggiore urgenza del passato sul problema dell’attendibilità delle informazioni e dell’autorevolezza delle fonti e, di conseguenza, sul problema della conservazione digitale del web.

Web Archiving

Il primo obiettivo di un processo di web archiving è quello di conservare un sito web nel lungo periodo, in modo da restituirlo nel modo più fedele possibile alla sua forma originale, mantenendo informazioni sulla sua struttura, sui diritti d’uso dei contenuti e sui realizzatori.

Nella conservazione digitale si devono trattare documenti e aggregazioni documentali che hanno specificità, caratteristiche, formati propri e relazioni ben consolidate già a partire dalla loro creazione o determinate durante il loro processo di gestione documentale.

Nel caso dei siti web, la complessità è aumentata dal numero enorme di relazioni fra documenti di formati diversi, logicamente correlati fra di loro e fisicamente disponibili anche in sistemi diversi: immagini, documenti, codici sorgenti, fogli di stile, vanno tutti conservati nel loro formato specifico insieme alle relazioni che compongono sia la singola pagina web sia l’intero sito web.

In più il tempo di vita di una singola pagina web può durare poche ore e, di conseguenza, il tempo utile per identificare la pagina modificata, scegliere se acquisirla e poi conservarla è estremamente limitato, così come il tempo utile per stabilire come gestire i diritti sui contenuti e i metadati descrittivi dell’intero sito e delle pagine che lo compongono (Davis, 2016).

Si tratta di problemi che non è più possibile ignorare: di fatto è relativamente semplice recuperare una pellicola del 1924, ma molti siti web del 1994 non sono più disponibili, così come i loro contenuti (Ankerson, 2011).

Content Management System e web archiving

Durante le pioneristiche fasi di popolamento del web non era stato immaginato che i contenuti dei primi siti internet dovessero essere conservati per il futuro. La situazione è divenuta ancora più critica nel tempo grazie a Content Management System (CMS) che favoriscono l’interazione dell’utente, velocizzando i processi di creazione di nuovi contenuti e di aggiornamento delle pagine web.

I CMS, se da un lato hanno agevolato un uso generalizzato del web come strumento di informazione, dall’altro hanno condotto alla proliferazione di sistemi di contenuti digitali più complessi dal punto di vista archivistico e della conservazione digitale.

Siamo di fronte a due scenari: quello di un web statico, costruito utilizzando linguaggi e tecnologie la cui riproducibilità nel tempo è particolarmente persistente (HTML, javascript, etc.) e quello di un web dinamico, costruito con tecnologie in continua evoluzione e più complesse, connesse a database e/o digital library.

Come si può bene immaginare, in entrambi i casi conservare interamente un sito web consistente di centinaia o migliaia di oggetti digitali (bit stream, data object, information object) rappresenta un’impresa complessa, sia dal punto di vista organizzativo che dal punto di vista economico.

Aggiornamento continuo dei processi di web archiving

Il web archiving richiede l’elaborazione continua di nuovi approcci e strumenti che consentano di rimanere allineati all’evoluzione delle tecnologie internet. Diversi sono gli approcci adottati, che vanno dalla cattura di singole pagine web alla cattura di interi domini di primo livello, mentre sul piano operativo è possibile distinguere tra due diverse strategie di web archiving: harvesting (raccolta) di massa e harvesting selettivo.

L’harvesting su larga scala, come la raccolta di domini nazionali, è destinato a catturare un’istantanea di un intero dominio (o di un suo sottoinsieme di domini nazionali). L’harvesting a raccolta differenziata viene invece eseguito su scala molto più piccola, in modo più focalizzato e intrapreso più frequentemente, spesso basando la raccolta su criteri quali temi, eventi, formati (ad es. file audio o video) o accordi con i proprietari di contenuti. Una differenza fondamentale tra le due strategie risiede nel livello di controllo della qualità dei siti raccolti, ossia nella valutazione della qualità dei singoli siti web archiviati in base a standard prefissati.

Iniziative internazionali

Soltanto di recente sta maturando una crescente consapevolezza della necessità di conservare la memoria digitale, ma ormai è difficile tornare indietro e trovare soluzioni per il recupero di quello che è già stato perduto. Ed è proprio sulla base di questa consapevolezza che è necessario guardare avanti: mantenere la memoria dei propri contenuti web e predisporli per una loro conservazione nel lungo periodo è un dovere e una necessità.

La maggior parte degli archivi e delle biblioteche nazionali europee ha intrapreso progetti di web archiving: è quanto succede in Austria, Croazia, Danimarca, Estonia, Finlandia, Francia, Germania, Grecia, Irlanda, Islanda, Lituania, Norvegia, Olanda, Portogallo, Regno Unito, Repubblica Ceca, Repubblica Slovacca, Russia, Serbia, Slovenia, Spagna, Svezia, Svizzera, Ucraina. In alcuni paesi, come l’Olanda e il Regno Unito, sono già state elaborate iniziative di web archiving di seconda generazione.

Nel contesto europeo, l’Italia emerge per la sua assenza. L’unica iniziativa nota a livello nazionale è stata realizzata nel 2006 dalla Biblioteca nazionale centrale di Firenze con una sperimentazione di web archiving del dominio “.it”, elaborata sulla scia del principio del deposito legale previsto dal DPR 252/2006, considerando, dunque, i siti web nazionali alla stregua di pubblicazioni bibliografiche o periodiche.

Conclusioni

È trascorso oltre un decennio; oggi è auspicabile che sia intrapresa una iniziativa nazionale di web archiving. Anche nel nostro Paese ci sono, se pur ridotte numericamente, le competenze tecniche necessarie per poter immaginare qualcosa di simile: un progetto sostenibile nel tempo e che permetta di conservare la nostra memoria del web per le future generazioni.

Gestione Documentale

Web archiving, “sfida culturale”: il servizio della Biblioteca Nazionale Centrale di Firenze

Riceviamo e con piacere pubblichiamo la risposta di Chiara Storti, della Biblioteca Nazionale di Firenze, all'articolo di Landino e Marzotti…

di Chiara Storti

12 Giugno 2019

ICity Club

IA, competenze trasversali, aggiornamenti normativ: le Academy di FORUM PA 2026

Un punto di osservazione sui partner di FPA

FORUM PA 2026