di 

Data management

Open data, ecco gli standard e le buone pratiche che generano valore

Tra le priorità evidenziate dal recente sondaggio di Cantieri PA Digitale sullo stato degli Open Data in Italia, alcune riguardano i requisiti che gli Open Data dovrebbero possedere per essere facilmente riusati e generare valore: la qualità e la standardizzazione

Tra le priorità evidenziate dal recente sondaggio di Cantieri PA Digitale sullo stato degli Open Data in Italia, alcune riguardano i requisiti che gli Open Data dovrebbero possedere al fine di essere facilmente riusati e generare valore: la qualità e la standardizzazione.

I nostri precedenti interventi su Cantieri PA Digitale hanno riguardato il primo aspetto: abbiamo scritto sulla centralità dell’utente nel processo di misurazione della qualità e abbiamo fornito esempi di problematiche connesse presentando il caso dei contratti pubblici delle Università italiane .

In questo nuovo post ci concentriamo sul secondo aspetto, l’aderenza a standard su aspetti della pubblicazione degli Open Data, quali ad esempio il formato, i metadati, la semantica. Offriamo una breve panoramica su alcuni standard e best practice che riteniamo importanti, e che sebbene non sia esaustiva, può servire come primo passo nella stesura della parte tecnica sugli Open Data della roadmap per la PA digitale che questa iniziativa di FPA si propone di realizzare.

I primi elementi che portiamo all’attenzione del lettore sono le raccomandazioni del W3C – il consorzio internazionale che si propone di sviluppare al meglio le potenzialità del World Wide Web- sulla pubblicazione degli Open Government Data, insieme alla guida sulle “Technical options” della World Bank. Entrambe le raccomandazioni riguardano i requisiti tecnici necessari per una efficiente e moderna architettura di data centers dedicati agli Open Government Data.

I due standard enfatizzano in particolar modo 1) che i dataset pubblici siano pubblicati in una forma la più possibile vicina a quella originaria (ovvero ai dati grezzi), 2) che ogni dataset sia associato a metadati ben documentati e 3) che i dati siano esposti in una serie di formati leggibili sia dall’uomo che dagli elaboratori.

Riguardo ai formati, ribadiamo qui la condizione necessaria –ma non sufficiente ai fini della qualità- di fare riferimento alla scala 5-Star Linked Data, in cui il livello più basso (una stella) corrisponde a un dataset reso disponibile in un qualsiasi formato –anche proprietario- e quello più alto corrisponde a dati rilasciati con un formato aperto definito dal W3C e collegato ad altri dataset tramite l’uso di URI.

Riguardo ai metadati, sono senz’altro da tenere in considerazione due recenti raccomandazioni del W3C sul modello di dati e metadati tabulari e il vocabolario dei metadati di dati pubblicati sul web, importanti per due ragioni: sia perché i dati in forma tabulare rappresentano la maggioranza dei dati aperti (ad esempio il .csv è il formato più frequente su http://www.dati.gov.it/ con quasi 6500 dataset, più del doppio di .json che segue), sia perché i metadati sono fondamentali per la corretta interpretazione dei dati.

Il modello dei dati tabulari offre indicazioni per gruppi di tabelle, colonne, righe e singole celle, ed altre informazioni utili riguardanti il tipo di dato e il valore delle celle. Il modello dei metadati invece definisce anche dove posizionarli, come esprimerli (ovvero formato JSON-LD) e fornisce un vocabolario di riferimento.

Tali informazioni sono fondamentali per automatizzare le operazioni di conversione, validazione e visualizzazione dei dati.

Sempre in tema di metadati, è degno di nota il Dublin Core Metadata Element Set, un vocabolario di 15 proprietà fondamentali (esempio: data, creatore, descrizione, linguaggio, editore, ecc…) che dovrebbero essere presenti nei metadati a supporto degli Open Data. Lo schema “Dublin Core” è richiamato da numerosi altri standard internazionali.

Infine, concludiamo questa panoramica facendo riferimento agli standard ISO e ISO/IEC. Menzioniamo lo standard ISO17369:2013 (SDMX- Statistical Data and Metadata Exchange), che definisce una toolkit integrata che permette alle organizzazioni di riportare, disseminare e scambiare con facilità dati e metadati, e quelli sulla qualità dei dati ISO/IEC 25012:2008 (modello) e ISO/IEC 25024:2015 (misurazione), che non a caso avevamo già presentato nei nostri due precedenti interventi sulla qualità degli Open Data: il riferimento a standard e best practice è infatti uno dei fattori abilitanti la qualità dei dati, con ricadute positive sulla facilità di riuso, la possibilità di creare valore e offrire trasparenza.