Big Data, si apre un’enorme opportunità per la statistica ufficiale

Home Open Government Open Data Big Data, si apre un’enorme opportunità per la statistica ufficiale

Un’analisi di tre esperti dell’Istat per Forumpa.it. Volume, varietà e velocità dei dati, che hanno rappresentato le prime caratteristiche specifiche e comuni dei Big Data, mantengono anche in ambito statistico peculiarità tali da condizionarne l’uso, cambiando il concetto stesso di archivio e base informativa, non più rappresentati solamente da data base rigidamente strutturati ma aperti a nuovi formati

28 Gennaio 2016

S

Stefano De Francisci, Giulio Barcaroli, Paolo Righi e Monica Scannapieco, Istat

La statistica ufficiale ha già da alcuni anni puntato al rinnovamento delle proprie fonti dati, considerando in particolare l’opportunità di utilizzare anche i Big Data come possibili fonti in combinazione, alternativa o ausilio ai dati tradizionali.

Le statistiche ufficiali rivestono da sempre un ruolo fondamentale nella società e il loro apporto alla conoscenza del complesso contesto del mondo attuale risulta sempre più centrale. Le organizzazioni statistiche mirano a fornire informazioni su tutti gli aspetti importanti della società agendo secondo standard scientifici sempre più elevati e condivisi a livello internazionale. Come indicato nell’art. 338 del Trattato sul funzionamento dell’Unione europea (Carta dei diritti fondamentali) la statistica ufficiale è caratterizzata da specifici fattori di qualità quali imparzialità, affidabilità, obiettività, indipendenza scientifica, efficienza economica e riservatezza statistica e non comporta oneri eccessivi per gli operatori economici. Se, come avvenuto in altri contesti (dai contesti aziendali alla ricerca scientifica), la disponibilità di strumenti per il trattamento di grandi moli di dati offre significative opportunità anche in ambito statistico, proponendo nuovi modi di raccolta, elaborazione e utilizzo di informazione, occorre porre molta attenzione all’impatto che le specifiche caratteristiche delle nuove fonti possono avere sulla statistica ufficiale. E’ infatti evidente che trattare dati di grandi dimensioni e soprattutto di estrema varietà di formato e di velocità di generazione obbliga ad una attenta valutazione del quadro metodologico, organizzativo e tecnologico all’interno del quale si muove tradizionalmente la statistica ufficiale.

In particolare, la domanda che si sono poste le organizzazioni statistiche nazionali/ufficiali è stata in che modo le fonti di Big Data possono essere efficacemente sfruttate “statisticamente”, con l’obiettivo di

  • di produrre ulteriori informazioni ,
  • aumentare la qualità delle fonti già disponibili
  • favorire la riduzione del carico sui rispondenti e dei costi correlati alla raccolta dei dati, accogliendo in questo specifiche raccomandazioni di organizzazioni internazionali (quali Eurostat e Nazioni Unite).

L’esigenza di disporre di dati sempre più abbondanti e di qualità superiore, se da una parte si sta quindi rivelando determinante per soddisfare esigenze di conoscenza dei fenomeni sociali ed economici di una società sempre più complessa e per rendere sostenibile il costo delle indagini – soggette a forti limitazioni dalle pressioni di bilancio e dai costi associati agli oneri di risposta – dall’altra comporta la non facile risoluzione di questioni oltre che sul fronte tecnico, anche su quello metodologico ed organizzativo.

Considerando una generica popolazione statistica (quale ad esempio famiglie e/o singoli individui, imprese e/o istituzioni, etc.), il quadro generale per la produzione di informazioni statistiche si presenta sempre più spesso caratterizzato dalla coesistenza di fonti diverse di dati, originate dalla popolazione target (o ad essa correlate):

  • dati statistici raccolti mediante indagini tradizionali : dati raccolti in diretto contatto con le unità selezionate nella popolazione e trattati al fine di produrre stime;
  • dati amministrativi : dati frutto di procedure amministrative (sicurezza sociale, sanità, istruzione, carte d’identità, dati contabili interni, etc.);
  • Big Data : dati originati dall’uso di dispositivi digitali, nel senso più ampio del termine.

Mentre sui primi due tipi le metodologie e i processi sono da tempo consolidati e standardizzati a livello internazionale, l’introduzione dei Big Data nella statistica ufficiale ha implicato la definizione e risoluzione di tre principali problematiche: (a) classificare e sistematizzare le fonti Big, (b) valutare come le caratteristiche specifiche dei Big Data (tipicamente volume, varietà e velocità) hanno impatto e possono essere trattate in ambito statistico, (c) distribuire lungo il ciclo di vita dei dati statistici (raccolta, validazione, analisi e utilizzo) il loro trattamento.

Classificazione delle fonti di Big Data

A partire dalle prime visioni dei Big Data, eterogenee e indipendenti l’una dall’altra, in base alle quali si parlava – ad esempio – di dati in motion , in use o at rest, (rispetto allo “stato”), di Data exhaust, Behaviour data & Crowd-sourced data o Sensor data (rispetto al tipo di fonte), e ancora traditional, in streaming o Internet-scale data sets (rispetto alla catena di produzione), grazie alle attività delle organizzazioni statistiche internazionali e di UNECE in particolare, si è pervenuti ad una classificazione che integra i vari aspetti sopra menzionati, suggerendo la seguente tassonomia:

  1. Human-generated data (ad es.: dati da Social Media, Blog, SMS, e-mail, User generated contents e maps, ecc.);
  2. Process-mediated data (quali Sistemi transazionali, commerciali e bancari tradizionali, e-commerce, carte di credito, dati prodotti da Enti Pubblici e/o privati;
  3. Machine-generated data (tipicamente ciò che va sotto il nome di Internet of Things , come sensori fissi (home-automation, sensori ambientali/meteorologici, sistemi per il controllo del traffico, ecc.) e mobili (dispositivi mobili, sensori su automezzi, immagini satellitari).

Assunta questa classificazione generale, è possibile specificare meglio il ruolo, il tipo di raccolta, le tecnologie a supporto e gli aspetti metodologici e di qualità connessi alle varie tipologie.

Caratterizzazione dei Big Data in ambito statistico (con riferimento ad aspetti di qualità) Volume, varietà e velocità dei dati, che hanno rappresentato le prime caratteristiche specifiche e comuni dei Big Data, mantengono anche in ambito statistico peculiarità tali da condizionarne l’uso, cambiando il concetto stesso di archivio e base informativa, non più rappresentati solamente da data base rigidamente strutturati ma aperti a nuovi formati, tipicamente non relazionali (database in memory, no-sql, tabulari, ecc.) e possibilmente da trattare con nuovi approcci (Map&Reduce, text-mining, extreme-scale visual analytics, ecc.).

In questo contesto, anche il tema della qualità dei dati assume una specifica caratterizzazione.

Per i Big data è sensato parlare, data la vastità del concetto, di qualità “specifica per le fonti”. In particolare, una fonte Big come i sensori avrà una qualità specifica che dipende dal fatto che i dati da sensori sono spesso mancanti, soggetti a rumore o ad effetti di calibrazione degli strumenti di misura. I dati da social media sono invece scarsamente strutturati e spesso non accompagnati da metadati che ne consentano una corretta interpretazione.

In aggiunta alla specificità di fonte, c’è anche una caratterizzazione della qualità delle fonti Big “per dominio”. Se il dominio di interesse è quello della statistica ufficiale, alcune dimensioni di qualità particolarmente rilevanti sono la “rappresentatività” di una fonte, fondamentale per poter produrre stime affidabili, l’accuratezza in termini di qualità intrinseca dei valori acquisiti e l’affidabilità della fonte.

Big Data e processi di produzione statistica

Con riferimento ai processi di produzione statistica, analogamente a quanto accaduto nel caso dei dati da indagini tradizionali e da canali amministrativi, anche i Big Data possono essere sfruttati in vario modo. Anche se l’obiettivo finale di produrre informazioni statistiche affidabili rimane invariato, è possibile individuare diversi scenari a seconda del grado e delle modalità di utilizzo dei Big Data nel processo produttivo statistico:

  1. uso di dispositivi digitali (in particolare di quelli connessi a Internet) come mezzi per la raccolta dei dati: il quadro statistico generale rimane invariato (questo scenario può essere definito come Internet come fonte dei dati, IAD);
  2. uso di Big Data in combinazione ad altri dati statistici oppure come informazioni integrative che possono essere utilizzate al fine di migliorare la qualità dei dati statistici (ad esempio in fase di modifica e imputazione) o per migliorare l’affidabilità delle stime. I dati del censimento o da indagini amministrative possono essere utilizzati insieme con dati provenienti da indagini campionarie (ad esempio in stimatori compositi per piccole aree …);
  3. uso di Big Data in alternativa all’uso dei dati statistici: quando si verificano determinate condizioni, al fine di ridurre i costi e l’onere di risposta, è possibile sostituire completamente il processo classico di produzione basato su indagini statistiche e di adottare processi radicalmente diversi basato sull’uso integrante Big Data.

Conclusioni

Sebbene si stia lavorando su quali utilizzi specifici di fonti Big siano possibili, nel rispetto degli standard di qualità della statistica ufficiale, senz’altro le fonti Big rappresentano un patrimonio da cui la statistica ufficiale può e deve attingere. I Big Data rappresentano difatti un’enorme opportunità per la statistica ufficiale, non solo in termini di abbattimento di costi ma anche e soprattutto di arricchimento della produzione statistica e di aumento della tempestività dei prodotti statistici.

Su questo argomento

Data tracing: la parola che stiamo cercando è precauzione