di 

La rivoluzione dei dati secondo Emanuele Baldacci (Eurostat)

Con la diffusione delle tecnologie digitali le fonti si moltiplicano, la mole di dati (i big data) a disposizione anche, metterli insieme e trarne informazione utile richiede nuovi strumenti e nuove competenze. In questo contesto anche l’analisi statistica ufficiale non è più la stessa. Ne abbiamo parlato con Emanuele Baldacci, Director of methodologies and corporate statistical and IT services European Commission presso Eurostat, che il prossimo 24 ottobre a ICity Lab 2017 interverrà al convegno “Big Data & Analytics: quali sono le potenzialità e gli effetti sulla città?”.

Photo by Curtis MacNewton on Unsplash

I dati sono ormai il nostro pane quotidiano, li utilizziamo e a nostra volta li produciamo e li mettiamo in circolazione senza quasi rendercene conto, sono una miniera preziosa per chiunque (amministrazioni, aziende, istituti di ricerca, etc) ne sappia cogliere il potenziale e possono aprire opportunità inedite anche e soprattutto per i decisori pubblici. Con la diffusione delle tecnologie digitali le fonti si moltiplicano, la mole di dati (i big data) a disposizione anche, metterli insieme e trarne informazione utile richiede nuovi strumenti e nuove competenze. In questo contesto anche l’analisi statistica ufficiale non è più la stessa. Ne abbiamo parlato con Emanuele Baldacci, Director of methodologies and corporate statistical and IT services European Commission presso Eurostat, che il prossimo 24 ottobre a ICity Lab 2017 interverrà al convegno “Big Data & Analytics: quali sono le potenzialità e gli effetti sulla città?”. Il quadro che emerge è quello di una vera e propria rivoluzione, definizione spesso abusata ma che in questo caso calza a pennello. Perché con i dati di nuova generazione sta cambiando davvero tutto nella produzione dell’informazione statistica, dalla raccolta, all’analisi, fino alla diffusione.

“Questo tipo di dati consente un’altissima granularità e tempestività dell’informazione, cosa che le fonti di informazione più tradizionali non consentivano - sottolinea Baldacci -. Questi dati proprio per la loro abbondanza hanno la capacità di definire e fotografare situazioni a livello territoriale o a livello di caratteristiche della popolazione molto più dettagliate di quanto possono fare le indagini campionarie”.

Stiamo parlando di dati che arrivano dai social media, di dati raccolti attraverso modalità di web scraping, di dati raccolti attraverso smart meters che controllano l’erogazione di energia elettrica o di altri servizi; e ancora, di dati di telefonia mobile sempre adeguatamente anonimizzati perché, come precisa Baldacci “la protezione dell’informazione individuale e la privacy dei rispondenti è la principale preoccupazione degli istituti di statistica quando lavorano su questi dati come è sempre stato quando questi dati venivano raccolti con sistemi più tradizionali come i questionari”.

“Gli istituti di statistica pubblici in Europa si stanno muovendo tutti nella stessa direzione e molto rapidamente – precisa Baldacci – il modello che stiamo utilizzando non è quello di rimpiazzare le fonti tradizionali con fonti nuove, come i big data, ma quello di affiancare tre tipi di fonti diverse: le fonti di indagine (indagini statistiche tradizionali), i dati amministrativi, e nuove fonti di dati. Utilizzare in maniera sempre più massiva dati amministrativi, quindi dati pubblici, e big data nella produzione di informazione statistica consente anche di ridurre il disturbo statistico sul cittadino, impegnando meno tempo e risorse nella risposta a questionari”.

“La caratteristica principale di queste fonti eterogenee di dati è che possono essere integrati attraverso tecnologie semantiche e, quindi, possono essere letti congiuntamente. Questo consente di ampliare notevolmente il patrimonio informativo stesso di questi dati e, grazie anche a infrastrutture tecnologiche di rete molto più sviluppate che in passato, di avvicinare le informazioni a chi deve prendere le decisioni. I decisori possono essere i governi, le aziende ma anche gli stessi cittadini nel momento in cui esprimono dei bisogni e accedono ai servizi della Pubblica amministrazione”.

Questo nuovo approccio può quindi generare maggior coinvolgimento ed empowerment dei cittadini nei processi decisionali fino ad arrivare a potenziali processi codecisionali. “In campo statistico usiamo ormai la parola prosumer – continua Baldacci - cioè l’utilizzatore del dato diventa esso stesso un produttore di dati perché l’informazione che viene ricevuta dal cittadino può essere poi, attraverso strumenti software, coniugata con altri tipi di dati che sono magari dati personali o dati relativi alla collocazione geografica e temporale dell’individuo su un territorio e consentire quindi in questo modo all’individuo di essere un fruitore attivo dell’informazione e in questo senso costruire un’informazione che è sempre più personalizzata”.

Ecco quindi che la granularità e tempestività di questi dati così integrati consente di raggiungere le persone con servizi che sono mirati ai loro bisogni praticamente in tempo reale.

“Una dimensione che sicuramente facilita questo processo – prosegue Baldacci – è la disponibilità di tecnologie di rete sempre più decentrate, come ad esempio la blockchain, per cui ad esempio processi normativi e regolamentari ma anche processi di certificazione della qualità dell’informazione o dei servizi possono avvenire non più su base gerarchica, come nei modelli tradizionali, ma attraverso il coinvolgimento attivo dei cittadini/stakeholders”

Resta sempre centrale il tema della qualità del dato, che si fonda sia sulla provenienza delle fonti su cui si formano le statistiche, sia sulla solidità scientifica dei metodi con i quali vengono effettuate le produzioni delle statistiche, come sottolinea Baldacci: “Sono i dati più gli algoritmi che devono essere di alta qualità, certificati sulla base di processi che tipicamente sono processi sovranazionali e internazionali e che hanno standard e benchmark di riferimento. In questo senso la qualità in un mondo in cui l’offerta di dati e di informazioni è sempre più differenziata e di alto volume diventa essenziale anche per saper discriminare informazioni che sono solide da informazioni che invece sono parziali, distorte e che possono addirittura condurre a decisioni sbagliate. Un’altra dimensione della qualità è la comparabilità del dato, perché quando fonti non tradizionali, per esempio dati che vengono raccolti on line, cambiano nel tempo questo può avere un impatto, se non adeguatamente trattato con metodi statistici, sulla confrontabilità del dato tra diverse aree territoriali o tra diversi periodi temporali”.

Ma quali sono i settori in cui questa nuova disponibilità di dati può maggiormente influenzare il governo delle città e dei territori? Baldacci prendendo a riferimento le sperimentazioni che sta portando avanti Eurostat mette in evidenza alcuni ambiti: “Sicuramente ci sono avanzamenti per quanto riguarda l’analisi degli indicatori sociali, che possono essere migliorati notevolmente dall’utilizzo integrato di fonti tradizionali, fonti amministrative e fonti di big data. Quindi indicatori come indice di povertà, di distribuzione del reddito, di coesione sociale sono aree nelle quali si può fare un lavoro molto più rapido e di qualità maggiore utilizzando queste fonti”.

Un esempio recente? Eurostat ha attivato un hackathon europeo nel quale ha messo a disposizione di una serie di team nazionali composti da gruppi di statistici e ricercatori provenienti dal settore privato e dall’accademia basi dati molto diverse: dati statistici, amministrativi e fonti derivanti dall’osservazione di dati pubblicamente disponibili sulla rete attraverso un sistema di web scraping. Oggetto dell’analisi erano la differenza tra domanda e offerta di skills nel mercato del lavoro europeo con una dimensione prettamente regionale e subregionale. “I risultati di questo hackathon – sottolinea Baldacci - sono stati molto interessanti, hanno consentito di individuare le fonti di questa distanza tra domanda e offerta di conoscenze, competenze e skills nel mercato del lavoro e soprattutto un’enorme differenziazione, all’interno dei territori nazionali e regionali, tra sottomercati del lavoro. Questa informazione può essere molto importante per attivare servizi di supporto alle politiche attive del lavoro, supporto alla formazione e anche interventi di protezione sociale qualora questi fossero necessari a livelli subnazionali e subregionali”.

“Un altro ambito che è coerente con gli obiettivi dell’Agenda 2030 per lo sviluppo sostenibile e i Sustainable Development Goals è quello degli indicatori che riguardano le risorse ambientali, il consumo del territorio e l’equilibrio tra generazioni. Questi sono tutti ambiti nei quali gli indicatori tradizionali hanno dei gap, che possono essere però in parte riempiti dalla possibilità di accedere a queste nuove fonti di informazione”.

Per concludere uno sguardo al nostro Paese: “In Italia c’è una forte propensione ad avvicinarsi alle tecnologie dell’informazione soprattutto per quanto riguarda il lato consumo e il lato intrattenimento, mentre tutti gli indicatori ci dicono che sul fronte dei servizi offerti ai cittadini il livello di digitalizzazione è ancora basso. Questo però mi consente di dire che il gap dal punto di vista delle competenze e delle conoscenze non è la barriera più importante allo sviluppo di servizi pubblici di tipo digitale, mentre è dal lato dell’offerta che bisognerebbe lavorare di più per far sì che la Pubblica Amministrazione possa offrire sempre più ai cittadini servizi basati sulle tecnologie e sui dati che oggi abbiamo a disposizione”.