Tra le varie sorgenti di Big data, la fonte Internet è sicuramente tra le più accessibili e promettenti. In particolare, Internet As a Data source (IaD) sta sempre più emergendo come un paradigma che consente di complementare e/o sostituire le fonti tradizionali della Statistica Ufficiale, quali indagini e fonti amministrative.
In questo seminario, illustreremo alcuni esempi di possibili utilizzi di IaD a supporto della Statistica Ufficiale.
Inoltre, forniremo una panoramica delle sfide tecnologiche e metodologiche derivanti dall’utilizzo di tale fonte.
Come running example, illustreremo un progetto sperimentale condotto sotto la supervisione della Commissione Istat su Big Data, relativo all’uso di IaD nell’ambito dell’ ”Indagine sull’uso dell’ICT da parte delle Imprese”. In particolare, descriveremo:
• Sfide nell’utilizzo di Web scrapers per l’accesso ai dati Web.
• Problematiche di memorizzazione e accesso a dati poco strutturati.
• Tecniche di text processing.
• Tecniche di classificazione supervisionata.