Data Lake e Big Data: il valore del cloud nell’esperienza di SIAE

Home PA Digitale Data Lake e Big Data: il valore del cloud nell’esperienza di SIAE

Il Data Lake, rispetto alle soluzioni di archiviazione tradizionali, consente di riunire in un unico “contenitore”, tipologie di dati da fonti diverse e nel loro formato nativo. Permette di gestire una mole enorme di dati e consente un’analisi più veloce e scalabile. Ne abbiamo parlato con Michele Panigada, Direttore Sistemi Informativi di SIAE, che il 16 ottobre prossimo sarà tra i testimonial dell’AWS Initiate

10 Ottobre 2019

Michela Stentella

Content Manager FPA

Photo by fabio on Unsplash - https://unsplash.com/photos/oyXis2kALVg

Indice degli argomenti

1 Ascolta l'articolo in podcast
2 Cos'è il Data Lake
- 2.1 Data Lake e Cloud
3 L'esperienza di SIAE

Ascolta l’articolo in podcast

Nel mondo dei big data si sono aperte nuove frontiere per chi deve archiviare e analizzare le informazioni. Abbiamo a disposizione una mole enorme di dati, questo è evidente. Ma non solo. Sono anche dati eterogenei, arrivano da fonti diverse che usano differenti formati e parametri per la catalogazione.

È qui che si inserisce il Data Lake (“lago dei dati”), una nuova modalità per conservare i dati.

Cos’è il Data Lake

In cosa si differenzia il Data Lake dai tradizionali Data Warehouse? Proprio dalla capacità di conservare e analizzare, in un repository centralizzato, molteplici tipologie di dati, nel loro formato nativo. Si possono mettere insieme dati strutturati e non strutturati, provenienti da sorgenti multiple e differenti. Insomma, un grande contenitore di informazioni, che seppure di diverso formato sono raccolte in un unico repository e, solo successivamente, vengono elaborate con uno schema preciso.

Il Data Lake consente quindi di archiviare una mole maggiore di dati e un’analisi più veloce e scalabile. I dati grezzi sono più malleabili, più facili da incrociare rispetto a dati già strutturati, possono essere quindi analizzati più rapidamente per qualsiasi scopo e sono ideali per l’apprendimento automatico. È però indispensabile prevedere misure appropriate che garantiscano la qualità del dato e la sua governance.

Data Lake e Cloud

In questo contesto, il Cloud computing consente di ricorrere a soluzioni flessibili, scalabili, sicure e con costi ridotti. È questa la strada che ha scelto, ad esempio, SIAE la Società Italiana degli Autori ed Editori. Tutti conosciamo la sua missione, che è la tutela del diritto d’autore in Italia. Ma non tutti sappiamo come lavora, quali sono le tecnologie che negli ultimi anni ha sviluppato per rispondere alle nuove esigenze nate con la diffusione delle piattaforme digitali (come Spotify e Youtube) che consentono di accedere a milioni di brani musicali.

L’esperienza di SIAE

Ne abbiamo parlato con Michele Panigada, Direttore Sistemi Informativi di SIAE, che il 16 ottobre prossimo racconterà in dettaglio questo percorso durante l’evento AWS Initiate, che vedrà una sessione dedicata proprio al Data Lake, a partire dalle ore 14,25.

Player digitali e diritto d’autore

“Negli ultimi anni si sono affacciati sul mercato molteplici player digitali, come Spotify e Youtube solo per citarne alcuni – esordisce Panigada – quando si utilizza un contenuto coperto da diritto d’autore (una canzone ad esempio) su queste piattaforme, è necessario riconoscere all’autore il corrispettivo per la sua proprietà intellettuale. Noi riceviamo da questi service provider digitale un’enorme quantità di dati, contenente tutte le informazioni sui brani che vengono ascoltati online a livello nazionale e internazionale. Parliamo di miliardi di utilizzi che vanno scandagliati. Le soluzioni tecnologiche che SIAE storicamente deteneva non erano in grado di gestire questo tipo di lavorazione”.

Una nuova tecnologia per analizzare miliardi di dati

Come ha risposto quindi SIAE a questa esigenza? “Abbiamo scelto una soluzione cloud based basata su Amazon Web Services – risponde Panigada – e abbiamo realizzato una nuova soluzione tecnologica digitale, che permette di catturare gli utilizzi sui provider digitali delle opere di cui SIAE tutela il diritto di autore. In pratica riceviamo file di grandissime dimensioni da questi provider digitali, al cui interno ci sono tutti gli utilizzi di tutte le opere, individuiamo quelle di cui ci occupiamo di tutelare il diritto d’autore e li comunichiamo al provider, si sciolgono eventuali conflitti e, alla fine, si produce il report finale. Questo percorso è cominciato nel 2016, ha visto la prima release della piattaforma ad inizio 2018 e stiamo progredendo a migliorare sempre di più la tecnologia”.

Sviluppi futuri del Data Lake per SIAE

E per il futuro? “I numeri crescono in continuazione – conclude Panigada – quindi stiamo continuando ad estendere questa piattaforma in modo che possa gestire adeguatamente le esigenze attuali e future. Inoltre, pensiamo di spostare sul cloud progressivamente anche ulteriori funzionalità, per poter tutelare sempre più al meglio le opere dell’ingegno di cui SIAE si occupa da decenni. E potenzialmente si potrebbe estendere l’utilizzo di questa piattaforma a servizio ad altre società di collecting estere analoghe a SIAE, che hanno le stesse esigenze ma non dispongono della tecnologia adatta”.

Vieni ad ascoltare questo case study direttamente da Michele Panigada, Direttore Sistemi Informativi di SIAE, presso AWS Initiate, a Roma il 16 ottobre. La presentazione sarà seguita da una sessione demo in cui i Solutions Architects di AWS mostreranno in diretta come creare un Data Lake

L'evento

AWS Initiate Public Sector

Inizia il tuo viaggio verso il cloud. Partecipa all’evento AWS Initiate ed entra nel mondo della Digital Transformation e della Data Migration

Roma, 16 Ottobre 2019

ISCRIVITI ADESSO

ICity Club

IA, competenze trasversali, aggiornamenti normativ: le Academy di FORUM PA 2026

Un punto di osservazione sui partner di FPA

FORUM PA 2026