di 

Infrastruttura digitale

Datacenter unico, come farlo bene: la lezione del MEF

Una relocation di un sistema ICT, effettuata allo scopo di razionalizzare ed ottimizzare i servizi erogati, assume maggior significato e diventa fattore di successo se seguita da un’azione di monitoraggio. È quello che ha fatto la Direzione dei Sistemi Informativi e dell’Innovazione del MEF nell’ambito del progetto di “relocation” di cinque CED in un unico data center, sottoponendo quest’ultimo ad un’azione di costante e puntuale osservazione dei fenomeni IT, tecnici ed organizzativi, allo scopo di intraprendere azioni correttive volte al miglioramento dell’intero sistema

Foto di IntelFreePress rilasciata sotto licenza cc - https://www.flickr.com/photos/intelfreepress/6722296719

Nell’ambito del progetto di relocation dei cinque CED in un unico data center, progetto avviato nel 2013 dalla Direzione dei Sistemi Informativi e dell’Innovazione (DSII) e concluso alla fine del 2015, una delle sfide più importanti dell’intero progetto è stata la modalità con la quale si potevano riuscire a spostare server e grandi quantità di dati evitando di essere costretti ad importanti fermi dei servizi.

Definire quindi una strategia con cui effettuare questa migrazione che tenesse conto sia della continuità di esercizio sia degli aspetti tecnici da adottare affinché l‘operazione potesse avere la sua consistenza. Un vincolo importante ed assolutamente condizionante le scelte progettuali, in sede di avvio, è stato quello di effettuare la migrazione di server, apparati ed applicazioni, ossia di tutti i sistemi, con le diverse integrazioni, senza provocare disagi particolarmente sensibili per l’utenza. Ciò significava che i disservizi percepiti dall’utente finale, oltre due milioni di utenti dei vari sistemi, dovevano essere nulli o equivalenti ad attività di manutenzione ordinaria.

È comprensibile pertanto che la logica standard di rilocazione, “spengo-sposto-riavvio”, peraltro non direttamente applicabile in questo contesto a causa dell’obsolescenza di diverse macchine ed apparati, non è stata considerata in assoluto la soluzione. Piuttosto dall’analisi iniziale sono emerse esigenze diverse che hanno portato il team di progetto ad optare per una soluzione “mista”:

  • per i servizi che avevano l’assoluta necessità di una continuità di erogazione si è scelto di adottare la virtualizzazione dei sistemi, preparando l’ambiente di destinazione (futuro esercizio) configurando server ed infrastruttura sottostante (rete e sicurezza), testando i sistemi virtualizzati sul sito di destinazione ed infine facendo partire i servizi durante giornate di festività o nei week-end, in modo da minimizzare il disservizio;
  • nei casi in cui non è stato possibile effettuare la virtualizzazione è stata seguita la procedura standard di trasferimento dell’hardware che fortunatamente è stata ridottissima.

Questa attività ci ha dato modo di cogliere due importanti obiettivi. Il primo certamente è quello del consolidamento ma contestualmente anche un’ottimizzazione dei sistemi con un rinnovo architetturale ed infrastrutturale che certamente giova alla conduzione dei sistemi stessi con evidenti benefici in termini di affidabilità. Quindi tecnicamente il primo passo verso un’ottimizzazione dei sistemi e propedeutico all’unificazione dei data center è stata la virtualizzazione di gran parte delle macchine fisiche presenti nei cinque CED distribuiti sul territorio. I benefici di tale operazione sono stati subito evidenti:

  • razionalizzazione degli spazi fisici del CED,
  • utilizzo flessibile e dinamico delle risorse semplificandone la rilocazione,
  • ridondanza dei sistemi garantita,
  • scalabilità veloce delle infrastrutture IT e di quelle logistiche,
  • migliore gestione dei picchi in caso di necessità di maggior potenza elaborativa.

A fine progetto, comunque, i vantaggi più evidenti si possono sintetizzare in:

  • utilizzo server con tecnologia ad alta densità (maggiore potenza elaborativa in minore spazio fisico) e contenimento dei costi di gestione;
  • risparmio energetico per i consumi del condizionamento (raffreddamento specifico delle Isole Tecnologiche) oltre che delle macchine in numero inferiore;
  • alta affidabilità delle infrastrutture (doppi circuiti elettrici e di condizionamento, ridondanza hardware);
  • razionalizzazione del cablaggio (alta densità delle connessioni ottiche, cablaggio sopraelevato).

La virtualizzazione non è stata applicata tout court su tutti i sistemi per poi migrarli ma il piano che contava oltre 2000 task progettuali, doveva prevedere oltre ai vincoli sopra citati legati alle interruzioni di servizio anche i costi ridotti per l’hardware ed il software necessari per creare gli ambienti di destinazione. Proprio per soddisfare quest’ultimo aspetto, non così irrilevante, sono stati gestiti in sequenza i diversi spostamenti al fine di recuperare le risorse HW e SW del CED “chiuso” per potenziare il sito di destinazione, creando, quindi, i presupposti per creare gli ambienti consoni ad ospitare i sistemi del CED successivo da chiudere e così via. In taluni casi si è stati costretti ad effettuare dei dimensionamenti che potremmo definire “al limite” con misurazioni molto più accurate per essere certi che le risorse recuperate potessero essere sufficienti ed evitarci di far fronte a degli acquisti.

Questo aspetto è stato affrontato in maniera significativa sullo storage in quanto non è stata adottata la strada più semplice di duplicare tutto a prescindere ma si è fatto un lavoro di fino gestendo al meglio la quantità di spazio di storage non utilizzata. Tecniche di replica dei dati sono state adottate ed avviate in background ed in parallelo ad altri task progettuali in quanto lo spostamento di diversi TB (in tatale 400) non è un’operazione gestibile in poche ore su reti metropolitane. Quindi in estrema sintesi mentre venivano replicate le aree di storage interessate dai DB, File System, Virtual Machine, etc…, dei sistemi in esercizio, si lavorava per testare le soluzioni a tendere per poi allineare i sistemi con l’ultimo delta di dati nei giorni festivi. Un’orchestrazione di attività non del tutto banale anche perché gli imprevisti sono stati innumerevoli intervendo solo con piccoli acquisti. Un lavoro che ha dato i suoi frutti anche sul tema del risparmio energetico dove è da evidenziare anche qui una riduzione di costi. La relocation ha permesso di ridurre del 67% il consumo di energia elettrica, contribuendo anche in maniera socialmente significativa al rispetto effettivo dell’ecosistema. Terminata la relocation, è stata avviata la successiva fase del progetto, che consisteva nell’avviare delle attività di monitoraggio del funzionamento dei sistemi soprattutto avendo una visione più vicina a quella dell’utente finale. In una realtà che gestisce accessi per diversi milioni di utenti è infatti fondamentale instaurare un sistema di monitoraggio dei sistemi e delle performances efficace, affidabile e facile da gestire che rappresenti nella maniera più veritiera ed oggettiva possibile quella che è la qualità dei servizi IT offerti agli utenti. Ciò è stato ottenuto implementando soluzioni tecniche e soprattutto organizzative, tali da consentire un controllo continuo e capillare dello stato di salute dei sistemi e dei servizi agli utenti. Non stiamo parlando di classici sistemi di monitoraggio di server, reti o altre componenti IT ma di sistemi in grado di creare delle dashboard di controllo ad alto livello prelevando le informazioni da diverse fonti informative. Il modello ha fatto largo uso di standard e di best practices per tutto il mondo del service management.

Dall’installazione di sonde attive o di semplici sensori passivi, alla diffusione di monitor negli uffici della DSII, con cruscotti costantemente aggiornati sulle prestazioni, la Direzione ha avuto modo di contrastare celermente - e talvolta prevenire - i decadimenti prestazionali dei servizi erogati. Un modello di governance che ha visto la DSII adottare le linee strategiche ed innovative dell’IT monitorando i servizi legati al business e governando le attività di progettazione, sviluppo e conduzione affidate a Sogei. Un approccio sinergico e strutturato, giovane, che già nei primi mesi di vita ha dato significativi risultati. La capacità di fare governance cioè definire regole ed avviare azioni in linea con quelle che sono le strategie di un’Amministrazione Pubblica, non può che passare dall’evidenza dei fatti ossia di ciò che accade ora per ora e giorno per giorno sul sistema, tecnico ed organizzativo, che si intende governare. La conoscenza dei fatti è uno degli aspetti più determinanti e delicati in quanto se non avviene in maniera corretta si assumono verità non corrispondenti alla realtà con evidenti scelte sbagliate o addirittura dannose. Per tale motivo progettare, implementare ed adottare un sistema complesso di monitoraggio a diversi livelli e per i diversi aspetti che si vogliono conoscere è un’azione indispensabile per la governance.