Durata e periodo di svolgimento

156 ore, indicativamente con una media di 32 ore settimanali in orario diurno

Numero partecipanti

12

Descrizione del percorso

Il valore di un dato si moltiplica del 40% quando correlato e combinato con altri dati. Per sfruttare appieno la mole di dati, la loro grande varietà e variabilità sono indispensabili architetture di gestione dei big data flessibili, scalabili, sicure ed efficienti: da qui la necessità di un Hub di dati aziendali (EDH) per gestire, trasformare, pulire, integrare i dati a disposizione. In questo modo è possibile rafforzare il coinvolgimento del cliente, ottimizzare l’offerta e migliorare le previsioni e il merchandising. Dunque, un hub aziendale che offra due vantaggi principali: la governance multi-tenancy e la sicurezza dei dati. Questo sistema è ovviamente applicabile a ogni tipologia di settore economico.
Per portare solo alcuni esempi:
1. per il settore viaggi: la customer journey è fondamentale per poter dare un servizio migliore ad esempio da parte della compagnie aeree che hanno la necessità di conoscere e monitorare le scelte degli utenti, la soddisfazione dei
servizi erogati, i flussi di informazioni, la logistica, ecc.
2. per il settore manifatturiero: l’ottimizzazione della supply chain e del controllo di tutta la filiera di distribuzione dei prodotti è fondamentale tanto quanto il monitoraggio della logistica e distribuzione al fine di migliorare la vendita del prodotto finale
3. per il settore smart city ed energy: la costruzione delle abitazioni moderne dovrebbe passare per l’implementazione e lo sviluppo della domotica e dell’IoT, l’analisi delle esigenze prioritarie degli utenti, la gestione della mobilità cittadina e delle emissioni inquinanti possibili solo tramite la conoscenza e gestione dei flussi di traffico e delle abitudini dei cittadini di un dato territorio.

Obiettivi

Uno dei principi chiave per operare con i Big Data è lo stoccaggio di tutti i dati originali, indipendentemente da quando questi saranno utilizzati. Quindi col tempo gli archivi possono assumere dimensioni anche incredibilmente elevate.
Anche se nulla impedisce di realizzare l’archiviazione dei dati tramite un classico database relazionale, spesso questa scelta porta a investire risorse economiche importanti sia in termini computazioniali, sia di storage. Questi e altri motivi portano alcuni colossi dell’innovazione, tra cui Google e Facebook, ad adottare strumenti diversi dagli RDBMS per gestire e i loro Dataset: tra le tecnologie Open Source create per questo scopo una delle più diffuse e utilizzate è Apache Hadoop.
Il progetto ha come obiettivo quello di permettere ai partecipanti di comprendere le architetture esistenti per il trattamento di Big Data e per la memorizzazione in db noSQL, in modo da essere in grado di utilizzare le principali funzionalità di questi strumenti.

Competenze

Il percorso è verticale rispetto al principale framework dei Big Data: Apache Hadoop, che supporta applicazioni distribuite con elevato accesso ai dati sotto una licenza libera, in particolare consente di elaborare in modo efficiente grandi set di dati. La gestione dei dati può comportare query su dati strutturati all’interno di database di grandi dimensioni, oppure ricerche su file system distribuiti od infine operazioni di manipolazione, visualizzazione, trasferimento e cancellazione di file e directory distribuite su più server. L’analisi computazionale comporta lo sviluppo di metodi ed algoritmi scalabili per la gestione e l’analisi di Big Data. L’analisi dei dati e la modellazione può comportare la riduzione dimensionale, la suddivisione (clustering), la classificazione (ranking), la previsione e la possibilità di future estrazioni.
La Visualizzazione può coinvolgere modalità grafiche che forniscono informazioni su grandi quantità di dati, ricchi di informazioni visive con riepiloghi dei risultati, dove l’analisi visuale talvolta è il momento stesso in cui i dati vengono valutati. Apache Hadoop è un framework che consente l’elaborazione distribuita di grandi insiemi di dati attraverso cluster di servers, oppure sui servizi di cloud computing. È stato progettato per scalare da singolo server a migliaia di macchine distribuite, ognuna delle quali offre capacità di calcolo e di immagazzinamento.
Per la gestione dei Big Data offre alcune componenti molto utilizzate: HDFS e MAP Reduce. Apache Hadoop è un ambiente che supporta applicazioni distribuite con elevato accesso ai dati sotto una licenza libera; permette alle applicazioni di lavorare con migliaia di nodi e petabyte di dati. Hadoop è stato ispirato dalla MapReduce di Google e dal Google File System. Un grande numero di librerie software utilizzano il framework Hadoop per gestire e analizzare i dati.
Nella fattispecie, trovano una larga diffusione in questo momento, in caso di dataset di estensione limitata librerie Python per la gestione e la predizione dei dati quali ad esempio Pandas e Scikit Learn e, in caso di dati con maggiore estensione, applicazioni costruite con il framework Apache Spark.

Descrizione del percorso

• Overview della definizione di soluzioni architetturale per il trattamento di Big Data Hadoop common (strato software comune con funzioni di supporto)
• Hadoop Distributed File System (HDFS – derivato da Google’s GFS)
• Hadoop tools, ecosistema e distribuzioni
• Comprendere MapReduce
• Utilizzo di tecnologie open source per trasferire i dati processati da HDFS in un database SQL e viceversa (ETL)
• Differenze tra SQL e linguaggi usati per i BIG DATA
• Operazioni CRUD e aggregazioni avanzate
• Elaborazione dati ed esportazione verso NOSQL
• Utilizzo di MongoDB Connector for Hadoop
• L’importanza di saper comunicare i dati: strumenti di “Data Visualization”
• Algoritmi di data mining (per operazioni di classificazione, regressione, clusterizzazione)
• Algoritmi per la market basket analysis
• Algoritmi per trovare item simili in larghe quantità di dati
• Librerie Python per la gestione e la visualizzazione dei dati (ad es. Pandas, Scikit-Learn, Matplotlib, Seaborne)
• Apache Spark per l’analisi dei dati: RDD, Structured queries, e use case di esempio)

Destinatari e requisiti d'accesso

12 Giovani in possesso di una laurea triennale o magistrale o una laurea a ciclo unico, conseguita da non più di 24 mesi, residenti o domiciliati in Regione Emilia Romagna in data antecedente l’iscrizione alle attività.
Il progetto TECNOLOGIE E SOFTWARE PER IL TRATTAMENTO BIG DATA) è particolarmente rivolto a soggetti con formazione di tipo tecnico-scientifico, in particolare in ambito informatico (Ingegneria informatica/telecomunicazioni).
Alcune di queste competenze saranno fornite nel progetto introduttivo di allineamento della competenze, INTRO TO BIG DATA e al Progetto 2, BASI DI STATISTICA, MATEMATICA, GESTIONE DB, ciononostante per il forte focus sui processi industriali, è un progetto destinato a profili con già una esposizione a queste tematiche.
In particolare le competenze raccomandate in ingresso sono:
• un livello base di gestione server e cloud
• un livello base di gestione Data Base (SQL, noSQL)
• un livello base di programmazione Java

Sede di svolgimento

Sono previste diverse edizioni sull’intero territorio regionale.

Edizione disponibile: Modena.

Le lezioni continuano anche in webinar.

Chiusura iscrizioni

Iscrizioni aperte fino al 30/11/2020 con riserva.

Sarete contattati in caso di posti ancora disponibili per i corsi e nelle sedi prescelte.

La vostra candidatura verrà in ogni caso presa in considerazione per proporvi la seconda edizione del progetto DATALAB.

Contatti

Per informazioni:
Tel. 800 036425
Mail. bigdata@formindustria.it

Operazione Rif. 2018-9495/RER approvata con Deliberazione di Giunta Regionale n. 633 del 2 Maggio 2018, e co-finanziata con risorse del Fondo sociale europeo PO 2014-2020 e della Regione Emilia-Romagna