2014-09-29-dassia-kickoff

www.crs4.it
Kickoff Progetto DaSSIA
29 Settembre 2014
2
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• CRS4 & Big Data
• Il Progetto DaSSIA
–
Sviluppo di un caso test paradigmatico
–
L'Attività di Formazione
• Discussione
3
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• CRS4 & Big Data
• Il Progetto DaSSIA
–
Sviluppo di un caso test paradigmatico
–
L'Attività di Formazione
• Discussione
4
CRS4, 29 Settembre 2014
CRS4: Sintesi
• Organismo di ricerca operativo dal 1991
• Compiti istituzionali
– Ricerca e sviluppo
• ICT e scienze computazionali
• Tecnologie abilitanti e focalizzazione su tematiche prioritarie
– Infrastruttura
• HPC: uno dei maggiori centri in Italia, peculiarità importanti a
livello Europeo (sistemi ibridi, visualizzazione, …)
• NextGen Seq: maggior centro italiano, tra i primi internazionali
– Supporto al territorio
• Cooperazione e integrazione (CNR, UNI, SRT, PCR, …)
• Alta formazione, impatto sociale e trasferimento tecnologico
• Visione internazionale, ricadute locali
5
CRS4, 29 Settembre 2014
CRS4: Focalizzazione su ICT e Scienze
Computazionali
• Ruolo rilevante del CRS4
sin dall’inizio
• Tematiche di lavoro
estremamente attuali
– ICT Pervasiva
– Paradigma anytime, anywhere, for
anybody, on any device
Excellent
Science
Industrial
Leadership
ICT
– Computing
– universal enabler scientifico e
industriale
– Big Data
– Data-driven science & technology
Societal
Challenges
6
CRS4, 29 Settembre 2014
CRS4: Ricerca e sviluppo
• Esempi recenti (2013):
– ICT per la biomedicina: metodi scalabili per l’analisi massiva di dati sequenziamento
• completamento dell’acquisizione di uno dei database più estesi (oltre 2’500 campioni) e maggiormente
caratterizzati geneticamente e clinicamente al mondo (con CNR-IRGB);
• sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare metodi innovativi di terapia
genica (con TIGET) e a comprendere meglio i meccanismi genetici di regolazione della risposta immunitaria
delle cellule (con CNR-IRGB).
– ICT per il cultural heritage: Nuovi metodi scalabili per l’acquisizione di forma e colore
• Applicazione ai beni culturali [Digital Heritage Award – miglior lavoro internazionale 2013]
– ICT per l'industria: Primo applicativo di ecografia sismica data-driven
• Sensibile accorciamento del ciclo di elaborazione progettuale [CRS4-ENI]
– ICT per l'industria: Primo sistema per la piena tracciabilità di processo clinico
• Tracciamento end-to-end di processo clinico (flebotomia) [CRS4-INPECO]
• … e molto altro…
CRS4, 29 Settembre 2014
CRS4: Infrastrutture
• Risorse computazionali
– Tra le prime in Italia, vasta gamma di configurazioni
ibride (GPU, FPGA, …), connessioni con multiple
10GbE verso Rete Regionale della Ricerca e GARR
– 70% utilizzato da comunità scientifica regionale
• Strumentazione sperimentale avanzata
– Il più grande centro di Next Generation Sequencing in
Italia
– capacità di 5’400 GigaBasi/mese
– Tra i centri più avanzati per tecnologie e beni culturali
– 2013: I metodi applicati al complesso di Mont’e Prama sono
all’avanguardia a livello internazionale
8
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• CRS4 & Big Data
• Il Progetto DaSSIA
–
Sviluppo di un caso test paradigmatico
–
L'Attività di Formazione
• Discussione
CRS4, 29 Settembre 2014
Big Data @ CRS4
• Risultati di ricerca e sviluppo
–
General purpose tools and libraries [pydoop, 2010]
–
Tool specifici di dominio [biodoop, 2008, seal 2012]
–
Sistemi integrati [biobank 2014]
• Infrastrutture specializzate
– Il più grande cluster map-reduce in Italia (fino a 400 nodi)
• Allocazione dinamica delle risorse tra hadoop e sistema standard di gestione delle code
• File system di 4PBytes ad alte prestazioni condiviso
– File system parallelo (HDFS server) dedicato
• 400TB su 40 commodity nodes
– Clusters sperimentali/valutazione specializzati
• Spark, Impala, Hive, Hbase,....
–
●
Specialized experimental/evaluation clusters
Nel loop tecnologico
–
Contributi Open source (pydoop, seal, ...)
–
Connessioni Industriali (Cloudera, Isilon, intel, ...)
10
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• Big Data @ CRS4
• Il Progetto DaSSIA
–
Sviluppo di un caso test paradigmatico
–
L'Attività di Formazione
• Discussione
www.crs4.it
Big Data: un problema o un'opportunità ?
www.crs4.it
www.crs4.it
DaSSIA
Data Scalable Solutions for Industrial
Applications
●
●
Il Progetto ha l'obiettivo di trasferire know how
sul trattamento dei Big Data dal CRS4 alle
aziende partecipanti al cluster.
Si articola in due attività principali:
―
Sviluppo di un caso test di interesse comune. Le
problematiche incontrate nella sua realizzazione
vengono discusse all'interno di un wiki accessibile
per il cluster
―
Attività di formazione su alcune tra le tecnologie più
utilizzate nel trattamento dei Big Data
14
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• Big Data @ CRS4
• Il Progetto DaSSIA
–
Sviluppo di un caso test paradigmatico
–
L'Attività di Formazione
• Discussione
www.crs4.it
Sviluppo di un Caso Test Paradigmatico
Caso Test Paradigmatico: Dati sulle prestazioni (memoria, cpu,
processi, temperature, ecc) provenienti da un cluster di
quasi 400 computer
●
●
●
Principali passi:
Raccolta dei dati e prima analisi in realtime degli stessi
Scrittura su filesystem distribuito hdfs
Analisi batch dei dati
A cui si possono aggiungere altri task:
●
●
●
Visualizzazione di statistiche sui dati acquisiti
Meccanismo di controllo e correzione degli errori nel trasporto dei dati
etc
16
CRS4, 29 Settembre 2014
Ordine del giorno
• Breve Presentazione del CRS4
• Big Data @ CRS4
• Il Progetto DaSSIA
–
Sviluppo di un caso test paradigmatico
–
L'Attività di Formazione
• Discussione
CRS4, 29 Settembre 2014
Obiettivi dell'attività formativa
●
Illustrare il fenomeno/problema Big Data
●
Tracciare un quadro generale dell'ecosistema
Hadoop (lo standard/ecosistema industriale)
●
Fornire un modello architetturale per la
gestione dei Big Data
●
Accompagnare le aziende nell'apprendimento
di alcune tra le più usate tecnologie per i Big
Data
CRS4, 29 Settembre 2014
Calendario preliminare dell'attività
formativa
N Data
Titolo
Ore
1
Metà Ottobre
Big Data e Hadoop
6
2
Fine Novembre
Scripting e DataWarehouse sui Big Data
6
3
Fine Gennaio
Scalable NoSQL Databases
6
4
Metà Marzo
Data Collection from Big Data Sources
6
CRS4, 29 Settembre 2014
Modello Architetturale
Distributed
File System
MapReduce
Distributed
DB
ETL
DataWarehouse
CRS4, 29 Settembre 2014
Prima Giornata
Tema: BigData e Hadoop
●
Cosa si intende con BigData ?
●
Hadoop
―
HDFS
―
MapReduce
Distributed
File System
MapReduce
●
Pydoop
CRS4, 29 Settembre 2014
Alla fine della prima giornata i partecipanti:
●
Sapranno interagire con il file system HDFS
●
Avranno appreso il paradigma della programmazione
mapreduce
●
Sapranno scrivere semplici job mapreduce in java e
python
●
Sapranno utilizzare le viste di controllo fornite dalle
interfacce web dei servizi
CRS4, 29 Settembre 2014
Seconda Giornata
Tema: Scripting e DataWarehouse su Big Data
●
PIG, un linguaggio di scripting che ci libera
dalle complessità di MapReduce
Distributed
File System
●
Hive, come fare DataWarehouse su BigData
sfruttando la nostra esperienza con l'SQL
●
Shark, DataWarehouse superveloce...
MapReduce
CRS4, 29 Settembre 2014
Alla fine della seconda giornata i partecipanti:
●
Avranno imparato a scrivere semplici script in Pig
per la realizzazione dei job
●
Sapranno importare i propri dati da HDFS su Hive
●
Sapranno effettuare query sql-like con Hive
●
Avranno preso coscienza dell'esistenza del concetto
di "in memory computing" e di MR2
●
Sapranno eseguire semplici query con l'utilizzo di
shark
CRS4, 29 Settembre 2014
Terza Giornata
Tema: Scalable NoSQL Databases
●
Come passare da dati RAW a dati
semi-strutturati?
●
Verranno illustrate diverse
tecnologie NoSQL
―
Hbase
―
Cassandra
―
MongoDB
Distributed
File System
MapReduce
Distributed
DB
ETL
DataWarehouse
●
CRS4, 29 Settembre 2014
Alla fine della terza giornata i partecipanti:
●
Conosceranno le principali differenze tra HBase,
Cassandra e MongoDB per il trattamento dei propri
dati
●
Sapranno importare i propri dati da HDFS a HBase
●
Sapranno eseguire semplici query su HBase
CRS4, 29 Settembre 2014
Quarta Giornata
Tema: Data Collection from Big Data Sources
Distributed
File System
MapReduce
●
Come costruire un meccanismo
che alimenti di continuo il sistema
Distributed
DB
ETL
DataWarehouse
di processing ?
●
Verranno illustrate delle tecnologie in grado di raccogliere
dati provenienti da sorgenti diverse ed inserirli nel
sistema di Big Data Management
CRS4, 29 Settembre 2014
Alla fine della quarta giornata i partecipanti:
●
Avranno appreso le modalità in cui è possibile
utilizzare Flume per l'aggregazione dei log e il loro
import sull'HDFS
●
Avranno preso conoscenza dell'esistenza di ulteriori
aggregatori di dati disponibili (es. Sqoop, Tika) e
degli aspetti caratterizzanti di ognuno di essi
●
Sapranno scrivere un semplice file di configurazione
di Flume
CRS4, 29 Settembre 2014
Pre-requisiti
●
Conoscenza superficiale di Linux
●
Capacità di utilizzo di una macchina virtuale
VmWare
●
Conoscenza di un linguaggio di programmazione
(In particolare Java e/o Python)
e per le giornate successive alla prima:
●
Ripasso della lezione della prima giornata
CRS4, 29 Settembre 2014
Qualche Informazione Finale
●
●
●
●
Al momento non è ancora stata scelta la sede per lo
svolgimento delle giornate di formazione
All'indirizzo http://dassia.crs4.it è presente il sito
pubblico del progetto.
All'interno dalla sezione “Private Area” si accede al
sito privato riservato alle sole aziende partecipanti al
cluster: https://redz.crs4.it/projects/dassia
All'interno del sito privato saranno inserite le lezioni,
scaricabili dopo il loro svolgimento, in modo da poter
ripassare il materiale visto
Nel sito privato vi sarà anche un wiki sul caso test
paradigmatico e la possibilità di chiedere aiuto sugli
argomenti discussi nelle lezioni o nel wiki
CRS4, 29 Settembre 2014
Grazie dell'attenzione
CRS4, 29 Settembre 2014
Presentazione delle Aziende
E Discussione