www.crs4.it Kickoff Progetto DaSSIA 29 Settembre 2014 2 CRS4, 29 Settembre 2014 Ordine del giorno • Breve Presentazione del CRS4 • CRS4 & Big Data • Il Progetto DaSSIA – Sviluppo di un caso test paradigmatico – L'Attività di Formazione • Discussione 3 CRS4, 29 Settembre 2014 Ordine del giorno • Breve Presentazione del CRS4 • CRS4 & Big Data • Il Progetto DaSSIA – Sviluppo di un caso test paradigmatico – L'Attività di Formazione • Discussione 4 CRS4, 29 Settembre 2014 CRS4: Sintesi • Organismo di ricerca operativo dal 1991 • Compiti istituzionali – Ricerca e sviluppo • ICT e scienze computazionali • Tecnologie abilitanti e focalizzazione su tematiche prioritarie – Infrastruttura • HPC: uno dei maggiori centri in Italia, peculiarità importanti a livello Europeo (sistemi ibridi, visualizzazione, …) • NextGen Seq: maggior centro italiano, tra i primi internazionali – Supporto al territorio • Cooperazione e integrazione (CNR, UNI, SRT, PCR, …) • Alta formazione, impatto sociale e trasferimento tecnologico • Visione internazionale, ricadute locali 5 CRS4, 29 Settembre 2014 CRS4: Focalizzazione su ICT e Scienze Computazionali • Ruolo rilevante del CRS4 sin dall’inizio • Tematiche di lavoro estremamente attuali – ICT Pervasiva – Paradigma anytime, anywhere, for anybody, on any device Excellent Science Industrial Leadership ICT – Computing – universal enabler scientifico e industriale – Big Data – Data-driven science & technology Societal Challenges 6 CRS4, 29 Settembre 2014 CRS4: Ricerca e sviluppo • Esempi recenti (2013): – ICT per la biomedicina: metodi scalabili per l’analisi massiva di dati sequenziamento • completamento dell’acquisizione di uno dei database più estesi (oltre 2’500 campioni) e maggiormente caratterizzati geneticamente e clinicamente al mondo (con CNR-IRGB); • sviluppo e utilizzo di tecnologie NGS scalabili che hanno contribuito a sviluppare metodi innovativi di terapia genica (con TIGET) e a comprendere meglio i meccanismi genetici di regolazione della risposta immunitaria delle cellule (con CNR-IRGB). – ICT per il cultural heritage: Nuovi metodi scalabili per l’acquisizione di forma e colore • Applicazione ai beni culturali [Digital Heritage Award – miglior lavoro internazionale 2013] – ICT per l'industria: Primo applicativo di ecografia sismica data-driven • Sensibile accorciamento del ciclo di elaborazione progettuale [CRS4-ENI] – ICT per l'industria: Primo sistema per la piena tracciabilità di processo clinico • Tracciamento end-to-end di processo clinico (flebotomia) [CRS4-INPECO] • … e molto altro… CRS4, 29 Settembre 2014 CRS4: Infrastrutture • Risorse computazionali – Tra le prime in Italia, vasta gamma di configurazioni ibride (GPU, FPGA, …), connessioni con multiple 10GbE verso Rete Regionale della Ricerca e GARR – 70% utilizzato da comunità scientifica regionale • Strumentazione sperimentale avanzata – Il più grande centro di Next Generation Sequencing in Italia – capacità di 5’400 GigaBasi/mese – Tra i centri più avanzati per tecnologie e beni culturali – 2013: I metodi applicati al complesso di Mont’e Prama sono all’avanguardia a livello internazionale 8 CRS4, 29 Settembre 2014 Ordine del giorno • Breve Presentazione del CRS4 • CRS4 & Big Data • Il Progetto DaSSIA – Sviluppo di un caso test paradigmatico – L'Attività di Formazione • Discussione CRS4, 29 Settembre 2014 Big Data @ CRS4 • Risultati di ricerca e sviluppo – General purpose tools and libraries [pydoop, 2010] – Tool specifici di dominio [biodoop, 2008, seal 2012] – Sistemi integrati [biobank 2014] • Infrastrutture specializzate – Il più grande cluster map-reduce in Italia (fino a 400 nodi) • Allocazione dinamica delle risorse tra hadoop e sistema standard di gestione delle code • File system di 4PBytes ad alte prestazioni condiviso – File system parallelo (HDFS server) dedicato • 400TB su 40 commodity nodes – Clusters sperimentali/valutazione specializzati • Spark, Impala, Hive, Hbase,.... – ● Specialized experimental/evaluation clusters Nel loop tecnologico – Contributi Open source (pydoop, seal, ...) – Connessioni Industriali (Cloudera, Isilon, intel, ...) 10 CRS4, 29 Settembre 2014 Ordine del giorno • Breve Presentazione del CRS4 • Big Data @ CRS4 • Il Progetto DaSSIA – Sviluppo di un caso test paradigmatico – L'Attività di Formazione • Discussione www.crs4.it Big Data: un problema o un'opportunità ? www.crs4.it www.crs4.it DaSSIA Data Scalable Solutions for Industrial Applications ● ● Il Progetto ha l'obiettivo di trasferire know how sul trattamento dei Big Data dal CRS4 alle aziende partecipanti al cluster. Si articola in due attività principali: ― Sviluppo di un caso test di interesse comune. Le problematiche incontrate nella sua realizzazione vengono discusse all'interno di un wiki accessibile per il cluster ― Attività di formazione su alcune tra le tecnologie più utilizzate nel trattamento dei Big Data 14 CRS4, 29 Settembre 2014 Ordine del giorno • Breve Presentazione del CRS4 • Big Data @ CRS4 • Il Progetto DaSSIA – Sviluppo di un caso test paradigmatico – L'Attività di Formazione • Discussione www.crs4.it Sviluppo di un Caso Test Paradigmatico Caso Test Paradigmatico: Dati sulle prestazioni (memoria, cpu, processi, temperature, ecc) provenienti da un cluster di quasi 400 computer ● ● ● Principali passi: Raccolta dei dati e prima analisi in realtime degli stessi Scrittura su filesystem distribuito hdfs Analisi batch dei dati A cui si possono aggiungere altri task: ● ● ● Visualizzazione di statistiche sui dati acquisiti Meccanismo di controllo e correzione degli errori nel trasporto dei dati etc 16 CRS4, 29 Settembre 2014 Ordine del giorno • Breve Presentazione del CRS4 • Big Data @ CRS4 • Il Progetto DaSSIA – Sviluppo di un caso test paradigmatico – L'Attività di Formazione • Discussione CRS4, 29 Settembre 2014 Obiettivi dell'attività formativa ● Illustrare il fenomeno/problema Big Data ● Tracciare un quadro generale dell'ecosistema Hadoop (lo standard/ecosistema industriale) ● Fornire un modello architetturale per la gestione dei Big Data ● Accompagnare le aziende nell'apprendimento di alcune tra le più usate tecnologie per i Big Data CRS4, 29 Settembre 2014 Calendario preliminare dell'attività formativa N Data Titolo Ore 1 Metà Ottobre Big Data e Hadoop 6 2 Fine Novembre Scripting e DataWarehouse sui Big Data 6 3 Fine Gennaio Scalable NoSQL Databases 6 4 Metà Marzo Data Collection from Big Data Sources 6 CRS4, 29 Settembre 2014 Modello Architetturale Distributed File System MapReduce Distributed DB ETL DataWarehouse CRS4, 29 Settembre 2014 Prima Giornata Tema: BigData e Hadoop ● Cosa si intende con BigData ? ● Hadoop ― HDFS ― MapReduce Distributed File System MapReduce ● Pydoop CRS4, 29 Settembre 2014 Alla fine della prima giornata i partecipanti: ● Sapranno interagire con il file system HDFS ● Avranno appreso il paradigma della programmazione mapreduce ● Sapranno scrivere semplici job mapreduce in java e python ● Sapranno utilizzare le viste di controllo fornite dalle interfacce web dei servizi CRS4, 29 Settembre 2014 Seconda Giornata Tema: Scripting e DataWarehouse su Big Data ● PIG, un linguaggio di scripting che ci libera dalle complessità di MapReduce Distributed File System ● Hive, come fare DataWarehouse su BigData sfruttando la nostra esperienza con l'SQL ● Shark, DataWarehouse superveloce... MapReduce CRS4, 29 Settembre 2014 Alla fine della seconda giornata i partecipanti: ● Avranno imparato a scrivere semplici script in Pig per la realizzazione dei job ● Sapranno importare i propri dati da HDFS su Hive ● Sapranno effettuare query sql-like con Hive ● Avranno preso coscienza dell'esistenza del concetto di "in memory computing" e di MR2 ● Sapranno eseguire semplici query con l'utilizzo di shark CRS4, 29 Settembre 2014 Terza Giornata Tema: Scalable NoSQL Databases ● Come passare da dati RAW a dati semi-strutturati? ● Verranno illustrate diverse tecnologie NoSQL ― Hbase ― Cassandra ― MongoDB Distributed File System MapReduce Distributed DB ETL DataWarehouse ● CRS4, 29 Settembre 2014 Alla fine della terza giornata i partecipanti: ● Conosceranno le principali differenze tra HBase, Cassandra e MongoDB per il trattamento dei propri dati ● Sapranno importare i propri dati da HDFS a HBase ● Sapranno eseguire semplici query su HBase CRS4, 29 Settembre 2014 Quarta Giornata Tema: Data Collection from Big Data Sources Distributed File System MapReduce ● Come costruire un meccanismo che alimenti di continuo il sistema Distributed DB ETL DataWarehouse di processing ? ● Verranno illustrate delle tecnologie in grado di raccogliere dati provenienti da sorgenti diverse ed inserirli nel sistema di Big Data Management CRS4, 29 Settembre 2014 Alla fine della quarta giornata i partecipanti: ● Avranno appreso le modalità in cui è possibile utilizzare Flume per l'aggregazione dei log e il loro import sull'HDFS ● Avranno preso conoscenza dell'esistenza di ulteriori aggregatori di dati disponibili (es. Sqoop, Tika) e degli aspetti caratterizzanti di ognuno di essi ● Sapranno scrivere un semplice file di configurazione di Flume CRS4, 29 Settembre 2014 Pre-requisiti ● Conoscenza superficiale di Linux ● Capacità di utilizzo di una macchina virtuale VmWare ● Conoscenza di un linguaggio di programmazione (In particolare Java e/o Python) e per le giornate successive alla prima: ● Ripasso della lezione della prima giornata CRS4, 29 Settembre 2014 Qualche Informazione Finale ● ● ● ● Al momento non è ancora stata scelta la sede per lo svolgimento delle giornate di formazione All'indirizzo http://dassia.crs4.it è presente il sito pubblico del progetto. All'interno dalla sezione “Private Area” si accede al sito privato riservato alle sole aziende partecipanti al cluster: https://redz.crs4.it/projects/dassia All'interno del sito privato saranno inserite le lezioni, scaricabili dopo il loro svolgimento, in modo da poter ripassare il materiale visto Nel sito privato vi sarà anche un wiki sul caso test paradigmatico e la possibilità di chiedere aiuto sugli argomenti discussi nelle lezioni o nel wiki CRS4, 29 Settembre 2014 Grazie dell'attenzione CRS4, 29 Settembre 2014 Presentazione delle Aziende E Discussione
© Copyright 2024 Paperzz