Pentaho Data Integration Ceça Moraes Junho/2017 Pentaho Data Integration (PDI) • PDI ou Kettle • http://community.pentaho.com/ – http://sourceforge.net/projects/pentaho/files/Data%2 0Integration/5.4/pdi-ce-5.4.0.1-130.zip/download – Atualmente versão 7.1 • Componente da suite do Pentaho responsável pelos processos de ETL – Extraction, Transformation and Load • Descompactar numa pasta – Jogar o driver JDBC do MySQL na pasta lib (arquivo mysql-connector-java-5.1.36-bin.jar) Outra Aplicações do PDI • Migração de dados entre aplicações/banco de dados • Exportar dados de banco de dados para outros formatos • Limpeza de dados Componentes PDI • Spoon – Criação de transformações e jobs • Pan – Execução de transformações com agendamento em intervalos • Kitchen – Execução de jobs com agendamento em intervalos • Carte – web server para execução remota de transformações e jobs Kettle ou PDI • Inicia-se o spoon.bat ou spoon.sh Kettle ou PDI Transformação • Conjunto de passos interligados ou não • Contém fontes e saídas dos dados • Conceito de stream (fluxo de dados) = entrada e saída de um passo • Uma transformação para cada dimensão • Arquivos *.KTR criados pelo Spoon Passos (Steps) • Unidade mínima da transformação • Grande variedade de tipos – Input, Output, Joins,... • Tipos básicos: entrada, transformação, saída Passos (Steps) Hops • Links entre os steps • Indicam fluxo dos dados (streams) – Origem e destino Jobs • Conjunto para execução de várias transformações • Arquivos *.KJB do Spoon Tcharan... ETLS NO PENTAHO DATA INTEGRATION (KETTLE) Base Operacional: base_vendas dw_vendas Data Warehouse: dw_vendas Conexões Conexões Dimensão: Produto Dimensão Produto Tipo de Steps • Tipos de steps utilizados – Table Input (da aba “Input”) – Dimension lookup/update (da aba “Data Warehouse” – Execute SQL Script (da aba “Scripting”) Dimensão Produto Dimensão Produto IMPORTANTE!!!!!!! O “Get Fields” só funciona se o step de origem (Input Table) estiver conectado ao Dimension Lookup por um Hop Para criar o hop: 1. Clica no step de origem 2. Segurando a tecla <shift>, arrasta o mouse até o step de destino 3. Clica no step destino Dimensão Produto Dimensão Produto ATENÇÃO!!! • Executar todas as ETLs das dimensões ANTES de executar a ETL do Fato • A carga da tabela da dimensão tempo também deve ser feita ANTES da do fato Fato Vendas Fato Vendas Tipo de Steps • Tipos de steps utilizados – Table Input (da aba “Input”) – Database lookup (da aba “Lookup” – Select Values (da aba “Transform”) Tipo de Steps • Tipos de steps utilizados – Memory Group By (da aba “Statistics”) – Table Output (da aba “Output” Fato Vendas Fato Vendas PK dimensão FK fato Fato Vendas Fato Vendas • Fazer um Database Lookup para cada dimensão e sequenciá-los Fato Vendas Fato Vendas Fato Vendas Fato Vendas Fato Vendas Mãos à obra e divirtam-se!!!
© Copyright 2026 Paperzz