talend etl introducción

Post on 14-Jun-2015

552 Views

Category:

Software

9 Downloads

Preview:

Click to see full reader

DESCRIPTION

Talend Open Studio ETL

TRANSCRIPT

Talend ETLTalend Open Studio

www.chileforma.cl

Introducción

Que podemos hacer?Manejo de Big Data

Procesos BPM

Data Integration

Data Quality

ESB

Algunos Usos Data Integration

Extracto, Transformación, Carga (ETL)

Desde un Excel/CSV/txt a una BD

Desde un MySQL/MsSQL a un Oracle y viceversa

Volcados/Transformaciones Programados

Cientos de opciones y tecnologías

Conexiones con multiples DBMS

Manejos de archivos y data automatizados

Tecnologia en que esta desarrolladoJAVA

Con esto podremos correrlo en la JVM ganando toda la potencia de esta maquina virtual Lo podemos ejecutar en un Linux/Mac/Window Genera un .JAR con lo desarrollado Este jar lo podemos poner dentro de una tarea programada, para ser ejecutado Puede estar parametrizado para distintas conexiones

Entorno (IDE) Basado en Eclipse

Ejemplo de un Flujo con Talend

xls

csv

Mysqljoin

1. Tenemos un archivo excel.

2. Tenemos un archivo cdv con información complementaria.

3. Unimos la información y obtenemos un resultado.

4. Ese resultado temporal lo llevamos a un motor de BD MySQL.

5. Podríamos como opción llevarlo a otro motor, a un excel, en un txt, etc.

Arquitectura de un ETL

Input se refiere la fuente de datos, de donde estamos extrayendo información, puede ser desde una BD, un Excel, un CSV, un txt con nuestro propio patrón, es decir cualquier fuente de información válida.

input OutputTransformación

Este item es el más importante, ya que solo volcar información no es algo muy complejo, lo que lo hace algo complejo es la capacidad de transformar esta información, agregarle nueva, borrar otra, etc. Con esto podremos manipular a gusto nuestros datos.

Output es la salida general de nuestros datos, estos pueden ser a alguna BD, un excel, CSV, un archivo creado en el mismo proceso, incluso pasado via FTP.

Razones para elegir Talend?Optimiza Tiempo, Costo, Funcionalidades y Performance Cantidad enorme de conectores

WS DBMS FILES CRMS

Una gran comunidad Ayuda, Wiki, Foros, Blogs, BugTracker Rápida Curva de Aprendizaje Levantamiento de ambiente sencillo

Versiones

PlataformasWindows

Versión portable o instalable Requisitos JDK (Variable de entorno JAVA_HOME)

Linux/Mac Version Portable JDK Instalado (Variable de entorno JAVA_HOME)

http://www.talend.com/download

Hola Mundo!Ejecutamos

Creamos

ComponentesNos sirve para obtener un

archivo que este delimitado por algún tipo de patrón, en este caso usaremos un csv

Nos sirve para ir depurando, o mostrando la información obtenida, o transformada

Cada job se maneja de forma separada y cumple un

objetivo, la clave es ir abstrayendo y no tener todo

en 1 solo job, se pueden comunicar y orquestar entre

sí.

Esta row nos sirve para conectar los componentes, es la parte vital que sostiene la forma de trabajo de talen

ConfigurandoCreamos un Job

Creamos un csv

De la paleta de componentes arrastramos tFileInputDelimeted y tLogRow

Ingresamos el archivo csv al componente

Schemas!

Editamos el Schema

Settings del componente

Agregamos las columnas del CSV

por orden

ConectandoClick derecho

en el componente

Arrastramos hasta tLog

En tLog damos click en Sync Columns

Seleccionamos mode table, para que lo muestre en orden

Ejecutando

Vemos la consola con el resultado

RUN!

Ya tenemos los datos Para volcarlos a una BD

otra fuente de datos!

top related