trabajo final curso big data

36
CURSO BIG DATA MANUEL M. DE LA HOZ D. RAFAEL ALONSO ALVARADO CURSO BIG DATA UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA

Upload: mmartin-de-la-hoz

Post on 14-Jul-2015

147 views

Category:

Education


3 download

TRANSCRIPT

Page 1: Trabajo final   curso big data

CURSO

BIG DATA

MANUEL M. DE LA HOZ D.

RAFAEL ALONSO ALVARADO

CURSO BIG DATA

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

Page 2: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA

A.Marco-Teórico - Qué es la Big Data y la ciencia de los datos

Page 3: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

Definición:

En términos generales podríamos referirnos como a latendencia en el avance de la tecnología que ha abierto laspuertas hacia un nuevo enfoque de entendimiento y toma dedecisiones, la cual es utilizada para describir enormescantidades de datos (estructurados, no estructurados y semiestructurados) que tomaría demasiado tiempo y sería muycostoso cargarlos a un base de datos relacional para suanálisis.

Sin embargo, Big Data no se refiere a alguna cantidad enespecífico, ya que es usualmente utilizado cuando se habla entérminos de petabytes (1015) y exabytes (1018) de datos.

Page 4: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

Características Principales:

Además del gran volumen de información, esta existe en unagran variedad de datos que pueden ser representados dediversas maneras en todo el mundo, por ejemplo dedispositivos móviles, audio, video, sistemas GPS, incontablessensores digitales en equipos industriales, automóviles,medidores eléctricos, veletas, anemómetros, etc., los cualespueden medir y comunicar el posicionamiento, movimiento,vibración, temperatura, humedad y hasta los cambiosquímicos que sufre el aire, de tal forma que las aplicacionesque analizan estos datos requieren que la velocidad derespuesta sea lo demasiado rápida para lograr obtener lainformación correcta en el momento preciso.

Page 5: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

¿De dónde proviene toda esa información?

De acuerdo con un estudio realizado por Cisco[1], entre el2011 y el 2016 la cantidad de tráfico de datos móviles creceráa una tasa anual de 78%, así como el número de dispositivosmóviles conectados a Internet excederá el número dehabitantes en el planeta. Las naciones unidas proyectan quela población mundial alcanzará los 7.5 billones para el 2016de tal modo que habrá cerca de 18.9 billones de dispositivosconectados a la red a escala mundial, esto conllevaría a queel tráfico global de datos móviles alcance 10.8 Exabytesmensuales o 130 Exabytes anuales. Este volumen de tráficoprevisto para 2016 equivale a 33 billones de DVDs anuales o813 cuatrillones de mensajes de texto.

Page 6: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

¿De dónde proviene toda esa información?

No solamente de los seres, existe también la comunicacióndenominada máquina a máquina (M2M machine-to-machine)cuyo valor en la creación de grandes cantidades de datostambién es muy importante. Sensores digitales instalados encontenedores para determinar la ruta generada durante unaentrega de algún paquete y que esta información sea enviadaa las compañías de transporte, sensores en medidoreseléctricos para determinar el consumo de energía a intervalosregulares para que sea enviada esta información a lascompañías del sector energético. Se estima que hay más de30 millones de sensores interconectados en distintos sectorescomo automotriz, transporte, industrial, servicios, comercial,etc. y se espera que este número crezca en un 30%anualmente.

Page 7: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

¿Qué tipos de datos debo explorar?

Figura 1. Tipos de datos de Big Data[2]

Page 8: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

NoSQL: Bases de Datos no estructuradas

“not only SQL” – Es una categoría general de sistemas degestión de bases de datos que difiere de los RDBMS endiferentes modos.

- No tienen eschemas, no permiten JOINs, no intentangarantizar ACID y escalan horizontalmente.

- Tanto las bases de datos NoSQL como las relacionales sontipos de Almacenamiento Estructurado

Page 9: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

MapReduce

- Framework (modelo de programación) utilizado porGoogle para dar soporte a la computación paralela sobregrandes colecciones de datos en grupos decomputadoras y al commodity computing.

- El nombre del framework está inspirado en los nombresde dos importantes métodos, macros o funciones enprogramación funcional: Map y Reduce.

- Adoptado mundialmente como una implementaciónopensouce denominada Hadoop, su desarrollo fueliderado inicialmente por Yahoo y actualmente lo realizael proyecto Apache.

Page 10: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

PLN – Procesamiento de Lenguaje Natural

- Subdisciplina de la inteligencia artificial y la ramaingeniería de la lingüística computacional.

- Se ocupa de la formulación e investigación demecanismos eficaces computacionalmente para lacomunicación entre personas o entre personas ymáquinas por medio de lenguajes naturales.

- No trata de la comunicación por medio de lenguajesnaturales de una forma abstracta, sino de diseñarmecanismos para comunicarse que sean eficacescomputacionalmente —que se puedan realizar por mediode programas que ejecuten o simulen la comunicación—.

Page 11: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

PLN – Procesamiento de Lenguaje Natural

- Los modelos aplicados se enfocan no sólo a lacomprensión del lenguaje de por sí, sino a aspectosgenerales cognitivos humanos y a la organización de lamemoria. El lenguaje natural sirve sólo de medio paraestudiar estos fenómenos.

Componentes:

- Análisis morfológico.

- Análisis sintáctico.

- Análisis semántico.

- Análisis pragmático.

- Planificación y Generación de la frase.

Page 12: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

Estadística

- Los modelos aplicados se enfocan no sólo a lacomprensión del lenguaje de por sí, sino a aspectosgenerales cognitivos humanos y a la organización de lamemoria. El lenguaje natural sirve sólo de medio paraestudiar estos fenómenos.

Componentes:

- Análisis morfológico.

- Análisis sintáctico.

- Análisis semántico.

- Análisis pragmático.

- Planificación y Generación de la frase.

Page 13: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

Machine Learning

- Cualquier campo que necesita para interpretar y actuarsobre los datos puede beneficiarse de las técnicas deaprendizaje del ML.

- El aprendizaje automático se encuentra en laintersección de las ciencias de la computación, ingenieríay estadísticas y suele aparecer en otras disciplinas. Esuna herramienta que se puede aplicar a muchosproblemas.

- Utiliza diversos algoritmos como Python -

Page 14: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

B. PROBLEMA A RESOLVER

Se propone reducir la pérdida de tiempo que significa

actualmente la búsqueda y consulta de jurisprudencias

en el campo del derecho penal, a través de un

algoritmo que clasifique dichos documentos de acuerdo

con la estructura del código penal colombiano

Page 15: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

PROBLEMA A RESOLVER

Jurisprudencias sin clasificar

Algoritmode

clasificación

Jurisprudenciasclasificadas

Consulta de información clasificada

Page 16: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

¿CÓMO SE VA A LOGRAR?

Archivos BD Aparato Judicial

Preprocesamiento y generación de

archivos planos

Herramientas PLN

• Tokenizador: separa palabras

• Divisor de oraciones

• Verificador gramatical

• Lematizador: entrega las palabras en su forma original y coloca etiquetas

• Reconocimiento de nombresPatrones

lingüísticos

Extracción de conceptos

compuestos y simples

Page 17: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

FUENTES DE INFORMACIÓN

Jurisprudencia de Sala Penal de la Corte

Jurisprudencia de Sala Civil de la Corte

Tribunales

Decretos

Circulares

Resoluciones

Page 18: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

CRITERIOS PARA CLASIFICACIÓN

Tipos penales (delitos)

Verbos rectores

Agravantes

Calificantes

Legislación

Fecha de actualización de las BD fuente

Page 19: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

ESTRUCTURA DEL CÓDIGO PENAL COLOMBIANO

De carácter General

Título

4

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 5 Capitulo 5

Capitulo 6

Capitulo 7

LIBR

O P

RIM

ERO

Título

3

Capitulo 1

Capitulo 2

Capitulo 3

Título

6

Capitulo 1

Título

5

Capitulo 1Títu

lo 2

Capitulo 1 Capitulo 1

Capitulo 2

Título

1

Capitulo 4

Page 20: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

ESTRUCTURA DEL CÓDIGO PENAL COLOMBIANO

De Carácter Especial

Capitulo 5

Capitulo 6

Capitulo 7

Capitulo 8

Título

10

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Título

9

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 6

Capitulo 7Títu

lo 8

Capitulo 1

Título

7

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 5

Capitulo 6

Título

6Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 7

Capitulo 8

Capitulo 9

Capitulo 10

Título

4

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 5

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 5

Capitulo 6

Título

2

Capitulo 1

Título

11

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Capitulo 5

Capitulo 1

Capitulo 2

Capitulo 3

Título

5

Título

3

LIBR

O SEG

UN

DO

Título

14

Capitulo 1

Capitulo 2

Título

13

Capitulo 1

Capitulo 2

Capitulo 3

Capitulo 4

Título

12

Capitulo 1

Título

1

Capitulo 1

Capitulo 2

Page 21: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

CONJUNTO DE CLASES DE DOCUMENTOS

Page 22: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

CONJUNTO DE CLASES

Page 23: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

CONJUNTO DE CLASES

Page 24: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

CONJUNTO DE CLASES

Page 25: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

CONJUNTO DE CLASES

Page 26: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

CONJUNTO DE CLASES

Page 27: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

MODELO A UTILIZARLa clasificación en general, se puede se puede formalizar como latarea de aproximar una función objetivo desconocida Ф, que

describe cómo deben ser clasificados los documentos de acuerdocon un experto

El Clasificador: Ф´:D × C →{V, F}

Donde: C = { c1, c2, …, c|c| } ; conjunto de clases posibles

D = { d1, d2, …, dj } ; conjunto de documentos

Si Φ´:dj × ci →V : entonces dj es llamado un ejemplo positivo de ci

Si Φ´:dj × ci →F : entonces dj es llamado un ejemplo negativo de ci

Dependiendo de la aplicación un dj pude pertenecer a más de un ci

Page 28: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

MODELO A UTILIZARUn clasificador de textos para ci se genera automáticamente mediante unproceso inductivo (aprendiz), el cual a partir de documentos clasificados en ci o ci

obtiene las características que debe tener un documento nuevo para pertenecera ci

Page 29: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

SUPUESTOS PARA REPRESENTACIÓN DE UN DOCUMENTO• Ignorar la estructura del texto, no se intenta comprender

completamente el documento

• Se asume que los términos indexados son mutuamenteexcluyentes: unas palabras no incrementan laprobabilidad de aparición de otros en el texto (porsimplicidad)

• El texto se trata como una bolsa de palabras, no hayorden entre ellas (por eficiencia)

• Omitir palabras frecuentes que no contienen información semántica (palabras vacias)

• Se omiten palabras que aparecen una sola vez en toda la colección

Page 30: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

SUPUESTOS PARA REPRESENTACIÓN DE UN DOCUMENTO• Reducción del número de atributos de un texto a partir de la

ganancia de información (IG) que ofrecen:

P(ci ) = Probabilidad de ci

P(t) = Probabilidad de seleccionar un documento que contiene el término tP(ci |t) = Probabilidad de que un documento pertenezca a ci dado que tiene el término t

P(t) = Probabilidad de seleccionar un documento que no contiene el término tP(ci |t) = Probabilidad de que un documento pertenezca a ci dado que no contiene el término t

Page 31: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

REPRESENTACIÓN DE UN DOCUMENTO

• Una vez realizado el cálculo del IG para cada término o

atributo, se define un umbral mínimo y todos aquellos términos

cuyo IG esté por debajo del umbral se descartan

t1 t2 t3 t4 t5 … tn

d1 11 11 11 11 11 … 11

d2 12 12 12 12 12 … 12

d3 13 13 13 13 13 … 13

… …

dj j1 j2 j3 j4 j5 jn

Do

cum

en

tos

términos o atributos

Page 32: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

Valores para los :

• Binarios: 0 o 1, según el termino t se encuentre o no endocumento d

• Número de veces que aparece el termino t en el documento d

• Combinación de frecuencia del termino t tanto en el documentod como en el resto de documentos

Donde:

N: tamaño de la colección, número total de documentos

ni: número de documentos don de aparece el término i-esimo

Page 33: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

MÉTODO DE CLASIFICACIÓN

NAIVE BAYES

Probabilidad de que el documento dj pertenezca a la clase ci

P(ci ) = Probabilidad de la clase ci , documentos en ci sobre total documentos de entrenamiento

P(wtj |ci ) = cantidad de veces que wtj aparece en ci

count(wtj ,ci ) = número de veces que wtj aparece en ci

Page 34: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

PROCESO IMPLEMENTACIÓN MODELO

• Macro en word para convertir los archivos(jurisprudencias) de .doc a .txt

• Python, AWK para limpiar los archivos y filtarpalabras eliminando palabras vacias (no contieneninformación)

• Modelo MapReduce para determinar la frecuencia delas palabras

Page 35: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

PROCESO IMPLEMENTACIÓN MODELO

• En linux, en el directorio dirjuris se copian losarchivos .txt convertidos

• Se crea un solo archivo con todas las palabra deltotal de los archivos .txt, comando cat *.txt >todo.txt

• Función de mapeo sobre el archivo todo.txtcomando:

tr A-Z a-z < todo.txt | tr -cd 'a-z\n '|awk -f contar.awk|awk '{if(length($1) > 3 && $2 > 10) print $2 " " $1 }'|sort –nr

Se dejan palabras cuya frecuencia sea > 10 y cuyalongitud sea > 3

Page 36: Trabajo final   curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS

MAESTRÍA DE TELEINFORMÁTICA

CURSO BIG DATA

GRACIAS