i summit utpl-taller

116
TALLER isummit 2010 Datos, textos y visualización Sylvie Ratté, Ph.D. Directora del Laboratorio de Ingeniería Cognitiva y Semántica École de technologie supérieure, Montréal, QC

Upload: eccutpl

Post on 21-May-2015

284 views

Category:

Education


0 download

DESCRIPTION

Mining text and audiovisual data

TRANSCRIPT

Page 1: I summit utpl-taller

TALLER isummit 2010

TALLER isummit 2010

Datos, textos y visualización

Sylvie Ratté, Ph.D.Directora del Laboratorio de Ingeniería Cognitiva y Semántica

École de technologie supérieure, Montréal, QC

Page 2: I summit utpl-taller

2

ProgramaPrograma

• introducción• parte 1: WEKA y MD básica• parte II: RapidMiner y su interfaz visual y mas• parte III: R y sus posibilidades• parte IV: GATE y los textos• discusión y conclusión

Page 3: I summit utpl-taller

IntroducciónIntroducción

ÉTS, el LiNCS y el taller

Page 4: I summit utpl-taller

4

IntroducciónIntroducción

1. Sobre la ÉTS

2. Sobre las investigaciones del LiNCS

3. Sobre el taller y las herramientas

4. Sobre el transcurso del taller (duración, método)

Page 5: I summit utpl-taller

5

1. Sobre la ÉTS1. Sobre la ÉTS

ÉTS - École de technologie supérieure•'Top' 5 de las 45 escuelas y facultades de ingeniería en Canadá•Uno de cada cuatro Ingenieros de la Provincia de Qébec se graduó de la ETS•Más de 4 500 estudiantes•Edificios ultra moderno•1000 unidades en las residencias

Page 6: I summit utpl-taller

6

1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS

LiNCS - Laboratorio de Ingeniería Cognitiva y Semántica

• Focos en el trazado entre la descripción escrita en lenguaje natural (documento) y su representación visual (modelo, diagrama y animación).

• Minería de textos• Minería del Web• Minería de redes• Modelos de lenguaje

2. Sobre las investigaciones del LiNCS2. Sobre las investigaciones del LiNCS

Page 7: I summit utpl-taller

7

3. Sobre el taller y las herramientas3. Sobre el taller y las herramientas

Extracción de

información

Extracción de

información

Minería de textos

Minería de textos

Minería de datos

Minería de datos

Estadística y mas

Estadística y mas

Page 8: I summit utpl-taller

8

4. Sobre el transcurso del taller4. Sobre el transcurso del taller

• Duración: 4 partes de 4 horas• Método:

• muchas practicas;• poco teoría;• experimentación libre

• «Vamos al grano!»: Sobre la minería de datos

Page 9: I summit utpl-taller

Parte IParte I

WEKA y Minería de datos básica

4 ejercicios y una experimentación

Page 10: I summit utpl-taller

10

programaprograma

1. introducción

2. WEKA: presentación

3. ejercicio I: el «explorer» y predicción

4. ejercicio II: el «explorer» y clasificación

5. ejercicio III: clustering

6. ejercicio IV: «knowledge flow»

7. experimentación libre

Page 11: I summit utpl-taller

11

1. Introducción1. Introducción

• La minería de datos consiste en la extracción no trivial de información que reside de manera implícita en los datos.

• Dicha información era previamente desconocida y podrá resultar útil para algún proceso.

• En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.

• En las próximas horas, vamos a experimentar con el concepto de manera practica pero por ahora...

Page 12: I summit utpl-taller

12

1. Introducción1. Introducción

• Usted es parte de un grupo de personas en una isla desierta.

• Para sobrevivir, debe comer hongos nativos.

• Cuatro amigos fueron lo bastante temerario y comieron 4 especímenes diferentes...

• Dos de ellos están muy enfermos

• Se descubre 4 especímenes mas:

Espécimen Pesado Olor Moteado Tóxico

A 0 0 0 0

B 0 1 1 1

C 1 1 0 0

D 1 0 0 1

Espécimen Pesado Olor Moteado Tóxico

E 1 1 1

F 0 0 1

G 0 1 0

H 1 0 1

Page 13: I summit utpl-taller

13

1. Introducción1. Introducción

• Cada vez que hago este pequeño ejercicio me resulta lo mismo:

• técnicas tipo reglas: IF...THEN (antecedentes, consequentes)

• técnicas tipo probabilidad: Bayes• técnicas tipo distancias: Knn• Este ejemplo ilustra un grupo de métodos de predicción

Page 14: I summit utpl-taller

14

1. Introducción1. Introducción

• Espiar a mi vecino, el banqueroperspectiva temperatura humedad viento juega

soleado caliente alto F no

soleado caliente alto T no

cubierto caliente alto F sí

lluvioso suave alto F sí

lluvioso fresco normal F sí

lluvioso fresco normal T no

cubierto fresco normal T sí

soleado suave alto F no

soleado fresco normal F sí

lluvioso suave normal F sí

soleado suave normal T sí

cubierto suave alto T sí

cubierto caliente normal F sí

lluvioso suave alto T no

perspectiva temperatura humedad viento juega

soleado caliente normal F

cubierto fresco alto T

cubierto caliente alto T

lluvioso suave normal F

Page 15: I summit utpl-taller

15

1. Introducción1. Introducción

• Fases de construcción

Selección del conjunto de datos

Análisis de las propiedades de los datos

Transformación del conjunto de datos de entrada

Seleccionar y aplicar la técnicade minería de datos

Evaluar los resultados

soleado, humidad, vestido negro,tipo de pantalon, tipo de caro,llamada telefonica, temperatura,viento, juega golf, trabaja, a comer

soleado, humidad, vestido negro,tipo de pantalon, tipo de caro, llamada telefonica, temperatura,viento, juega golf, trabaja, a comer

ZeroR OneR Naive Bayes Árbol de decisiones K-vecinos Red neuronal Inducción de reglas

http://www.crisp-dm.org/

Page 16: I summit utpl-taller

16

1. Introducción1. Introducción

• Illustracion de ZeroR

perspectiva temperatura humedad viento juegasoleado caliente alto F nosoleado caliente alto T nocubierto caliente alto F sílluvioso suave alto F sílluvioso fresco normal F sílluvioso fresco normal T nocubierto fresco normal T sísoleado suave alto F nosoleado fresco normal F sílluvioso suave normal F sísoleado suave normal T sícubierto suave alto T sícubierto caliente normal F sílluvioso suave alto T no

perspectiva temperatura humedad viento juega

soleado caliente normal F

cubierto fresco alto T

cubierto caliente alto T

lluvioso suave normal F

9 sí5 no

sísísísí

Page 17: I summit utpl-taller

17

1. Introducción1. Introducción

• Ilustración de OneRPerspectiva | No Sí--------------------------------------------Soleado | 3 2--------------------------------------------Cubierto | 0 4--------------------------------------------Lluvioso | 2 3

Temp | No Sí--------------------------------------------Caliente | 2 2--------------------------------------------Suave | 2 4--------------------------------------------Fresco | 1 3

Humedad | No Sí--------------------------------------------Alta | 4 3--------------------------------------------Normal | 1 6

Viento | No Sí--------------------------------------------F | 2 6--------------------------------------------T | 3 3

10/14

9/14

10/14

9/14

perspectiva temperatura humedad viento juega

soleado caliente normal F

cubierto fresco alto T

cubierto caliente alto T

lluvioso suave normal F

nosísísí

Page 18: I summit utpl-taller

18

2. WEKA: presentación2. WEKA: presentación

Page 19: I summit utpl-taller

19

3. Ejercicio I: el «explorer» de Weka3. Ejercicio I: el «explorer» de Weka

• Objetivo: aprender a manejar «el explorer» de Weka• cargar un archivo de datos en de Weka;• aplicar algunos algoritmos de clasificación;• navegar;• ver algunos resultados;• aprender el formato de datos ARFF.

• weather.nominal.arff• ABRE este fichero primero dentro un programa TXT-only

Page 20: I summit utpl-taller

20

3. Ejercicio I: el «explorer» de Weka3. Ejercicio I: el «explorer» de Weka

• @relation weather.symbolic

• @attribute outlook {sunny, overcast, rainy}• @attribute temperature {hot, mild, cool}• @attribute humidity {high, normal}• @attribute windy {TRUE, FALSE}• @attribute play {yes, no}

• @data• sunny,hot,high,FALSE,no• sunny,hot,high,TRUE,no• overcast,hot,high,FALSE,yes

Page 21: I summit utpl-taller

21

3. Ejercicio I: el «explorer» de Weka3. Ejercicio I: el «explorer» de Weka

Page 22: I summit utpl-taller

22

3. Ejercicio I: el «explorer» de Weka3. Ejercicio I: el «explorer» de Weka

• ZeroR• Naive Bayes• IbK• J48

• ZeroR• Naive Bayes• IbK• J48

Page 23: I summit utpl-taller

23

3. Ejercicio I: el «explorer» de Weka3. Ejercicio I: el «explorer» de Weka

Page 24: I summit utpl-taller

24

4. Ejercicio 1I: clases múltiples4. Ejercicio 1I: clases múltiples

• iris.arff -- hace una clasificación con J48...

Page 25: I summit utpl-taller

25

5. Ejercicio III: clustering5. Ejercicio III: clustering

• iris.arff

Page 26: I summit utpl-taller

26

5. Ejercicio III: clustering5. Ejercicio III: clustering

Page 27: I summit utpl-taller

27

6. Ejercicio V: «knowledge flow»6. Ejercicio V: «knowledge flow»

• segment-challenge and segment-test• Logistic regression

Page 28: I summit utpl-taller

28

6. Ejercicio V: «knowledge flow»6. Ejercicio V: «knowledge flow»

Page 29: I summit utpl-taller

Parte IIParte II

RapidMiner: interfaz visual y mas

Page 30: I summit utpl-taller

30

Parte II: programaParte II: programa

1. RapidMiner: presentación

2. Ejercicio I: ficheros .arff

3. Ejercicio II: repositorios propios de RM

4. Ejercicio III: ROC y otras métricas de evaluación

5. Ejercicio IV: «train» y «test»

6. Ejercicio V: PCA (teoría) y clustering

7. Experimentación libre

Page 31: I summit utpl-taller

31

1. RapidMiner: presentación1. RapidMiner: presentación

operadores y

repertorios

operadores y

repertorios

igual al KnowledgeFlow de

Weka

igual al KnowledgeFlow de

Weka

parámetros de la

selección actual

parámetros de la

selección actual

ejecución y visualizaciónejecución y visualización

reporte de los problemas

reporte de los problemas

parámetros de la

selección actual

parámetros de la

selección actual

ayuda sobre la selección

actual

ayuda sobre la selección

actual

Page 32: I summit utpl-taller

32

2. Ejercicio I: ficheros .arff en RM2. Ejercicio I: ficheros .arff en RM

• Objetivo: los repositorios y los datos

Page 33: I summit utpl-taller

33

2. Ejercicio I: iris con RapidMiner2. Ejercicio I: iris con RapidMiner

• Objetivo: los repositorios y los datos

Page 34: I summit utpl-taller

34

2. Ejercicio I: iris con RapidMiner2. Ejercicio I: iris con RapidMiner

• Objetivo: los repositorios y los datos

Page 35: I summit utpl-taller

35

2. Ejercicio I: iris con RapidMiner2. Ejercicio I: iris con RapidMiner

Page 36: I summit utpl-taller

36

2. Ejercicio I: iris con RapidMiner2. Ejercicio I: iris con RapidMiner

Page 37: I summit utpl-taller

37

2. Ejercicio II: repositorios propios de RM 2. Ejercicio II: repositorios propios de RM

• Siempre es mas fácil transformar los ficheros directamente en los repositorios de RM.

Page 38: I summit utpl-taller

38

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

• ROC : receiver operating characteristic .... pero primero... regresamos al principio

Matriz de confusión

Precisión del clasificador: accuracy = (TP+TN)/(TP+TN+FP+FN)

Pueden imaginar un caso especial:la precisión muy alta pero de verdad, no significa nada?

AYUDA: pensan en ZeroR...

Page 39: I summit utpl-taller

39

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

• Limitaciones de la precisión (“accuracy”) :

• Supongamos un problema con 2 clases:• 9990 ejemplos de la clase 1• 10 ejemplos de la clase 2

• Si el modelo de clasificación siempre dice que los ejemplos son de la clase 1, su precisión es

• 9990/10000 = 99.9%

• Totalmente engañosa, ya que nunca detectaremos ningún ejemplo de la clase 2.

Page 40: I summit utpl-taller

40

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

precision = TP/(TP+FP) True positive recognition raterecall = sensitivity = TP/P = TP/(TP+FN) True negative recognition ratespecificity = TN/N = TN/(TN+FP)

F-measure = 2*precision*recall / (precision+recall)F= 2TP / (2TP+FP+FN)

Medidas “cost-sensitive”

Page 41: I summit utpl-taller

41

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

Page 42: I summit utpl-taller

42

• Para evaluar la precisión de un modelo de clasificación nunca debemos utilizar el conjunto de entrenamiento (lo que nos daría el “error de resustitución” del clasificador), sino un conjunto de prueba independiente:

• Por ejemplo, podríamos reservar 2/3 de los ejemplos disponibles para construir el clasificador y el 1/3 restante lo utilizaríamos de conjunto de prueba para estimar la precisión del clasificador.

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

Page 43: I summit utpl-taller

44

• Variantes de la validación cruzada

• “Leave one out”: Se realiza una validación cruzada con k particiones del conjunto de datos, donde k coincide con el número de ejemplos disponibles.

• Validación cruzada estratificada: Las particiones se realizan intentando mantener en todas ellas la misma proporción de clases que aparece en el conjunto de datos completo.

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

Page 44: I summit utpl-taller

45

• Curvas ROC (Receiver Operating Characteristics)

• Eje vertical: “true positive rate” TPR = TP/(TP+FN)• Eje horizontal: “false positive rate” FPR = FP/(FP+TN)

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

Page 45: I summit utpl-taller

46

Curvas ROC•Desarrolladas en los años 50 para analizar señales con ruido: caracterizar el compromiso entre aciertos y falsas alarmas.•Permiten comparar visualmente distintos modelos de clasificación.•El área que queda bajo la curva es una medida de la precisión (accuracy) del clasificador:•Cuanto más cerca estemos de la diagonal (área cercana a 0.5), menos preciso será el modelo.•Un modelo “perfecto” tendrá área 1.

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

Page 46: I summit utpl-taller

47

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

Ningún modelo es consistentemente mejor que el otro:

M1 es mejor para FPR bajos, M2 para FPR altos.

Page 47: I summit utpl-taller

48

Curvas ROC•¿Cómo construir la curva ROC?•Se usa un clasificador que prediga la probabilidad de que un ejemplo E pertenezca a la clase positiva P(+|E)•Se ordenan los ejemplos en orden decreciente del valor estimado P(+|E)•Se aplica un umbral para cada valor distinto de P(+|E), donde se cuenta el número de TP, FP, TN y FN.

• TPR = TP/(TP+FN)• FPR = FP/(FP+TN)

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

Page 48: I summit utpl-taller

49

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

Page 49: I summit utpl-taller

50

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

• labor.ooi

Page 50: I summit utpl-taller

51

3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación

Page 51: I summit utpl-taller

52

4. Ejercicio IV: «train» y «test»4. Ejercicio IV: «train» y «test»

• Modelo: Apply testset• digit2_train• digit2_test

Page 52: I summit utpl-taller

53

5. Ejercicio V: PCA5. Ejercicio V: PCA

• Sobre iris

Experimentación libre: comparación de los resultados con el

ExampleSet original y con el ExampleSetPCA

Page 53: I summit utpl-taller

54

6. Ejercicio VI: «market basket analysis»6. Ejercicio VI: «market basket analysis»

Page 54: I summit utpl-taller

55

6. Ejercicio VI: «market basket analysis»6. Ejercicio VI: «market basket analysis»

Page 55: I summit utpl-taller

56

6. Ejercicio V: «market basket analysis»6. Ejercicio V: «market basket analysis»

Page 56: I summit utpl-taller

57

6. Ejercicio V: «market basket analysis»6. Ejercicio V: «market basket analysis»

Page 57: I summit utpl-taller

Parte IIIParte III

Representación de textos, R y LSA

Page 58: I summit utpl-taller

59

Parte III: programaParte III: programa

1. Minería de textos: requisitos

2. Teoría: LSA

3. Ejercicio I: LSA en RapidMiner

4. R: presentación

5. Ejercicio II: LSA en R

6. Ejercicio III: Visualización en R

7. Experimentación libre

Page 59: I summit utpl-taller

60

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

• Buscar «text mining» en Google...

• Muchas informaciones en formato textual

• Estimacion: 80%-85% de datos en textos LN (lenguajes naturales)

• Ejemplo en BioTech

• 80% del conocimiento in artículos científicos

• Humano: leer 60 artículos / semana ...!

• ... 10% son interesante... 6 semanas, 300/años

• MedLine: 10 000 articulos / mes !!!

• Chemical Abstract Registry: 4000 / dia, 2.5 miliones en 2004

Page 60: I summit utpl-taller

61

dfdfdsafsdafdsafdsafdsCharacterizing Trajectories of Moving Objects

Mobile Medecine: Drug Information through NL SMS

Capture Relations in Biomedical Text

Texts for a Cognitive Vision System

Mapping Natural Language to Imagery

Automated Identification of LTL Patterns

Mapping NL to Imagery

Automation of Requirements Analysis

NL Interface for Crime-related Queries

Dependability Analysis in Industrial Use Cases

Web 2.0 and NLP

Animated Agent that Understand NL

Processing NL Requirements

Automatic Diagram Drawing

Automatic Construction of UML Diagrams

Automated Conceptual Data Modeling

Intelligent User Interfaces for Wikis

Integrating BPM and Governing Documents

Integrating Requirements and Model-Driven Engineering

Translation NL into Temporal and Dynamic Logic

Fact Extraction from Source Code

Finding Defects in NL Confidentiality Requirements

Extracting Causation Knowledge

Multilingual Understanding of Natural Business Rules

SMS Text Normalization

Text Mining for Clinical Medical Records

Event Model for Analysis of Verb Sense

Intelligent Decision Support System

User-Friendly Interface for Fingerprint Systems

Analyzing Gap between Workflows and NL Descriptions

000

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

Page 61: I summit utpl-taller

62

• Classify news stories as World, US, Business, SciTech, Sports, Entertainment, Health, Other

• Add MeSH terms to Medline abstracts• e.g. “Conscious Sedation” [E03.250] • Classify business names by industry.• Classify student essays as A,B,C,D, or F. • Classify email as Spam, Other.• Classify email to tech staff as Mac, Windows, ..., Other.• Classify pdf files as ResearchPaper, Other• Classify documents as WrittenByReagan, GhostWritten• Classify movie reviews as Favorable,Unfavorable,Neutral.• Classify technical papers as Interesting, Uninteresting.• Classify jokes as Funny, NotFunny.• Classify web sites of companies by Standard Industrial Classification

(SIC) code.

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

Page 62: I summit utpl-taller

63

• Best-studied benchmark: Reuters-21578 newswire stories• 9603 train, 3299 test documents, 80-100 words each, 93 classes

ARGENTINE 1986/87 GRAIN/OILSEED REGISTRATIONSBUENOS AIRES, Feb 26Argentine grain board figures show crop registrations of grains, oilseeds and their

products to February 11, in thousands of tonnes, showing those for future shipments month, 1986/87 total and 1985/86 total to February 12, 1986, in brackets:

Bread wheat prev 1,655.8, Feb 872.0, March 164.6, total 2,692.4 (4,161.0). Maize Mar 48.0, total 48.0 (nil). Sorghum nil (nil) Oilseed export registrations were: Sunflowerseed total 15.0 (7.9) Soybean May 20.0, total 20.0 (nil)The board also detailed export registrations for subproducts, as follows....

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

Page 63: I summit utpl-taller

64

Cual es la mejor representaciónpara un documento?

sencilla / útil

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

Page 64: I summit utpl-taller

el gato gato gato gordoel gato gato gato gordo

el ... el gato gordo!el ... el gato gordo!el gato gordo gordo gordo

gordoel gato gordo gordo gordo

gordo

AABBCC

1 1 3

1 2 1

4 1 1

gordogordo elel gatogato

AABBCC

65

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

Page 65: I summit utpl-taller

66

Secuencias de caracteres+ Nada de conocimiento de lingüística!Consecuencia: herramientas muy sencillas para construir la matriz- Si quiere un poco de semántica, la representación es muy débil

N-grammes (unigrammes, bigrammes, trigrammes, …) Google (2006): corpus de n-grams

Gratuito en 2006, 150$US en 2009 Fichero txt: 24 Mo zip Number of tokens: 1,024,908,267,229 Number of sentences: 95,119,665,584 Number of unigrams: 13,588,391 Number of bigrams: 314,843,401 Number of trigrams: 977,069,902 Number of fourgrams: 1,313,818,354 Number of fivegrams: 1,176,470,663

Atributos

25

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

Page 66: I summit utpl-taller

67

Palabras bag-of-words representation Herramientas necesarias: por lo menos un «tokenizer», mas un

«lemmatizer» Expresiones regulares (*, ?, etc.) Secuencias de palabras (1, 2, 3...) Google (2006): corpus de n-grams

Gratuito en 2006, 150$US en 2009 Fichero txt: 24 Mo zip Number of tokens: 1,024,908,267,229 Number of sentences: 95,119,665,584 Number of unigrams: 13,588,391 Number of bigrams: 314,843,401 Number of trigrams: 977,069,902 Number of fourgrams: 1,313,818,354 Number of fivegrams: 1,176,470,663

26

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

Atributos

Page 67: I summit utpl-taller

68

Palabras que pertenece a una clase lexical en particular (ex. solamente los verbos, solamente los nombres, etc.)

Herramientas necesarias: POS-tagger

Los tesauros y las taxonomías permiten establecer una relación entre las formas de misma significación (sinónimos) o establecer una relación entre una forma de significación general y otra mas especifica (hiperonimia?!!)

Herramientas: WordNet, EuroWordNet

Otra posibilidad: los «tags» colaborativos

30

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

Atributos

Page 68: I summit utpl-taller

69

Presencia/ausencia del termino Frecuencia del termino : TF(j)

Frecuencia tri-valuada: 0, 1, 2 Frecuencia TF-IDF(j) = TF(j) * IDF(j)

33

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

Valores

inverse document frequency

Page 69: I summit utpl-taller

70

o Possibilitéso Tf-idfo Similarité

Multimodal

N

df(m)tfidf(m) = tf(m) * log

Nombre de documentosFrecuencia de la palabra

en el documentoNombre de documentos contendiendo la palabra

34

1. Mineria de textos: requisitos1. Mineria de textos: requisitos

La palabra (m) es mas importante si aparece muchas veces en un documento.

La palabra (m) es menos importante si aparece en muchos documentos

Valores

Page 70: I summit utpl-taller

71

• Principal Component Analysis: buscar el mejor «plan» de proyección (pasar de 1000 a 30 dimensiones p.e.)

• Latent Semantic Analysis: basado sobre Singular Value Decomposition

• U contiene los «eigen vectors» de A * A • V contiene los «eigen vectors» de A * A• S contiene las «singular values»

• Latent Dirichlet Allocation: descubierto de «topics»• pLSA, etc.

Reduccion de la dimensionalidad / modelos de lenguaje

A = U * S * VT

T

T

2. LSA2. LSA

Page 71: I summit utpl-taller

72

• LSA transforma la matriz de ocurrencias en una "relación" entre los términos y "conceptos" y una relación entre estos conceptos y de los documentos.

A A

documentos términos

docu

mento

s

térm

inos

T

A = U * S * VT

U

AA

documentostérminos

docu

mento

s

térm

inos

TV

2. LSA2. LSA

Page 72: I summit utpl-taller

73

distancia entre 2

documentos

distancia entre 2

«palabras»

2. LSA2. LSA

Page 73: I summit utpl-taller

74

Similaridad cosine

∑x1i x2iSim(D1, D2) =

∑xj2 ∑xk

2

35

2. LSA2. LSA

Page 74: I summit utpl-taller

75

2. LSA2. LSA

Page 75: I summit utpl-taller

76

3. LSA con RapidMiner3. LSA con RapidMiner

bow.csv

Page 76: I summit utpl-taller

77

3. LSA con RapidMiner3. LSA con RapidMiner

Page 77: I summit utpl-taller

78

3. LSA con RapidMiner3. LSA con RapidMiner

Page 78: I summit utpl-taller

79

3. LSA con RapidMiner3. LSA con RapidMiner

Page 79: I summit utpl-taller

80

4. R: Presentacion4. R: Presentacion

Page 80: I summit utpl-taller

81

5. LSA con R5. LSA con R

Page 81: I summit utpl-taller

82

5. LSA con R5. LSA con R

dependencias:

SnowballRwekaRjava

Rwekajar

Mas rapido de cargarlos archivos ZIP sobre

el sitio de R...

Page 82: I summit utpl-taller

83

5. LSA con R5. LSA con R

> X = read.csv("bow.csv", header=TRUE, sep=",")> X (para ver su contenido)

Menu Archivo / Cambiar dir...seleccionar el repertorio donde esta

BOW.CSV (ex. LSA Datasets)

Page 83: I summit utpl-taller

84

5. LSA con R5. LSA con R

> R = lsa(X, dims=dimcalc_share())> R (para ver su contenido: $tk, $dk y $sk)

> U = R$tk> V = R$dk> S = R$sk

> Xmodif = as.textmatrix(R)> cosine(Xmodif[,1], Xmodif[,2])> cosine(Xmodif)

Page 84: I summit utpl-taller

85

5. Visualización de LSA en R5. Visualización de LSA en R

> mots = read.csv("mots.csv", header=FALSE, sep=",")> mots> plot(U[,1], U[,2], col = "red")> textxy(U[,1], U[,2], t(mots), cx=0.5, dcol="red")

> plot(V[,1], V[,2], col = "blue")> textxy(V[,1], V[,2], 1:9, cx=0.5, dcol="blue")

Page 85: I summit utpl-taller

86

5. Visualización de LSA en R5. Visualización de LSA en R

> etiq = append(t(mots), 1:9)> etiq> losX = append(U[,1], V[,1])> losY = append(U[,2], V[,2])> plot(losX, losY, col="green")> textxy(losX, losY, etiq, cx=0.75, dcol="blue")

Page 86: I summit utpl-taller

Parte IVParte IV

GATE y los textos

Page 87: I summit utpl-taller

88

Parte IV: programaParte IV: programa

1. «Text analytics» y minería de textos

2. GATE: presentación

3. Ejercicio I: documentos y corpus

4. Ejercicio II: Processing Resources

5. Ejercicio III: Applications

6. Ejercicio IV: Anotaciones y esquemas (patrones)

7. Experimentación libre

Page 88: I summit utpl-taller

89

Natural Language ProcessingNLP

Minería de textosMT

IR Busceda de information

(information retrieval)

Semantic Web

Web 2.0

Text AnalyticsAnalítica de

textos

1. «text analytics» y Minería de textos1. «text analytics» y Minería de textos

Page 89: I summit utpl-taller

90

• Había una vez una serie de palabras• Təmeyŋəlevtpəγtərkən.

(Skorik 1961: 102)

Nociones

10

1. «text analytics» y Minería de textos1. «text analytics» y Minería de textos

verbosnombresadjetivosadverbios

pronombresconjunción

determinantes

yo, tu, la, les, y, o, cual...

•part-of-speech: POS

Page 90: I summit utpl-taller

91

•el libro, los libros

•canto, cantamos, cantan

•difícil, difícilmente

• instituto, institutor, institución, instituir

13

1. «text analytics» y Minería de textos1. «text analytics» y Minería de textos

Nociones

Page 91: I summit utpl-taller

92

ellala mujer

la mujer muy grandela mujer con los aquellos ojos verdesla mujer con el cabello largo que me

ha dado un regalo

Nelsonlos ninos

los estudiantes de la UTPLel pequeno profesor con el pelo corto

la carta que me has dado16

1. «text analytics» y Minería de textos1. «text analytics» y Minería de textos

Nociones

Page 92: I summit utpl-taller

93

• sintagmas nominales (noun phrase): NP

• sintagmas preposicionales (prepositional phrase): PP

• sintagmas verbales (verbal phrase): VP

• sintagmas adjetivas (adjectival phrase): AP

17

1. «text analytics» y Minería de textos1. «text analytics» y Minería de textos

Nociones

Page 93: I summit utpl-taller

94

• S NP VP• NP Nprop• NP Det N• NP NP PP• VP V NP• VP VP PP• PP P NP

N libro, castillo, parque, cazador, mesa, gato, pastel

Nprop Marcelo V come, caza, ve,

estrangula, pica, construye

P en, sobre, detrás Det el, un

18

1. «text analytics» y Minería de textos1. «text analytics» y Minería de textos

Nociones

Marcelo estrangula un gato en el parque detrás el castillo

Page 94: I summit utpl-taller

95

2. GATE: presentación2. GATE: presentación

resourcesresources

mensajes, anotations and construccion de

applicationes

mensajes, anotations and construccion de

applicationes

Page 95: I summit utpl-taller

96

2. GATE: presentación2. GATE: presentación

Page 96: I summit utpl-taller

97

2. GATE: presentación2. GATE: presentación

Page 97: I summit utpl-taller

98

2. GATE: presentación2. GATE: presentación

Page 98: I summit utpl-taller

99

3. Ejercicio I: documentos y corpus3. Ejercicio I: documentos y corpus

1. carga y visualización documentos in GATE

2. navegación de los conjuntos de anotaciones y lista de anotaciones.

Page 99: I summit utpl-taller

100

3. Ejercicio I: documentos y corpus3. Ejercicio I: documentos y corpus

1. nombre de archivos y de carpetas: sin espacio

Page 100: I summit utpl-taller

101

3. Ejercicio I: documentos y corpus3. Ejercicio I: documentos y corpus

Page 101: I summit utpl-taller

102

3. Ejercicio 1: documentos y corpus3. Ejercicio 1: documentos y corpus

corpus_1

Page 102: I summit utpl-taller

103

3. Ejercicio 1: documentos y corpus3. Ejercicio 1: documentos y corpus

Page 103: I summit utpl-taller

104

4. Ejercicio II: Processing Resources4. Ejercicio II: Processing Resources

Page 104: I summit utpl-taller

105

4. Ejercicio II: Processing Resources4. Ejercicio II: Processing Resources

Page 105: I summit utpl-taller

106

4. Ejercicio II: Processing Resources4. Ejercicio II: Processing Resources

Page 106: I summit utpl-taller

107

4. Ejercicio II: Processing Resources4. Ejercicio II: Processing Resources

Page 107: I summit utpl-taller

108

5. Ejercicio III: Aplicaciones5. Ejercicio III: Aplicaciones

Page 108: I summit utpl-taller

109

5. Ejercicio III: Aplicaciones5. Ejercicio III: Aplicaciones

Page 109: I summit utpl-taller

110

5. Ejercicio III: Aplicaciones5. Ejercicio III: Aplicaciones

MyTokens

MySentences

MyTokens

Page 110: I summit utpl-taller

111

5. Ejercicio III: Aplicaciones5. Ejercicio III: Aplicaciones

Page 111: I summit utpl-taller

112

6. Ejercicio IV: Anotaciones y esquemas (patrones)6. Ejercicio IV: Anotaciones y esquemas (patrones)

Page 112: I summit utpl-taller

113

6. Ejercicio IV: Anotaciones y esquemas (patrones)6. Ejercicio IV: Anotaciones y esquemas (patrones)

Page 113: I summit utpl-taller

114

6. Ejercicio IV: Anotaciones y esquemas (patrones)6. Ejercicio IV: Anotaciones y esquemas (patrones)

Page 114: I summit utpl-taller

115

6. Ejercicio IV: Anotaciones y esquemas (patrones)6. Ejercicio IV: Anotaciones y esquemas (patrones)

Page 115: I summit utpl-taller

116

6. Ejercicio IV: Anotaciones y esquemas (patrones)6. Ejercicio IV: Anotaciones y esquemas (patrones)

Page 116: I summit utpl-taller

Conclusión y discusiónConclusión y discusión

Donde vamos ahora?