i summit utpl-conferencia
DESCRIPTION
Data Mining TechnologiesTRANSCRIPT
isummit 2010isummit 2010
Minería y «Text Analytics»
Sylvie Ratté, Ph.D.Directora del Laboratorio de Ingeniería Cognitiva y Semántica
École de technologie supérieure, Montréal, QC
2
ProgramaPrograma
1. Breve presentación2. «Text analytics» y minería de textos3. Textrix (Anastasia)4. Correspondencia5. Binocle
1. Breve presentación
LiNCS y la ÉTS
«Visualización» de textos
1. «Text analytics» y minería de textos
2. Técnicas
3. Proyecto Binocle
4
1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS
ÉTS - École de technologie supérieure•'Top' 5 de las 45 escuelas y facultades de ingeniería en Canadá•Uno de cada cuatro Ingenieros de la Provincia de Québec se graduó de la ETS•Más de 4 500 estudiantes•Edificios ultra moderno•1000 unidades en las residencias
5
1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS
LiNCS - Laboratorio de Ingeniería Cognitiva y Semántica
Focos en el trazado entre la descripción escrita en lenguaje natural y su representación visual (modelos, diagramas y mapas conceptuales).
Minería de textos
Minería del Web
Minería de redes
Modelos de lenguaje
Sylvie Ratté y Christian Desrosiers
grupos y classificacionesgrupos y classificaciones
6
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
alertasalertas
7
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
representación del dominiorepresentación del dominio
8
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
representación de procesosrepresentación de procesos
9
1. Breve presentación: «Visualización» de textos1. Breve presentación: «Visualización» de textos
Dar sentido a la informaciónDependiendo del dominio...Según las especializaciones ...De acuerdo con las preferencias del usuario ...Según los requisitos...
1. Breve presentación
2. «Text analytics» y minería de textos
Porque los textos?
Porque es difícil?
Porque es fácil?
1. Textrix (Anastasia)
2. Correspondencia
3. Binocle
12
2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos?
Estimación:
80%-85% de los datos disponibles son textos LN (lenguajes naturales)
Ejemplo en Biotecnología:
80% del conocimiento in artículos científicos
Vamos a ser optimista : 60 artículos / semana ...!
de los cuales: 10% son interesantes... 6 / semana, 300 / años
MedLine: publica 10 000 artículos / mes !!!
Chemical Abstract Registry: 4000 elementos / día, 2.5 millones en 2004
13
2. «text analytics» y Minería de textos: porque los textos?2. «text analytics» y Minería de textos: porque los textos?
Extracción de relaciones en textos de biomedicinaAnálisis de las diferencias entre descripciones en LN y «workflows»Informaciones mobiles sobre medicamentos por SMS en LNBuscar defectos en requisitos de confidentialidadAnálisis de intenciones humanasConstrucción automática de diagramas UMLIntegración de modelos de procesos de negocios con documentos de «Governance»Clasificación automática de reportes de radiologíaExtracción de las interacciones entre proteínas
14
Natural Language ProcessingNLP
Minería de textosMT
IR Busceda de information
(information retrieval)
Semantic Web
Web 2.0
Text AnalyticsAnalítica de
textos
2. «text analytics» y Minería de textos2. «text analytics» y Minería de textos
15
QuickTime™ and axvid decompressor
are needed to see this picture.
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
16
• I put the bouquet of flowers that you gave me for Mother's day in the vase that you gave me for my birthday on the chest of drawers that you gave me for armistice day
• 4862 arbres syntaxiques (Church & Patil 82)
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
17
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
George W. Bush pensaba que tranquilamente podría terminar su mandato después de una gira en Irak. En una conferencia de prensa un periodista lanzó, sin golpearlo, dos zapatos e lo insultó cuando éste dio la mano al primer ministro iraquí en su oficina en Bagdad.Mientras los dos hombres se reunieron en el despacho privado del primer ministro Nouri al-Maliki, un periodista iraquí saltó y lanzó sus zapatos al presidente de los EE.UU..
Quien dio la mano al
ministro ?
Quien dio la mano al
ministro ?
La oficina de quien?La oficina de quien?
el periodista y Bush?
el ministro y el periodista?
Bush y el ministro?
el periodista y Bush?
el ministro y el periodista?
Bush y el ministro?
imágenestítulos
tablas
gráficosy seguro...
texto
18
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
alucinaciónplatilo volador
OVNI
nave extraterrestre
19
2. «text analytics» y Minería de textos: porque es difícil?2. «text analytics» y Minería de textos: porque es difícil?
20
…
tokenizer+pos-tagger
lemmatizer
chunker
taxonomy
24
2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil?
1 1 3
1 2 1
4 1 1
documento 1
documento 1
documento 2
documento 2
documento 3
documento 3
Con una representación simple se puede hacer mucho
gradualmente, pasar a una representación mas «semántica»Palabras
Raíces de palabras
Grupos de palabras
Conceptos
el Colonel Rubio ha estrangulado a la Señorita Amapola sobre el balcon con una cuerda.
SN SN SN SNSVSVSVSV
SVSVSVSV SP SP
SVSVSVSV
SVSVSVSV
Frase
SNSN SNSN SNSN SNSNSVSV
21
2. «text analytics» y Minería de textos: porque es fácil?2. «text analytics» y Minería de textos: porque es fácil?
por 90% de los casos, no es necesario de tener una representación completa
1. Breve presentación
2. «Text analytics» y minería de textos
3. Textrix (Anastasia)
Descripción
Técnicas
Particularidades
1. Correspondencia
2. Binocle
23
3. Textrix: Descripción3. Textrix: Descripción
Encontrar las personas peligrosas sobre el InternetVirginiaTech (transcripción de mensaje sobre video)Colombine (transcripción de «journal»)Dawson (blog)LA Fitness Gym (sitio web)...
Objetivo : alertar una persona para revisar el caso
24
3. Textrix: Técnicas3. Textrix: Técnicas
Crawler: HerititrixClasificación:Crawl-by-examples (google summer code 2006)Frases claves (patrones de expresiones regulares)
Alertas:por correo electrónicopor SMS
25
3. Textrix: Particularidades3. Textrix: Particularidades
MultidisplinarioCriminologíaPsicologíaMinería de textosLingüística
Algoritmo Crawl-by-examples: 28% de precision y 54% de recallAlgoritmo frases clave: 55,5 % de precision y 57% de recall
Simplicidad y inteligencia
1. Breve presentación
2. «Text analytics» y minería de textos
3. Textrix (Anastasia)
4. Correspondencia
Concepto general
Aplicaciones
Particularidades
1. Binocle
27
4. Correspondencia: Concepto general4. Correspondencia: Concepto general
Evaluar la similitud entre dos modelosEntre modelos extraídosde documentosde datos
Entre un modelo que pre-existe (ontología del dominio, estándar) y un modelo extraído
28
4. Correspondencia: Aplicaciones4. Correspondencia: Aplicaciones
Minería de procesos y «text analytics»: Similitud de los procesos de negocios documentados y la realidad
Similitud entre los modelos de «personas» y los requisitos de un empleador, un proyecto, un director de tesis.
29
4. Correspondencia: Particularidades4. Correspondencia: Particularidades
MultidisciplinarioLingüísticaOntologíaModelos de negociosMinería de procesos
Técnicas exploradas: Medidas semánticas
1. Breve presentación del LiNCS / ÉTS
2. «Text analytics» y minería de textos
3. Textrix (Anastasia)
4. Correspondencia
5. Binocle
Descripción
Ejemplo de «text analytics»
32
Las empresas modernas generan documentos…
… en cientos …
… en miles …
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
33
Misión
Descripción de puestosNormas
Política interna
Formularios
Estándares
Contratos
Procesos de negocio
Planificación estratégica
Minutos
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
34
Esencial para la evolución de la organización
Necesario para la formación de los interesados
Un activo estratégico
Pero :Complejo
Costoso
Difícil
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
Controlar :
35
« El registro revisa cada aplicación. »« El registro revisa cada aplicación. »
Un experto analiza las frases pertinentes del ámbito
« El registro revisa cada aplicación. »registro aplicaciónrevisa
Registro Aplicaciónrevisa
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
Análisis tradicional de textos
36
documentos de empresas
5. Proyecto Binocle: descripción5. Proyecto Binocle: descripción
37
?
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»Metodología exploratoria de documentos reales a través de una cadena iterativa de tratamiento.
38
EXTRACCION DECONCEPTOS
DEFINICION DELAS RELACIONES
REPARTO DE LAS FUNCIONES
A
B
C
D
AB
C
DE
F
EF
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»• Extracción de los términos candidatos •
Evaluación de la pertinencia • Modelo del conocimiento
39
caro
rutaseñal
prioridad
hoja
libro
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
Extracción de los «conceptos potenciales»
40
Perfil de proyecto y evaluación de los riesgos
proyecto
Perfil de proyecto
evaluación de los riesgosPerfil
evaluación
riesgos
5. Proyecto Binocle: Ejemplo de «text analytics»5. Proyecto Binocle: Ejemplo de «text analytics»
ConclusionConclusion
Características de los proyectoMultidisciplinarioTécnicas mezcladas con semánticaAplicaciones innovadoras con impactos reales:sobre la productividadsobre la competitividad
Características de los proyectoMultidisciplinarioTécnicas mezcladas con semánticaAplicaciones innovadoras con impactos reales:sobre la productividadsobre la competitividad
42
Una invitación de minería en el sector educativoUna invitación de minería en el sector educativo
• http://www.kdd.org/kdd2010/kddcup.shtml • How generally or narrowly do students learn? • How quickly or slowly? • Will the rate of improvement vary between students? • What does it mean for one problem to be similar to
another? • It might depend on whether the knowledge required
for one problem is the same as the knowledge required for another.
• But is it possible to infer the knowledge requirements of problems directly from student performance data, without human analysis of the tasks?
• This year's challenge asks you to predict student performance on mathematical problems from logs of student interaction with Intelligent Tutoring Systems.
Referencias
lincs.etsmtl.ca
• Ratté, S., Ménard, P.A., Text mining and Text Analytics, in S. Ratté, F. Padilla (eds), Data Mining and Text Analytics, UAA Press, Mexico (à paraître).
• Ménard, P.A., Ratté, S. “Classifier-based acronym extraction for business documents, Knowledge and Information Systems, Online First, 2010.
• Cryans, J-D, Ratté, S., Champagne, R. Adaptation of Apriori to MapReduce to build a warehouse of relations between named entities accross the Web, 2nd International Conference on Advances in Databases, Knowledge, and Data Applications, Menuires, France, avril 2010.Tardif, O., Ratté, S. A Lightweight Pronoun Resolution Algorithm for French Corporate Texts, ICACTE - International Conference on Advanced Computer Theory and Engineering, IEEE Computer Society, Phuket, Thailande, 2008, pp. 714 – 718.Ratté, S., Njomgue, W., Ménard, P.A. Highlighting document’s structure, World Academy of Science, Engineering and Technology 31, 2007, pp. 34-38.