proyecto de grado – isrt identificador de segmentos relacionados temáticamente

34
Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Upload: nassor

Post on 24-Feb-2016

39 views

Category:

Documents


0 download

DESCRIPTION

Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente. Martin Barreto Ricardo Bedat Docentes: Juan José Prada – Aiala Rosá. Agenda. Problema Dificultades Solución Arquitectura Componentes Criterios de selección Resultados y Evaluación Conclusión - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Proyecto de Grado – ISRTIdentificador de Segmentos Relacionados Temáticamente

Martin BarretoRicardo Bedat

Docentes: Juan José Prada– Aiala Rosá

Page 2: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Agenda1. Problema2. Dificultades3. Solución4. Arquitectura5. Componentes6. Criterios de selección7. Resultados y Evaluación8. Conclusión9. Demostración

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 3: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

El Problema

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 4: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Aumento en el precioEl Problema

DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.

Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.

Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces. 

En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.

Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.

Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.

Page 5: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Aumento en el precioEl Problema – Ctrl + F

DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.

Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.

Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces. 

En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.

Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.

Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.

Page 6: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Aumento en el precioEl Problema – ISRT

DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.

Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.

Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces. 

En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.

Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.

Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.

Page 7: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Desambiguación del significado

Frase“Perros violentos”

Texto“María tiene una salchicha y un doberman. Este

último queda enfurecido cada vez que ve un gato”

Algunas dificultades encontradas

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 8: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Identificación de relaciones semánticas

Frase“Perros violentos.”

Texto“María tiene una salchicha y un doberman. Este último perro queda enfurecido cada vez que ve un

gato”

Algunas dificultades encontradas

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 9: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Análisis de correferencias

Frase“Perros violentos.”

Texto“María tiene una salchicha y un doberman. Este

último queda enfurecido cada vez que ve un gato”

Algunas dificultades encontradas

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 10: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Otras◦ Identificación de entidades con nombre◦ Análisis de categoría gramatical◦ Reconocimiento de locuciones y palabras

compuestas◦ Metáforas y metonimias◦ Otras…

Algunas dificultades encontradas

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 11: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Del proyecto◦ Escaso material relacionado.◦ Pocas herramientas de software libre vinculadas

al área y para el español.◦ No se encontró ningún sistema que solucione el

problema planteado.◦ Falta de experiencia y conocimiento en el área.

Algunas dificultades encontradas

Page 12: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Solución¿A qué nos enfrentamos?

Problema Dificultades Solución Arquitectura Componentes

Criterios de selección

Resultados y Evaluación Conclusión Demostració

n

Decisiones tomadas◦ Documentos genéricos en texto plano◦ Dominio genérico◦ Integrar a Lavinia

Problemas resueltos◦ Reconocimiento de palabras y oraciones◦ Identificación de entidades con nombre◦ Análisis morfológico◦ Reconocimiento de relaciones semánticas◦ Expansión de la frase de consulta◦ Desambiguación semántica◦ Stop-list {“el”, “o”, “sus”, “de”, “al”, etc.}◦ Identificación de segmentos relacionados temáticamente

Page 13: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

ArquitecturaEn el fondo se busca encontrar un

algoritmo.

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 14: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

ArquitecturaDivide y

vencerás

Dividimos el sistema en sub componentes encargados de resolver una función especifica.

Page 15: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

ArquitecturaIntegrar a Lavinia

Page 16: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

ArquitecturaIntegrar a Lavinia

Contenedor UIMA para permitir la integración con LAVINIA

Page 17: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

ArquitecturaIntegrar a Lavinia

Cada componente individual puede ser integrado a LAVINA

Page 18: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Arquitectura

Page 19: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Interacción de componentes

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostració

n

Page 20: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Interacción de componentes Tokenizador y Analizador Morfológico

Page 21: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Interacción de componentes Analizador de relaciones

Page 22: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Interacción de componentes Identificador de segmentos relacionados

• Ponderación de las oraciones• Algoritmos de selección de resultados

Page 23: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza

Selección de resultados 3 Algoritmos de selección

Problema Dificultades Solución Arquitectura Componentes

Criterios de selección

Resultados y Evaluación Conclusión Demostració

n

Page 24: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza

Selección de resultados 3 Algoritmos de selección

0 1 2 3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

3

3.5

SeleccionadaNo Seleccionada

Oraciones

Pond

erac

ione

s

K = 2

Page 25: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza

Selección de resultados 3 Algoritmos de selección

0 1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

9

10

SeleccionadaNo SeleccionadaVFC

Oraciones

Pond

erac

ione

s

K = 50%Cte. de tolerancia

Page 26: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza

Selección de resultados 3 Algoritmos de selección

0 1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

9

10

SeleccionadaNo SeleccionadaVEVE - DE

Oraciones

Pond

erac

ione

s

Page 27: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

EvaluaciónDocumentos y frases de pruebas

G1 G2 G3 G4 G5

GDNR

• frase 1-1• frase 1-2• frase 1-3• frase 1-4

• frase 2-1• frase 2-2• frase 2-3• frase 2-4

• frase 3-1• frase 3-2• frase 3-3• frase 3-4

• frase 4-1• frase 4-2• frase 4-3• frase 4-4

• frase 5-1• frase 5-2• frase 5-3• frase 5-4

Page 28: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Evaluación

G1

G2

G3

G4

G4

GDNR

• Identificados Correctos• Identificados Incorrectos• No identificados

Análisismanual

CriterioSelección 1

CriterioSelección 2

CriterioSelección 3

Análisis automáticos

IC – II - NI

x2Desambiguación Manual

Desambiguación Automática

Total de 928 análisis

Page 29: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Fórmulas de evaluación

Page 30: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Precisión Recall F-measure0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

Resultados de la EvaluaciónDesambiguación automática

Page 31: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Resultados de la Evaluación manual vs automática

Precision Recall F-measure

-1.50%

-1.00%

-0.50%

0.00%

0.50%

1.00%

1.50%

2.00%

2.50%

3.00%

3.50%

Page 32: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Conclusiones

Problema

Dificultad

esSolución

Arquitectura

Componentes

Criterios de

selección

Resultados y

Evaluación

Conclusión

Demostración

Problemas propios del área Trabajos relacionados Freeling – UIMA – WordNet Se propuso y alcanzó una solución

Page 33: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Trabajos a futuro

Puntos fuertes1.Altamente parametrizable. 2.Permite múltiples tipos de desambiguación3.Diferentes algoritmos de selección de

resultados4.Altamente modulado5.Configurable dinámicamente6.Integrado a Lavinia7.Buenos resultados

1. Análisis de familias léxicas.2. Análisis de Metáforas y Metonimias.

3. Análisis de correferencias y reconocimiento de anáforas. 4. Soportar la existencia de errores ortográficos, de

capitalización y de puntuaciones.5. Identificación de palabras en idiomas diferentes al español.

Page 34: Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente

Demostración

Problema

Dificultad

esSolución

Arquitectura

Componentes

Criterios de

selección

Resultados y

Evaluación

Conclusió

n

Demostración