proyecto de grado – isrt identificador de segmentos relacionados temáticamente
DESCRIPTION
Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente. Martin Barreto Ricardo Bedat Docentes: Juan José Prada – Aiala Rosá. Agenda. Problema Dificultades Solución Arquitectura Componentes Criterios de selección Resultados y Evaluación Conclusión - PowerPoint PPT PresentationTRANSCRIPT
Proyecto de Grado – ISRTIdentificador de Segmentos Relacionados Temáticamente
Martin BarretoRicardo Bedat
Docentes: Juan José Prada– Aiala Rosá
Agenda1. Problema2. Dificultades3. Solución4. Arquitectura5. Componentes6. Criterios de selección7. Resultados y Evaluación8. Conclusión9. Demostración
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
El Problema
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Aumento en el precioEl Problema
DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.
Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.
Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces.
En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.
Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.
Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.
Aumento en el precioEl Problema – Ctrl + F
DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.
Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.
Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces.
En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.
Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.
Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.
Aumento en el precioEl Problema – ISRT
DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.
Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.
Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces.
En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.
Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.
Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.
Desambiguación del significado
Frase“Perros violentos”
Texto“María tiene una salchicha y un doberman. Este
último queda enfurecido cada vez que ve un gato”
Algunas dificultades encontradas
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Identificación de relaciones semánticas
Frase“Perros violentos.”
Texto“María tiene una salchicha y un doberman. Este último perro queda enfurecido cada vez que ve un
gato”
Algunas dificultades encontradas
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Análisis de correferencias
Frase“Perros violentos.”
Texto“María tiene una salchicha y un doberman. Este
último queda enfurecido cada vez que ve un gato”
Algunas dificultades encontradas
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Otras◦ Identificación de entidades con nombre◦ Análisis de categoría gramatical◦ Reconocimiento de locuciones y palabras
compuestas◦ Metáforas y metonimias◦ Otras…
Algunas dificultades encontradas
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Del proyecto◦ Escaso material relacionado.◦ Pocas herramientas de software libre vinculadas
al área y para el español.◦ No se encontró ningún sistema que solucione el
problema planteado.◦ Falta de experiencia y conocimiento en el área.
Algunas dificultades encontradas
Solución¿A qué nos enfrentamos?
Problema Dificultades Solución Arquitectura Componentes
Criterios de selección
Resultados y Evaluación Conclusión Demostració
n
Decisiones tomadas◦ Documentos genéricos en texto plano◦ Dominio genérico◦ Integrar a Lavinia
Problemas resueltos◦ Reconocimiento de palabras y oraciones◦ Identificación de entidades con nombre◦ Análisis morfológico◦ Reconocimiento de relaciones semánticas◦ Expansión de la frase de consulta◦ Desambiguación semántica◦ Stop-list {“el”, “o”, “sus”, “de”, “al”, etc.}◦ Identificación de segmentos relacionados temáticamente
ArquitecturaEn el fondo se busca encontrar un
algoritmo.
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
ArquitecturaDivide y
vencerás
Dividimos el sistema en sub componentes encargados de resolver una función especifica.
ArquitecturaIntegrar a Lavinia
ArquitecturaIntegrar a Lavinia
Contenedor UIMA para permitir la integración con LAVINIA
ArquitecturaIntegrar a Lavinia
Cada componente individual puede ser integrado a LAVINA
Arquitectura
Interacción de componentes
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostració
n
Interacción de componentes Tokenizador y Analizador Morfológico
Interacción de componentes Analizador de relaciones
Interacción de componentes Identificador de segmentos relacionados
• Ponderación de las oraciones• Algoritmos de selección de resultados
Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza
Selección de resultados 3 Algoritmos de selección
Problema Dificultades Solución Arquitectura Componentes
Criterios de selección
Resultados y Evaluación Conclusión Demostració
n
Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza
Selección de resultados 3 Algoritmos de selección
0 1 2 3 4 5 6 7 8 9 100
0.5
1
1.5
2
2.5
3
3.5
SeleccionadaNo Seleccionada
Oraciones
Pond
erac
ione
s
K = 2
Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza
Selección de resultados 3 Algoritmos de selección
0 1 2 3 4 5 6 7 8 9 100
1
2
3
4
5
6
7
8
9
10
SeleccionadaNo SeleccionadaVFC
Oraciones
Pond
erac
ione
s
K = 50%Cte. de tolerancia
Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza
Selección de resultados 3 Algoritmos de selección
0 1 2 3 4 5 6 7 8 9 100
1
2
3
4
5
6
7
8
9
10
SeleccionadaNo SeleccionadaVEVE - DE
Oraciones
Pond
erac
ione
s
EvaluaciónDocumentos y frases de pruebas
G1 G2 G3 G4 G5
GDNR
• frase 1-1• frase 1-2• frase 1-3• frase 1-4
• frase 2-1• frase 2-2• frase 2-3• frase 2-4
• frase 3-1• frase 3-2• frase 3-3• frase 3-4
• frase 4-1• frase 4-2• frase 4-3• frase 4-4
• frase 5-1• frase 5-2• frase 5-3• frase 5-4
Evaluación
G1
G2
G3
G4
G4
GDNR
• Identificados Correctos• Identificados Incorrectos• No identificados
Análisismanual
CriterioSelección 1
CriterioSelección 2
CriterioSelección 3
Análisis automáticos
IC – II - NI
x2Desambiguación Manual
Desambiguación Automática
Total de 928 análisis
Fórmulas de evaluación
Precisión Recall F-measure0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
Resultados de la EvaluaciónDesambiguación automática
Resultados de la Evaluación manual vs automática
Precision Recall F-measure
-1.50%
-1.00%
-0.50%
0.00%
0.50%
1.00%
1.50%
2.00%
2.50%
3.00%
3.50%
Conclusiones
Problema
Dificultad
esSolución
Arquitectura
Componentes
Criterios de
selección
Resultados y
Evaluación
Conclusión
Demostración
Problemas propios del área Trabajos relacionados Freeling – UIMA – WordNet Se propuso y alcanzó una solución
Trabajos a futuro
Puntos fuertes1.Altamente parametrizable. 2.Permite múltiples tipos de desambiguación3.Diferentes algoritmos de selección de
resultados4.Altamente modulado5.Configurable dinámicamente6.Integrado a Lavinia7.Buenos resultados
1. Análisis de familias léxicas.2. Análisis de Metáforas y Metonimias.
3. Análisis de correferencias y reconocimiento de anáforas. 4. Soportar la existencia de errores ortográficos, de
capitalización y de puntuaciones.5. Identificación de palabras en idiomas diferentes al español.
Demostración
Problema
Dificultad
esSolución
Arquitectura
Componentes
Criterios de
selección
Resultados y
Evaluación
Conclusió
n
Demostración