martin barreto ricardo bedat docentes: juan josé prada– aiala rosá
TRANSCRIPT
Proyecto de Grado – ISRTIdentificador de Segmentos Relacionados Temáticamente
Martin BarretoRicardo Bedat
Docentes: Juan José Prada– Aiala Rosá
Agenda
1. Problema2. Dificultades3. Solución4. Arquitectura5. Componentes6. Criterios de selección7. Resultados y Evaluación8. Conclusión9. Demostración
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
El Problema
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Aumento en el precioEl Problema
DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.
Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.
Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces.
En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.
Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.
Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.
Aumento en el precioEl Problema – Ctrl + F
DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.
Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.
Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces.
En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.
Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.
Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.
Aumento en el precioEl Problema – ISRT
DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.
Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.
Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces.
En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.
Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.
Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.
Desambiguación del significado
Frase
“Perros violentos”
Texto
“María tiene una salchicha y un doberman. Este último queda enfurecido cada vez que ve un
gato”
Algunas dificultades encontradas
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Identificación de relaciones semánticas
Frase
“Perros violentos.”
Texto
“María tiene una salchicha y un doberman. Este último perro queda enfurecido cada vez que ve un
gato”
Algunas dificultades encontradas
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Análisis de correferencias
Frase
“Perros violentos.”
Texto
“María tiene una salchicha y un doberman. Este último queda enfurecido cada vez que ve un
gato”
Algunas dificultades encontradas
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Otras◦ Identificación de entidades con nombre◦ Análisis de categoría gramatical◦ Reconocimiento de locuciones y palabras
compuestas◦ Metáforas y metonimias◦ Otras…
Algunas dificultades encontradas
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Del proyecto◦ Escaso material relacionado.◦ Pocas herramientas de software libre vinculadas
al área y para el español.◦ No se encontró ningún sistema que solucione el
problema planteado.◦ Falta de experiencia y conocimiento en el área.
Algunas dificultades encontradas
Solución¿A qué nos enfrentamos?
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Decisiones tomadas◦ Documentos genéricos en texto plano◦ Dominio genérico◦ Integrar a Lavinia
Problemas resueltos◦ Reconocimiento de palabras y oraciones◦ Identificación de entidades con nombre◦ Análisis morfológico◦ Reconocimiento de relaciones semánticas◦ Expansión de la frase de consulta◦ Desambiguación semántica◦ Stop-list {“el”, “o”, “sus”, “de”, “al”, etc.}◦ Identificación de segmentos relacionados temáticamente
ArquitecturaEn el fondo se busca encontrar un
algoritmo.
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
ArquitecturaDivide y
vencerás
Dividimos el sistema en sub componentes encargados de resolver una función especifica.
ArquitecturaIntegrar a Lavinia
ArquitecturaIntegrar a Lavinia
Contenedor UIMA para permitir la integración con LAVINIA
ArquitecturaIntegrar a Lavinia
Cada componente individual puede ser integrado a LAVINA
Arquitectura
Interacción de componentes
Problema Dificultades Solución Arquitectura Componentes Criterios de selección
Resultados y Evaluación Conclusión Demostración
Interacción de componentes Tokenizador y Analizador Morfológico
Interacción de componentes Analizador de relaciones
Interacción de componentes Identificador de segmentos relacionados
• Ponderación de las oraciones• Algoritmos de selección de resultados
Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza
Selección de resultados 3 Algoritmos de selección
Problema Dificultades Solución Arquitectura ComponentesCriterios de selección
Resultados y Evaluación Conclusión Demostración
Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza
Selección de resultados 3 Algoritmos de selección
0 1 2 3 4 5 6 7 8 9 100
0.5
1
1.5
2
2.5
3
3.5
SeleccionadaNo Seleccionada
Oraciones
Pondera
cio
nes
K = 2
Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza
Selección de resultados 3 Algoritmos de selección
0 1 2 3 4 5 6 7 8 9 100
1
2
3
4
5
6
7
8
9
10
SeleccionadaNo SeleccionadaVFC
Oraciones
Pondera
cio
nes
K = 50%Cte. de tolerancia
Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza
Selección de resultados 3 Algoritmos de selección
0 1 2 3 4 5 6 7 8 9 100
1
2
3
4
5
6
7
8
9
10
SeleccionadaNo SeleccionadaVEVE - DE
Oraciones
Pondera
cio
nes
EvaluaciónDocumentos y frases de pruebas
G1 G2 G3 G4 G5
GDNR
• frase 1-1• frase 1-2• frase 1-3• frase 1-4
• frase 2-1• frase 2-2• frase 2-3• frase 2-4
• frase 3-1• frase 3-2• frase 3-3• frase 3-4
• frase 4-1• frase 4-2• frase 4-3• frase 4-4
• frase 5-1• frase 5-2• frase 5-3• frase 5-4
Evaluación
G1
G2
G3
G4
G4
GDNR
• Identificados Correctos• Identificados Incorrectos• No identificados
Análisismanual
CriterioSelección 1
CriterioSelección 2
CriterioSelección 3
Análisis automáticos
IC – II - NI
x2Desambiguación Manual
Desambiguación Automática
Total de 928 análisis
Fórmulas de evaluación
Precisión Recall F-measure
Algoritmo de selección 1 0.475903614457831 0.524046434494201 0.49881610102605
Algoritmo de selección 2 0.717908082408882 0.751243781094528 0.73419773095624
Algoritmo de selección 3 0.555291319857313 0.774461028192372 0.646814404432137
5.00%
15.00%
25.00%
35.00%
45.00%
55.00%
65.00%
75.00%
85.00%
Resultados de la EvaluaciónDesambiguación automática
Resultados de la Evaluación manual vs automática
Precision Recall F-measure
Algoritmo de selección 1 0.00477644736597093 -0.00829187396351568 -0.00121610102604576
Algoritmo de selección 2 0.0300460910772137 0.00663349917081262 0.018685300345243
Algoritmo de selección 3 0.0120163724503795 0.00829187396351568 0.0110253168222224
-1.25%
-0.75%
-0.25%
0.25%
0.75%
1.25%
1.75%
2.25%
2.75%
3.25%
Conclusiones
Problema
Dificultad
es
Solución
Arquitectura
Componentes
Criterios de
selección
Resultados y
Evaluación
Conclusión
Demostración
Problemas propios del área Trabajos relacionados Freeling – UIMA – WordNet Se propuso y alcanzó una solución
Trabajos a futuro
Puntos fuertes1.Altamente parametrizable. 2.Permite múltiples tipos de desambiguación3.Diferentes algoritmos de selección de
resultados4.Altamente modulado5.Configurable dinámicamente6.Integrado a Lavinia7.Buenos resultados
1. Análisis de familias léxicas.2. Análisis de Metáforas y Metonimias.
3. Análisis de correferencias y reconocimiento de anáforas. 4. Soportar la existencia de errores ortográficos, de
capitalización y de puntuaciones.5. Identificación de palabras en idiomas diferentes al español.
Demostración
Problema
Dificultad
es
Solución
Arquitectura
Componentes
Criterios de
selección
Resultados y
Evaluación
Conclusió
n
Demostración