enfoque borroso al procesamiento de significados ...tec_lenguaje09/uploads/main/... · cfj(m):...
TRANSCRIPT
![Page 1: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/1.jpg)
04/11/2009 Dr. Andrés Soto 1
Enfoque Borroso al Procesamiento
de Significados Conceptuales en
Documentos en Lenguaje Natural
Andrés Soto Villaverde
Universidad Autónoma del Carmen (UNACAR)
Ciudad del Carmen, Campeche
correo: [email protected]
![Page 2: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/2.jpg)
04/11/2009 Dr. Andrés Soto 2
Soft Management of Internet and
Learning (SMILe)
El grupo SMILe, Universidad de Castilla
La Mancha (UCLM) trabaja en el
desarrollo de métodos de Recuperación
de Información basados en conceptos y
significados, utilizando técnicas de Soft
Computing, básicamente Lógica Difusa.
![Page 3: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/3.jpg)
04/11/2009 Dr. Andrés Soto 3
Resultados destacables
CASTALIA Architecture of a Fuzzy Metasearch Engine for QAS
BUDI: Architecture for fuzzy search in documental repositories
FOPSOM, Fuzzy optimized self-organizing maps applied to document clustering
Hybrid Model for Document Clustering based on a Fuzzy Approach of Synonymy and Polysemy
FASPIR, Fuzzy Approach to Synonymy and Polysemy, modelo para medir la presencia de conceptos en documentos basado en la sinonimia
FzMail clasifica emails en base a conceptos
FIS-CRM, Fuzzy Interrelations and Synonymy Conceptual Representation Model,
Metabuscador FISS, Fuzzy Interrelations and Synonymy based Searcher, genera consultas en base a relaciones ontológicas como sinonimia, hiponimia, hiperonimia, etc
![Page 4: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/4.jpg)
04/11/2009 Dr. Andrés Soto 4
Objetivo Fundamental
Desarrollar modelos, métodos y
algoritmos, para recuperar y procesar
significados conceptuales en
documentos en lenguaje natural (LN)
utilizando un enfoque borroso.
![Page 5: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/5.jpg)
04/11/2009 Dr. Andrés Soto 5
Modelos Borrosos para
Recuperación de Información
(Information Retrieval)
![Page 6: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/6.jpg)
04/11/2009 Dr. Andrés Soto 6
Recuperación de Información
La recuperación de información mediante buscadores como
Google, Yahoo, etc., se basa en:
– medir la frecuencia de los términos en los documentos y
– comparar los términos que aparecen en la consulta (query)
teniendo en cuenta la distribución de frecuencias
sin tener en cuenta el significado conceptual de los términos,
por lo que se recuperan muchos documentos irrelevantes.
j
ij
k
kj
ijijn
n
n
ntf*
![Page 7: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/7.jpg)
04/11/2009 Dr. Andrés Soto 7
Modelo I: Sinonimia y Polisemia
Calcula la frecuencia de utilización de conceptos y significados
a través de la frecuencia de utilización de términos sinónimos,
asociándole un peso que depende del nivel de polisemia de los
términos
Sinonimia: una relación gradual, asimétrica.
– auto y automobile comparten un significado común
“a motor vehicle with four wheels; usually propelled by an internal
combustion engine” (WordNet)
– Pero automobile tiene, como verbo, otro significado:
“to travel in an automobile”.
– Por tanto, auto y automobile no son términos equivalentes,
solo son similares.
![Page 8: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/8.jpg)
04/11/2009 Dr. Andrés Soto 8
automobile
a motor vehicle with four
wheels; usually propelled
by an internal combustion
engine
to travel in an automobile
Cada término en el vocabulario tiene uno o más significados en M(t).
![Page 9: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/9.jpg)
04/11/2009 Dr. Andrés Soto 9
auto
automobile
car
a motor vehicle with
four wheels; usually
propelled by an internal
combustion engine
Diversos términos pueden compartir un significado =>
Cada significado tiene uno o más
términos asociados.
![Page 10: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/10.jpg)
04/11/2009 Dr. Andrés Soto 10
Sinonimia y polisemia
Se definieron relaciones borrosas tales como:
S: grado de sinonimia entre dos términos .
M(t): conj. de significados del término t.
Ip: grado de polisemia del término t.
Nm(t): # de significados del término t.
Is(t) grado de fortaleza del término t.
)(
11)(
tNtI
m
p
tItN
tI p
m
S 11
)(
)()(,
1
21
21tM
tMtMttS
![Page 11: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/11.jpg)
04/11/2009 Dr. Andrés Soto 11
Calcular la frecuencia de un
concepto Cfj(m): frecuencia asociada al concepto m en un
documento Dj, similar a la frecuencia de aparición de un
término.
nij: # de ocurrencias de ti en Dj.
n*j: # de términos en Dj.
T(m): conjunto de términos que comparten el significado
m.
j
mTt
iSij
j
mTt
ipij
jn
tIn
n
tIn
mCf ii
**
)(
1
![Page 12: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/12.jpg)
04/11/2009 Dr. Andrés Soto 12
Similitud entre documentos
1. Calcular la frecuencia de aparición de cada
significado mi en un documento Dj, mediante el
vector Cfj(mi).
2. Calcular la similitud entre dos documentos mediante
el grado de similitud entre dos vectores, utilizando la
conocida medida de similitud basada en la función
coseno:
ba
baba
XX
XXXXsim cos,
![Page 13: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/13.jpg)
04/11/2009 Dr. Andrés Soto 13
Modelo II: definiens
El significado de un término se explica mediante una
o más oraciones que expresan su uso, función y
esencia. Ejemplo:
– Auto: “a motor vehicle with four wheels; usually propelled by
an internal combustion engine” (WordNet)
– Definiendum: el término sujeto a definición (i.e. auto).
– Definiens: palabras que describen al definiendum (i.e. motor,
vehicle, wheels; internal, combustion, engine).
Consideramos que midiendo la presencia de los
definiens asociados a un definiendum en un
documento, estaremos midiendo la frecuencia con la
que se hace referencia a dicho significado.
![Page 14: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/14.jpg)
04/11/2009 Dr. Andrés Soto 14
Grado de presencia de un
significado Defj(m): grado de presencia de un significado m en un
documento Dj.
B(m): conjunto de definiens que describen un significado m.
El grado de similitud entre dos documentos se estima mediante
la medida de similitud del coseno entre los vectores DefiM =
{Defj(m1), Defj(m2),..} de ambos, los cuales expresan la relativa
presencia de los significados mi en cada documento.
j
mBt
ji
jn
n
mDef i
*,
)(
,
)(
![Page 15: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/15.jpg)
04/11/2009 Dr. Andrés Soto 15
Modelo III: frases nominales
Se basa en medir la frecuencia de aparición de las frases
nominales, que forman parte de la definición del concepto.
Ejemplo:
– Tiger: “A large carnivorous feline mammal of Asia, having a
tawny coat with transverse black stripes”. (WordNet)
– FN = {[carnivorous feline mammal], Asia, [tawny coat],
[transverse black stripes]}.
En el caso de frases nominales con más de dos palabras como
“carnivorous feline mammal” se contabilizan también otras
subcadenas como “carnivorous mammal”, “feline mammal” and
“carnivorous feline”.
![Page 16: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/16.jpg)
04/11/2009 Dr. Andrés Soto 16
Grado de presencia conceptual
Viene dado por
ncij: # de ocurrencias de la cadena Ci en el documento Dj.
nc*j: # total de cadenas en el documento Dj.
NP(m): conjunto de frases nominales incluidas en la definición
del concepto m.
El grado de similitud entre dos documentos se estima mediante
la medida de similitud del coseno entre los vectores NPjM =
{NPj(m1), NPj(m2),…} de ambos, los cuales expresan la relativa
presencia de los significados mi en cada documento.
j
mNPC
ji
jnc
nc
mNPf i
*,
)(
,
)(
![Page 17: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/17.jpg)
04/11/2009 Dr. Andrés Soto 17
RESULTADOS EXPERIMENTALES
CON MODELOS BORROSOS DE
RECUPERACIÓN DE INFORMACIÓN
![Page 18: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/18.jpg)
04/11/2009 Dr. Andrés Soto 18
Modelo FASPIR
Se realizaron experimentos integrado con Hierarchical Initialized Fuzzy
Clustering (HIFC)
Medidas utilizadas para evaluar los resultados de los experimentos:
– Similitud promedio (MS) de cada elemento con el resto del
conjunto.
– Número de elementos extraños (NO) fuera de clasificación.
– Similitud promedio entre los documentos de un cluster (CSS).
– Tamaño del cluster de elementos no clasificados (SNC).
– Medida F (combina la precisión y el recall).
ijij
ijij
pr
prjiF
2
, jiFn
nF i ,max
![Page 19: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/19.jpg)
04/11/2009 Dr. Andrés Soto 19
Colecciones de documentos
estándarResultados con métricas
HB (Higher is Better)
TF-IDF
& FCM
Modelo
HIFC
TF-IDF
& FCM
Modelo
HIFC
Medida SMART SMART REUTER REUTER
MS 37 49 29 45
CSS 24 55 22 43
F 43 63 45 54
Resultados Experimentales
Tipo HB (Higher is Better)
0
10
20
30
40
50
60
70
MS CSS F-measure
Tf-idf & FCM
SMART
Hybrid Model
SMART
Tf-idf & FCM
Reuter
Hybrid Model
Reuter
![Page 20: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/20.jpg)
04/11/2009 Dr. Andrés Soto 20
Colecciones de documentos
estándar
Resultados con métricas
LB (Lower is Better)
TF-IDF
& FCM
Modelo
HIFC
TF-IDF
& FCM
Modelo
HIFC
Medida SMART SMART REUTER REUTER
NO 22 10 25 15
SNC 15 8 28 10
Resultados Experimentales
Tipo LB (Lower is Better)
0
5
10
15
20
25
30
NO SNC
Tf-idf & FCM
SMART
Hybrid Model
SMART
Tf-idf & FCM
REUTER
Hybrid Model
REUTER
![Page 21: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/21.jpg)
04/11/2009 Dr. Andrés Soto 21
Modelo Def
Se realizaron experimentos con este modelo, integrado al Hierarchical
Initialized Fuzzy Clustering (HIFC), desarrollado por otro integrante de
SMILe.
Se utilizó la exactitud del agrupamiento para evaluar los resultados:
donde:
– Ac: grado de exactitud.
– |D|: # total de documentos.
– Nc: documentos correctamente clasificados.
Resultados mejores que los obtenidos con los métodos clásicos
DN
Ac c Métrica TF-IDF
& FCM
Modelo
HIFC
Exactitud 43% 65%
![Page 22: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/22.jpg)
04/11/2009 Dr. Andrés Soto 22
Modelo FASPIR
Se realizaron experimentos integrado al Agrupamiento mediante Mapas Auto-organizados (redes neuronales). Para estimar la similitud entre documentos se utilizó la fórmula:
Para calcular la similitud entre documentos y neuronas se utilizó la fórmula:
– Cfr(m): peso del significado m en la neurona j.
– Cfrd(m): frecuencia del concepto m en el documento d.
– : t-norma.
– : t-conorma.
mCf
mCfmCfr
jDm
j
j
max
dm
dj
dm
dj
jmCfrnmCfr
mCfrnmCfr
ndsim,
,
,
![Page 23: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/23.jpg)
04/11/2009 Dr. Andrés Soto 23
Resultados FOPSOM
Medida CFWS BBK SOM++
F 0,57 0,46 0,76
Medida Basic
SOM
SOM
+
SOM
++
F 0,46 0,53 0,76
Basic SOM: based on TF-IDF.
SOM+: Basic SOM + vectors from the
proposed model.
SOM++: SOM+ plus FASPIR, learning factor,
similarity function, etc.
CFWMS: Clustering based on Frequent Word
Meaning Sequences.
BBK: Bisecting k-means using background
knowledge.
![Page 24: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/24.jpg)
04/11/2009 Dr. Andrés Soto 24
Actualmente
Se desarrolló un programa buscador que, dado un conjunto de documentos D y un conjunto de términos V, – Determina cuantas veces, nij, aparece cada
término ti en cada documento dj
– Construye una tabla de índice donde almacena dichas cantidades nij
– Permite procesar consultas mediante términos y recuperar los documentos donde aparezcan dichos términos
![Page 25: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/25.jpg)
04/11/2009 Dr. Andrés Soto 25
Tabla de Índices x sinónimos
Se está desarrollando un programa que, dado un conjunto de documentos D y un glosario G (conjunto de significados, meanings), – Determine cuantas veces, nij, aparece cada
significado si en cada documento dj utilizando para ello el modelo FASPIR
– Construya una tabla de índice donde almacene dichas cantidades nij
– Permita procesar consultas mediante términos y recuperar los documentos donde aparezcan los conceptos asociados
![Page 26: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/26.jpg)
04/11/2009 Dr. Andrés Soto 26
Question Answering System
Se está desarrollando un programa que permite realizar preguntas y encontrar la respuesta correspondiente a través de inferencias a partir de una base de conocimiento como YAGO.
Se trabaja en la representación del conocimiento que aparece en las oraciones en Lenguaje Natural mediante relaciones de restricción generalizadas (Generalized Constraints) y en la utilización de mecanismos de deducción basados en Lógica Difusa (protoforms)
![Page 27: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/27.jpg)
04/11/2009 Dr. Andrés Soto 27
E-Learning
Se está desarrollando un programa que, dado un patrón de preguntas determinado y una base de conocimiento con preguntas tipo, respuestas posibles y respuestas correctas, permita generar de manera automática, actividades evaluativas sobre una temática determinada, utilizando YAGO, WordNet, etc.
![Page 28: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/28.jpg)
04/11/2009 Dr. Andrés Soto 28
Grupo IRKAeL
Tema Participantes
Information
Retrieval
2 profesores,
un tesista
Question
Answering
System
4 profesores,
2 tesistas,
5 estudiantes
e-Learning 5 profesores
3 estudiantes
![Page 29: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición](https://reader034.vdocuments.site/reader034/viewer/2022050612/5fb31a45b9913b01db5b7e46/html5/thumbnails/29.jpg)
04/11/2009 Dr. Andrés Soto 29
Gracias por su atención!Preguntas?