enfoque borroso al procesamiento de significados ...tec_lenguaje09/uploads/main/... · cfj(m):...

29
04/11/2009 Dr. Andrés Soto 1 Enfoque Borroso al Procesamiento de Significados Conceptuales en Documentos en Lenguaje Natural Andrés Soto Villaverde Universidad Autónoma del Carmen (UNACAR) Ciudad del Carmen, Campeche correo: [email protected]

Upload: others

Post on 14-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 1

Enfoque Borroso al Procesamiento

de Significados Conceptuales en

Documentos en Lenguaje Natural

Andrés Soto Villaverde

Universidad Autónoma del Carmen (UNACAR)

Ciudad del Carmen, Campeche

correo: [email protected]

Page 2: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 2

Soft Management of Internet and

Learning (SMILe)

El grupo SMILe, Universidad de Castilla

La Mancha (UCLM) trabaja en el

desarrollo de métodos de Recuperación

de Información basados en conceptos y

significados, utilizando técnicas de Soft

Computing, básicamente Lógica Difusa.

Page 3: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 3

Resultados destacables

CASTALIA Architecture of a Fuzzy Metasearch Engine for QAS

BUDI: Architecture for fuzzy search in documental repositories

FOPSOM, Fuzzy optimized self-organizing maps applied to document clustering

Hybrid Model for Document Clustering based on a Fuzzy Approach of Synonymy and Polysemy

FASPIR, Fuzzy Approach to Synonymy and Polysemy, modelo para medir la presencia de conceptos en documentos basado en la sinonimia

FzMail clasifica emails en base a conceptos

FIS-CRM, Fuzzy Interrelations and Synonymy Conceptual Representation Model,

Metabuscador FISS, Fuzzy Interrelations and Synonymy based Searcher, genera consultas en base a relaciones ontológicas como sinonimia, hiponimia, hiperonimia, etc

Page 4: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 4

Objetivo Fundamental

Desarrollar modelos, métodos y

algoritmos, para recuperar y procesar

significados conceptuales en

documentos en lenguaje natural (LN)

utilizando un enfoque borroso.

Page 5: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 5

Modelos Borrosos para

Recuperación de Información

(Information Retrieval)

Page 6: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 6

Recuperación de Información

La recuperación de información mediante buscadores como

Google, Yahoo, etc., se basa en:

– medir la frecuencia de los términos en los documentos y

– comparar los términos que aparecen en la consulta (query)

teniendo en cuenta la distribución de frecuencias

sin tener en cuenta el significado conceptual de los términos,

por lo que se recuperan muchos documentos irrelevantes.

j

ij

k

kj

ijijn

n

n

ntf*

Page 7: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 7

Modelo I: Sinonimia y Polisemia

Calcula la frecuencia de utilización de conceptos y significados

a través de la frecuencia de utilización de términos sinónimos,

asociándole un peso que depende del nivel de polisemia de los

términos

Sinonimia: una relación gradual, asimétrica.

– auto y automobile comparten un significado común

“a motor vehicle with four wheels; usually propelled by an internal

combustion engine” (WordNet)

– Pero automobile tiene, como verbo, otro significado:

“to travel in an automobile”.

– Por tanto, auto y automobile no son términos equivalentes,

solo son similares.

Page 8: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 8

automobile

a motor vehicle with four

wheels; usually propelled

by an internal combustion

engine

to travel in an automobile

Cada término en el vocabulario tiene uno o más significados en M(t).

Page 9: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 9

auto

automobile

car

a motor vehicle with

four wheels; usually

propelled by an internal

combustion engine

Diversos términos pueden compartir un significado =>

Cada significado tiene uno o más

términos asociados.

Page 10: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 10

Sinonimia y polisemia

Se definieron relaciones borrosas tales como:

S: grado de sinonimia entre dos términos .

M(t): conj. de significados del término t.

Ip: grado de polisemia del término t.

Nm(t): # de significados del término t.

Is(t) grado de fortaleza del término t.

)(

11)(

tNtI

m

p

tItN

tI p

m

S 11

)(

)()(,

1

21

21tM

tMtMttS

Page 11: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 11

Calcular la frecuencia de un

concepto Cfj(m): frecuencia asociada al concepto m en un

documento Dj, similar a la frecuencia de aparición de un

término.

nij: # de ocurrencias de ti en Dj.

n*j: # de términos en Dj.

T(m): conjunto de términos que comparten el significado

m.

j

mTt

iSij

j

mTt

ipij

jn

tIn

n

tIn

mCf ii

**

)(

1

Page 12: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 12

Similitud entre documentos

1. Calcular la frecuencia de aparición de cada

significado mi en un documento Dj, mediante el

vector Cfj(mi).

2. Calcular la similitud entre dos documentos mediante

el grado de similitud entre dos vectores, utilizando la

conocida medida de similitud basada en la función

coseno:

ba

baba

XX

XXXXsim cos,

Page 13: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 13

Modelo II: definiens

El significado de un término se explica mediante una

o más oraciones que expresan su uso, función y

esencia. Ejemplo:

– Auto: “a motor vehicle with four wheels; usually propelled by

an internal combustion engine” (WordNet)

– Definiendum: el término sujeto a definición (i.e. auto).

– Definiens: palabras que describen al definiendum (i.e. motor,

vehicle, wheels; internal, combustion, engine).

Consideramos que midiendo la presencia de los

definiens asociados a un definiendum en un

documento, estaremos midiendo la frecuencia con la

que se hace referencia a dicho significado.

Page 14: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 14

Grado de presencia de un

significado Defj(m): grado de presencia de un significado m en un

documento Dj.

B(m): conjunto de definiens que describen un significado m.

El grado de similitud entre dos documentos se estima mediante

la medida de similitud del coseno entre los vectores DefiM =

{Defj(m1), Defj(m2),..} de ambos, los cuales expresan la relativa

presencia de los significados mi en cada documento.

j

mBt

ji

jn

n

mDef i

*,

)(

,

)(

Page 15: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 15

Modelo III: frases nominales

Se basa en medir la frecuencia de aparición de las frases

nominales, que forman parte de la definición del concepto.

Ejemplo:

– Tiger: “A large carnivorous feline mammal of Asia, having a

tawny coat with transverse black stripes”. (WordNet)

– FN = {[carnivorous feline mammal], Asia, [tawny coat],

[transverse black stripes]}.

En el caso de frases nominales con más de dos palabras como

“carnivorous feline mammal” se contabilizan también otras

subcadenas como “carnivorous mammal”, “feline mammal” and

“carnivorous feline”.

Page 16: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 16

Grado de presencia conceptual

Viene dado por

ncij: # de ocurrencias de la cadena Ci en el documento Dj.

nc*j: # total de cadenas en el documento Dj.

NP(m): conjunto de frases nominales incluidas en la definición

del concepto m.

El grado de similitud entre dos documentos se estima mediante

la medida de similitud del coseno entre los vectores NPjM =

{NPj(m1), NPj(m2),…} de ambos, los cuales expresan la relativa

presencia de los significados mi en cada documento.

j

mNPC

ji

jnc

nc

mNPf i

*,

)(

,

)(

Page 17: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 17

RESULTADOS EXPERIMENTALES

CON MODELOS BORROSOS DE

RECUPERACIÓN DE INFORMACIÓN

Page 18: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 18

Modelo FASPIR

Se realizaron experimentos integrado con Hierarchical Initialized Fuzzy

Clustering (HIFC)

Medidas utilizadas para evaluar los resultados de los experimentos:

– Similitud promedio (MS) de cada elemento con el resto del

conjunto.

– Número de elementos extraños (NO) fuera de clasificación.

– Similitud promedio entre los documentos de un cluster (CSS).

– Tamaño del cluster de elementos no clasificados (SNC).

– Medida F (combina la precisión y el recall).

ijij

ijij

pr

prjiF

2

, jiFn

nF i ,max

Page 19: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 19

Colecciones de documentos

estándarResultados con métricas

HB (Higher is Better)

TF-IDF

& FCM

Modelo

HIFC

TF-IDF

& FCM

Modelo

HIFC

Medida SMART SMART REUTER REUTER

MS 37 49 29 45

CSS 24 55 22 43

F 43 63 45 54

Resultados Experimentales

Tipo HB (Higher is Better)

0

10

20

30

40

50

60

70

MS CSS F-measure

Tf-idf & FCM

SMART

Hybrid Model

SMART

Tf-idf & FCM

Reuter

Hybrid Model

Reuter

Page 20: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 20

Colecciones de documentos

estándar

Resultados con métricas

LB (Lower is Better)

TF-IDF

& FCM

Modelo

HIFC

TF-IDF

& FCM

Modelo

HIFC

Medida SMART SMART REUTER REUTER

NO 22 10 25 15

SNC 15 8 28 10

Resultados Experimentales

Tipo LB (Lower is Better)

0

5

10

15

20

25

30

NO SNC

Tf-idf & FCM

SMART

Hybrid Model

SMART

Tf-idf & FCM

REUTER

Hybrid Model

REUTER

Page 21: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 21

Modelo Def

Se realizaron experimentos con este modelo, integrado al Hierarchical

Initialized Fuzzy Clustering (HIFC), desarrollado por otro integrante de

SMILe.

Se utilizó la exactitud del agrupamiento para evaluar los resultados:

donde:

– Ac: grado de exactitud.

– |D|: # total de documentos.

– Nc: documentos correctamente clasificados.

Resultados mejores que los obtenidos con los métodos clásicos

DN

Ac c Métrica TF-IDF

& FCM

Modelo

HIFC

Exactitud 43% 65%

Page 22: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 22

Modelo FASPIR

Se realizaron experimentos integrado al Agrupamiento mediante Mapas Auto-organizados (redes neuronales). Para estimar la similitud entre documentos se utilizó la fórmula:

Para calcular la similitud entre documentos y neuronas se utilizó la fórmula:

– Cfr(m): peso del significado m en la neurona j.

– Cfrd(m): frecuencia del concepto m en el documento d.

– : t-norma.

– : t-conorma.

mCf

mCfmCfr

jDm

j

j

max

dm

dj

dm

dj

jmCfrnmCfr

mCfrnmCfr

ndsim,

,

,

Page 23: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 23

Resultados FOPSOM

Medida CFWS BBK SOM++

F 0,57 0,46 0,76

Medida Basic

SOM

SOM

+

SOM

++

F 0,46 0,53 0,76

Basic SOM: based on TF-IDF.

SOM+: Basic SOM + vectors from the

proposed model.

SOM++: SOM+ plus FASPIR, learning factor,

similarity function, etc.

CFWMS: Clustering based on Frequent Word

Meaning Sequences.

BBK: Bisecting k-means using background

knowledge.

Page 24: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 24

Actualmente

Se desarrolló un programa buscador que, dado un conjunto de documentos D y un conjunto de términos V, – Determina cuantas veces, nij, aparece cada

término ti en cada documento dj

– Construye una tabla de índice donde almacena dichas cantidades nij

– Permite procesar consultas mediante términos y recuperar los documentos donde aparezcan dichos términos

Page 25: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 25

Tabla de Índices x sinónimos

Se está desarrollando un programa que, dado un conjunto de documentos D y un glosario G (conjunto de significados, meanings), – Determine cuantas veces, nij, aparece cada

significado si en cada documento dj utilizando para ello el modelo FASPIR

– Construya una tabla de índice donde almacene dichas cantidades nij

– Permita procesar consultas mediante términos y recuperar los documentos donde aparezcan los conceptos asociados

Page 26: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 26

Question Answering System

Se está desarrollando un programa que permite realizar preguntas y encontrar la respuesta correspondiente a través de inferencias a partir de una base de conocimiento como YAGO.

Se trabaja en la representación del conocimiento que aparece en las oraciones en Lenguaje Natural mediante relaciones de restricción generalizadas (Generalized Constraints) y en la utilización de mecanismos de deducción basados en Lógica Difusa (protoforms)

Page 27: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 27

E-Learning

Se está desarrollando un programa que, dado un patrón de preguntas determinado y una base de conocimiento con preguntas tipo, respuestas posibles y respuestas correctas, permita generar de manera automática, actividades evaluativas sobre una temática determinada, utilizando YAGO, WordNet, etc.

Page 28: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 28

Grupo IRKAeL

Tema Participantes

Information

Retrieval

2 profesores,

un tesista

Question

Answering

System

4 profesores,

2 tesistas,

5 estudiantes

e-Learning 5 profesores

3 estudiantes

Page 29: Enfoque Borroso al Procesamiento de Significados ...tec_lenguaje09/uploads/Main/... · Cfj(m): frecuencia asociada al concepto m en un documento D j, similar a la frecuencia de aparición

04/11/2009 Dr. Andrés Soto 29

Gracias por su atención!Preguntas?