definición de etiquetas semánticas dentro de la tesis digital para realizar búsquedas de...

34
Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Upload: nicodemo-bedoya

Post on 28-Jan-2016

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de

Información PertinenteDra. Rocío Abascal-Mena

DC-2006, México

Page 2: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Contenido

Introducción Propuesta para la creación de un

nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión

Page 3: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Introducción

Contexto: Biblioteca Digital. Instituto Nacional de Ciencias

Aplicadas de Lyon, Francia (INSA). Consulta Integral de Tesis en Red

(CITHER) Difusión de tesis en línea. Búsqueda a partir de palabras claves. Búsqueda por catálogo. Formato PDF (Portable Document Format).

Page 4: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Introducción

Page 5: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Introducción

Objetivo: Crear nuevo modelo de documentos para permitirle al usuario obtener la información pertinente.

Nuestro trabajo consiste en: Modelar la tesis durante su creación. Permitir la búsqueda de información

pertinente. Uso de “etiquetas semánticas”.

Page 6: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Contenido

Introducción Propuesta para la creación de un

nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión

Page 7: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Propuesta para la creación de un nuevo modelo de documentos

Llamado a Nomino

Base de Conceptos

Creación manual de etiquetas

Llamado a la base

Estudiante

Tesis con las nuevas etiquetas

Tesis

Almacenamiento de la tesis

CITHER

(1) (2) (3)

Etapa 1

Etapa 2

Page 8: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Contenido

Introducción Propuesta para la creación de un

nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión

Page 9: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Extracción de conceptos

Estudio comparativo de 4 herramientas de extracción automática de conceptos: Copernic Summarizer Nomino TerminologyExtractor Xerox Terminology Suite (XTS)

Corpus: 25 documentos científicos. Análisis basado en la “precisión” y la

“exhaustividad”.

Page 10: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Extracción de conceptos

La “precisión” es la proporción de documentos recuperados realmente relevantes, del total de documentos recuperados.

Precisión = Documentos relevantes recuperados

Documentos recuperados

Page 11: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Extracción de conceptos

La “exhaustividad” es la proporción de documentos que son relevantes en la base de datos, independientemente de que éstos se recuperen o no.

Exhaustividad = Documentos relevantes recuperados

Documentos relevantes

Page 12: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Extracción de conceptos

Resultados del análisis de nuestro corpus:

Concept clasificado comopertinente por el humano

Concepto clasificado como nopertinente por el humano

Concepto clasificado comopertinente por la

herramientaa b

Concepto clasificado comono pertinente por la

herramientac d

XTS Copernic

Summarizer Terminology Extractor

Nomino

Précision 0.028 (2.8%)

0.339 (33.9%)

0.068 (6.8%)

0.834 (83.4%)

Exhaustividad 0.905 (90.5%)

0.510 (51%)

0.648 (64.8%)

0.651 (65.1%)

Page 13: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Extracción de conceptos

Selección de Nomino como la herramienta más adecuada a nuestras necesidades.

A pesar de la calidad de las herramientas el usuario experto debe de validar los conceptos extraídos.

Page 14: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Contenido

Introducción Propuesta para la creación de un

nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión

Page 15: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Análisis de la estructura lógica Dos tipos de análisis:

Estructura lógica Estructura semántica

Análisis de la estructura lógica: Observando la organización de la tesis

constatamos que: Siguen un plan, estructura “descomposición

lógica”. Existe una relación entre la estructura

“semántica”.

Page 16: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Análisis de la estructura lógica Análisis de los principales conceptos

extraídos de acuerdo a la estructura lógica Nomino se apoya en dos principios:

“ganancia al alcance”: estipula que la información es aún más importante si es rara

“ganancia a la expresividad”: clasifica los árboles en función de la información que se encuentra a su alrededor

Aplicando Nomino al corpus nos damos cuenta de que hay conceptos que se repiten mucho y que por lo tanto no serán clasificados como pertinentes

Page 17: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Análisis de la estructura lógica

Tesis Conceptos para la tesis completa

Conceptos únicamente para los

capítulos T1 293 296 T2 36 38 T3 66 64 T4 45 43 T5 69 73 T6 42 42 T7 38 42 T8 115 124 T9 40 38 T10 52 54 T11 50 57 T12 36 40 T13 46 54 T14 47 51 T15 81 85 T16 23 24 T17 36 43 T18 17 14 T19 29 32 T20 35 33

Page 18: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Análisis de la estructura lógica

Tesis Conceptos para la tesis completa

Conceptos únicamente para los

capítulos T1 293 296 T2 36 38 T3 66 64 T4 45 43 T5 69 73 T6 42 42 T7 38 42 T8 115 124 T9 40 38 T10 52 54 T11 50 57 T12 36 40 T13 46 54 T14 47 51 T15 81 85 T16 23 24 T17 36 43 T18 17 14 T19 29 32 T20 35 33

Page 19: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Análisis de la estructura lógica Resultados

Para nuestro estudio: Índice Introducción Conclusión

Índice Introducción C1 C2 C3 C4 C5 Conclusión

9,51% 12,98% 20,77% 25,93% 22,23% 25,71% 23,60% 13,42%

Son de menor interés

Page 20: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Contenido

Introducción Propuesta para la creación de un

nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión

Page 21: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Análisis de la estructura semántica “Segmento semántico”: descomposición o corte del

documento que nos permite acceder al contenido de las tesis por medio de temas o conceptos tratados.

Ejemplos: estado del arte, metodología, modelo, algoritmo, etc.Segmentos semanticos Presentacion del segmento

Estado del arte Lo encontramos en diferentes capitulos de la tesis pero la mayor parte deltiempo esta consacrado al segundo capitulo al cual llamamos « estado delarte general ». Despues podemos encontrar dentro de ciertos capitulosdiferentes estados del arte tales como : « estado del arte de los metodos »,« estado del arte de los algoritmos », …

Metodologia La encontramos en la presentacion de una estrategia propuesta con el finde resolver un problema.

Modelo Este segmento puede encontrarse en varios capitulos.Algoritmo Una de las estrategias encontradas en la gran parte de las tesis consiste en

modelar un problema utilizando algoritmos.Arquitectura Concierne a las principales caracteristicas del prototipo creado.

Prototipo Parte generalmente presentada en los ultimos capitulos.

Page 22: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Análisis de la estructura semántica Análisis de la estructuración de la tesis de

acuerdo a sus “segmentos semánticos”.T1 T2

Estado del arte general-Capitulo 1 al 3

Estado del arte general-Parte 1 Seccion 1-3

Propuesta-Capitulo 4

Estado del arte de los metodos-Parte 2 Seccion 1-2 y 2.1

Prototipo-Capitulo 5

Experimentacion-Parte 2 Seccion 2.2

Estado del arte de lasherramientas

-Parte 3Modelo

-Parte 4Estado del arte de las tecnicas

-Parte 4 Seccion 2Prototipo

Page 23: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Análisis de la estructura semántica Un ejemplo de la extracción de

conceptos usando dos “segmentos semánticos”.Tesis ESTADO DEL ARTE GENERAL MODELO

No. conceptos En los capítulos No. conceptos En los capítulos T1 241 1, 2 y 3 54 4 T2 22 1(1, 2, 3) 8 4 T3 51 1, 2 y 3 31 4 y 5 T4 59 1, 2, 3 y 4 19 5, 6, 7 y 8 T5 32 3 17 3(3.3, 3.4), 4(4.1) T6 56 2 20 3 T7 46 1 20 2 T8 26 2 6 3(4) T9 65 2 10 3

Segmento semántico T1 T2 T3 T4 T5 T6 T7 T8 T9

Estado del arte general 36% 16% 44% 37% 42% 52% 46% 78% 42% Modelo 15% 16% 44% 20% 42% 24% 41% 22% 28%

Page 24: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Análisis de la estructura semántica Validación del interés de cortar la tesis

en diferentes “segmentos semánticos” Localización de las partes de la tesis

más ricas en información Extracción de conceptos del área de

estudio (informática) Creación de una base de conceptos del

área

Page 25: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Contenido

Introducción Propuesta para la creación de un

nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión

Page 26: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Un nuevo modelo de documento (1) Creación de un documento de tipo TESIS

Estructura lógica (recomendaciones del Ministerio de Educación + Universidad).

Estructura semántica: usando XML Schéma.

Page 27: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Un nuevo modelo de documento (2) Puesta en marcha de un sistema

que ayuda al estudiante a la hora de redactar su tesis.

Llamado a Nomino

Base de Conceptos

Creación manual de etiquetas

Llamado a la base de conceptos

Estudiante

Tesis con las nuevas etiquetas

Tesis

Almacenamiento de la tesis

CITHER

(1) (2) (3)

Etapa 1

Etapa 2

Page 28: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Un nuevo modelo de documento

Page 29: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Un nuevo modelo de documento

Extracción de conceptos haciendo una llamada a Nomino

Nomino

Page 30: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Un nuevo modelo de documento

Page 31: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Un nuevo modelo de documento

Page 32: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Un nuevo modelo de documento

Page 33: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Conclusión Definición de un nuevo modelo de documento

tipo “TESIS” Permitiendo el acceso a las partes pertinentes de

los documentos Conjugando simultáneamente las 2 estructuras:

lógica y semántica Construcción de una herramienta para la

generación de tesis Obedeciendo a una estructura predefinida y

controlable Permitiendo la integración de los conceptos con el

fin de describir el contenido Aprovechando la experiencia del autor

Page 34: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México

Conclusión

Dra. Rocío Abascal Mena [email protected]