üístico de resumen automático de artículos médicos en...

45
INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA Hacia un modelo lingüístico de resumen automático de artículos médicos en español 1 Hacia un modelo lingüístico de resumen automático de artículos médicos en español  Iria da Cunha Fanego 2008 Codirigida por: Leo Wanner y M. Teresa Cabré Castellví Programa de doctorado: Ciències del Llenguatge i Lingüística Aplicada (2002-2004) Institut Universitari de Lingüística Aplicada Universitat Pompeu Fabra

Upload: others

Post on 03-Sep-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 1

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 Iria da Cunha Fanego 2008

Codirigida por: Leo Wanner y M. Teresa Cabré CastellvíPrograma de doctorado: 

Ciències del Llenguatge i Lingüística Aplicada (2002­2004)Institut Universitari de Lingüística Aplicada

Universitat Pompeu Fabra

Page 2: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 2

1. Introducción2. Estado de la cuestión3. El artículo médico4. Marco teórico5. Corpus6. Análisis del corpus7. Desarrollo del modelo de resumen8. Implementación del modelo9. Aplicación del modelo y resultados10. Evaluación11. Conclusiones 12. Líneas de trabajo futuro

Guión de la presentación

Page 3: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 3

Tema de la tesis

En esta tesis se propone una metodología para desarrollar un modelo de resumen automático basado en información lingüística de varios tipos.

El modelo intenta “simular” la manera de resumir de los especialistas de un ámbito, en concreto, de la medicina.

Mediante este modelo pueden obtenerse resúmenes de diferentes longitudes y características, es decir, resúmenes adaptados según las necesidades de cada uno.

Introducción

Page 4: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 4

Definición y parámetros de elaboración del resumen

Destinatario experto / Destinatario lego Necesidades del autor / Necesidades del usuarioResumen informativo / Resumen indicativo Propósito del 

resumen

Resumen neutral / Resumen evaluativoResumen por extracción / Resumen por abstracciónResultadoTexto monolingüe / Texto multilingüeDominio específico / Ámbito generalÚnico documento / Varios documentosFuente

Introducción

“a condensed version of a source document having a recognizable genre and a very specific purpose: to give the reader an exact and concise idea of the contents of the source” (Saggion y Lapalme 2002)

“an abbreviated, accurate representation of the contents of a document, preferably prepared by its author(s) for publication with it” (ANSI)

Page 5: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 5

Objetivos de la tesis1. Analizar los resúmenes que los profesionales de un dominio especializado realizan de sus textos e identificar las estrategias que emplean de cara a desarrollar un modelo de resumen por extracción    que las aplique.

2. Formalizar las estrategias empleadas por los especialistas mediante alguna estructura lingüística.

3. Encontrar un modo de integración de estas estrategias.

4. Implementar una parte del modelo de resumen.

5. Desarrollar un método de anotación lingüística eficaz para compensar la parte del modelo que no se pueda implementar por completo.

6. Constatar que es necesario explotar diversas informaciones lingüísticas de los textos para llegar a un resumen adecuado.

Introducción

Page 6: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 6

Hipótesis o ideas de partida

1. Los profesionales de un dominio emplean técnicas específicas para resumir sus textos especializados diferentes a las utilizadas para resumir discurso general.

1.1. Estas técnicas se pueden formalizar mediante reglas que formen parte de un modelo de resumen automático que las aplique.

2. La utilización de un solo tipo de información lingüística  o solamente de la estadística no es suficiente para llegar a un resumen adecuado y deben integrarse informaciones lingüísticas de varios tipos para poder llegar a una completa representación de los textos y a un posterior resumen de los mismos: información textual, léxica, discursiva y sintáctico­comunicativa.

Introducción

Page 7: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 7

Estado de la cuestión

Técnicas para resumen automático

Nivel superficial

Nivel medio

Nivel profundo

Combinación de técnicas lingüísticas

Frecuencias de palabrasTítulosPosición de fragmentosPalabras o frases claveTécnicas estadísticas Aprendizaje automático

Cadenas léxicasCorreferencia / detección de anáforasMáxima de Relevancia Marginal

Rhetorical Structure TheoryEstructura retórica no jerárquicaRasgos superficiales de la estructura discursiva

SuperficialesSuperficiales + detección de anáforas + conectores discursivosCadenas léxicas + estructura retóricaPragmática + retórica

Page 8: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 8

Resumen de textos especializados

Estado de la cuestión

Textos especializados en general

Textos médicos

Resumen manual

Resumen manual

Resumen automático

Resumen automático

Swales 1981Graetz 1985Fluck 1988Kaplan et al. 1994Ciapuscio 1998

Luhn 1959Lehmam 1995Saggion y Lapalme 2000 Pollock y Zamora 1975Abracos y Lopes 1997Teufel y Moens 2002Farzindar et al. 2004

Swales 1981Salager­Meyer 1990

Damianos et al. 2002Johnson et al. 2002Gaizauskas et al. 2001Lenci et al. 2002 Kan 2003

Page 9: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 9

Estructura y contenido

Fundamento Pacientes y métodos

Resultados Discusión

Agradecimientos (opcional)

Bibliografía

Resumen en español 

Palabras clave en español

Resumen en inglés (abstract)

Palabras clave en inglés (keywords)

Título del artículo

El artículo médico

Page 10: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 10

Resumen del autor como punto de referencia

0110101001111111010111110

0110101001111111010111110

Vector Space Model

P l o t   o f  C o m p  2  v s   C o m p   1

C o m p   1

Com

p 2

L e c to ra u to r                li n g 1     A          li n g 2   C a          li n g 3   R o          li n g 4   A m          li n g 5   R i          li n g 6   R o          m e d 1   D a n          m e d 2   I r i          m e d 3   E d u          m e d 4   V í c          m e d 5   M a r          m e d 6   M º           

­ 1 , 5 ­ 1 ­ 0 , 5 0 0 , 5 1 1 , 5­ 3 , 3

­ 2 , 3

­ 1 , 3

­ 0 , 3

0 , 7

1 , 7

P l o t   o f  C o m p  2  v s   C o m p   1

C o m p   1

Com

p 2

L e c to ra u to r                li n g 1     A          li n g 2   C a          li n g 3   R o          li n g 4   A m          li n g 5   R i          li n g 6   R o          m e d 1   D a n          m e d 2   I r i          m e d 3   E d u          m e d 4   V í c          m e d 5   M a r          m e d 6   M º           

­ 1 , 5 ­ 1 ­ 0 , 5 0 0 , 5 1 1 , 5­ 3 , 3

­ 2 , 3

­ 1 , 3

­ 0 , 3

0 , 7

1 , 7

Proyección BidimensionalAutorDr. 1Dr. 2Dr. 3Dr. 4Dr. 5Dr. 6

Ling. 1Ling. 2Ling. 3Ling. 4Ling. 5Ling. 6

Resúmenes

D e n d ro g ra mW a rd 's  M e th o d ,E u c l id e a n

Dis

tan

ce

0

2

4

6

8

1 0

au

tor

lin

g1

An

na

lin

g2

Ca

rme

lin

g3

Ro

ge

lin

g4

Am

or

lin

g5

Ric

ard

o

lin

g6

Ro

dri

me

d1

Da

ni

me

d2

Iria

me

d3

Ed

u

me

d4

V

í cto

me

d5

Ma

ria

me

d6

MºJ

A   M1 M3 M2 M4 M5 M6   L1 L2   L3  L5  L4  L6

D e n d ro g ra mW a rd 's  M e th o d ,E u c l id e a n

Dis

tan

ce

0

2

4

6

8

1 0

au

tor

lin

g1

An

na

lin

g2

Ca

rme

lin

g3

Ro

ge

lin

g4

Am

or

lin

g5

Ric

ard

o

lin

g6

Ro

dri

me

d1

Da

ni

me

d2

Iria

me

d3

Ed

u

me

d4

V

í cto

me

d5

Ma

ria

me

d6

MºJ

A   M1 M3 M2 M4 M5 M6   L1 L2   L3  L5  L4  L6

El artículo médico

Page 11: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 11

0000000000001La adecuación de las visitas al servicio de urgencias se relaciona  con  el tipo de enfermedad.

1101111111111Los pacientes enviados por un médico, con traumatismos o proceso quirúrgico visitaron las urgencias más adecuadamente. 

1111111111111y más frecuentes en la población pediátrica.

1011001111111El 37,9% de las visitas fueron inapropiadas

0111111111111Se evaluaron las visitas a un servicio de urgencias hospitalarias mediante un Protocolo  de Adecuación de Urgencias Hospitalarias, previamente validado. 

0111111111111Entre el 20 y el 80% de las visitas a los servicios de urgencias hospitalarios son inapropiadas.

L6

L5

L4

L3

L2

L1

M6

M5

M4

M3

M2

M1

AContenido 

El artículo médico

Page 12: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 12

P l o t   o f  C o m p  2  v s   C o m p   1

C o m p   1

Co

mp

 2

L e c to ra u to r                li n g 1     A          li n g 2   C a          li n g 3   R o          li n g 4   A m          li n g 5   R i          li n g 6   R o          m e d 1   D a n          m e d 2   I r i          m e d 3   E d u          m e d 4   V í c          m e d 5   M a r          m e d 6   M º           

­ 1 , 5 ­ 1 ­ 0 , 5 0 0 , 5 1 1 , 5­ 3 , 3

­ 2 , 3

­ 1 , 3

­ 0 , 3

0 , 7

1 , 7

El artículo médico

Multidimensional Scaling  

Page 13: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 13

D e n d r o g r a mW a r d 's   M e t h o d , E u c l i d e a n

Dis

tan

ce

0

2

4

6

8a

uto

r

ling

1A

nn

a

ling

2C

arm

e

ling

3R

og

e

ling

4A

mo

r

ling

5R

ica

rdo

ling

6R

od

ri

me

d1D

an

i

me

d2Ir

ia

me

d3

Ed

u

me

d4V

í cto

me

d5

Ma

ria

me

d6

MºJA M5 M1 M2 M4 M3 M6 L1 L2 L3 L4 L5 L6

El artículo médico

Clustering no supervisado 

Page 14: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 14

Conclusiones generales• Los profesionales médicos adoptan estrategias diferentes en la 

selección de los contenidos relevantes para sus resúmenes a las empleadas por profesionales de otros ámbitos.

• Los profesionales de un colectivo tienden a seleccionar los mismos fragmentos de contenido para sus resúmenes.

• Los resúmenes realizados por profesionales pueden emplearse para extraer criterios sobre cómo debe resumirse un texto especializado de un determinado ámbito y como punto de referencia para una posterior evaluación de un modelo de resumen. 

Conclusiones específicas• El resumen incluye información de los 4 apartados del artículo.• El resumen suele incluir información numérica en los apartados de 

Pacientes y métodos y Resultados.• El resumen no incluye definiciones, datos históricos, o referencias a 

trabajos previos o relacionados.• El apartado de Discusión del resumen no es más extenso que los otros.

El artículo médico

Page 15: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 15

Cómo obtener un resumen adecuado

El desarrollo de un modelo de resumen debe fundamentarse en diversos aspectos lingüísticos:

Estructura textual del documento

Unidades léxicas representativas

Estructura discursiva

Estructura sintácticaEstructura comunicativa

Marco teórico

Page 16: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 16

Cómo obtener un resumen adecuado

El desarrollo de un modelo de resumen debe fundamentarse en diversos aspectos lingüísticos:

Estructura textual del documento

Unidades léxicas representativas

Estructura discursiva

Estructura sintácticaEstructura comunicativa

Rhetorical Structure Theory (RST)

Marco teórico

Page 17: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 17

Cómo obtener un resumen adecuado

El desarrollo de un modelo de resumen debe fundamentarse en diversos aspectos lingüísticos:

Estructura textual del documento

Unidades léxicas representativas

Estructura discursiva

Estructura sintácticaEstructura comunicativa

Rhetorical Structure Theory (RST)

Teoría Sentido­Texto (TST)

Marco teórico

Page 18: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 18

1. Rhetorical Structure Theory (Mann y Thompson 1988)

– Teoría discursiva de organización del texto.– Estructura jerárquica.– Patrones núcleo­satélites.– Relaciones discursivas: Elaboración, Evidencia, Propósito, 

Condición, Contraste, etc. 

Marco teórico

Page 19: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 19

2. Teoría Sentido­Texto (Mel’cuk 1988, 2001)

– Estructura sintáctica profunda de dependencias (elementos actanciales, elementos atributivos, apenditivos y coordinativos).

– Estructura comunicativa (tema / rema).

TEMA

REMA

Marco teórico

Page 20: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 20

Subcorpus de referencia– 50 artículos médicos + 50 resúmenes (Medicina Clínica / CT del IULA).– 3 condiciones:

• artículos originales,• temas de actualidad (cáncer, sida, alcoholismo, anorexia, etc.),• publicación entre 1992 y 2002.

Subcorpus de contraste– Subcorpus de contraste para la 1ª evaluación:

• 5 artículos originales, • 5 resúmenes de los autores,• 5 resúmenes por extracción realizados por 5 médicos.

– Subcorpus de contraste para la evaluación final:• 10 artículos originales,• 10 resúmenes de los autores,• 10 resúmenes por extracción realizados por 3 médicos,• 10 resúmenes por abstracción redactados por 3 médicos.

Corpus

Page 21: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 21

Análisis de los artículos y los resúmenesdel corpus de referencia

I. Estructura textual.II. Unidades léxicas (indicadoras de relevancia o de no relevancia).III. Estructura discursiva y sintáctico­comunicativa.

Análisis del corpus

Para averiguar las estrategias presumiblemente empleadas por los especialistas a la hora de resumir los textos de su ámbito.

Page 22: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 22

I. Análisis de la estructura textual • Análisis de los subtítulos de los artículos médicos y de los resúmenes del subcorpus de referencia con el objetivo de constatar que ambos siguen la estructura IMRD (Swales 1981).

2. Análisis de la relevancia de determinados fragmentos teniendo en cuenta su posición dentro del texto (Edmunson 1969; Hovy y Lin 1997, 1999). 

Análisis del corpus

3 primeras o 3 últimas oraciones Discusión 2 primeras oraciones Resultados 2 primeras oraciones Pacientes y métodos 3 últimas oraciones Fundamento Selección basada en posición Apartado del artículo 

Page 23: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 23

II. Análisis de unidades léxicas

Análisis de unidades léxicas indicadoras de relevancia• Unidades léxicas nominales: objetivo, objeto, propósito…• Unidades léxicas verbales: realizar, estudiar, presentar, analizar…• Unidades léxicas incluidas en el título del artículo (Luhn 1959).• Formas verbales en 1ª persona del plural (Torii y Vijay­Shanker 2005).• Unidades numéricas en Pacientes y métodos y Resultados.

Análisis de unidades léxicas indicadoras de no relevancia• Unidades  léxicas  que  ser  refieran  a  datos  estadísticos  o 

computacionales (Ejs. ELISA, SPSS, ANOVA…). • Unidades  léxicas  que  ser  refieran  a  tablas  o  figuras  (Ejs.  Tabla  1, 

Figuras 7 y 8…).• Unidades léxicas que ser refieran a definiciones (Ejs. se define como, 

definición…).• Unidades  léxicas  que  ser  refieran  a  trabajos  previos  o  relacionados

(Ejs. et al, otros autores…).

Análisis del corpus

Page 24: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 24

III. Análisis de la estructura discursiva y sintáctico­comunicativa

• Análisis de la estructura discursiva (RST).• Análisis de la estructura sintáctica (TST).• Análisis de la estructura comunicativa (TST).

Metodología de análisis:–  analizar las estructuras discursivas, sintácticas y comunicativas 

existentes en los artículos del subcorpus de referencia,–  observar qué fragmentos de los artículos originales incluyen los 

médicos en sus resúmenes,–  comprobar si en esas informaciones se dan regularidades en la 

estructura discursiva, sintáctica y/o comunicativa.

Análisis del corpus

Page 25: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 25

FUNDAMENTO (del artículo)[En  la  enfermedad  isquémica  coronaria  (EIC)  se  han  descrito  diferentes  alteraciones  en  la circulación  sistémica  del  sistema  hemostático,  existiendo  muy  poca  información  de  los posibles  cambios  que  pueden  acontecer  en  la  circulación  coronaria,  cerca  de  la  lesión trombótica  y  sus  diferencias  con  las  alteraciones  encontradas  a  nivel  periférico.]1  [La angioplastia transluminal percutánea coronaria (ATPC) ha supuesto un importante avance en el  tratamiento  de  la  EIC.]2  [La  ATPC  generalmente  ocasiona  una  dilatación  del  diámetro coronario, bien por dilatación directa del fragmento arterial estenosado, o bien por fractura de la placa de ateroma.]3 [La alteración de la pared vascular ocasionada con este procedimiento puede exponer a la circulación nuevas superficies, como subendotelio, placa aterosclerótica o pared media vascular, aumentando el riesgo de formación de trombos.]4 [En este sentido, es conocido el  riesgo de oclusión arterial aguda o  tardía tras  la ATPC,]5  [aunque existen pocos datos que documenten los cambios hemostáticos in situ ocasionados por esta técnica.]6[Nos planteamos este trabajo con el doble objetivo de investigar si en los enfermos con EIC  existen  diferencias  en  distintas  variables  hemostáticas  al  efectuar  sus determinaciones en  la sangre obtenida del seno coronario  (SC)  respecto a  la obtenida de  la  circulación  periférica  (CP),  así  como  los  posibles  cambios  que  la  ATPC  pudiera producir en la hemostasia en ambos lugares.]7FUNDAMENTO (del resumen)Se  comparan  las  variaciones  hemostáticas  en  el  seno  coronario  (SC)  y  en  la  circulación periférica  (CP)  en  los  pacientes  con  enfermedad  isquémica  coronaria  (EIC),  y  se  evalúa  el efecto de la angioplastia transluminal percutánea (ATPC).

Satélite de Background

Núcleo de Background

Análisis del corpus

Page 26: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 26

A) Se eliminan los satélites de Concesión, Reformulación, Resultado, Justificación y Circunstancia.

B) Se eliminan los núcleos de Interpretación y Evidencia.

C) No se separan los satélites de Condición y Resumen de sus núcleos.

D) No se separan los núcleos de Contraste, Unión, Lista y Secuencia.

E) Se eliminan los elementos apenditivos.

F) Se eliminan los satélites de Elaboración correspondientes a elementos atributivos (en concreto, explicativos).

G) Se eliminan los satélites de Elaboración referentes al tema de su núcleo.

H) No se eliminan los satélites de Elaboración referentes al rema de su núcleo.

Análisis del corpus Regularidades discursivas y sintáctico­comunicativas

Page 27: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 27

♦ Aplicación de reglas discursivo­sintáctico­comunicativas (DISICO): propuesta de oraciones y/o fragmentos de oraciones candidatos a ser eliminados

2) Nivel léxico

3) Nivel discursivo y sintáctico­comunicativo

♦ Aplicación de reglas léxicas: puntuación de oraciones ♦ Aplicación de reglas léxicas: eliminación de oraciones (o fragmentos de oraciones)

♦ Aplicación de reglas de puntuación de oraciones 

Resumen

1) Nivel textual ♦ Aplicación de reglas textuales: división del texto en apartados y puntuación de oraciones

Texto original

Fase I

Fase II

Desarrollo del modelo de resumen

Page 28: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 28

Formalización de reglas textualesIF sentence s is one of the 3 last sentences of the Introduction sectionTHEN ∆s :=  ∆s + δs

Formalización de reglas basadas en unidades léxicasIF sentence s contains a verbal form in 1st person pluralTHEN ∆s :=  ∆s + δs

IF sentence s contains definition or introduction d of a new concept c THEN IF d appears in parentheses           THEN ELIMINATE the parenthesis from s            ELSE IF |Secs.rem| > 1 ELIMINATE s from Secs.rem

Formalización de reglas DISICOIF S is satellite of a BACKGROUND relation BTHEN IF |SecSAT.rem| > 1 ELIMINATE S

Desarrollo del modelo de resumen

Page 29: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 29

Clasificación extraída de Amigó (2006).

Estado de la cuestón

Métodos de evaluación de resúmenes

Métodos intrínsecos

Métodos extrínsecos

Basados en la coherencia del resumen

Basados en la cobertura de contenidos

Cobertura sobre las fuentes originales

Cobertura sobre resúmenes modelo

Desarrollo del modelo de resumen

Page 30: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 30

Clasificación extraída de Amigó (2006).

Estado de la cuestión

Métodos de evaluación de resúmenes

Métodos intrínsecos

Métodos extrínsecos

Basados en la coherencia del resumen

Basados en la cobertura de contenidos

Cobertura sobre las fuentes originales

Cobertura sobre resúmenes modelo

ROUGEDistancia Euclidiana

Desarrollo del modelo de resumen

Page 31: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 31

1ª evaluación del modeloComparación: 5 resúmenes de nuestro modelo + 5 resúmenes de los autores + 5 resúmenes de 3 médicos + 5 resúmenes baseline.

ROUGE

Distancia Euclidiana

Desarrollo del modelo de resumen

Médico 1

Médico 3Vector 7:1

Autor

ModeloMédico 2

Vector 6:0

0,26460,2980baseline0,6321 0,6570nuestro modeloROUGE­SU­4 ROUGE­2 ROUGE (media) 

Page 32: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 32

Reglas textuales y léxicas: implementación en Perl.

Reglas DISICO

Problemas: carencia de analizadores discursivos y comunicativos,                   limitaciones de los analizadores sintácticos de dependencias.

Solución: ofrecer al resumidor los textos ya etiquetados.

1. Etiquetaje lingüístico oracional: resumen por extracción.• Uso de una base de datos. • Implementación de las reglas del modelo: SQL.

2. Etiquetaje lingüístico intraoracional: resumen por extracción + compresión.• Diseño de un conjunto de etiquetas XML en 3 niveles.• Diseño de una DTD (Document Type Definition).• Implementación de las reglas del modelo: Perl.• Diseño de una interfaz de aplicación de las reglas.

Implementación del modelo

Page 33: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 33

­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­

­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­

­­­­­­­­­­­­­­                    ­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­­                        ­­­­­­­­­­­­­­­­­                ­­­­­­­­­­­­­­­­­­­­­­­­­­­­­                ­­­­­­­­­­­­­­­­­­­­

Texto originalResumen por 

extracción

 Resumen por extracción + compresión

Implementación del modelo

Page 34: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 34

Implementación del modelo

Page 35: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 35

Implementación del modelo

Page 36: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 36

Implementación del modelo

♦ score.pl: puntuación de oraciones ♦ eliminacion.pl: eliminación de oraciones

♦ segmentador_medico.pl: división del texto en 4 apartados 

♦ segmentador oracional IULA♦ lematizador TreeTagger

♦ PhpMyAdmin: etiquetaje discursivo semiautomático a nivel oracional

♦ oralingmod.pl: resumen por extracción mediante reglas DISICO 

♦ Interfaz web DISICO / sumcompleto.pl: resumen por compresión mediante reglas DISICO

♦ Oxygen XML Editor: etiquetaje discursivo semiautomático a nivel intraoracional

Determinación del número de oraciones de cada apartado:se emplea la puntuación de oraciones (obtenida por score.pl)

pro

cesaF

ullE

Sc

ore

.sh

Texto origina

l

Resumen

Page 37: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 37

Anotadores* Etiquetaje discursivo oracional de los 10 textos del subcorpus de    contraste: realizado por 5 personas. * Anotación XML intraoracional de los 10 resúmenes por extracción 

previamente obtenidos: realizada por nosotros.

Características de los resúmenes • Resúmenes de 11 oraciones (DISICO_1a: extracción / DISICO_1b: 

extracción + compresión).–    Nº de oraciones por cada apartado: Fundamento: 2 or.                                                               Pacientes y métodos: 3 or.                                                               Resultados: 4 or.                                                               Discusión: 2 or.

b) Resúmenes de 11 oraciones como máximo (DISICO_2a: extracción / DISICO_2b: extracción + compresión).

–    Oraciones obtenidas por las reglas de eliminación y las DISICO.–    Si el nº de oraciones obtenidas en algún apartado es mayor que el establecido  se aplican las reglas de puntuación hasta llegar al nº de oraciones establecidas en ese apartado.

Aplicación del modelo y resultados

Page 38: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 38

Evaluación con ROUGE

Resúmenes candidatos: 1. resúmenes de nuestro modelo      (DISICO_1a, DISICO_1b, DISICO_2a, 

DISICO_2b),2. resúmenes baseline, 3. resúmenes Ms­Word Autosummarize. 

Resúmenes de referencia:1. resúmenes de los autores de los 

artículos, 2. resúmenes por extracción de 3 

médicos,3. resúmenes por abstracción de 3 

médicos.

ROUGE (media) 

0,60160,6257 DISICO_2b 0,19880,1965 baseline 0,26140,2579Ms­Word

0,62090,6427 DISICO_2a 0,62720,6503DISICO_1b 0,64830,6680 DISICO_1a ROUGE­4 ROUGE­2 ROUGE

ROUGE Jackknife (media) 

0,60280,6272DISICO_2b 0,2000 0,1976baseline 0,26370,2600Ms­Word

0,62530,6469 DISICO_2a 0,6270 0,6523DISICO_1b 0,6463 0,6650 DISICO_1a ROUGE­4 ROUGE­2 ROUGE

Evaluación del modelo

Page 39: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 39

Evaluación del modelo

D e n d ro g ra m aM é to d o  W a rd ,E u c l id e a n

Dis

tan

cia

0

1

2

3

4

5

Au

tor

Ba

se

line

M é dic

o 1

M é dic

o 2

M é dic

o 3

Nu

es

tro

 mo

de

lo

Wo

rd

D en d ro g ra m aM é tod o  W a rd ,E uc lid ea n

Dis

tan

cia

0

1

2

3

4

5

Aut

or

Ba

selin

e

M é dic

o 1

M é dico

 2

M é dic

o 3

Nu

estr

o m

odel

o

Wor

d

Resúmenes DISICO_1a (11 oraciones por extracción)

Resúmenes DISICO_2a (máx. 11 oraciones por extracción)

Evaluación con la Distancia Euclidiana

Comparación entre: • resúmenes DISICO_1a / 

DISICO_2a,• resúmenes de los autores 

de los artículos, • resúmenes por extracción 

de 3 médicos,• resúmenes baseline, • resúmenes del Ms­Word 

Autosummarize.

39

Page 40: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 40

Restrictions of the model

•  General restriction: costly adaptation to other areas (although feasible).

•  Restriction with regard to coherence: it does not include anaphora resolution.

•  Restrictions of the rules of the model (*we carry out 2 tasks):    a. We count and analyze the sentences from the DISICO_1a summaries 

that are not selected at least by 3 doctors: 5 sentences.–  4 of these errors are solved in DISICO_2a summaries.

        b. We count and analyze the sentences from the DISICO_1a summaries 

that are selected at least by 3 doctors, but not by our model: 7 sentences.– In general: isolated cases that we do not consider relevant.– Exception: multinuclear relation of List.

        Mechanisms that are not inherent to the rhetorical structure of the text are      

needed in order to explain why one nucleus of a multinuclear relation is considered important by humans. (Marcu 2000)

Model Evaluation

Page 41: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 41

Conclusions linked with the hypothesisHypothesis 1. Professionals from a domain use specific techniques to summarize specialized texts that are different to the ones used to summarize general speech.Confirmed by the doctor­linguist experiment and by the final evaluation with Euclidean Distance.

Hypothesis 1.1. These techniques can be formalized in the form of rules that are part of a model of automatic summarization applying them.Confirmed by the analysis of the strategies used by authors when writing their summaries and by their later formalisation in the rules included in the proposed summarization model.

Hypothesis 2. The use of a single type of linguistic information is not enough to obtain an adequate summary, so linguistic information of several types must be integrated [...].Confirmed by the linguistic analysis of the articles and the summaries of the specialists, and by finding that there are regularities in the textual structure, in the use of certain lexical units, and in the discourse and syntactic­communicative structure.

Conclusions

Page 42: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 42

General conclusions

The linguistic model of summarization that we suggest in the thesis is valid because it obtains good results in its evaluation =>

our work provides a relevant contribution to the state of the art on automatic summarization in Spanish, specifically, on specialized texts.

The summaries written by specialists of an area (in our case, medicine) can be taken as a point of reference for the development and the evaluation of a model of automatic summarization.

In short, all goals formulated at the beginning of the thesis have been fulfilled. 

Conclusions

Page 43: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 43

Conclusions beyond the thesis … However, is linguistics enough to provide the best summaries?

experiments (da Cunha et al. 2007) show that a combination of linguistic and statistical techniques further optimizes the quality of the summaries.

We designed an hybrid summarizer that includes 3 summarizers:­  CORTEX (Torres­Moreno et al. 2002): based on Vector Space Model.­  ENERTEX (Fernández et al. 2007): based on statistical physics.­  DISICOSUM: based on linguistics.

We evaluated it with ROUGE and we observed that the results of this hybrid summarizer are better than the results of any of the other 3 summarizers.

Conclusions

Page 44: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 44

1. Application of the summarization model to a higher quantity of medical articles.

2. Adaptation of the summarization model to other genres of the medical domain and to other specialized domains.

3. Development of a discourse parser to integrate it in our summarizer (using machine learning techniques).

4. Continuation with the research about the benefits of the combination of statistical and linguistic techniques.

Lines of Future Work

Page 45: üístico de resumen automático de artículos médicos en españolnlp/seminari/iria-2008-04-11.pdf2008/04/11  · de resumen automático basado en información lingüística de varios

INSTITUT UNIVERSITARI DE LINGÜÍSTICA APLICADA

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 45

Hacia un modelo lingüístico de resumen automático de artículos médicos en español

 Iria da Cunha Fanego 2008

Codirigida por: Leo Wanner y M. Teresa Cabré CastellvíPrograma de doctorado: 

Ciencias del Lenguaje y Lingüística Aplicada (2002­2004)Institut Universitari de Lingüística Aplicada

Universitat Pompeu Fabra