spanish language 111005

38
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands. Madrid, BNE, 5 de octubre de 2011 UA – Spanish Language Presentación del trabajo lingüístico

Upload: impact-centre-of-competence

Post on 26-Jun-2015

158 views

Category:

Documents


0 download

DESCRIPTION

Presentation introducing Universidad de Alicante’s work regarding Spanish language presented by Isabel Martínez during demo session held at the BNE 5th of October 2011.

TRANSCRIPT

Page 1: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Madrid, BNE, 5 de octubre de 2011

UA – Spanish LanguagePresentación del trabajo lingüístico

Page 2: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

2 Madrid, BNE, 5 de octubre de 2011

Índice

Universidad de Alicante Descripción del corpus Producción del GT Trabajo lingüístico Herramientas utilizadas Resultados preliminares

Page 3: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

3 Madrid, BNE, 5 de octubre de 2011

Universidad de Alicante

Page 4: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4 Madrid, BNE, 5 de octubre de 2011

Universidad de Alicante

UA: Sede científica de la BVMC (partner de IMPACT)

DLSI: Departamento de lenguajes y sistemas informáticos. Grupo de investigación Transducens creadores de Apertium.

Page 5: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

5 Madrid, BNE, 5 de octubre de 2011

Descripción del corpus

Page 6: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

6 Madrid, BNE, 5 de octubre de 2011

Descripción del corpus

Obras clave de los siglos XVI y XVII aportadas por la Biblioteca Nacional de España:

– Principales autores del Siglo de Oro español (Cervantes, Quevedo, Góngora, Garcilaso, Calderón, Lope de Vega)

– Obras de América (Inca Garcilaso de la Vega, Sor Juana Inés de la Cruz)

Diccionario de Autoridades de la Real Academia Española (Seis volúmenes publicados entre 1726 y 1739), también de la BNE.

Textos entre finales del siglo XV y el siglo XVII de la Biblioteca Virtual Miguel de Cervantes

Selección de textos

Page 7: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

7 Madrid, BNE, 5 de octubre de 2011

División del corpus

Descripción del corpus

Development

Creación de un diccionario

histórico para mejorar el

reconocimiento del OCR en textos

antiguos.

Demonstration

Demostración de los resultados obtenidos y las herramientas desarrolladas.

Evaluation

Test de herramientas y

lexicones.

División del corpus en tres bloques:

Page 8: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

8 Madrid, BNE, 5 de octubre de 2011

“Defectos” de las imágenes

Impresión defectuosa y degradación

Descripción del corpus

Page 9: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

9 Madrid, BNE, 5 de octubre de 2011

Descripción del corpus

Bordes estrechos, partes de la página opuesta.

“Defectos” de las imágenes

Page 10: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

10 Madrid, BNE, 5 de octubre de 2011

Descripción del corpus

Páginas inclinadas, papel doblado, bordes visibles

“Defectos” de las imágenes

Page 11: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

11 Madrid, BNE, 5 de octubre de 2011

Descripción del corpus

Transparencias

“Defectos” de las imágenes

Page 12: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

12 Madrid, BNE, 5 de octubre de 2011

Descripción del corpus

Manchas, sellos, notas manuscritas...

“Defectos” de las imágenes

Page 13: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

13 Madrid, BNE, 5 de octubre de 2011

Producción del GT

Page 14: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

14 Madrid, BNE, 5 de octubre de 2011

Producción del GT

OCR imágenes Creación del GTEnvío a empresa externa Control de calidadDevolución a

cliente

¿GT OK?

Envío a empresa externa

No

Publicación en PrIMA

Flujo de trabajo

Page 15: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

15 Madrid, BNE, 5 de octubre de 2011

Producción del GT

Curiosidades del GT

Reglas de acentuación en Diccionario de Autoridades

Uso del punctus elevatus

Abreviaturas y ligaduras

Ideogramas

Page 16: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

16 Madrid, BNE, 5 de octubre de 2011

Page 17: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

17 Madrid, BNE, 5 de octubre de 2011

Producción del GT

Punctus elevatus

Page 18: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

18 Madrid, BNE, 5 de octubre de 2011

Producción del GT

Abreviaturas y ligaduras

Page 19: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

19 Madrid, BNE, 5 de octubre de 2011

Producción del GT

Ideogramas

♃ ♌

♎♉

Page 20: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

20 Madrid, BNE, 5 de octubre de 2011

Trabajo lingüístico

Page 21: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

21 Madrid, BNE, 5 de octubre de 2011

Trabajo lingüístico

Tareas de la UA

Construcción de los lexicones

Reglas de variación

Lematización del corpus

Apertium usado como base del lexicón

OCR (Optical Character Recognition)

IR (Information Retrieval)

Épocas estudiadas: Siglos XVI y XVII (Siglo de Oro español)

Page 22: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

22 Madrid, BNE, 5 de octubre de 2011

Trabajo lingüístico

Dificultades a resolver Palabras que han desaparecido: arcaz (arca)

Palabras cortadas: to-do, conven-to, in-genio, cla-ra, humani-dád

Palabras en latín: quid, haec, aliquid, sum

Nombres propios: Quixote, Garcilasso, Rosimunda, Lope

Errores de impresión

Uso de apóstrofes: d'aver, a'scala

Dos formas antiguas, una moderna: al rededor – alrededor

Una forma antigua, dos modernas: dél – de él

Uso de 's' larga: 'ſ'

Abreviaturas

Ligaduras

Espacios

Cambios en la flexión verbalſ f

Page 23: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

23 Madrid, BNE, 5 de octubre de 2011

Trabajo lingüístico

Dificultades a resolverFlexión verbal. Ejemplo: Verbo 'haber'

a, à, abemos, abia, abrá, abrás, abré, abrè, abréis, Abrète, abreys, abria, abría, As, auedes, auerla, auerlas, auerle, auerles, auerlo, auerlos, auerme, auernos, aueros, auerse, auersela, auerte, aués, Aueys, auia, auiamos, auías, Auiase, Auiendo, auiendola, auiendole, auiendome, auiendose, auiendosele, auiendote, Aura, aurá, aurà, auran, auras, aurás, aure, aureis, auremos, aureys, aurian, avéis, avemos, averla, averle, averlo, averme, averse, avéys, avia, avido, aviendo, avrà, avrán, avré, avréis, avremos, avría, Aya, ayais, ayan, ayays, d'aver, d'haver, eis, emos, Habéis, habemos, haberlo, haberme, haberse, haberte, habés, habíades, habían, habías, habido, habiendo, habiéndole, habiendome, habiéndome, habiéndote, habrá, habrán, habrás, habré, habréis, habremos, habría, hai, hala, hale, halo, hame, han, han, hanlo, hanme, hanse, hante, has, hase, Hasle, hasme, haste, hate, hauemos, hauerla, hauerme, hauernos, hauerte, haués, haueys, hauía, hauiamos, hauían, hauido, hauiendo, hauiendose, haurá, haurás, havella, havelle, havello, havemos, haverme, haverse, haverte, havéys, havíamos, havían, havías, haviendo, havrá, havré, hayáis, hayan, hayas, he, hela,

hele, helo, heme, Hemos, hete, houe, houo, hoviera, hube, hubiera, hubiere, hubiese, hubo, huue, huuierades, huuieras, huuieredes, huuieren, huuieron, huuiesle, huuiessen, huve, huvieran,

huvieras, huviere, huviessen, huvo, ouiesse, ovieron, ovo, uuo, uve, uviera, uviere, uviese,

uviesse, uvo, vuiera, vuiesse, vuo...

Page 24: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

24 Madrid, BNE, 5 de octubre de 2011

Dificultades a resolver

Trabajo lingüístico

Page 25: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

25 Madrid, BNE, 5 de octubre de 2011

Dificultades a resolver

Trabajo lingüístico

Page 26: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

26 Madrid, BNE, 5 de octubre de 2011

Dificultades a resolver

Trabajo lingüístico

Page 27: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

27 Madrid, BNE, 5 de octubre de 2011

Trabajo lingüístico

Variación ortográfica

Grupos consonánticos: subjeto – sujeto, subtil – sutil, presumpcion – presunción

Ruptura de diptongo con 'h' en lugar de acento: ohir – oír

'u' 'v': nueuo – nuevo, Otauio – Octavio, vno – uno, anduuieron – anduvieron

Caída de la 'd' final del imperativo: volvé – volved

Variación en la conjugación: aurà – habrá, fuerades – fuerais, ocupavan – ocupaban

Uso de 'ç': feroçe – feroz, çapatos – zapatos, çielo – cielo

Variación vocálica: malencolico – melancólico, mesmo – mismo, escuro – oscuro

Consonantes duplicadas: offender – ofender, assi – así, rromano – romano

Variación en los acentos: secréto – secreto, segúro – seguro, abalançò – abalanzó

Page 28: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

28 Madrid, BNE, 5 de octubre de 2011

Herramientas utilizadas

Page 29: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

29 Madrid, BNE, 5 de octubre de 2011

Herramientas utilizadas

Aletheia

Page 30: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

30 Madrid, BNE, 5 de octubre de 2011

Herramientas utilizadas

Lexicon Tool

Page 31: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

31 Madrid, BNE, 5 de octubre de 2011

Herramientas utilizadas

Taverna

Page 32: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

32 Madrid, BNE, 5 de octubre de 2011

Resultados preliminares

Page 33: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

33 Madrid, BNE, 5 de octubre de 2011

Resultados preliminares

Datos del lexicón

Dividido en diferentes corpus:– Corpus BVMC

– GT – Development

– Diccionario Autoridades

– IR Evaluation

Cifras del lexicón:– Lexicón OCR:

• 5,617,815 palabras.

• 334,157 palabras distintas.

– Lexicón IR:• 582,386 palabras analizadas.

• 34,296 palabras distintas analizadas.

• 12,360 lemas analizados.

Page 34: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

34 Madrid, BNE, 5 de octubre de 2011

Resultados preliminares

Métricas

Precisión (p) y Cobertura (c):– Precisión: Porcentaje de palabras que ha acertado de las que ha

reconocido.– Cobertura: Porcentaje de palabras que ha acertado de las que

debería haber reconocido– Ejemplo con precisión 0.25 y cobertura 0.5

• Estaba en hora buena (resultado OCR)• Estaba enhorabuena (texto original)

False friend: Error del OCR cuyo resultado coincide con una palabra del diccionario.

Page 35: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

35 Madrid, BNE, 5 de octubre de 2011

Resultados preliminares

ResultadosCon el diccionario interno “OldSpanish” de Finereader

Precisión: 0.76 , Cobertura: 0.72

Con el lexicón histórico de español

Precisión: 0.79 , Cobertura: 0.76

Sor Juana Inca Quevedo Boscán Lope Lazarillo0

10

20

30

40

50

60

70

80

90

100

75,03 75,9779,68

65,1

77,4881,66

71,65 70,4775,78

59,95

73,3878,1

Cobertura Lexicón HistóricoCobertura Diccionario Interno

Page 36: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

36 Madrid, BNE, 5 de octubre de 2011

Resultados preliminares

Resultados

Imagen: 00438810

Fuente: Obras de Garcilasso de la Vega

Diccionario interno:(p= 76% , c= 69% ) Añadiendo diccionario externo:(p= 85% , c= 78% )

Page 37: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

37 Madrid, BNE, 5 de octubre de 2011

Resultados preliminares

GARCILASSO; 3««jue hara el enemigo? Salid sin duelo lagrimal corriendo. Porti el silencio déla selua vmbrosa, por ti la esquiuidad,y apartamiento del solitario monte me agradaua: porti la verdeyerua,y fresco viento,1 elhlanco lirio,y colorada rosa, y dulce Priipauera desteaua. Ayquantomeengañaua, ay quan diferente era, y quan de otra manera, lo que en tu falso pecho se escondía? bien claro qcn su voz me lo dczia la siniestra corneja, repitiendo 8$ ladefuentura mia, Salid sin duelo lagrimas corriendo. Quantas vezes durmiendo en la floresta (reputando yo por desuario) vi mi mal entre sueños desdic hados Soñaua que en el tiempo del Estío lleuaua,por pastar aiii la siesta, a beuer en el Tajo mi ganado: y despucs de llegado, fin saber de quai arte,

Garcilasso; que hara el enemigo? Salid sin duelo lagrimal corriendo. Porti el silencio dela selua vmbrosa, por ti la esquiuidad,y apartamiento del solitario monte me agradaua: porti la verde yerua,y fresco viento, elblanco lirio,y colorada rosa, y dulce Primauera Desseaua. Ay quanto me engañaua, ay quan diferente era, y quan de otra manera, lo que en tu falso pecho se escondía? bien claro qcn su voz me lo dezia la siniestra corneja, repitiendo 8$ la desuentura mia, Salid sin duelo lagrimas corriendo. Quantas vezes durmiendo enla floresta (reputando yo por desuario) vi mi mal entre sueños desdic hados Soñaua que en el tiempo del Estip lleuaua,por passar alli la siesta, a beuer en el Tajo mi ganado: y despues de llegado, jón saber de qual arte,

Negrita: errorSubrayado: False friend

Page 38: Spanish language 111005

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

38 Madrid, BNE, 5 de octubre de 2011

UA – Spanish Language