spanish language 111005
DESCRIPTION
Presentation introducing Universidad de Alicante’s work regarding Spanish language presented by Isabel Martínez during demo session held at the BNE 5th of October 2011.TRANSCRIPT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Madrid, BNE, 5 de octubre de 2011
UA – Spanish LanguagePresentación del trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
2 Madrid, BNE, 5 de octubre de 2011
Índice
Universidad de Alicante Descripción del corpus Producción del GT Trabajo lingüístico Herramientas utilizadas Resultados preliminares
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
3 Madrid, BNE, 5 de octubre de 2011
Universidad de Alicante
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
4 Madrid, BNE, 5 de octubre de 2011
Universidad de Alicante
UA: Sede científica de la BVMC (partner de IMPACT)
DLSI: Departamento de lenguajes y sistemas informáticos. Grupo de investigación Transducens creadores de Apertium.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
5 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
6 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
Obras clave de los siglos XVI y XVII aportadas por la Biblioteca Nacional de España:
– Principales autores del Siglo de Oro español (Cervantes, Quevedo, Góngora, Garcilaso, Calderón, Lope de Vega)
– Obras de América (Inca Garcilaso de la Vega, Sor Juana Inés de la Cruz)
Diccionario de Autoridades de la Real Academia Española (Seis volúmenes publicados entre 1726 y 1739), también de la BNE.
Textos entre finales del siglo XV y el siglo XVII de la Biblioteca Virtual Miguel de Cervantes
Selección de textos
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
7 Madrid, BNE, 5 de octubre de 2011
División del corpus
Descripción del corpus
Development
Creación de un diccionario
histórico para mejorar el
reconocimiento del OCR en textos
antiguos.
Demonstration
Demostración de los resultados obtenidos y las herramientas desarrolladas.
Evaluation
Test de herramientas y
lexicones.
División del corpus en tres bloques:
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
8 Madrid, BNE, 5 de octubre de 2011
“Defectos” de las imágenes
Impresión defectuosa y degradación
Descripción del corpus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
9 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
Bordes estrechos, partes de la página opuesta.
“Defectos” de las imágenes
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
10 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
Páginas inclinadas, papel doblado, bordes visibles
“Defectos” de las imágenes
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
Transparencias
“Defectos” de las imágenes
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
12 Madrid, BNE, 5 de octubre de 2011
Descripción del corpus
Manchas, sellos, notas manuscritas...
“Defectos” de las imágenes
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
13 Madrid, BNE, 5 de octubre de 2011
Producción del GT
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
14 Madrid, BNE, 5 de octubre de 2011
Producción del GT
OCR imágenes Creación del GTEnvío a empresa externa Control de calidadDevolución a
cliente
¿GT OK?
Envío a empresa externa
No
Publicación en PrIMA
Sí
Flujo de trabajo
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
15 Madrid, BNE, 5 de octubre de 2011
Producción del GT
Curiosidades del GT
Reglas de acentuación en Diccionario de Autoridades
Uso del punctus elevatus
Abreviaturas y ligaduras
Ideogramas
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
16 Madrid, BNE, 5 de octubre de 2011
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
17 Madrid, BNE, 5 de octubre de 2011
Producción del GT
Punctus elevatus
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
18 Madrid, BNE, 5 de octubre de 2011
Producción del GT
Abreviaturas y ligaduras
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
19 Madrid, BNE, 5 de octubre de 2011
Producción del GT
Ideogramas
♃ ♌
♎♉
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
20 Madrid, BNE, 5 de octubre de 2011
Trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
21 Madrid, BNE, 5 de octubre de 2011
Trabajo lingüístico
Tareas de la UA
Construcción de los lexicones
Reglas de variación
Lematización del corpus
Apertium usado como base del lexicón
OCR (Optical Character Recognition)
IR (Information Retrieval)
Épocas estudiadas: Siglos XVI y XVII (Siglo de Oro español)
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
22 Madrid, BNE, 5 de octubre de 2011
Trabajo lingüístico
Dificultades a resolver Palabras que han desaparecido: arcaz (arca)
Palabras cortadas: to-do, conven-to, in-genio, cla-ra, humani-dád
Palabras en latín: quid, haec, aliquid, sum
Nombres propios: Quixote, Garcilasso, Rosimunda, Lope
Errores de impresión
Uso de apóstrofes: d'aver, a'scala
Dos formas antiguas, una moderna: al rededor – alrededor
Una forma antigua, dos modernas: dél – de él
Uso de 's' larga: 'ſ'
Abreviaturas
Ligaduras
Espacios
Cambios en la flexión verbalſ f
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
23 Madrid, BNE, 5 de octubre de 2011
Trabajo lingüístico
Dificultades a resolverFlexión verbal. Ejemplo: Verbo 'haber'
a, à, abemos, abia, abrá, abrás, abré, abrè, abréis, Abrète, abreys, abria, abría, As, auedes, auerla, auerlas, auerle, auerles, auerlo, auerlos, auerme, auernos, aueros, auerse, auersela, auerte, aués, Aueys, auia, auiamos, auías, Auiase, Auiendo, auiendola, auiendole, auiendome, auiendose, auiendosele, auiendote, Aura, aurá, aurà, auran, auras, aurás, aure, aureis, auremos, aureys, aurian, avéis, avemos, averla, averle, averlo, averme, averse, avéys, avia, avido, aviendo, avrà, avrán, avré, avréis, avremos, avría, Aya, ayais, ayan, ayays, d'aver, d'haver, eis, emos, Habéis, habemos, haberlo, haberme, haberse, haberte, habés, habíades, habían, habías, habido, habiendo, habiéndole, habiendome, habiéndome, habiéndote, habrá, habrán, habrás, habré, habréis, habremos, habría, hai, hala, hale, halo, hame, han, han, hanlo, hanme, hanse, hante, has, hase, Hasle, hasme, haste, hate, hauemos, hauerla, hauerme, hauernos, hauerte, haués, haueys, hauía, hauiamos, hauían, hauido, hauiendo, hauiendose, haurá, haurás, havella, havelle, havello, havemos, haverme, haverse, haverte, havéys, havíamos, havían, havías, haviendo, havrá, havré, hayáis, hayan, hayas, he, hela,
hele, helo, heme, Hemos, hete, houe, houo, hoviera, hube, hubiera, hubiere, hubiese, hubo, huue, huuierades, huuieras, huuieredes, huuieren, huuieron, huuiesle, huuiessen, huve, huvieran,
huvieras, huviere, huviessen, huvo, ouiesse, ovieron, ovo, uuo, uve, uviera, uviere, uviese,
uviesse, uvo, vuiera, vuiesse, vuo...
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
24 Madrid, BNE, 5 de octubre de 2011
Dificultades a resolver
Trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
25 Madrid, BNE, 5 de octubre de 2011
Dificultades a resolver
Trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
26 Madrid, BNE, 5 de octubre de 2011
Dificultades a resolver
Trabajo lingüístico
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
27 Madrid, BNE, 5 de octubre de 2011
Trabajo lingüístico
Variación ortográfica
Grupos consonánticos: subjeto – sujeto, subtil – sutil, presumpcion – presunción
Ruptura de diptongo con 'h' en lugar de acento: ohir – oír
'u' 'v': nueuo – nuevo, Otauio – Octavio, vno – uno, anduuieron – anduvieron
Caída de la 'd' final del imperativo: volvé – volved
Variación en la conjugación: aurà – habrá, fuerades – fuerais, ocupavan – ocupaban
Uso de 'ç': feroçe – feroz, çapatos – zapatos, çielo – cielo
Variación vocálica: malencolico – melancólico, mesmo – mismo, escuro – oscuro
Consonantes duplicadas: offender – ofender, assi – así, rromano – romano
Variación en los acentos: secréto – secreto, segúro – seguro, abalançò – abalanzó
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
28 Madrid, BNE, 5 de octubre de 2011
Herramientas utilizadas
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
29 Madrid, BNE, 5 de octubre de 2011
Herramientas utilizadas
Aletheia
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
30 Madrid, BNE, 5 de octubre de 2011
Herramientas utilizadas
Lexicon Tool
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
31 Madrid, BNE, 5 de octubre de 2011
Herramientas utilizadas
Taverna
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
32 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
33 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
Datos del lexicón
Dividido en diferentes corpus:– Corpus BVMC
– GT – Development
– Diccionario Autoridades
– IR Evaluation
Cifras del lexicón:– Lexicón OCR:
• 5,617,815 palabras.
• 334,157 palabras distintas.
– Lexicón IR:• 582,386 palabras analizadas.
• 34,296 palabras distintas analizadas.
• 12,360 lemas analizados.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
34 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
Métricas
Precisión (p) y Cobertura (c):– Precisión: Porcentaje de palabras que ha acertado de las que ha
reconocido.– Cobertura: Porcentaje de palabras que ha acertado de las que
debería haber reconocido– Ejemplo con precisión 0.25 y cobertura 0.5
• Estaba en hora buena (resultado OCR)• Estaba enhorabuena (texto original)
False friend: Error del OCR cuyo resultado coincide con una palabra del diccionario.
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
35 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
ResultadosCon el diccionario interno “OldSpanish” de Finereader
Precisión: 0.76 , Cobertura: 0.72
Con el lexicón histórico de español
Precisión: 0.79 , Cobertura: 0.76
Sor Juana Inca Quevedo Boscán Lope Lazarillo0
10
20
30
40
50
60
70
80
90
100
75,03 75,9779,68
65,1
77,4881,66
71,65 70,4775,78
59,95
73,3878,1
Cobertura Lexicón HistóricoCobertura Diccionario Interno
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
36 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
Resultados
Imagen: 00438810
Fuente: Obras de Garcilasso de la Vega
Diccionario interno:(p= 76% , c= 69% ) Añadiendo diccionario externo:(p= 85% , c= 78% )
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
37 Madrid, BNE, 5 de octubre de 2011
Resultados preliminares
GARCILASSO; 3««jue hara el enemigo? Salid sin duelo lagrimal corriendo. Porti el silencio déla selua vmbrosa, por ti la esquiuidad,y apartamiento del solitario monte me agradaua: porti la verdeyerua,y fresco viento,1 elhlanco lirio,y colorada rosa, y dulce Priipauera desteaua. Ayquantomeengañaua, ay quan diferente era, y quan de otra manera, lo que en tu falso pecho se escondía? bien claro qcn su voz me lo dczia la siniestra corneja, repitiendo 8$ ladefuentura mia, Salid sin duelo lagrimas corriendo. Quantas vezes durmiendo en la floresta (reputando yo por desuario) vi mi mal entre sueños desdic hados Soñaua que en el tiempo del Estío lleuaua,por pastar aiii la siesta, a beuer en el Tajo mi ganado: y despucs de llegado, fin saber de quai arte,
Garcilasso; que hara el enemigo? Salid sin duelo lagrimal corriendo. Porti el silencio dela selua vmbrosa, por ti la esquiuidad,y apartamiento del solitario monte me agradaua: porti la verde yerua,y fresco viento, elblanco lirio,y colorada rosa, y dulce Primauera Desseaua. Ay quanto me engañaua, ay quan diferente era, y quan de otra manera, lo que en tu falso pecho se escondía? bien claro qcn su voz me lo dezia la siniestra corneja, repitiendo 8$ la desuentura mia, Salid sin duelo lagrimas corriendo. Quantas vezes durmiendo enla floresta (reputando yo por desuario) vi mi mal entre sueños desdic hados Soñaua que en el tiempo del Estip lleuaua,por passar alli la siesta, a beuer en el Tajo mi ganado: y despues de llegado, jón saber de qual arte,
Negrita: errorSubrayado: False friend
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
38 Madrid, BNE, 5 de octubre de 2011
UA – Spanish Language