stilus lenguando-lc aplicada a la correccion

21
29 de marzo de 2014 Lingüística de Corpus aplicada a la corrección automática y profesional Stilus es una marca de Daedalus, S. A.

Upload: daedalus-sa

Post on 15-Jan-2015

237 views

Category:

Technology


1 download

DESCRIPTION

Presentación de Stilus sobre "Lingüística de Corpus aplicada a la corrección automática y profesional" en Lenguando 2014 (Madrid) Regístrate gratis en mystilus.com Stilus es una marca de Daedalus, S. A.

TRANSCRIPT

Page 1: Stilus lenguando-lc aplicada a la correccion

29 de marzo de 2014

Lingüística de Corpus aplicada

a la corrección automática y

profesional

Stilus es una marca de Daedalus, S. A.

Page 2: Stilus lenguando-lc aplicada a la correccion

Contenidos

¿Qué es la Lingüística de Corpus (LC)?

Los corpus de la Academia vs. el de Mark Davies

La LC en el ámbito de la corrección automática y profesional

« que es gerundio». Algunos casos prácticos

Page 3: Stilus lenguando-lc aplicada a la correccion

¿Qué es la Lingüística de Corpus (LC)?

LC, ¿disciplina o metodología?

- de corpus. ???

Page 4: Stilus lenguando-lc aplicada a la correccion

1. Ha de ser representativo

2. Ha de estar almacenado en formato electrónico

3. Sus contenidos deben estar etiquetados según unos

criterios lingüísticos «útiles»

4. Debe poder responder a tareas de recuperación

específicas

¿Qué es la Lingüística de Corpus (LC)?

El corpus en LC…

La Lingüística de Corpus

permite llevar a cabo

investigaciones empíricas en

contextos «reales».

Page 5: Stilus lenguando-lc aplicada a la correccion

Los corpus de la Academia vs. el de Mark Davies

Corpus RAE

Page 6: Stilus lenguando-lc aplicada a la correccion

Los corpus de la Academia vs. el de Mark Davies

+

= CORDE CREA

Page 7: Stilus lenguando-lc aplicada a la correccion

Los corpus de la Academia vs. el de Mark Davies

Page 8: Stilus lenguando-lc aplicada a la correccion

Los corpus de la Academia vs. el de Mark Davies

www.corpusdelespanol.org

Pero si los filtros morfológicos de la

Academia no dan de sí, tenemos

otras opciones…

Page 9: Stilus lenguando-lc aplicada a la correccion

Los corpus de la Academia vs. el de Mark Davies

+ Gran volumen: CDH (+ 350 mill. de palabras);

CORPES XXI (se pretenden: 25 mill./año)

+ Codificación cuidadosa (proceso automático +

validación humana)

+ Filtros de búsqueda: año, país, tipo de texto,

área temática… + combinación de parámetros

+/- Filtros de búsqueda morfológica básica

+ Filtros de búsqueda con desambiguación

morfológica

- Incómodo para análisis morfológicos detallados

+ Brillante y cómoda interfaz de consulta: rasgos

formales, filtros morfológicos avanzados, filtros semánticos

(búsqueda por sinónimos)

+ Posible combinación de parámetros mediante

expresiones regulares

+ Rápida capacidad de respuesta

- Incómodo para análisis diacrónicos o diatópicos (filtro

temporal por siglos / filtro diatópico inexistente)

Corpus del español CDH / CORPES XXI

Page 10: Stilus lenguando-lc aplicada a la correccion

La LC en el ámbito de la corrección automática y profesional

¿Para qué podría utilizar la Lingüística de Corpus

un corrector profesional?

Page 11: Stilus lenguando-lc aplicada a la correccion

La LC en el ámbito de la corrección automática y profesional

¿Por qué me interesa automatizar procesos de

verificación textual?

Mejora la consistencia de la revisión

Garantiza el cumplimiento de la guía de estilo / Normalización corporativa

Mejora mi eficiencia y eficacia

Aumenta mi productividad

y mis ingresos

Page 12: Stilus lenguando-lc aplicada a la correccion

La LC en el ámbito de la corrección automática y profesional

1 • Coleccionar patrones de errores frecuentes

2

• Conocer las capacidades del gestor de búsqueda y reemplazo de mi editor o procesador de textos

3

• Estudiar la viabilidad de automatización de dichos patrones sobre corpus

4

• Automatizar el reemplazo de los patrones que considere viables (p. ej., con macros sobre Word)

5

• Elegir un software de verificación textual sensible al contexto como complemento

¿Qué puedo hacer yo como corrector autónomo?

Page 13: Stilus lenguando-lc aplicada a la correccion

«Lenguando que es gerundio». Algunos casos prácticos

¿Alguna vez has estado tentado

de automatizar la revisión de las

expresiones incorrectas incluidas en

un manual de dudas?

1. Apunta…

Page 14: Stilus lenguando-lc aplicada a la correccion

«Lenguando que es gerundio». Algunos casos prácticos

2. Observa…

Page 15: Stilus lenguando-lc aplicada a la correccion

«Lenguando que es gerundio». Algunos casos prácticos

3. ¡Y dispara!

Page 16: Stilus lenguando-lc aplicada a la correccion

«Lenguando que es gerundio». Algunos casos prácticos

A veces, habrá que sopesar si automatizar merece la pena…

1 excepción de 31 casos

96,78 % de precisión

Page 17: Stilus lenguando-lc aplicada a la correccion

«Lenguando que es gerundio». Algunos casos prácticos

Y otras veces la automatización no estará a mi alcance…

/*

<test rule="ReglaHaPorA">

<case>Va <error>ha</error> hacer la reforma de su vida.</case> <case>Se alquila habitación <error>ha</error> estudiantes.</case> <case>Va a hacer la reforma de su vida.</case> <case>Se alquila habitación a estudiantes.</case> <case>Si ha lugar</case> </test> */ RULE(L"ReglaHaPorA") FORM_I(POS(N), L"ha") AND UNIVERSAL_TAG(POS(N+1), TagVerbInfinitiveSimple OR_TAG TagVerbInfinitiveCompound OR_TAG TagNoun) AND !FORM_I(POS(N+1), L"lugar") THEN SUG_WORD(POS(N),L"a"); ADD_ERROR(Error_Spelling, POS(N), POS(N), msg(ES, L"Posible confusión al emplear la forma verbal auxiliar <i>ha</i> en vez de la preposición <i>a</i>.", A1, L"ReglaHaPorA"); END_RULE

Aquí entran en juego las

capacidades del verificador

automático que hayas elegido

Page 18: Stilus lenguando-lc aplicada a la correccion

«Lenguando que es gerundio». Algunos casos prácticos

/*

<test rule="ReglaTratamEnMayúscula#3">

<case>Vimos al <error>Presidente del Gobierno</error></case> <case>Estuvimos allí durante la visita de la <error>Reina</error></case> <case>Saludó a <error>Don</error> José Luis Rodríguez Zapatero</case> <case>Fue en Barcelona con el <error>Papa</error> Benedicto XVI</case> <case>Visitamos el Reina Sofía el domingo pasado </case> <case>El Prof. Fernández imparte clase en esa universidad </case> </test> */ RULE(L"ReglaTratamEnMayúscula#3") EXISTENTIAL_EXTRA_INFO(POS(N), SemIdEntity, SemCOtherEntityTitle) AND !(FORM(POS(N), L"Reina Sofía") AND FORM_I(POS(N-1), L"el|al|del")) AND FIRST_LETTER_UPPERCASE(POS(N)) AND !EXISTENTIAL_TAG(POS(N), TagNounAbbreviation) AND !ALL_LETTERS_CONTAINED_IN(POS(N),CAPITALLETTERS) AND !IS_FIRST_WORD(POS(N)) THEN SUG_CAPITALIZATION(L"*a?*", GET_FORM(POS(N))); ADD_ERROR(Error_Typographic, POS(N), POS(N), msg(ES, L"Las fórmulas de tratamiento, título o cargo deben escribirse con minúscula.", Check_OLE10, C2, L"ReglaTratamEnMayúscula#3"); END_RULE

Page 19: Stilus lenguando-lc aplicada a la correccion

«Lenguando que es gerundio». Algunos casos prácticos

/*

<test rule="ReglaNoSolo,Pero">

<case>No solo destruyó nuestra historia, <error>pero</error> también cambió nuestro nombre</case> <case>No solo destruyó nuestra historia, sino también cambió nuestro nombre</case> <case>Fue a comprar el pan, pero también compró chorizo</case> </test> */ RULE(L"ReglaNoSolo,Pero") EXISTENTIAL_TAG(POS(N), TagClauseFirstCoordinate) AND FORM_I(POS_FIRST_CHILD(POS(N)), L"no") AND FORM_I(POS_SECOND_CHILD(POS(N)), L"solo|sólo") AND EXISTENTIAL_TAG(POS_THIRD_CHILD(POS(N)), TagPhraseVerb) AND FORM(POS(N+1), L",") AND FORM_I(POS(N+2), L"pero") THEN SUG_WORD(POS(N+2), L"sino"); ADD_ERROR(Error_Grammatical, POS(N+2), POS(N+2), msg(ES, L"Posiblemente no haya utilizado la conjunción adecuada.", B2, L"ReglaNoSolo,Pero"); END_RULE

Page 20: Stilus lenguando-lc aplicada a la correccion

«Lenguando que es gerundio». Algunos casos prácticos

Pero el valor de la «corrección automática avanzada» no solo reside en su capacidad

de verificación sintáctico-semántica, también nos ayuda en la detección masiva

de errores independientes del contexto…

Page 21: Stilus lenguando-lc aplicada a la correccion

¡Gracias por vuestra atención!

Concepción Polo

Responsable de Lingüística

[email protected]

Daedalus, S. A.

Tel.: +34 913324301

http://www.daedalus.es