la aplicación de las bases de datos al estudio histórico

12
La aplicación de las bases de datos al estudio histórico del español Gloria Clavería Nadal; Carlos Sánchez Lancis Hispania, Vol. 80, No. 1. (Mar., 1997), pp. 142-152. Stable URL: http://links.jstor.org/sici?sici=0018-2133%28199703%2980%3A1%3C142%3ALADLBD%3E2.0.CO%3B2-Y Hispania is currently published by American Association of Teachers of Spanish and Portuguese. Your use of the JSTOR archive indicates your acceptance of JSTOR's Terms and Conditions of Use, available at http://www.jstor.org/about/terms.html. JSTOR's Terms and Conditions of Use provides, in part, that unless you have obtained prior permission, you may not download an entire issue of a journal or multiple copies of articles, and you may use content in the JSTOR archive only for your personal, non-commercial use. Please contact the publisher regarding any further use of this work. Publisher contact information may be obtained at http://www.jstor.org/journals/aatsp.html. Each copy of any part of a JSTOR transmission must contain the same copyright notice that appears on the screen or printed page of such transmission. The JSTOR Archive is a trusted digital repository providing for long-term preservation and access to leading academic journals and scholarly literature from around the world. The Archive is supported by libraries, scholarly societies, publishers, and foundations. It is an initiative of JSTOR, a not-for-profit organization with a mission to help the scholarly community take advantage of advances in technology. For more information regarding JSTOR, please contact [email protected]. http://www.jstor.org Fri Nov 16 09:44:57 2007

Upload: pakz13

Post on 25-Nov-2015

14 views

Category:

Documents


3 download

TRANSCRIPT

  • La aplicacin de las bases de datos al estudio histrico del espaol

    Gloria Clavera Nadal; Carlos Snchez Lancis

    Hispania, Vol. 80, No. 1. (Mar., 1997), pp. 142-152.

    Stable URL:http://links.jstor.org/sici?sici=0018-2133%28199703%2980%3A1%3C142%3ALADLBD%3E2.0.CO%3B2-Y

    Hispania is currently published by American Association of Teachers of Spanish and Portuguese.

    Your use of the JSTOR archive indicates your acceptance of JSTOR's Terms and Conditions of Use, available athttp://www.jstor.org/about/terms.html. JSTOR's Terms and Conditions of Use provides, in part, that unless you have obtainedprior permission, you may not download an entire issue of a journal or multiple copies of articles, and you may use content inthe JSTOR archive only for your personal, non-commercial use.

    Please contact the publisher regarding any further use of this work. Publisher contact information may be obtained athttp://www.jstor.org/journals/aatsp.html.Each copy of any part of a JSTOR transmission must contain the same copyright notice that appears on the screen or printedpage of such transmission.

    The JSTOR Archive is a trusted digital repository providing for long-term preservation and access to leading academicjournals and scholarly literature from around the world. The Archive is supported by libraries, scholarly societies, publishers,and foundations. It is an initiative of JSTOR, a not-for-profit organization with a mission to help the scholarly community takeadvantage of advances in technology. For more information regarding JSTOR, please contact [email protected].

    http://www.jstor.orgFri Nov 16 09:44:57 2007

  • Prepared by John Lipski / Richard A. Raschio

    La aplicacin de las bases de datos al estudio histrico del espaol

    Gloria Clavera Nada1 y Carlos Snchez Lancis Universidad Autnoma de Barcelona

    Abstract: El empleo de bases de datos aplicadas al estudio de la historia de una lengua se configura como una metodologa que permite mejorar sustancialmente la calidad de las investigaciones. Se presentan como prue- ba de ello dos aplicaciones al estudio del espaol desarrolladas en el Seminario de Filologa e Informtica de la Universitat Autonoma de Barcelona: 1) la elaboracin de una base de datos de elementos lingisticos de espacio y tiempo del espaol medieval, que recoge distintas informaciones cuya combinacin mediante pro- cedimientos informticos permite la caracterizacin gramatical del sistema dectico; 2) la informatizacin del Diccionario crtico etimolgico castellano e hispnico de J . Corominas y J . A. Pascua1 para la constitucin de un gran banco de datos histricos y etimolgicos del espaol, que servir como principio renovador y continua- dor a la vez de los estudios etimolgicos dedicados al espaol.

    Key Words:bases de datos, lengua espaola, sintaxis histrica, dexis, lexicografa, etimologa

    1. La ayuda de la informtica. La infor-mtica ofrece grandes ventajas al lingista histrico y al fillogo en algunas labores que han de llevarse a cabo en el transcurso de toda investigacin; se trata especialmen- te de los trabajos relacionados con la reco- leccin y almacenamiento de datos, y su posterior gestin. Los medios informticos pueden intervenir de manera activa y deci- siva como herramienta en la elaboracin de ediciones y de concordancias de textos, de diccionarios o vocabularios de textos anti- guos, de Corpus formados con fuentes do- cumentales antiguas, etc.'

    Un caso concreto de la aplicacin de la informtica a la lingstica histrica se ha- lla en la utilizacin de sistemas de gestin de bases de datos. Se presentan dos posibi- lidades distintas: la aplicacin de las bases de datos en estudios de sintaxis y de lexicografa. Las bases de datos se configu- ran en estas investigaciones como un me- dio que facilita el manejo de un gran nme- ro de datos y la elaboracin de corpora his- tricos; a la vez intervienen activamente en la misma configuracin de la investigacin, pues en s mismas las bases de datos cons- tituyen un preanlisis de los datos, y los resultados obtenidos a partir de ellas ofre- cen siempre mayores posibilidades de re- visin, ampliacin y reutilizacin. Existe,

    adems, actualmente un vnculo informti- co entre texto, concordancia y base de da- tos, por cuanto se puede obtener, a partir de las concordancias de un texto antiguo, una base de datos de sus formas lxicas de ma- nera semiautomtica; ello es posible gracias al programa TRANSCALC elaborado por Ramon Capsada y Joan Torruella en el Seminari de Filologia i Informatica de la Universitat Autonoma de Barcelona (Torruella 1993; Capsada-Torruella 1995). 1.1.La base de datos y su estructu-

    ra. El diseo de la estructura de una base de datos relaciona1 aplicada a cualquier dis- ciplina lingstica exige dos pasos: en pri- mer lugar, el anlisis previo de los datos para establecer los tipos de informacin (campos) que van a introducirse en cada fichero; y, en segundo lugar, la comproba- cin continua de la fiabilidad de la base de datos y la correspondencia de la estructu- ra diseada con los objetivos de la investi- gacin. Este procedimiento representa una gran ventaja respecto a otros tipos de metodologas de investigacin que no utili- zan herramientas informticas, ya que per- mite la continua constatacin de la fiabilidad de la estructura diseada, as como su remodelacin y mejora con un esfuerzo mnimo. Este tipo de herramientas informticas resulta de gran utilidad por-

  • que, a partir de un corpus de datos lings- ticos de diferente clase y naturaleza, permi- te la creacin de distintos microcorpora de carcter ms o menos especfico. Adems, facilita el manejo y la interrelacin de stos. 2. El corpus de datos. La lingstica

    histrica tiene como material de anlisis diferentes tipos de datos lingsticos; la gran mayora de stos provienen de fuentes escritas, pues son prcticamente los nicos restos que perviven de un estadio de lengua antiguo. A pesar de todas sus limitaciones, especialmente como reflejo de la pronuncia- cin y de la lengua coloquial, resultan im- prescindibles e irremplazables. Ante la au- sencia de hablantes nativos de una poca anterior, "the written documentation of a language can thus be regarded as a useful model of the relevant linguistic environ- ment for (pre-)adult learning of this linguistic modality, in the same sense as the spoken register is accepted as the proper linguistic context determining the many stages of infant language learning" (Wanner 1991,174-75).

    El vnculo entre texto y estudio histri- co lleva a plantear la relacin privilegiada entre ste y la filologa. El lingista histri- co debe combinar la explicacin estricta- mente lingstica con la rigurosidad en el tratamiento e interpretacin de los datos escritos, propias de la investigacin espec- ficamente filolgica. Tambin el fillogo necesita del auxilio de la lingstica histri- ca en sus estudios. 2.1. Caractersticas del corpus. Una

    vez establecido el texto como base de estu- dio fundamental del lingista histrico, con- viene precisar de qu manera se puede ac- ceder a l:

    a) El texto como unidad de anlisis. La particular y complicada pervivencia de los textos antiguos y los distintos tipos de edi- cin moderna que se pueden hacer de ellos proporcionan al lingista histrico diversas posibilidades de acceder al material de es- tudio; as, es posible elegir desde el manus- crito hasta la edicin crtica e incluso actual- mente se dispone de versiones del texto que compatibilizan el manuscrito con la edicin

    THEORETICAL LlNGUlSTlCS 1 MEDIA 143

    en soporte informtico, ofreciendo con ello nuevas vas de investigacin. Nos referimos a las ediciones digitalizadas (Marcos Marn 1991; Faulhaber 1991), por ejemplo, el Ar-chivo Digital de Manuscritos y Textos Espa- oles (ADMYTE). La eleccin de una de estas posibilidades puede hacer variar sen- siblemente los resultados obtenidos en la investigacin: las ediciones crticas, por ejemplo, se alejan de la realidad lingstica histrica al tratarse, en general, de recons- trucciones de una obra a partir de la com- binacin de diversos manuscritos con posi- ble cronologa y procedencia geogrfica diferentes, por lo que el resultado no deja de ser un mero producto hipottico que no puede ser tomado como representacin de un estado de lengua determinado. El mis- mo documento antiguo (manuscrito), por formar parte de una pervivencia textual compleja, puede no ser reflejo de un solo idiolecto, sino ser depositario de estratos de lengua de poca y zona distintas, de ah la aplicacin del concepto de diasistema a esta esfera (Echenique 1992,235).

    b) La palabra como unidad de anlisis. El corpus de datos puede tambin obtener- se no directamente del texto, sino de mane- ra indirecta; aunque el texto siempre es la fuente ltima y bsica, es posible utilizar como punto de partida las concordancias del texto o las obras lexicogrficas de carc- ter histrico. En ambos casos la palabra es el elemento fundamental a travs del que se extrae un corpus de datos para cualquier tipo de anlisis lingstico.

    3.Bases de datos y sintaxis histri- ca. La aplicacin de la informtica y las bases de datos relacionales al estudio de la sintaxis del espaol es bastante reciente, como lo demuestran los trabajos de G. Rojo (1992; 1993; 1994). La finalidad de la inves- tigacin de este lingista consiste en crear una base de datos sintcticos del espaol actual (BADSEA), cuya derivacin ms in- mediata es la realizacin de un Diccionario de construcciones verbales del espaol actual (DICVEA). En palabras de G. Rojo (1993, 19), la gran utilidad de un proyecto de es- tas caractersticas estriba en el hecho de

  • 144 HlSPANlA 80 MARCH 1997

    que, con su obtencin, "todos cuantos tra- bajamos sobre el espaol actual dispondre- mos en ese momento de una enorme canti- dad de materiales analizados con los que, estamos seguros, nuestros conocimientos del componente sintctico de esta lengua sern ms amplios y, sobre todo, estarn mejor fundamentados en el uso real" (nfa- sis nuestro).

    Las bases de datos no slo se han aplica- do al estudio del espaol, sino que han ser- vido tambin para la comparacin tipolgica de lenguas distintas, como explica J. C. Moreno Cabrera (1995,63-66).

    En el estudio de la sintaxis histrica del espaol, el uso de herramientas informti- cas se perla como una gran ayuda para la renovacin de esta disciplina, tan necesita- da en la actualidad de nuevas investigacio- nes y metodologas que le permitan enfren- tarse al anlisis de nuevos corpora.

    Las excelencias de la aplicacin de la in- formtica al estudio de la sintaxis histrica del espaol han sido explicitadas pormenorizadamente por D. Wanner (1991). La creacin de una base de datos del espaol medieval se postula como una gran necesidad para el desarrollo actual de los estudios de sintaxis histrica, ya que dicha disciplina debe manejar una gran cantidad de datos, procedentes de corpora textuales, con el fin de caracterizar la lengua y suplir en lo posible la ausencia de hablantes nati- vos. Tomando como base el corpus del es-

    VARIANTE GRAFICA: delant LEMA: delante

    paol medieval de la Universidad de Wisconsin, y tras la obtencin de concor- dancias, se ha realizado una codificacin2 de los textos tanto a nivel morfolgico (pala- bras) como a nivel sintctico (sintagmas y oraciones), de tal modo que sean posibles las bsquedas, incluso interrelacionadas, por palabras, categoras morfolgicas y constituyentes. La codificacin presenta un anlisis neutral de los datos, con el fin de que sirva para futuros anlisis de diferen- tes investigado re^.^ La combinacin de con- cordancias automatizadas junto con la crea- cin manual de ficheros constituye, segn D. Wanner (1991,183), "a control corpus to delimit some dimensions of a linguistic norm within the rich spectrum of Old Spanish."

    En la lnea descrita anteriormente, pre- sentamos a continuacin un tipo particular de base de datos que se ocupa de un pro- blema especfico de sintaxis histrica del espaol medie~a l .~ A partir de un corpus compuesto por textos literarios medievales de diferentes gneros de los siglos XII alXV (Cantar de Mio Cid, General Estoria, Los Milagros de Nuestra Seora, El conde Lucanor, Libro de Buen Amor, Corbacho, y La Celestina), se obtuvieron dos ficheros, formados en total por 16.708 registros, que recogen uno los elementos lingsticos de espacio y otro los de tiempo. Cada registro presenta la estructura que aparece en el cuadro 1.

    oi hoy

    CLASE GRAMATICAL: adverbio adverbio FUNCION GRAMATICAL: preposicin adverbio SENTIDO GRAMATICAL: espacial temporal SIGNIFICADO: 'delante de' 'hoy' TIPO SIGNIFICADO: espacial temporal TIEMPO VERBAL: presente presente POSICION VERBAL: pospuesto pospuesto TEXTO: Enbracan los escudos delant los coracones vlame la tu gracia oi en esti da, AUTOR: annimo Berceo OBRA: Cid Milagros GENERO: verso verso FECHA: h. 1140 1244-55 PAGINANERSO: vs. 715 vs. 475b

    Cuadro 1

  • THEORETICAL LlNGUlSTlCS 1 MEDIA 145

    Esta estructura resulta de la aplicacin de un proceso de anlisis que obtiene como resultado la combinacin, dentro de una misma base de datos, de unas informacio- nes textuales (fruto de un proceso mecni- co/informtico) y unas determinadas infor- maciones lingsticas (fruto de un proceso manual/intelectual) . 3.1.Tipos de informaciones. 3.1.1. Informaciones lingsticas.

    Las informaciones de tipo lingstico abar- can los diferentes niveles de anlisis. Estas se pueden desglosar en informaciones grfico-fonticas y en informaciones grama- ticales. En primer lugar, si se toman como modelo los estudios lexicogrficos, resulta imprescindible incluir, dentro de cada ficha, el elemento o elementos lxicos que se ana- lizan segn la forma grfica con que apare- cen (variante grfica), as como la unidad lxica a la que corresponden (lema), que nos permite relacionar e identificar todas las variantes grficas aparecidas. Por ejem- plo, en el cuadro anterior la forma grfica delant, convive en espaol medieval con delante, deland; y oi'aparece junto a oy, hoy. La comparacin de todas las formas grficas que presenta el adverbio ende en espaol medieval, tal como se recogen en el cuadro 2, puede ser de gran ayuda para estudiar la evolucin gramatical que presen- ta dicho elemento adverbial (y al mismo tiempo pronominal) a lo largo de su histo- ria.

    LEMA S.V. SIGNIF. den ende 'de all' dend ende 'de ello' dende ende 'de ello' dent ende 'de ello' dente ende 'de all' desend ende 'despus' desende ende 'despus' desent ende 'despus' dessende ende 'despus' dessent ende 'despus' end ende 'de all' ende ende 'de ello' ent ende 'de ello'

    En segundo lugar, resulta imprescindi- ble saber, primeramente, la categora morfolgica (clase gramatical) del elemen- to lingstico estudiado, la cual es determi- nante para conocer sus posibles funciones sintcticas, establecer si existe o no un pro- ceso de gramaticalizacin, etc.; as como anotar todos aquellos datos de ndole morfosintctica (morfemas de concordan- cia, etc.) que puedan ser tiles para la inves- tigacin. Por ejemplo, encima pertenece a la clase gramatical de los adverbios, y sobre a la de las preposiciones. Sin embargo, ambos elementos no slo comparten un mismo significado, sino que presentan un comportamiento sintctico (funcin grama- tical) similar, ya que el primero puede equi- valer tambin en algunas ocasiones a una preposicin, lo cual nos lleva a replantear la diferente? naturaleza morfolgica de am- bos.

    La funcin sintctica (funcin gramati- cal) que desempea el elemento o elemen- tos estudiados, as como su posicin dentro de la oracin, son los rasgos mnimos, ade- ms de otros muchos, que deben conside- rarse en un anlisis de este tipo. Es muy importante para el estudio de los adverbios de espacio conocer su posicin respecto al verbo (antepuesto o pospuesto), ya que este dato, por ejemplo, puede ayudar a explicar la progresiva gramaticalizacin y prdida del adverbio y 'alli' en espaol medieval, quedando fusionado con el verbo haber en

    OBRA REF. Cid vs. 1507 Cid vs. 1063 Lucanor p. 107 Cid vs. 1038 Celestina p. 177 Milagros vs. 208d Milagros vs. 493a Milagros vs. 848a Milagros vs. 193d Milagros vs. 192c Milagros vs. 128d Cid vs. 2100 Milagros vs. 815b

    Cuadro 2

  • 146 HlSPANlA 80 MARCH 1997

    la forma hay, como constatamos en los ejem- plos siguientes: "tales i a que prenden, ta- les i a que non" (Cid); "No hay cosa tan li- gera para huyr como la vida" (Celestina). Adems, tambin es necesario conocer la funcin sintctica que realizan todos aque- llos elementos usados para la expresin de la dexis temporal (ncleo de un SN, SP, SAdv; complemento de un SP; sujeto, CRV, CC; etc.), de tal modo que podamos estu- diar y justificar el valor circunstancial de aquellos sintagmas nominales con sentido temporal que aparecen en la misma posi- cin que los adverbios de tiempo, como vemos en el siguiente ejemplo: "que los cas- tigo como aquel dia onrrassen cada anno ellos e aquellos otros delos agenos que con ellos lo quisiessen, como es dicho, e su linage por siempre iamas" (General Estoria). La comparacin y relacin de to- das estas informaciones permite extraer consecuencias que de otro modo no seran posibles.

    El sentido gramatical de todo elemento lxico, y en especial de los decticos, pue- de variar en funcin del contexto sintctico en el que se inserta. Por ello, es muy impor- tante registrar este tipo de casos con el fin de constatar cualquier cambio semntico cuyo origen se encuentre en una determi- nada construccin sintctica. Por ejemplo, gracias a la posibilidad de relacionar el fichero de los adverbios de espacio con el fichero de los adverbios de tiempo a travs de los campos sentido gramatical y signifi- cado, se observa una conexin entre los adverbios de espacio y los adverbios de tiempo en espaol medieval, como aparece en el siguiente ejemplo, en donde el adver- bio de espacio cerca posee el significado temporal de pronto: "aun cerca o tarde el rey querer m'a por amigo" (Cid).

    Por la propia naturaleza de esta clase de informaciones, slo el investigador, previo anlisis y estudio detenido del fenmeno sintctico dentro de su contexto, es capaz de elegir los datos que constituyen la base de su investigacin. No existen en la actua- lidad analizadores sintcticos lo suficiente- mente potentes como para suplir al lingis- ta en este tipo de situaciones.

    3.1.2. Informaciones textuales. En ellas se incluyen diferentes datos sobre el texto analizado. En el campo texto se reco- ge el contexto en donde aparece el elemen- to o elementos lxicos estudiados. Su exten- sin puede variar en funcin del problema sintctico, por lo que se toma como lmite el sintagma, la oracin (en parte o en su totalidad) o incluso diferentes fragmentos del texto. Es imposible justificar el valor dectico de los adverbios estudiados, sin que se incluya el referente, el cual puede aparecer en oraciones anteriores, como en: "El prado qe vos digo avi otra bondat: / . . . / qui all se morasse seri bienventurado" (Milagros). La informacin de referencia se expresa

    en un conjunto de campos distintos. En es- tos campos se incluye el autor, la obra, el gnero, la fecha y la pgina o verso de don- de procede el texto transcrito, con el fin de localizar y situar histricamente el proble- ma analizado, y determinar si se trata de un rasgo general, dialectal o idiolectal (propio de una poca determinada, de una zona, de una obra o un autor en concreto), o est regido por condicionamientos estilsticos. 3.2. Explotacin de la base de datos. La confeccin de una base de datos so-

    bre elementos decticos de espacio y tiem- po del espaol medieval ha ayudado a carac- terizar morfosintcticamente una poca concreta de esta lengua, gracias al anlisis y confrontacin de las informaciones reco- gidas en los distintos campos de esta base de datos sintctica.

    Entre las caractersticas ms importan- tes de la lengua medieval, se ha podido constatar, como sealan J. Gutirrez y J.A. Pascua1 (1995, 14&51), la existencia de un cambio revolucionario en el sistema decti- co en su evolucin del espaol medieval al espaol clsico: el paso de la oposicin medieval aqui / allib) indicadora de dos campos de referencia en el discurso (proxi- midad / no proximidad al hablante), a la moderna oposicin aqui / ahi / alli (proxi- midad al hablante / oyente / l-ella), reali- zada esta ltima a partir del siglo XV, como reflejan los datos obtenidos al cruzar la in- formacin de distintos campos. La relacin

  • entre el desarrollo de un sistema de tres campos de referencia y la prdida lxica de los adverbios ende e y no parece descartar- se totalmente, y se puede sostener, incluso, que no se trata de una simple casualidad. Adems, la relacin de aquende y allende tanto con los adverbios pronominales locativos espaciales (aqui, allo como con los adverbios prepositivos (suso, yuso, etc.) es evidente si se comparan los valores de los campos lema, clase gramatical, funcin gramatical y significado.

    Es posible afirmar, por otro lado, la exis- tencia de una relacin entre las estructuras que presentan adverbios de espacio pos- puestos (rz arriba)y otras introducidas por una preposicin (por el cobdo ayuso). La confrontacin de los campos lema, clase gramatical, funcin gramatical, sentido gra- matical, texto y fecha ha sido de vital impor- tancia para obtener estos resultados.

    Por ltimo, la conexin entre el sistema de elementos lingsticos espaciales y el sistema temporal queda clara a travs de la observacin de las informaciones de los campos sentido gramatical y tipo de signi- ficado, en donde se demuestra que el valor espacial es el no marcado frente al tempo- ral.

    4. Bases de datos y lexicografa his- trica: la informatizacin del DCECH. La lexicografa histrica dedicada al espa- ol ofrece un panorama especialmente po- bre: existen diccionarios etimolgicos como el Diccionario etimolgico espaol e hispnico deV.Garca de Diego (1954);y el Diccionario critico etimolgico de la lengua castellana (1954-57), cuya revisin ha dado lugar al Diccionario critico etimolgico cas- tellano e hispnico (DCECH) del mismo J. Corominas con la colaboracin de J. A. Pascual (1980-91).

    No existe, sin embargo, un diccionario histrico de la lengua espaola que incluya los textos del espaol desde los orgenes hasta la actualidad, pues el Diccionario his- trico de la lengua espaola (1960-) elabo-rado por la Academia se halla todava en la letra A, y los proyectos de Heidelberg (Dic-cionario del espaol medieval, dirigido por

    THEORETICAL LlNGUlSTlCS 1 MEDIA 147

    B. Mller [19871)y Wisconsin (Dictionary of Old Spanish Language, dirigido por J . Nitti) abarcan slo la Edad Media y an tar- darn en concluirse (Dworkin 1994). Por tanto, los investigadores dedicados al espa- ol no disponen de un acervo de datos lexicogrficos como los que renen el OED (The Oxfo rd English Dictiona ry) , el TLF (Trsor de la langue francaise) o el Diccio-nario de la Academia Sueca (SAOB: Ordbok over svenska sprdket utgiven av Svenska Akademien). Este panorama permite enten- der que primero el DCELC y despus el DCECH hayan servido de diccionarios etimolgicos e histricos a la vez, aunque tanto su estructura como la informacin que incluyen no responden al esquema b- sico de diccionario histrico.

    El panorama que presenta la lexicografa histrica del espaol nos impuls a desarro- llar un proyecto de investigacin que con- juga la aplicacin de las nuevas tcnicas in- formtica~y los datos histrico-etimolgi- cos del DCECH. Su objetivo consiste en la confeccin de un gran banco de datos de carcter histrico-etimolgico cuya finali- dad, entre otras muchas, es la de servir de base en la elaboracin de un futuro diccio- nario etimolgico del espaol; de esta for- ma, el empleo de metodologas y tcnicas modernas como las bases de datos permi- ten bsquedas mucho ms avanzadas que el diccionario tradicional, como se expone ms adelante.

    El aprovechamiento de los datos del DCECH es un modo de proceder que cuen- ta con la aquiescencia de fillogos de pres- tigio dedicados al estudio etimolgico del espaol (Coln 1994): ...p ara nuestra etimologa tenemos que actuar con lo que hay. No cabe, a mi parecer, partir de cero, y po- nerse a realizar una magna obra etimolgica por el estilo de la llevada a cabo para Francia por Walther von Wartburg con su Franzosisches Etymologisches Worterbuch (= FEW) o como la que est procurando realizar Max Pfister con su Lessico etimologico italia- no (=LEI). Tal proyecto hubiese sido deseable antes de los aos cincuenta; ahora, con la publicacin de dos ediciones del diccionario etimolgico de Corominas (el DCELC de 1954-57 y el DECH de Corominas- Pascual de 1980-91), la situacin es bastante particu- lar. Este esfuerzo es gigantesco, y todos debemos un

  • 148 HlSPANlA 80 MARCH 1997

    gran agradecimiento al autor principal (sin olvidar las mejoras debidas a la perseverante critica de Jos A. Pascual). El sentimiento de gratitud no debe ni pue- de hacernos olvidar que, al lado de aciertos magnficos, la obra contiene lagunas no menos llama- tivas y errores de monta. Es lo que, con el respeto debido, habramos de ir enmendando para llegar a poseer un cuerpo de doctrina digno. (599)

    Existen actualmente distintos proyectos de elaboracin de una base de datos toman- do como punto de partida la informatizacin de diccionarios histricos ya existentes en forma impresa. Estos se pueden llevar a cabo tanto mediante una informatizacin manual, este es el procedimiento utilizado en la "Historical Thesaurus Database" ela- borada en la Universidad de Glasgow que recoge los datos del OED, (cfr. Kay-Chase 1987; Wotherspoon 1992) y el proyecto de informatizacin delTLF (Gorcy 1992); tam- bin se desarrollan de manera parcialmen- te automatizada con lector ptico, como sucede en la inforrnatizacin del SAOB (cfr. Malmgren 1988). Todo ello avala la consti- tucin de un corpus por este procedimien- to (cfr. Atkins-Clear-Ostler 1992).

    El primer estadio de este ambicioso pro- yecto, por tanto, consiste en la conversin del DCECH en una base de datos. En este caso, resulta imposible realizar la informa- tizacin de manera automtica por las pecu- liares caractersticas del diccionario en el que la crtica y discusin etimolgica lo ha- cen poco sistemtico en la informacin lingstica que aparece en cada entrada. Adems en la informatizacin ni se aprove- chan todos los datos que proporciona el dic- cionario, ni los datos que se informatizan tienen el mismo tratamiento, por lo que la intervencin humana se hace indispensable. La transformacin del diccionario tradi-

    cional al diccionario informatizado es com- pleja por mltiples razones; la ms impor- tante es el cambio de concepcin de la obra lexicogrfica que media entre uno y otro, porque, como seala H. Ruus (1988): Dictionary data present a challenge to computational processing. Any entry in a standard dictionary con- tains an abundance of information that is presented in a very compressed form. S o make such information amenable to computational processing it is necessary to classify the different kinds of information and de-

    cide on the relations between information types that are to be expressed. (169) La informatizacin implica como proce-

    sos fundamentales un anlisis profundo de la estructura de los artculos y de los tipos de informacin que aparecen en ellos, lo cual es complicado en un diccionario tan heterogneo como el DCECH en el que uno de sus fundamentos es la argumentacin etimolgica. Todo ello ha llevado al estable- cimiento de las Bases para la informatiza- cin del DCECH (1995), normas que siguen los investigadores que llevan a cabo el trasvase de informacin del diccionario a la base de datos.

    Una vez concluida la informatizacin y en un segundo estadio del proyecto, se inicia- r una fase de revisin, ampliacin y explo- tacin de la base de datos especialmente desde dos puntos de vista: 1) Adicin de material bibliogrfico procedente de otras fuentes lexicogrficas y de estudios mono- grficos posteriores a la publicacin del DCECH; y ampliacin del corpus textual con un conjunto de textos muy variados que completarn y harn ms representativa la base documental del DCECH. 2) Aprove- chamiento de la informacin del dicciona- rio cruzando los datos obtenidos en las di- versas entradas del DCECH y contrastn- dolos con los datos aadidos.

    Actualmente se est desarrollando la primera fase con una ayuda de la DGICYT del Ministerio de Educacin y Ciencia, y el apoyo del Comissionat per Universitats i Recerca de la Generalitat de Catalunya. Para ello se estn elaborando diversos ficheros interconectados (bases de datos relacionales) en los que se organiza parte del material del DCECH:

    1. Fichero general o matriz que contiene todas las palabras que aparecen como le- mas en el DCECH y las que aparecen en el interior de la entrada en el apartado de DERIVADOS y COMPUESTOS. Por ejem- plo, juzgar, juzgado, juicio, enjuiciar, adju- dicar, prejuicio figuran como "derivados etimolgicos" del lema JUEZ; pacz'ficary apaciguamiento se hallan en el apartado de "compuestos" de PAZ. En este fichero se

  • THEORETICAL LlNGUlSTlCS I MEDIA 149

    recogen informaciones de muy variado tipo las lenguas, dialectos y otras palabras que (cuadro 3) : sostienen algn tipo de relacin con la pa-

    Cuadro 3

    - LEMA. Puede corresponder a un lema del DCECH o a una palabra que figura en el interior del artculo. - SUBVOCE. Voz bajo la que aparece la pa- labra (lema) en el DCECH. - CATEGOIA. Categora a la que pertene- ce la palabra. -APARTADO. Apartado del artculo del dic- cionario en el que aparece el lema (lema, deriv. o cpt.) . - DERIVADOS, COMPUESTOS. Campos en los que se marca si el artculo tiene apar- tado de derivados o de compuestos para los casos de las palabras que se constituyen en lemas en el diccionario. - ETI, DOC, PER Campos que testimonian si los ficheros con informacin etimolgica, documental o de pervivencia contienen datos. - SIGNIFICADO. Campo en el que se inclu- ye el significado de la palabra. - LENGUAS RELACIONADAS, DIALEC- TOS RELACIONADOS, LEMAS RELA- CIONADOS. Campos en los que se indican

    labra estudiada. - Campos en los que se recoge el tipo de informacin adicional a los campos anterio- res. Puede tratarse de informacin grfica, fontica, morfolgica, sintctica, de forma- cin de palabras, semntica, etimolgica, etc. Cada uno de estos campos se llena con un cdigo que especifica exactamente el tipo de informacin.

    2. Fichero de informacin etimolgica. Or- ganiza la transmisin etimolgica de cada palabra del vocabulario en una estructura que responde a todas las posibilidades etimolgicas del espaol tal como aparece en el ejemplo del cuadro 4. 3. Fichero documental en el que s e desglosan las diversas documentaciones en textos antiguos que aporta el DCECH (cua- dro 5).

    4. Fichero de pervivencia en el que se reco- gen varios aspectos relacionados con la his-

  • 150 HlSPANlA 80 MARCH 1997

    LEMA SUBVOCE ETIMOLOG~A1 TRANSMISIN 1 LENGUA 1 FORMA 1 SIGNIFICADO 1 ETIMOLOG~A2

    LEMA FECHA

    daza 1533

    daza

    dtil dtil cierta prstamo cataln datil 'dtil' cierta

    AUTOR

    TRANSMISIN2 LENGUA 2 FORMA 2 SIGNIFICADO 2 ETIMOLOG~A3 TRANSMISIN 3 FORMA 3 SIGNIFICADO 3

    Cuadro 4

    OBRA EJEMPLO

    Hist. de adaza

    heredada latn dactylus dem cierta prstamo 6 a ~ ~ u h o ~ 'dedo', 'dtil'

    REFERENCIA

    directa Morgante

    Autoridades daza directa

    Cuadro 5

    toria del trmino desde las perspectivas mognea, que permanentemente admitir diatpica, diastrtica, etc. usos variados, con objetivos completamen-

    te diferentes; entre los fundamentales: Con este diseo y organizacin se pue-

    den cruzar las informaciones de los a) Conexin con otros bancos de datos. ficheros de lemas con los de algn tipo de b) Ampliacin y puesta al da permanente. informacin especfica (etimolgica, docu- c) Simple consulta, como ahora se hace con

    LEMA FECHA LENGUA 1 LENGUA 2 damasonio 1555 latn griego

    dauco 1555 latn griego

    Cuadro 6

    mental, lingstica) y obtener subcorpora de trminos con caractersticas comunes; por ejemplo, el grupo de lemas que tienen un mismo origen, documentados en una poca o en una obra determinada (cuadro 6).

    Dada la falta de sistematicidad de las in- formaciones del DCECH, los ficheros con los que se trabaja intentan aprovechar la informacin estable de este diccionario dndole una configuracin unitaria. El re- sultado no constituir un diccionario etimolgico informatizado tomando como base el DCECH, para lo que hubiese bas- tado con su simple digitalizacin, sino un gran banco de datos etimolgicos, histri- cos e hispnicos, organizado de manera ho-

    el DCECH, pero con todas las ventajas que supone tener la informacin almacenada en una base de datos. d) Utilizacin de la base de datos para el estudio e investigacin de los ms diversos aspectos sobre la historia del espaol.

    Creemos que con un proyecto de estas caractersticas aparece un nuevo concepto de lexicografa, en este caso de lexicografa histrica, en la que el diccionario es supe- rado por un banco de datos cuyos usos so- brepasan tambin en mucho los del diccio- nario tradicional, de forma que podemos recordar las palabras de J. M. Blecua (1995) sobre la versin electrnica del Diccionario

  • THEORETICAL LlNGUlSTlCS 1 MEDIA 151

    de la lengua espaola de la Real Academia, al sealar que "el texto del diccionario se convierte en un espacio sin fronteras por el que se puede viajar con absoluta libertad" (15). En el caso del DCECH, el banco de da-

    tos que surge como producto aguardar a mltiples investigaciones de carcter hist-rico sobre el lxico espaol con esta nueva manera de viajar.

    G. Gorcy (1992, 105) anuncia que con este tipo de instrumentos "un nouvel Age et un nouvel apprentissage de la lecture commence"; en realidad, el diccionario no es una obra de lectura sino de consulta, pero no es hasta las postrimeras del segundo milenio que el concepto de consulta adquie-re un sentido amplio y profundo. La aplicacin de las bases de datos al es-

    tudio histrico de la lengua abre nuevos horizontes tanto desde el punto de vista metodolgico como desde la perspectiva de la concepcin misma del trabajo, pero de ninguna manera pueden sustituir la mano inteligente del lingista hi~trico.~

    NOTAS 'Puede encontrarse un panorama completo en

    Marcos Marn (1994b). Cfr., por ejemplo, la parte de-dicada a "Lacodificacin textual electrnica" en ACLE (1994): Faulhaber (1994), Mackenzie (1994), Marcos Marn (1994a). Tambin Nitti (1993).

    Wna descripcin pormenorizada del etiquetado utilizado y de las normas de codificacin se encuen-tra en D. Wanner (1991,184, nota 20).

    3La.configuracin de la base de datos gramatical nicamente a partir de los datos sintcticos obtenidos (el Corpus de ejemplos analizados y clasificados), y el carcter neutral desde un punto de vista terico de la informacin introducida, son las principales propues-tas defendidas por R. Panckhurst (1994) en la realiza-cin de una "database querying system (DBQS)" so-bre las oraciones interrogativas en francs moderno.

    4Laaplicacin de las bases de datos al estudio de la dexis espacial y temporal del espaol medieval ha sido desarrollada en C. Snchez iancis (1992).

    jLa investigacin necesaria para desarrollar este trabajo ha sido parcialmente financiada con una ayu-da de la DGICYTpara el proyecto "Informatizacin del DCECH de J. Corominas y J. A. Pascual" (node refe-rencia PB92-0599) y con el apoyo del Comissionat per Universitats i Recerca de la Generalitat de Catalunya (no de referencia GRQ94-2006). Este artculo es una versin revisada y ampliada de una comunicacin pre-sentada en el XII Congreso de AESLA (Barcelona,

    abril de 1994)

    OBRAS CITADAS Academia Espaola. Diccionario histricode la lengua

    espaola. Madrid: RAE, 1960-. ACLE: Actas del congreso de la lengua espaola. Sevi-

    lla, 7 al 10 de octubre de 1992. Madrid: Instituto Cervantes, 1994.

    Atkins, Sue,Jeremy Clear, and Nicholas Ostler. "Cor-pus Design Criteria." Literary and Linguistic Com-puting 7 (1992): 1-16.

    Blecua, Jos Manuel. "iaAcademia en CD-ROM."El Pas 25 nov. 1995: 15.

    Capsada, Ramon, y Joan Torruella. TRANSCALC. Del manuscrit a la base de dades. Bellaterra: UAB, 1995.

    Clavera, Gloria,Jos Manuel Blecua, Carlos Snchez, y Joan Torruella. Basespara la informatizacin del DCECH deJ. CorominasyJ. A. Pascual. Bellaterra: UAB, 1995.

    Coln, Germn. "Sobre los estudios de etimologa espaola." ACLE. 1994.597-610.

    Corominas,Juan. Diccionario crtico etimolgicode la lengua castellana. Madrid-Berna: Gredos-Francke, 1954-57.

    Corominas, Juan, y Jos Antonio Pascual. Dicciona-rio crltico etimolgico castellano e hispnico. Ma-drid: Gredos, 1980-91.

    Dworkin, Steven N. "Progress in Medieval Spanish Lexicography." Romance Philology 47 (1994):406-25.

    Echenique Elizondo, MaraTeresa. "El diasistema lin-gstico de la Leyenda del Caballero del Cisne." Estudios filolgicos en homenaje a E. de Bustos Touar, I. Salamanca: Universidad, 1992. 235.

    Faulhaber, Charles B. "Textual Criticism in the 21st Century." Romance Philology 41 (1991): 123-48.

    -. "LaText Initiative y su aplicacin a la codificacin textual y explotacin." ACLE. 1994. 331-40.

    Garca de Diego, Vicente. Diccionario etimolgico es-paol e hispnico. Madrid: Espasa-Calpe, 1954/ 1985.

    Gorcy, Georges. "A propos de l'informatisation du Trsor de la languefrancaise (TLF) ."Actas doXIX Congreso internacional de lingstica e filoloxa romnicas. Universidade d e Santiago d e Compostela, 1989. Vol. 2. A Corua: Fundacin Pedro Barri de la Maza, 1992.95-106. 5 vols.

    Gutirrez Cuadrado, Juan, y Jos Antonio Pascual. "Observacions des del sentit com a algunes idees usuals sobre la historia de la llengua." Problemes i metodes de la historia de la llengua. Eds. S. Mart y F. Feliu. Barcelona: Quadems Crema, 1995.129-67.

    Jucker, Andreas H. "New Dimensions in Vocabulary Studies: Review Article of the OED (2nd edition) on CD-ROM." Literary and Linguistic Computing 9 (1994): 149-54.

    Kay, Christian J., and Thomas J.P. Chase. "Constnict-ing a Thesaurus Database." Literary and Linguis-

  • 152 HlSPANlA 80 MARCH 1997

    tic Computing 2 (1987): 161-63. Mackenzie, David. "Problemas de transcripcin tex-

    tual electrnica: lenguas, dialectos, mquinas." ACLE. 1994.341-44.

    Malmgren, Sven-Goran. "The O.S.A. Project: Computarisation of the Dictionary of the Swedish Academy." Literay, and Linguistic Computing 3 (1988): 166-68.

    Marcos Marn, Francisco. "Computers and Text Ed- iting." Romance Philology 45 (1991): 102-22.

    -. "Estndares y estndar: ADMYTE, el archivo digital de manuscritos y textos espaoles y sus soluciones para codificar e intercambiar datos tex- tuales."ACLE. 1994a. 345-59.

    -. Informtica y humanidades. Madrid: Gredos, 1994b.

    Mller, Bodo. Diccionario del espaol medieval. Heidelberg: Carl Winter Universitatsverlag, 1987-.

    Nitti, John. El taller lexicogrfico de Wisconsin, (con una adenda de N. Snchez, Diccionario general de los textos mdicos antiguos espaoles). Bellaterra: UAB, 1993.

    Moreno Cabrera, Juan Carlos. La lingistiica terico- tipolgica.Madrid: Gredos, 1995.

    Panckhurst, Rachel. "A Database for Linguists: Intel- ligent Querying and Increase of Data." Computers and the Humanities 28 (1994): 39-52.

    Rojo, Guillermo. "El futuro Diccionario de construc- ciones verbales del espaol actual." Actas del VIII

    Congreso de Lenguajes Naturales y Lenguajes For- males. Barcelona: Promociones y Publicaciones Universitarias, 1992.41-50.

    -. "La base de datos sintcticos del espaol actual." Espaol Actual 59 (1993): 15-20.

    -. "Problemas lingsticos e informticos en los dic- cionarios de construccin y rgimen."ACLE. 1994. 307-15.

    Ruus, Hanne. "Lexical Data Structures." Literay, and Linguistic Computing 3 (1988): 169-76.

    Snchez Lancis, Carlos E. Estudio de los adverbios de espacioy tiempo en el espaol medieval. Bellaterra: UAB, 1992.

    Torruella, Joan. "Bases d e dades per a textos medievals: el cas de l'Arxiu informatitzat de textos catalans medievals." Actes du XXe Congres International de Linguistique et Philologie Romanes. Vol. 4. Universit de Zurich (6-11 avril 1992). Tbingen: Francke Verlag, 1993.749-60.4 vols.

    Wanner, Dieter. "Historical Syntax and Old Spanish Text Files." Linguistic Studies in Medieval Span- ish.Eds. R. Harris-NorthallyTh.D. Cravens. Madi- son: The Hispanic Seminary of Medieval Studies, 1991.166-90.

    Wotherspoon, Irene. "Historical Thesaurus Database Using Ingres." Literary and Linguistic Computing 7 (1992): 218-25.