el resumen automático como recurso documental para la ... · universidad de mÁlaga facultad de...
TRANSCRIPT
-
UNIVERSIDAD DE MLAGA
FACULTAD DE FILOSOFA Y LETRAS
DEPARTAMENTO DE TRADUCCIN E INTERPRETACIN
TESIS DOCTORAL
El resumen automtico como recurso documental para la traduccin de artculos de investigacin
del mbito jurdico-tecnolgico (espaol-ingls-francs)
MARA CRISTINA TOLEDO BEZ
DIRIGIDA POR LA DRA. D. GLORIA CORPAS PASTOR
MLAGA, 2009
-
Gloria Corpas Pastor, catedrtica del Departamento de Traduccin e
Interpretacin de la Universidad de Mlaga, certifica que la tesis de D. Mara Cristina
Toledo Bez, titulada El resumen automtico como recurso documental para la
traduccin de artculos de investigacin del mbito jurdico-tecnolgico
(espaol-ingls-francs), ha sido realizada bajo su direccin y cumple todos los
requisitos legales para proceder a su defensa.
Mlaga, a 29 de junio de 2009
Fdo. Dra. D. Gloria Corpas Pastor
-
A mi padre, a mi madre y a mi hermana
-
La sola, la vera lingua dellEuropa la traduzione
Umberto Eco
-
AGRADECIMIENTOS
Una tesis doctoral parece constituir el trabajo individual ms
arduo y laborioso. No obstante, durante los aos de investigacin y
estudio que implica, encontramos personas que, desde el punto de
vista acadmico o humano, ofrecen su ayuda y, de algn modo, dejan
su impronta.
En primer lugar, quisiera mostrar todo mi reconocimiento a la
Dra. D. Gloria Corpas Pastor, directora de la tesis contenida en este
volumen. A su persona debo infinita gratitud por la confianza que
siempre ha puesto en m y por sus constantes muestras de nimo y
comprensin a la hora de emprender este proyecto. Sin embargo, no
slo me ha enseado a investigar, sino que su generosidad y calidad
humana hacen que sea para m un ejemplo de valores y una maestra en
el ms amplio sentido de la palabra.
-
M. Cristina Toledo Bez
II
Quisiera hacer extensible este agradecimiento al Dr. D. Ruslan
Mitkov, director del Research Group in Computational Linguistics,
por su maravillosa acogida durante mi estancia en la Universidad de
Wolverhampton as como por sus sabios consejos y apoyo constante
desde la distancia. Asimismo, agradezco al Dr. D. Constantin Orsan
su ayuda desinteresada en todo momento y por trabajar con ahnco en
el recurso documental presentado en la tesis sin ms recompensa que
mis mltiples palabras de agradecimiento. Vayan tambin mis gracias
a la Dra. D. Dalila Melkhadi y a la Dra. D. Shyan Ou por actuar
como evaluadoras externas as como por sus comentarios siempre tan
oportunos.
Uno de los mayores apoyos recibidos me ha venido de la mano
de los miembros y colaboradores del grupo de investigacin
HUM-106, en particular de los profesores Dra. D. Mriam Seghiri
Domnguez, Dr. D. Jorge J. Leiva Rojo y D. M. del Carmen Amaya
Galvn, y sobre todo de mi compaera y amiga Cristina M. Castillo
Rodrguez. Todos ellos saben por experiencia propia el valor de una
palabra de nimo o de una ayuda a tiempo y me lo han sabido
demostrar con creces en numerosas ocasiones.
No quisiera olvidarme de los profesores del Departamento de
Traduccin e Interpretacin de la Universidad de Mlaga que me han
permitido realizar los experimentos en sus clases, en concreto el Dr.
D. Emilio Ortega Arjonilla, la Dra. D. Adela Martnez Garca, la
Dra. D. Isabel Jimnez Gutirrez y D. Tanagua Barcel Martnez.
Asimismo, en este punto he de destacar la colaboracin desinteresada
de Abby Oesterling, que desde Estados Unidos ha revisado con
paciencia todo aquello que he necesitado.
-
Agradecimientos
III
A mis amigos que, de forma presencial o virtual, siempre se
han preocupado desinteresadamente por ese trabajo que me absorba y
me apartaba de ellos.
A toda mi familia, sin cuyo apoyo este trabajo no hubiese visto
nunca la luz, y en especial a las tres personas a las que va dedicada
esta tesis: a mi padre, a mi madre y a mi hermana. Todo lo que he
conseguido hasta ahora y todo lo que consiga en el futuro se lo debo a
los tres por ser todos ellos una parte de m misma.
A Ral, por caminar a mi lado durante todos estos aos, por
soportar tantas horas robadas, por demostrarme en numerosas
ocasiones su inquebrantable paciencia y por comprenderme cuando ni
yo misma lo haca. Y, sobre todo, por ensearme, con maestra, que la
distancia nunca es el olvido.
-
NDICE
ABSTRACT
1. Introduction... 1
2. Aims and goals.. 3
3. Materials 5
3.1. Term-Based Summariser.... 5
3.2. Multilingual comparable corpus......... 6
3.3. Markin and evaluation........ 7
3.4. WordList in Oxford WordSmith Tools.. 7
3.5. ReCor.. 7
3.6. Electronic survey........ 8
4. Methods. 8
-
ndice
VI
4.1. Contrastive analysis of discourse and domain: legal-technological discourse.
8
4.2. Contrastive analysis of textual genre: research articles.. 9
4.3. Empirical experiments with semi-professional translators........ 10
5. Results... 12
5.1. Results of contrastive analysis of legal-technological discourse....
12
5.2. Results of contrastive analysis of research article as genre 13
5.3. Results of the experiments with semi-professional translators.. 14
5.3.1. Quality criteria. 14
5.3.2. Lexical richness criteria... 18
5.3.3. Number of words translated criteria 22
5.4. Results from the electronic survey. 23
6. Conclusions and future work 25
6.1. Conclusions........ 25
6.2. Future work........ 29
INTRODUCCIN
1. Motivacin............. 31
2. Objetivos........... 35
3. Estructura... 37
-
ndice
VII
CAPTULO I. DE LA SOCIEDAD DE LA INFORMACIN A LA SOCIEDAD DEL CONOCIMIENTO: EL TRADUCTOR COMO TECNLOGO Y DOCUMENTALISTA
1.1. Introduccin............ 47
1.2. Las Tecnologas Lingsticas......... 50
1.2.1. El multilingismo en Europa y las TIC... 50
1.2.2. Las tecnologas lingsticas: concepto y clasificacin........ 53
1.2.3. Las polticas europeas en materia de tecnologas lingsticas 57
1.3. Las tecnologas de la traduccin........ 65
1.3.1. La Generacin del Lenguaje Natural.. 70
1.3.1.1. Investigacin sobre GLN en Europa y Norteamrica.......... 72
1.3.1.2. Investigacin sobre GLN en Espaa 75
1.3.2. El corpus y sus aplicaciones........... 80
1.3.2.1. Aplicaciones didcticas del corpus en Traduccin... 83
1.3.2.2. Aplicaciones del corpus en los estudios descriptivos de Traduccin....................................................
85
1.3.2.3. El corpus en las tecnologas de la traduccin................... 86
1.3.3. La Traduccin Automtica.. 89
1.3.3.1. Investigacin internacional en TA... 93
1.3.3.2. Investigacin nacional en TA... 95
1.3.4. La Recuperacin de Informacin............ 97
1.3.4.1. La recuperacin de informacin como subtipo 98
1.3.4.1.1. La investigacin internacional en RI. 100
1.3.4.1.2. La investigacin nacional en RI 101
1.3.4.2. La extraccin de informacin.................. 105
-
ndice
VIII
1.3.4.2.1. La investigacin internacional y nacional en EI... 107
1.4. La Documentacin. 111
1.4.1. Internet y la Documentacin........... 111
1.4.2. La Documentacin Aplicada a la Traduccin. 115
1.4.3. La competencia documental........ 119
1.4.4. El proceso documental........ 122
1.4.5. La evaluacin de recursos electrnicos........... 129
1.5. Corolario. 133
CAPTULO II. EL RESUMEN GENERAL Y EL RESUMEN AUTOMTICO: TERM-BASED SUMMARISER
2.1. Introduccin............ 141
2.2. El resumen general. 143
2.2.1. Definicin........ 144
2.2.2. Tipos de resumen............. 146
2.2.3. Proceso de elaboracin........ 150
2.3. El resumen automtico........... 153
2.3.1. Extracto y resumen: distincin........ 157
2.3.1.1. Extracto (extract).................. 157
2.3.1.1.1. El proceso de resumen por extraccin............................... 158
2.3.1.2. Resumen (abstract)................... 161
2.3.1.2.1. El proceso de generacin de resmenes 163
2.3.1.2.1.1. Plantillas................................................. 164
2.3.1.2.1.2. Reescritura de trminos............................................. 165
2.3.1.2.1.3. Relaciones de acontecimientos.. 165
2.3.1.2.1.4. Jerarqua de conceptos........... 167
-
ndice
IX
2.3.2. Tipos de resmenes. 167
2.3.2.1. Indicativo vs. informativo vs. crtico... 170
2.3.2.2. Genrico vs. centrado en el usuario..................... 172
2.3.2.3. General vs. especfico.................. 172
2.3.2.4. Monodocumental vs. multidocumental 173
2.3.2.5. Monolinge vs. bilinge vs. multilinge................. 173
2.4. Enfoques actuales del resumen automtico........... 175
2.4.1. Enfoques clsicos............ 177
2.4.2. Enfoques basados en corpus........... 182
2.4.3. Enfoques basados en el anlisis del discurso.......... 190
2.4.3.1. Rhetorical Structure Theory. 191
2.4.3.2. WordNet y EuroWordNet 193
2.4.3.3. Enfoques centrados en la cohesin.. 195
2.4.3.4. Enfoques centrados en la coherencia... 199
2.4.4. Enfoques ricos en conocimiento. 204
2.4.5. El resumen automtico multidocumental....... 210
2.4.6. ltimas tendencias en resumen automtico............ 216
2.4.6.1. Resumen automtico de elementos multimedia................... 216
2.4.6.2. Resumen automtico en redes sociales........................ 218
2.5. El programa de resumen automtico Term-Based Summariser
219
2.5.1. Descripcin. 219
2.5.2. Componentes de TBS. 221
2.5.2.1. TBS como programa de resumen automtico.. 222
2.5.2.2. Corpus virtual de artculos de investigacin 235
-
ndice
X
2.5.2.2.1. Descripcin del corpus.. 236
2.5.2.2.2. Compilacin del corpus 247
2.6. Corolario........................................ 251
CAPTULO III. ANLISIS CONTRASTIVO DEL ESPAOL, INGLS Y FRANCS JURDICO-TECNOLGICOS EN LA CONTRATACIN ELECTRNICA
3.1. Introduccin............ 257
3.2. Aproximacin al discurso jurdico-tecnolgico. 259
3.2.1. El lmite entre lo general y lo especializado............ 260
3.2.1.1. El problema de la denominacin.......................... 261
3.2.1.2. El problema de la delimitacin. 266
3.2.2. El discurso jurdico-tecnolgico.. 279
3.2.2.1. Justificacin de la denominacin................. 280
3.2.2.1.1. Denominacin en lengua espaola 282
3.2.2.1.2. Denominacin en las lenguas inglesa y francesa.. 285
3.2.2.2. Clasificacin del discurso jurdico-tecnolgico................... 287
3.3. Anlisis de artculos de investigacin en espaol, ingls y francs jurdicos.
290
3.3.1. El espaol jurdico... 291
3.3.1.1. Rasgos lxicos, terminolgicos y fraseolgicos... 299
3.3.1.2. Rasgos morfo-sintcticos. 308
3.3.2. El ingls jurdico. 311
3.3.2.1. Rasgos lxicos, terminolgicos y fraseolgicos................... 317
3.3.2.2. Rasgos morfo-sintcticos................. 322
3.3.3. El francs jurdico........... 326
-
ndice
XI
3.3.3.1. Rasgos lxicos, terminolgicos y fraseolgicos... 329
3.3.3.2. Rasgos morfo-sintcticos. 336
3.3.4. Tabla recopilatoria de rasgos lingsticos comunes en espaol, ingls y francs jurdicos...
345
3.4. El comercio electrnico y la contratacin electrnica............ 347
3.4.1. La contratacin electrnica: Definicin y alcance.......... 348
3.4.2. La contratacin electrnica: regulacin internacional y europea..
353
3.4.3. La contratacin electrnica: regulacin en Espaa......... 358
3.4.4. La contratacin electrnica: regulacin en Inglaterra y Gales 362
3.4.5. La contratacin electrnica: regulacin en Francia......... 365
3.5. La proteccin de datos personales.. 367
3.5.1. La proteccin de datos personales: Definicin y alcance 367
3.5.2. La proteccin de datos personales: regulacin internacional y europea.
371
3.5.3. La proteccin de datos personales: regulacin en Espaa.. 373
3.5.4. La proteccin de datos personales: regulacin en Inglaterra y Gales.
376
3.5.5. La proteccin de datos personales: regulacin en Francia.. 378
3.6. Corolario. 380
CAPTULO IV. ANLISIS CONTRASTIVO EN ESPAOL, INGLS Y FRANCS DEL ARTCULO DE INVESTIGACIN DEL DERECHO
4.1. Introduccin............ 391
4.2. La comunicacin cientfico-acadmica.. 393
4.2.1. Origen y denominacin........... 393
4.2.2. Definicin y caractersticas. 396
-
ndice
XII
4.2.3. El ingls como lingua franca.. 398
4.2.4. La retrica contrastiva. 402
4.3. El gnero textual y otros conceptos relacionados.......... 404
4.3.1. El gnero textual.. 405
4.3.1.1. Origen y definicin................... 405
4.3.1.2. Caractersticas principales.................... 408
4.3.1.3. Tipos de gneros... 411
4.3.2. El registro........ 415
4.3.2.1. Definicin y caractersticas.. 415
4.3.2.2. Relacin gnero-registro.. 418
4.3.3. La tipologa textual.. 420
4.3.3.1. Definicin y caractersticas.. 420
4.3.3.2. Relacin gnero-tipologa textual 425
4.4. El artculo de investigacin 429
4.4.1. Denominacin, orgenes y definicin.. 430
4.4.2. Rasgos y objeto de estudio.. 432
4.4.2.1. Cariz pedaggico de la investigacin... 432
4.4.2.2. Supremaca del ingls... 433
4.4.2.3. Especializacin por disciplinas 434
4.4.3. Estructura del artculo de investigacin.......... 436
4.4.3.1. Ttulo 440
4.4.3.2. Resumen............... 441
4.4.3.3. Introduccin.. 443
4.4.3.4. Mtodos y materiales................ 447
4.4.3.5. Resultados 452
-
ndice
XIII
4.4.3.6. Discusin/Conclusin... 454
4.5. Anlisis de los artculos de investigacin del discurso jurdico-tecnolgico...
458
4.5.1. El artculo de investigacin en el discurso jurdico-tecnolgico en espaol...
458
4.5.1.1. Ttulo 458
4.5.1.2. Resumen............... 460
4.5.1.3. Introduccin.. 466
4.5.1.4. Mtodos y materiales................ 471
4.5.1.5. Resultados 476
4.5.1.6. Discusin y conclusiones. 477
4.5.1.7. Rasgos del artculo de investigacin en espaol: recapitulacin..
481
4.5.2. El artculo de investigacin en el discurso jurdico-tecnolgico en ingls.
483
4.5.2.1. Ttulo 483
4.5.2.2. Resumen............... 485
4.5.2.3. Introduccin.. 491
4.5.2.4. Mtodo y materiales. 496
4.5.2.5. Resultados 499
4.5.2.6. Discusin y conclusiones. 499
4.5.2.7. Rasgos del artculo de investigacin en ingls: recapitulacin
506
4.5.3. El artculo de investigacin en el discurso jurdico-tecnolgico en francs...
508
4.5.3.1. Ttulo 508
4.5.3.2. Resumen............... 510
4.5.3.3. Introduccin.. 517
-
ndice
XIV
4.5.3.4. Mtodos y materiales................ 522
4.5.3.5. Resultados 526
4.5.3.6. Conclusiones 526
4.5.3.7. Rasgos del artculo de investigacin en francs: recapitulacin
529
4.5.4. Tabla recopilatoria del anlisis contrastivo del artculo en espaol, ingls y francs......
532
4.6. Corolario. 533
CAPTULO V. EVALUACIN DE LA TRADUCCIN DIRECTA E INVERSA CON EL RESUMEN AUTOMTICO COMO RECURSO DOCUMENTAL Y TERMINOLGICO
5.1. Introduccin 543
5.2. La evaluacin de traducciones y otros conceptos relacionados. 545
5.2.1. La revisin de traducciones. 547
5.2.1.1. Definicin y tipos. 547
5.2.1.2. Parmetros de revisin. 550
5.2.1.3. Revisin en la traduccin profesional.. 553
5.2.2. La crtica de traducciones 557
5.2.2.1. Definicin. 558
5.2.2.2. Mtodos de crtica de traducciones.. 559
5.2.3. La evaluacin de traducciones........ 560
5.2.3.1. Mtodos de evaluacin de traducciones... 562
5.2.3.2. La evaluacin analtica. 562
5.2.3.2.1. El error en traduccin 563
5.2.3.2.2. Parmetros en la evaluacin analtica........................... 567
5.2.3.2.2.1. Propuesta de Hurtado Albir 569
-
ndice
XV
5.2.3.2.2.2. Propuesta de MeLLANGE......................................... 571
5.2.3.3. La evaluacin holstica. 572
5.2.3.3.1. Parmetros en la evaluacin holstica........................... 574
5.2.3.3.1.1. Propuesta de Mahn......................................... 574
5.2.3.3.1.2. Propuesta de Waddington... 576
5.2.3.3.1.3. Propuesta del Institute of Linguists 578
5.2.3.4. Propuesta propia de evaluacin analtica y holstica 584
5.2.3.4.1. Plantilla de evaluacin analtica 584
5.2.3.4.2. Plantilla de evaluacin holstica 588
5.2.3.4.3. Programa de evaluacin de traducciones Markin.. 591
5.3. Estudio emprico de evaluacin de traducciones y resumen automtico..
598
5.3.1. Antecedentes... 599
5.3.2. Objetivos cientficos 599
5.3.3. Sujetos. 600
5.3.4. Materiales........ 605
5.3.4.1. Textos origen................ 606
5.3.4.1.1. Fragmentos en espaol.. 607
5.3.4.1.2. Fragmentos en ingls. 610
5.3.4.1.3. Fragmentos en francs........................... 612
5.3.4.2. Programas informticos y recursos electrnicos.. 615
5.3.4.2.1. Term-Based Summariser : descripcin del proceso.. 615
5.3.4.2.2. WordList de Wordsmith 616
5.3.4.2.3. Sitio web 617
5.3.4.2.4. Encuesta electrnica.. 618
-
ndice
XVI
5.3.5. Mtodos... 620
5.3.5.1. Prueba piloto. 620
5.3.5.2. Informacin.. 620
5.3.5.3. Entorno. 620
5.3.5.4. Ejecucin.. 621
5.3.5.5. Incidencias................ 623
5.3.6. Resultados............... 624
5.3.6.1. Criterio de calidad 625
5.3.6.1.1. Evaluacin analtica.. 625
5.3.6.1.1.1. Ejemplo de evaluacin del fragmento 1 (sin TBS) de traduccin directa ingls-espaol...
625
5.3.6.1.1.2. Ejemplo de evaluacin del fragmento 2 (con TBS) de traduccin directa ingls-espaol..
629
5.3.6.1.1.3. Ejemplo de evaluacin del fragmento 3 (sin TBS) de traduccin inversa espaol-ingls.
632
5.3.6.1.1.4. Ejemplo de evaluacin del fragmento 4 (con TBS) de traduccin inversa espaol-ingls.
635
5.3.6.1.1.5. Ejemplo de evaluacin del fragmento 1 (sin TBS) de traduccin directa francs-espaol
638
5.3.6.1.1.6. Ejemplo de evaluacin del fragmento 2 (con TBS) de traduccin directa francs-espaol.
642
5.3.6.1.1.7. Ejemplo de evaluacin del fragmento 3 (sin TBS) de traduccin inversa espaol-francs...
646
5.3.6.1.1.8. Ejemplo de evaluacin del fragmento 4 (con TBS) de traduccin inversa espaol-francs....
649
5.3.6.1.1.9. Nmero total de muestra de errores y aciertos en la evaluacin analtica
653
5.3.6.1.2. Evaluacin holstica.. 655
5.3.6.1.2.1. Ejemplo de evaluacin del fragmento 1 (sin TBS) de traduccin directa ingls-espaol...
655
-
ndice
XVII
5.3.6.1.2.2. Ejemplo de evaluacin del fragmento 2 (con TBS) de traduccin directa ingls-espaol...
657
5.3.6.1.2.3. Ejemplo de evaluacin del fragmento 3 (sin TBS) de traduccin inversa espaol-ingls..
658
5.3.6.1.2.4. Ejemplo de evaluacin del fragmento 4 (con TBS) de traduccin inversa espaol-ingls..
659
5.3.6.1.2.5. Ejemplo de evaluacin del fragmento 1 (sin TBS) de traduccin directa francs-espaol.
660
5.3.6.1.2.6. Ejemplo de evaluacin del fragmento 2 (con TBS) de traduccin directa francs-espaol
661
5.3.6.1.2.7. Ejemplo de evaluacin del fragmento 3 (sin TBS) de traduccin inversa espaol-francs....
662
5.3.6.1.2.8. Ejemplo de evaluacin del fragmento 4 (con TBS) de traduccin inversa espaol-francs....
663
5.3.6.1.2.9. Nmero total de resultados en la evaluacin holstica... 664
5.3.6.1.3. Conclusiones en cuanto al criterio de calidad 666
5.3.6.2. Criterio de riqueza lxica. 668
5.3.6.3. Criterio de nmero de palabras 673
5.3.6.4. Encuesta electrnica: resultados... 675
5.4. Corolario................................. 684
CONCLUSIONS... 687
BIBLIOGRAFA... 707
ANEXO I. 871
-
NDICE DE FIGURAS, TABLAS, ILUSTRACIONES
Y CUADROS
FIGURAS
Figura 1. Representacin de la extraccin (Hahn y Mani, 2000: 30) 158
Figura 2. Representacin del resumen (Hahn y Mani, 2000: 31).. 162
Figura 3. Interfaz de versin demo de CAST... 220
Figura 4. Interfaz de Term-Based Summariser (TBS). 221
Figura 5. Componentes de CAST (Orsan, 2006: 7) 222
Figura 6. Interfaz de TBS con las dos opciones de formato.. 230
Figura 7. Relacin entre lengua general y lenguajes de especialidad (Ahmad et al., 1995 apud Prez Hernndez, 2002).
269
Figura 8. Modelo plural de los discursos acadmicos. Adaptado de Bhatia, 2002: 34
411
-
ndice de figuras, tablas, ilustraciones y cuadros
XX
Figura 9. Esquema de la organizacin retrica general del artculo de investigacin. Swales y Feak (1994: 157)
437
Figura 10. Interfaz del programa Markin con un texto importado 592
Figura 11. Ejemplo de texto con juego de botones de correccin. 594
Figura 12. Juego de botones creado para la evaluacin analtica 595
Figura 13. Juego de botones creado para la evaluacin holstica.. 596
Figura 14. Nmero total de alumnos inscritos que participaron en el experimento...
602
Figura 15. Interfaz de las pginas de los seminarios. 618
Figura 16. Encuesta de los seminarios en Campus Virtual... 619
Figura 17. Evaluacin y correccin con Markin de una traduccin directa del ingls sin TBS de acuerdo con los parmetros de la evaluacin analtica...
626
Figura 18. Evaluacin y correccin con Markin de una traduccin directa del ingls con TBS de acuerdo con los parmetros de la evaluacin analtica...
630
Figura 19. Evaluacin y correccin con Markin de una traduccin inversa a ingls sin TBS de acuerdo con los parmetros de la evaluacin analtica...
633
Figura 20. Evaluacin y correccin con Markin de una traduccin inversa a ingls con TBS de acuerdo con los parmetros de la evaluacin analtica...
636
Figura 21. Evaluacin y correccin con Markin de una traduccin directa del francs sin TBS de acuerdo con los parmetros de la evaluacin analtica...
639
Figura 22. Evaluacin y correccin con Markin de una traduccin directa del francs con TBS de acuerdo con los parmetros de la evaluacin analtica...
642
Figura 23. Evaluacin y correccin con Markin de una traduccin directa del francs con TBS de acuerdo con los parmetros de la evaluacin analtica. II..
643
-
ndice de figuras, tablas, ilustraciones y cuadros
XXI
Figura 24. Evaluacin y correccin con Markin de una traduccin inversa a francs sin TBS de acuerdo con los parmetros de la evaluacin analtica...
646
Figura 25. Evaluacin y correccin con Markin de una traduccin inversa a francs con TBS de acuerdo con los parmetros de la evaluacin analtica...
649
Figura 26. Evaluacin y correccin con Markin de una traduccin inversa a francs con TBS de acuerdo con los parmetros de la evaluacin analtica. II...
650
Figura 27. Evaluacin y correccin con Markin de una traduccin directa a espaol sin TBS de acuerdo con los parmetros de la evaluacin holstica...
656
Figura 28. Evaluacin y correccin con Markin de una traduccin directa a espaol con TBS de acuerdo con los parmetros de la evaluacin holstica...
657
Figura 29. Evaluacin y correccin con Markin de una traduccin inversa al ingls sin TBS de acuerdo con los parmetros de la evaluacin holstica...
658
Figura 30. Evaluacin y correccin con Markin de una traduccin inversa al ingls con TBS de acuerdo con los parmetros de la evaluacin holstica...
659
Figura 31. Evaluacin y correccin con Markin de una traduccin directa a espaol sin TBS de acuerdo con los parmetros de la evaluacin holstica...
660
Figura 32. Evaluacin y correccin con Markin de una traduccin directa a espaol con TBS de acuerdo con los parmetros de la evaluacin holstica...
661
Figura 33. Evaluacin y correccin con Markin de una traduccin inversa al francs sin TBS de acuerdo con los parmetros de la evaluacin holstica...
662
Figura 34. Evaluacin y correccin con Markin de una traduccin inversa al francs con TBS de acuerdo con los parmetros de la evaluacin holstica...
663
-
ndice de figuras, tablas, ilustraciones y cuadros
XXII
Figura 35. Muestra de dos preguntas de la encuesta electrnica... 679
TABLAS
Table 1. Results of contrastive analysis of legal-technological discourse
12
Table 2. Results of contrastive analysis of research article as genre 14
Table 3. Direct translation (English-Spanish): results for 50 best translations.
15
Table 4. Direct translation (French-Spanish): results for 50 translations.
15
Table 5. Direct translation (French-Spanish): results for 50 translations.
15
Table 6. Inverse translation (Spanish-French): results for 50 best translations.
16
Table 7. Results of translations involving English language 17
Table 8. Results of translations involving French language. 18
Table 9. Type/token ratio in English translation... 19
Table 10. Type/token ratio in French translation.. 21
Table 11. Number of words translated criteria.. 22
Table 12. Results from the electronic survey 24
Tabla 13. Tipologa de resmenes automticos 174
Tabla 14. Fuente: 193
Tabla 15. Ejemplo de sistema de codificacin de los corpus 1 y 2... 240
Tabla 16. Ejemplo de sistema de codificacin del corpus 3. 240
Tabla 17. Cmputo del nmero total de tokens de los corpus 242
Tabla 18. Cmputo del nmero total de documentos de los corpus.. 243
-
ndice de figuras, tablas, ilustraciones y cuadros
XXIII
Tabla 19. Ttulo de las revistas empleadas como fuente de documentacin...
249
Tabla 20. Rasgos lingsticos comunes del anlisis del espaol, ingls y francs jurdicos...
345
Tabla 21. Clasificacin del artculo de investigacin respecto a tipos textuales
428
Tabla 22. Modelos de estructuras para la seccin del resumen. 443
Tabla 23. Comparacin de OARO y CARS. Traducido de Swales (2004: 245)
447
Tabla 24. Ttulo de los artculos de investigacin en espaol analizados..
459
Tabla 25. Clasificacin de los resmenes de los artculos de investigacin en espaol en el modelo de estructura problema-mtodo-resultados-conclusiones...
461
Tabla 26. Clasificacin de los resmenes de los artculos de investigacin en espaol en el modelo de estructura introduccin-problema-solucin.
462
Tabla 27. Clasificacin de los resmenes de los artculos de investigacin en espaol en el modelo de estructura presentacin de un sistema, mtodo o anlisis-descripcin de sus caractersticas y aplicaciones
462
Tabla 28. Clasificacin de los resmenes de los artculos de investigacin en espaol en el modelo de estructura introduccin-mtodo-resultados-(conclusin)
463
Tabla 29. Clasificacin de los resmenes de los artculos de investigacin en espaol en el modelo de estructura informacin general-objetivos-mtodo-resultados-conclusin..
463
Tabla 30. Clasificacin de una introduccin de un artculo de investigacin en espaol en el modelo de estructura CARS de Swales
467
Tabla 31. Clasificacin de una introduccin de un artculo de investigacin en espaol en el modelo de estructura OARO de Swales
468
-
ndice de figuras, tablas, ilustraciones y cuadros
XXIV
Tabla 32. Propuesta de estructura para la seccin de materiales de los artculos de investigacin en espaol que versan sobre contratos electrnicos
472
Tabla 33. Propuesta de estructura para la seccin de materiales de los artculos de investigacin en espaol que versan sobre contratacin electrnica.
475
Tabla 34. Estructura de la seccin de conclusiones de los artculos de investigacin en espaol de acuerdo con la propuesta de Nwogu (1990)
478
Tabla 35. Estructura de la seccin de conclusiones de los artculos de investigacin de acuerdo con la propuesta de Coll Garca y Palmer Silveira (2002)...
479
Tabla 36. Ttulo de los artculos de investigacin en ingls analizados..
484
Tabla 37. Clasificacin de los resmenes de los artculos de investigacin en ingls en el modelo de estructura problema-mtodo-resultados-conclusiones...
486
Tabla 38. Clasificacin de los resmenes de los artculos de investigacin en ingls en el modelo de estructura introduccin-problema-solucin.
487
Tabla 39. Clasificacin de los resmenes de los artculos de investigacin en ingls en el modelo de estructura presentacin de un sistema, mtodo o anlisis-descripcin de sus caractersticas y aplicaciones...
488
Tabla 40. Clasificacin de los resmenes de los artculos de investigacin en ingls en el modelo de estructura introduccin-mtodo-resultados-(conclusin)
489
Tabla 41. Clasificacin de los resmenes de los artculos de investigacin en ingls en el modelo de estructura informacin general-objetivos-mtodo-resultados-conclusin..
490
Tabla 42. Clasificacin de una introduccin de un artculo de investigacin en ingls en el modelo de estructura CARS de Swales
492
Tabla 43. Clasificacin de una introduccin de un artculo de investigacin en ingls en el modelo de estructura OARO de Swales
494
-
ndice de figuras, tablas, ilustraciones y cuadros
XXV
Tabla 44. Ttulos de los artculos de investigacin en lengua inglesa
496
Tabla 45. Estructura de la seccin de conclusiones de los artculos de investigacin en ingls de acuerdo con la propuesta de Nwogu (1990)
500
Tabla 46. Estructura de la seccin de conclusiones de los artculos de investigacin en ingls de acuerdo con la propuesta de Coll Garca y Palmer Silveira (2002)
501
Tabla 47. Estructura de la seccin de conclusiones de los artculos de investigacin en ingls de acuerdo con la propuesta de Lewin et al. (2001)...
504
Tabla 48. Estructura de la seccin de conclusiones de los artculos de investigacin en ingls de acuerdo con la propuesta de Kanoksilpatham (2003).
505
Tabla 49. Ttulo de los artculos de investigacin en francs analizados..
509
Tabla 50. Clasificacin de los resmenes de los artculos de investigacin en francs en el modelo de estructura problema-mtodo-resultados-conclusiones...
512
Tabla 51. Clasificacin de los resmenes de los artculos de investigacin en francs en el modelo de estructura introduccin-problema-solucin.
513
Tabla 52. Clasificacin de los resmenes de los artculos de investigacin en francs en el modelo de estructura presentacin de un sistema, mtodo o anlisis-descripcin de sus caractersticas y aplicaciones
514
Tabla 53. Clasificacin de los resmenes de los artculos de investigacin en francs en el modelo de estructura introduccin-mtodo-resultados-(conclusin)
515
Tabla 54. Clasificacin de los resmenes de los artculos de investigacin en francs en el modelo de estructura informacin general-objetivos-mtodo-resultados-conclusin..
516
Tabla 55. Clasificacin de una introduccin de un artculo de investigacin en francs en el modelo de estructura CARS de Swales
517
-
ndice de figuras, tablas, ilustraciones y cuadros
XXVI
Tabla 56. Clasificacin de una introduccin de un artculo de investigacin en francs en el modelo de estructura OARO de Swales
520
Tabla 57. Apartados de mtodos y materiales de los artculos de investigacin en francs
523
Tabla 58. Estructura de la seccin de conclusiones de los artculos de investigacin de acuerdo con la propuesta de Nwogu (1990)..
527
Tabla 59. Estructura de la seccin de conclusiones de los artculos de investigacin en francs de acuerdo con la propuesta de Coll Garca y Palmer Silveira (2002)
528
Tabla 60. Tabla recopilatoria de anlisis contrastivo en espaol, ingls y francs..
532
Tabla 61. Parmetros de revisin profesional... 557
Tabla 62. Sistema de evaluacin holstico de Waddington (2009)... 577
Tabla 63. Diploma de Traduccin: escala para el aspecto 1. 579
Tabla 64. Diploma de Traduccin: escala para el aspecto 2. 580
Tabla 65. Diploma de Traduccin: escala para el aspecto 3. 581
Tabla 66. Diploma de Traduccin: escala para el aspecto 4. 582
Tabla 67. Diploma de Traduccin: escala para el aspecto 5. 583
Tabla 68. Plantilla de evaluacin holstica 590
Tabla 69. Ejemplo de evaluacin analtica de una traduccin directa ingls-espaol realizada sin TBS.
628
Tabla 70. Ejemplo de evaluacin analtica de una traduccin directa ingls-espaol realizada con TBS.
631
-
ndice de figuras, tablas, ilustraciones y cuadros
XXVII
Tabla 71. Ejemplo de evaluacin analtica de una traduccin inversa espaol-ingls realizada sin TBS..
634
Tabla 72. Ejemplo de evaluacin analtica de una traduccin inversa espaol-ingls realizada con TBS.
637
Tabla 73. Ejemplo de evaluacin analtica de una traduccin directa francs-espaol realizada sin TBS.
640
Tabla 74. Ejemplo de evaluacin analtica de una traduccin directa francs-espaol realizada con TBS...
644
Tabla 75. Evaluacin y correccin con Markin de una traduccin inversa a francs de acuerdo con los parmetros de la evaluacin analtica.
647
Tabla 76. Evaluacin y correccin con Markin de una traduccin inversa a francs de acuerdo con los parmetros de la evaluacin analtica.
651
Tabla 77. Nmero total de errores en traduccin directa ingls-espaol
653
Tabla 78. Nmero total de errores en traduccin inversa espaol-ingls
653
Tabla 79. Nmero total de errores en traduccin directa francs-espaol..
653
Tabla 80. Nmero total de errores en traduccin inversa espaol-francs..
654
Tabla 81. Nmero total de resultados de evaluacin holstica en el bloque de ingls.
664
Tabla 82. Nmero total de resultados de evaluacin holstica en el bloque de francs...
665
Tabla 83. Riqueza lxica de las traducciones directas e inversas desde o hacia la lengua inglesa..
669
Tabla 84. Riqueza lxica de las traducciones directas e inversas desde o hacia la lengua francesa
671
Tabla 85. Nmero total de palabras traducidas por fragmento. 674
-
ndice de figuras, tablas, ilustraciones y cuadros
XXVIII
Tabla 86. Porcentajes finales de respuestas de la encuesta electrnica.
680
ILUSTRACIONES
Ilustracin 1. Representatividad del subcorpus 1-1 (espaol)... 244
Ilustracin 2. Representatividad del subcorpus 1-2 (ingls). 244
Ilustracin 3. Representatividad del subcorpus 1-3 (francs)... 245
Ilustracin 4. Use-related variation (Hatim y Mason, 1990: 46)... 417
Ilustracin 5. Relacin entre registro, gnero y tipo textual. Adaptado de Trosborg (1997).......................................................
429
CUADROS
Cuadro 1. El modelo CARS (Create a Research Space). Traducido de Swales (1990: 141)...
445
Cuadro 2. El modelo OARO (Open a Research Option). Traducido de Swales (2004: 244)...
446
Cuadro 3. Secuencias y unidades informativas de la seccin de Mtodos (Coll Garca, 2002: 88)...
451
Cuadro 4. Secuencias y unidades informativas de la seccin de resultados (Palmer Silveira, 2002: 125)
453
Cuadro 5. Estructura de la seccin discusin y conclusiones (Swales, 2004: 236)...
456
Cuadro 6. Secuencias y unidades informativas de la seccin de discusin (Duque Garca, 2000; Coll Garca y Palmer Silveira, 2002)..
457
Cuadro 7. Tipos de revisin. Adaptada de Horguelin (1985)... 548
Cuadro 8. Parmetros de revisin bilinge de Dalbernet (1977).. 550
Cuadro 9. Parmetros de revisin bilinge de Horguelin, Hosington, Brunette...
551
-
ndice de figuras, tablas, ilustraciones y cuadros
XXIX
Cuadro 10. Parmetros de revisin de Mossop (2001). 552
Cuadro 11. Tipologa de errores de Palazuelos (1992). 564
Cuadro 12. Tipologa de errores de House (1981) 564
Cuadro 13. Criterios de evaluacin de Kupsch-Losereit (1981)... 565
Cuadro 14. Tipologa de errores de Pym (1992)... 565
Cuadro 15. Tipologa de errores de Kussmaul (1995).. 566
Cuadro 16. Tipologa de errores de Gouadec (1981) 566
Cuadro 17. Baremo de correccin de Hurtado Albir (1995). 569
Cuadro 18. Baremo de evaluacin de MeLLANGE. 571
Cuadro 19. Baremo de BEST y Mahn (1989). Adaptado de Waddington (2000: 96).
575
Cuadro 20. Plantilla de evaluacin analtica. 586
Cuadro 21. Fragmento 1 en espaol para la traduccin inversa espaol-ingls y espaol-francs...
608
Cuadro 22. Fragmento 2 en espaol para la traduccin inversa espaol-ingls y espaol-francs...
610
Cuadro 23. Fragmento 1 en ingls para la traduccin directa ingls-espaol
611
Cuadro 24. Fragmento 2 en ingls para la traduccin directa ingls-espaol
612
Cuadro 25. Fragmento 1 en francs para la traduccin directa francs-espaol..
613
Cuadro 26. Fragmento 2 en francs para la traduccin directa francs-espaol..
614
Cuadro 27. Preguntas de la encuesta electrnica.. 675
-
ABSTRACT
1. INTRODUCTION
As Lavid (2005) points out, information has become one of the
basic elements in our current society, which may be called the Third
Wave, paraphrasing Alvin Tofflers book (1996). First wave is the
society after agrarian revolution; Second wave is industrial. Third
Wave represents information and knowledge revolution. New
millenniums society is information society, where Information and
Communication(s) Technology (ICT) is of paramount importance.
Therefore; the exchange of languages and cultures plays an important
role in this information society. Consequently, translators and
interpreters may become fundamental mediators on a global level.
-
M. Cristina Toledo Bez
2
In this context, the Internet seems an essential tool, offering
new modes of communication and spreading scientific knowledge. In
addition, it facilitates and improves the documentation process. The
translator, as an information user and an information producer,
considers the Internet to be a valuable documentation source and a
useful communication system.
According to Pinto Molina (2002: 2), the informational
revolution makes it possible to compile more information in less time
and, consequently, improve the translators efficiency. With the
mushrooming of the quantity of online text information, triggered in
part by the growth of the World Wide Web, it is especially useful to
have tools which can help users digest information content.
Nevertheless, translators have to be extremely skilful during the
documentation process since they need to be able to distinguish and
choose only reliable information resources. This is because the
Internet, although it is a valuable and very useful tool, contains a large
amount of unreliable information.
In that regard, an abstract may be quite useful for translators
since it helps to select the correct information in the documentation
process. Given that translators normally must meet tight deadlines,
abstracting articles or electronic resources is an advantageous solution
and facilitates the translation process. Consequently, automatic
summarization and extraction, both fields of Computational
Linguistics, can help humans in general and translators in particular to
deal with information overload by automatically extracting the gist of
documents.
-
Abstract
3
This thesis aims to combine both automatic summarization and
translation in order to test whether automatic summarization as a new
translation technology could be a useful tool in a translators
workbench.
2. AIMS AND GOALS
Our main research hypothesis is that term-based automatic
summarization as a documentation resource enhances direct and
inverse translation of specialized texts. However, as Tymoczko (2002:
16-17) points out, the starting point in Translation Studies is not just a
hypothesis, and, consequently, we present a tripartite hypothesis:
I) Research on the combination of automatic summarization
and Translation and Interpreting needs empirical studies in
order to test its efficacy.
II) The translation of specialized text, specifically research
articles in the legal-technological domain in three
languages (Spanish, English and French) and in direct and
inverse combinations, is improved with the help of
Term-Based Summariser.
III) Term-based automatic summarization should be part of an
innovative translator's workbench.
-
M. Cristina Toledo Bez
4
The aims listed above are achieved by setting the following list
of general (1-2) and specific (3-11) goals:
1. Providing a review of major work in translation
technologies and in human and automatic summarization.
2. Emphasising the relevance of documentation as a
cornerstone in specialized translation.
3. Building a representative multilingual comparable corpus
of parallel texts from research articles on electronic
commerce in three languages (Spanish, English and
French).
4. Focusing on the emerging legal-technological discourse
from the Information Technology Law and Data
Protection.
5. Comparing the legal-technological discourse features in
three languages, i.e., Spanish, English and French.
6. Studying the research article as a textual genre.
7. Testing whether Introduction-Material and Methods-
Results-Discussion/Conclusion (IMRD) structure of
English scientific articles may be valid to articles, on one
hand, on Legal Sciences and, on the other hand, in the
Romance languages of Spanish and French.
8. Establishing evaluation parameters combining both
analytic and holistic evaluation in order to find objective
criteria in Translation Studies.
9. Carrying out experiments with semi-professional
translators offering quantitative results regarding three
-
Abstract
5
main criteria: quality criteria, lexical richness criteria and
number of words criteria.
10. Analysing translators impressions and opinions regarding
the use of the Term-Based Summariser by means of a
survey and qualitative data.
All of these goals were achieved in this thesis by means of the
following materials and methods.
3. MATERIALS
To confirm the main hypothesis, several materials are used in
this thesis dissertation.
3.1. Term-Based Summariser
First of all, the main material is Term-Based Summariser
(TBS), a modified version of the Computer-Aided Summarisation
Tool (CAST) developed by the Research Group in Computational
Linguistics from the University of Wolverhampton. The weighting
method used to score the words is the term frequency and the
tokenisation method is the word. It produces both only summary
and the whole text with highlight results; the former is just the
extract and the latter encompasses the sentences selected marked with
a different colour in the text. A compression rate can also be chosen.
A stop list is also used for each language (Spanish, English and
French) and TBS displays the top 50 terms identified by the program
with their raw frequency of the words in the text. To have a clear and
user-friendly TBS interface, 20 texts in each language were selected
and their titles are written in bullet points.
-
M. Cristina Toledo Bez
6
3.2. Multilingual comparable corpus
A multilingual comparable corpus was compiled, consisting of
a collection of parallel texts from research articles on electronic
commerce in the three languages studied in the thesis (Spanish,
English and French). The research articles were selected from journals
in Spanish (Revista de Contratacin Electrnica), English (Journal of
Information, Law and Technology and International Journal of Law
and Information Technology) and French (Revue des techniques de
l'information et de la communication, Revue internationale de droit
conomique, etc.) and the distribution of articles was as follows: 150
articles in Spanish (1,500,281 tokens), 142 articles in English
(1,226,260 tokens) and 86 articles in French (1,277,841 tokens).
Initially, the purpose of building the corpus was to implement
the inverse document frequency for scoring the words, but, once the
term frequency method was selected, the corpus was used to analyse
the characteristics of research articles on electronic commerce in the
three languages. Apart from that, one article in each language was
selected as a source text for the direct and inverse translations.
Consequently, source texts all shared the same domain
(legal-technological discourse) and the same textual genre (research
articles). Each article was then divided into different paragraphs and
the same sections were selected from all the articles: on one hand,
title, keyword and introduction (part 1 for direct translation and part 3
for inverse translation) and, on the other hand, the section similar to
the materials and methods one (part 2 for direct translation and part 4
for inverse translation).
-
Abstract
7
3.3. Markin and evaluation
The teaching software Markin provides tools to mark and
annotate texts. Once our evaluation parameters were established,
Markin was used to evaluate direct and inverse translations with a set
of annotations. These evaluation parameters consist of both analytic
error evaluation as well as holistic and global evaluation. The former
pays attention to negative aspects such as source text related errors
(wrong sense, unnecessary addition or inadequate linguistic variation),
target text related errors (orthography, grammar, terminology or
textual type) and also to positive aspects such as correct terms. The
holistic evaluation evaluates the translation as a whole and it has five
different levels regarding transfer and expression quality. The levels
range from 1 (very poor translation) to 5 (excellent translation). The
evaluation of the direct and inverse translations with and without TBS
constitutes one the criteria studied in this thesis.
3.4. WordList in Oxford WordSmith Tools
WordList in Oxford WordSmith Tools (version 3.00.00) is used
in this thesis to calculate the lexical richness of translated texts by
means of the type/token ratio. It also provides other results such as
number of types, number of tokens and number of bytes. These results
are also discussed.
3.5. ReCor
ReCor 3.1 is used to assess the representativeness of the corpus
compiled in this thesis and its results are reflected in graphics. These
results are also discussed.
-
M. Cristina Toledo Bez
8
3.6. Electronic survey
An electronic survey of 33 questions was created in order to
generate qualitative results regarding the use of the TBS in direct and
inverse translations. The most important questions concerned the use
of Term-Based Summariser in both direct and inverse translations.
Ninety-five out of ninety-five semi-professional translators filled out
the electronic survey in a classroom environment.
4. METHODS
Both the methods and results sections in this abstract are
divided into three subsections: contrastive analysis of discourse and
domain, contrastive analysis of genre and textual type and
experiments with semi-professional translators.
4.1. Contrastive analysis of discourse and domain:
legal-technological discourse
Before translating any text, a thorough analysis of its
terminology, lexis and textual features must be carried out in order to
familiarise the translator with the source text. Consequently,
legal-technological discourse in Spanish (from Spain), English (from
the United Kingdom) and French (from France) must be approached
in this thesis. However, before studying the discourse, the legal
systems of the three languages must be compared due to their
differences: English legislation belongs to the common law while
Spanish and French are part of the civil law. Having established the
distinction between the two legal systems, the built corpus was the
starting point for the discourse approach.
-
Abstract
9
Nevertheless, since most texts in the parallel corpus share the
same terminological and lexical features because they all belong to the
same domain, we only analysed the discourse from the three texts
used as source texts in the translations and the results show that the
legal-technological discourse has common features in Spanish,
English and French even though they belong to different legal system.
They will be presented in the results section.
4.2. Contrastive analysis of textual genre: research article
As mentioned above, the textual genre of the texts analysed is
the research article. All the literature review considers this genre to
have a very well established structure, particularly in the field of
Science and Technology, presenting the following sections:
Introduction, Materials and methods, Results and Discussion (IMRD).
It is also important to note that English is the language of scientific
communication in the scientific community, even for non-native
speakers, and, consequently, the IMRD structure is essential to that
language.
In the work undertaken in this thesis we aim to prove whether
the IMRD structure is used in Legal Sciences and in Romance
languages such as Spanish and French. Since all the articles were
selected from the same journals or very similar ones and they shared
the same structure and format, we chose the 60 articles from the TBS
interface, 20 in each language, and we compared them in couples (first
Spanish and English, later Spanish and French and finally English and
French). The results of this alignment will be presented below.
-
M. Cristina Toledo Bez
10
4.3. Empirical experiments with semi-professional translators
The experiments were carried out by 96 undergraduate students
from the 4th year in Translation and Interpreting from the University
of Mlaga. They all have similar grades (60-70 in previous courses)
but, in order to avoid different variables, Socrates/Erasmus students
were not allowed to take part in the experiments.
Twenty-seven of ninety-five students study French as their first
foreign language and sixty-nine study the English language. The
difference between the two groups is related to the University
restrictions for the student/language ratio: seventy-three is the
maximum for English and forty for French. Taking into account these
data, the sample is quite relevant.
The experiments were carried out in a 3-hour classroom
environment and the procedure was the same for four groups:
1. First, experiments and Term-Based Summariser (TBS) were
briefly explained in 15 minutes.
2. Students translated Part 1 (title, keywords and introduction)
from English or French into Spanish (direct translation)
with online dictionaries. They were not allowed to use the
TBS, nor any other parallel texts. Part 1 took 20 minutes.
3. Students translated Part 2 (materials and methods) from
English or French into Spanish (direct translation) with the
TBS as the only terminological and information resource.
Part 2 took 20 minutes.
4. Students translated Part 3 (title, keywords and introduction)
from Spanish into English or French (inverse translation)
-
Abstract
11
with online dictionaries. They were not allowed to use the
TBS, nor any other parallel texts. Part 3 took 20 minutes.
5. Students translated Part 4 (materials and methods) from
Spanish into English or French (inverse translation) with the
TBS as the only terminological and information resource.
Part 4 took 20 minutes.
6. Students filled out the electronic survey. This final part took
15 minutes.
The number of target texts (translations) comprised a subcorpus
of 379 documents: 137 for English-Spanish translation, 135 for
Spanish-English translation, 56 for French-Spanish translation and 51
for Spanish-French translation. There is no sample attrition.
It is worth describing how translators used TBS as an
informational and terminological result. After displaying the list of the
research article titles, each translator chose the most appropriate title
depending on the source text. Then they summed up the parallel text
with the TBS using either the only summary or the whole text with
highlights options and setting the compression rate at 10-15 %
because of the length of articles. Then, they read the result displayed
and searched for the most suitable terms or phraseological units for
the translation process. The process was the same in both direct and
inverse translation.
-
M. Cristina Toledo Bez
12
5. RESULTS
5.1. Results of contrastive analysis of legal-technological discourse
A brief sample of the results after comparing the
legal-technological discourse in Spanish, English and French is listed
above:
Spanish English French
LEXICAL, TERMINOLOGICAL AND PHRASEOLOGICAL FEATURES
Specific terms Fehaciente Plaintiff Lgislateur
Terms in Latin Prima facie Lex fori Inter alia
Hellenisms Sinalagmtico Politique
Anglicisms Marketing Common law
Gallicisms Promocin Arbitrage
Collocations Marco contractual Overriding issue Charte majeure
Suffixation Oferente Consumer Prestataire
MORPHOSYNTACTICAL FEATURES
Passive voice
Los datos de carcter personal sern cancelados
Consideration must be given to a
new means
Cette politique dharmonisation
est base sur deux ides
Particular use of verbs
Aunque en razn del artculo 1
resultare aplicable la Convencin
It is submitted that the
alternative requirements
La politique de rgulation
traditionnelle porte
Table 1. Results of contrastive analysis of legal-technological discourse.
-
Abstract
13
5.2. Results of contrastive analysis of research article as genre
After comparing the structure of the sections of 20 articles in
Spanish, 20 in English and 20 in French, the main results below show
the percentage of articles that follow the different structures described.
The IMRD structure is not always used because, for instance, neither
the result section nor the materials and methods appear in any of the
articles analysed. However, the genre research article shares common
features in the three languages and in the Legal Sciences, although
some differences are found, particularly with the English language
given that Spanish and French, as Romance languages, are more
homogeneous:
Spanish English French
Title 46%: less than 8 words
52%: less than 8 words
70.8%: less than 8 words
Abstract
Problem-method-results
17.6%
26%
33,%
Introduction-problem-solution 29.4% 20% 26.6%
Presentation of a system or analysis
17.6%, 20% 6.6%
Introduction-method-solution 23.5%, 13.3% 20%
Information-objectives-results-conclusions
11.7%, 20% 13.3%
Introduction
CARS structure (Swales, 1990)
28%
53.3%
24%
OARO structure (Swales, 2004)
71% 46% 76%
-
M. Cristina Toledo Bez
14
Materials and methods No common structure
No common structure
No common structure
Results No common structure
No common structure
No common structure
Discussion/conclusions
General results-specific results-conclusions
66.6%
50%
71.4%
General results-specific results-limitations-
conclusions-future work
33.3%
25%
28%
Contributions-results-contradictions-implications
16.6%
Context-results-limitation-future work
8.3%
Table 2. Results of contrastive analysis of research article as genre.
5.3. Results of the experiments with semi-professional translators
In order to test the efficiency of the use of Term-Based
Summariser for specialized translation, three main criteria were
analysed: quality criteria, lexical richness and number of words.
5.3.1. Quality criteria
Quality criteria are related to the evaluation parameters
developed in this thesis. Our main interest is to test whether the
translations with TBS as terminological and informational source have
a better quality, (i.e., fewer errors) than translations with online
dictionaries. In order to prove that difference, all the translations were
evaluated with the software Markin according to analytic and holistic
-
Abstract
15
evaluation parameters and some of them (50 for each combination)
were selected to illustrate the main characteristics. The results are
summed up in the following tables:
Direct translation
(English-Spanish)
Translation without TBS
Translation with TBS
Source text related errors 239 226
Target text related errors 301 285
Positive aspects 198 202
Table 3. Direct translation (English-Spanish): results for 50 best translations.
Direct translation
(French-Spanish)
Translation without TBS
Translation with TBS
Source text related errors 215 197
Target text related errors 276 275
Positive aspects 154 181
Table 4. Direct translation (French-Spanish): results for 50 translations.
Inverse translation
(Spanish-English)
Translation without TBS
Translation with TBS
Source text related errors 305 297
Target text related errors 318 313
Positive aspects 103 104
Table 5. Direct translation (French-Spanish): results for 50 translations.
-
M. Cristina Toledo Bez
16
Inverse translation
(Spanish-French)
Translation without TBS
Translation with TBS
Source text related errors 297 284
Target text related errors 301 296
Positive aspects 117 124
Table 6. Inverse translation (Spanish-French): results for 50 best translations.
In all the tables the translations with Term-Based Summariser
have fewer errors than the translations with online dictionaries. The
difference is higher in direct translation than in inverse translation
because translators try to focus more on the text itself than on the
documentation process or on the terminological search.
Regarding the holistic evaluation, there are also some
differences between the translations with Term-Based Summariser
having fewer errors than the translations with online dictionaries. As
noted earlier, level 1 means the translation is very poor and level 5
implies that the translation is excellent. The results according to the
languages are as follows:
-
Abstract
17
LEVEL 1 LEVEL 2 LEVEL 3 LEVEL 4 LEVEL 5
Direct translation (English-Spanish)
Translation without TBS
11 13 26 10 8
Translation with TBS
7 8 31 10 12
Inverse translation (Spanish-English)
Translation without TBS
13 15 20 12 5
Translation with TBS
11 18 27 14 6
Total number of translations: 277 texts
Table 7. Results of translations involving English language.
-
M. Cristina Toledo Bez
18
LEVEL 1 LEVEL 2 LEVEL 3 LEVEL 4 LEVEL 5
Direct translation (French-Spanish)
Translation without TBS
3 6 8 7 4
Translation with TBS
2 4 10 8 5
Inverse translation (Spanish-French)
Translation without TBS
4 6 9 7 2
Translation with TBS
2 7 10 7 2
Total number of translations: 107 texts
Table 8. Results of translations involving French language.
In both tables, texts translated with TBS have better levels than
texts translated with online dictionaries, although inverse translation
once again presents more homogenous results in both types of
translation. The main reason is the difficulty of translating into a non-
mother tongue.
5.3.2. Lexical richness criteria
Another variable studied in this thesis is the lexical richness of
translations, since they all have the same number of words (around
150 words). WordList is the tool used to offer the type/token ratio in
all the translated texts. The main results classified by translators are
shown below:
-
Abstract
19
TYPE/TOKEN RATIO IN ENGLISH TRANSLATION
English-Spanish
Part 1
(without TBS)
English-Spanish
Part 2
(with TBS)
Spanish-English
Part 3
(without TBS)
Spanish-English
Part 4
(with TBS)
48.31 50.35 54.79 46.46
49.33 61.80 59.26 46.46
53.44 62.61 59.26 70.53
55.37 51.35 72.50 70.53
52.35 58.87 57.97 57.35
53.70 62.61 51.49 60.20
46.43 70.00 75.00 68.06
55.84 63.30 65.91 68.12
48.85 61.94 71.91 80.36
43.08 72.37 70.00 59.40
64.52 61.80 59.79 59.40
49.33 62.67 53.21 64.76
48.20 58.99 75.00 52.35
50.00 60.48 75.00 56.29
53.08 69.59 59.43 57.38
50.25 56.67 62.24 56.15
53.14 72.37 57.02 56.20
64.42 62.70 73.33 63.06
45.45 58.39 55.62 60.14
45.37 64.41 56.76 58.52
46.89 57.07 54.79 63.89
48.51 60.00 64.49 55.64
57.82 61.29 51.64 52.67
46.67 49.32 57,23 64.76
50.26 64.41 55.21 64.76
53.02 63.22 53.57 65.63
44.17 58.25 58.82 46.91
-
M. Cristina Toledo Bez
20
53.70 58.87 79,52 56.15
47.37 65.00 56.92 64.86
45.18 62.69 57.67 66.67
48.88 55.56 52.72 57.80
45.14 65.25 61.72 59.74
53.33 61.79 51.97 55.24
47.11 60.94 59.50 45.88
45.32 61.01 57.59 54.97
49.57 61.42 50.48 56.41
52.21 74.19 59.48 65.29
49.79 59.35 60.95 50.85
52.83 63. 56 89.13 63.95
51.79 65. 87 48.48 56.15
Type/token ratio rate: 7.19
Type/token ratio rate: 9.59
Type/token ratio rate: 7.59
Type/token ratio rate: 8.49
Table 9. Type/token ratio in English translation.
-
Abstract
21
TYPE/TOKEN RATIO IN FRENCH TRANSLATION
French-Spanish
Part 1
(without TBS)
French-Spanish
Part 2
(with TBS)
Spanish-French
Part 3
(without TBS)
Spanish-French
Part 4
(with TBS)
57.14 62.28 66.20 62.50
58.96 64.93 68.09 68.38
59.63 64.20 72.73 59.52
57.63 60.67 70.27 60.47
59.06 66.67 66.99 63.64
59.06 54.93 70.45 62.81
47.83 63.57 76.19 70.89
52.07 63.24 52.86 51.69
57.36 56.68 79.55 79.6
58.78 65.17 72.73 76.12
56.35 56.28 56.64 71.59
57.14 65.63 74.68 75.9
66.67 69.74 71.83 72.4
60.69 61.59 54.91 59.50
57.58 59.75 67.01 68.7
57.35 60.74 61.2 67.83
57.61 63.78 65.8 69.74
58.55 60.8 61.9 65.00
57.56 59.57 62.3 60.98
Type/token ratio rate: 9.67
Type/token ratio rate: 10.82
Type/token ratio rate: 13.89
Type/token ratio rate: 16.10
Table 10. Type/token ratio in French translation.
-
M. Cristina Toledo Bez
22
In all the tables the type/token ratio rate is higher in translations
with TBS than in translation without TBS, even though we find
differences depending on the language (French has better results than
English) and on the translation direction (Direct translation has better
results than inverse translation).
5.3.3. Number of words translated criteria
The differences in the total number of words translated in
translations without TBS and translation with TBS is another indicator
of the benefits from using the TBS. The results are shown below:
Translation without TBS Translation with TBS
Part 1 (direct English-Spanish translation):
9548 words
Part 2 (direct English-Spanish translation):
13257 words
Part 3 (inverse Spanish-English translation):
9306 words
Part 4 (inverse Spanish-English translation):
9473 words
Part 1 (direct French-Spanish translation):
4855 words
Part 2 (direct French-Spanish translation):
6966 words
Part 3 (inverse Spanish-French translation):
3898 words
Part 4 (inverse Spanish-French translation):
5522 words
Table 11. Number of words translated criteria.
-
Abstract
23
The results in the left column show that the number of words in
translations with TBS is higher than the results with translations using
online dictionaries. The difference in inverse translation is lower than
in direct translation particularly in English; consequently, we infer that
inverse translation from Spanish into French takes less time than
inverse translation from Spanish into French. However, further studies
are required.
5.4. Results from the electronic survey
A complete piece of research must also offer qualitative results
and the survey used in this thesis consisting of 33 questions provides
some indications on the translators impressions. The most relevant
data concern the use of Term-Based Summariser during the
documentation and translation process.
The questions below are classified in a scale from 1 (almost
nothing) to 5 (very). The most interesting results concerning the
answers of the 95 semi-professional translators are as follows:
-
M. Cristina Toledo Bez
24
1 2 3 4 5
1. How important are titles in Term-Based Summariser?
2.1% 17.0% 38.3% 35.1% 6.4%
2. Did Term-Based Summariser help you to familiarise yourself with the research article structure?
12.8% 45.7% 22.3% 12.8% 6.4%
3. How useful is Term-Based Summariser as provider of parallel texts?
2.1% 19.1% 34.0% 29.8% 14.9%
4. Did you feel comfortable translating with online dictionaries?
1.1% 9.6% 42.6% 34.0% 12.8%
5. Did you feel comfortable translating with Term-Based Summariser?
6.4% 24.5% 30.9% 30.9% 7.4%
6. Did Term-Based Summariser help you in the direct translation process?
14.9% 39.4% 23.4% 16.0% 6.4%
7. Did Term-Based Summariser help you in the inverse translation process?
16.0% 37.2% 16.0% 21.3% 9.6%
8. Is the top 50 terms list useful for translators?
3.2% 7.4% 25.5% 35.1% 28.7%
9. Do you think Term-Based Summariser is useful for the documentation process?
1.1% 14.9% 29.8% 30.9% 23.4%
10. How useful is the option only the summary?
3.2% 17.0% 37.2% 35.1% 7.4%
11. How useful is the option the whole text with highlights?
1.1% 8.5% 29.8% 33.0% 27.7%
12. Would you include Term-Based Summariser in a translators workbench?
5.3% 12.8% 26.6% 33.0% 22.3%
Table 12. Results from the electronic survey.
-
Abstract
25
The answers reflect the translators opinions and it is worth
mentioning that many of them would include a Term-Based
Summariser in a translators workbench, and that the top terms list is a
very useful terminological tool.
6. CONCLUSIONS AND FUTURE WORK
6.1. Conclusions
The main contribution of this thesis is the innovative
combination of Computational Linguistics and Translation Studies,
i.e., automatic summarization and specialized translation. We will
further discuss this now that the 10 goals set out in the aim section
have been achieved.
Goal 1 was to review the major work in translation
technologies and in human automatic summarization. This goal was
completed in both Chapters 1 and 2. In Chapter 1 the main translation
technologies were reviewed, including Natural Language Generation,
Corpus Linguistics, Machine Translation and Information Retrieval.
In Chapter 2 the most relevant approaches to human and automatic
summarization are presented, although the main emphasis is on
term-based summarisation.
Goal 2 was to emphasise the relevance of documentation as a
cornerstone in specialized translation. This goal was completed in
Chapter 1 where Documentation as Science is approached, in order to
focus on its importance for Translation Studies.
-
M. Cristina Toledo Bez
26
Goal 3 was to build a representative multilingual comparable
corpus of parallel texts from research articles on electronic commerce
in three languages (Spanish, English and French). This goal was
completed in Chapter 2, where the process of selection and
compilation of texts is described as well as the final result. All the
details of the corpus are specified in Chapter 2.
Both goals 4 and 5 share some points. Goal 4 was to focus on
the emerging legal-technological discourse from the Information
Technology Law and Data Protection. This goal was completed in
Chapter 3. First, we established the difference between two important
dichotomies: general/specialized language and word/term. Secondly,
we studied the new legal-technological discourse explaining its
innovative terminological appellation, describing its main features
according to the Information Technology Law and pointing out its
relation with Data Protection. Goal 5 was to compare the
legal-technological discourse features in three languages, i.e., Spanish,
English and French and this goal was also completed in Chapter 3,
where a contrastive analysis of the legal-technological discourse in
source texts is carried out in the three languages. Common features are
pointed out in order to reflect the similarities of the legal-
technological discourse.
Goal 6 was to study the research article as a textual genre. This
goal was completed in Chapter 4, where the notion of textual genre is
analysed and then it is applied to the research article. We distinguish it
from other similar concepts such as text type or register and its main
features and structures are presented. The most common IMRD
structure is defined and described.
-
Abstract
27
Goal 7 was to test whether IMRD structure of English
scientific articles may be valid to articles both on Legal Sciences as
well as in the Romance languages of Spanish and French. This goal
was completed in Chapter 4, beginning with the detailed analysis of
the IMRD structure and then the analysis of the texts from the
comparable corpus appearing in Term-Based Summariser.
Consequently, a contrastive analysis in the three languages (Spanish,
English and French) is carried out, and we tested that the IMRD
structure is also used for Legal Sciences and Romance languages, but
with some important changes.
Goal 8 was to establish evaluation parameters combining both
analytic and holistic evaluation in order to find objective criteria in
Translation Studies. This goal was completed in Chapter 5 where a
review of major work on evaluation is provided and then our own
evaluation parameters are detailed. Such parameters encompass both
analytic or error evaluation as well as global or holistic evaluation.
These evaluation parameters have been used for the translation
evaluations.
Goal 9 was to carry out experiments with semi-professional
translators. This goal was completed in Chapter 5 with the description
of the experiments in which 95 semi-professional translators from the
University of Mlaga took part. The final results were 379 pieces of
translation in both direct and inverse translation with four
combinations: English-Spanish (direct translation), Spanish-English
(inverse translation), French-Spanish (direct translation) and
Spanish-French (inverse translation). The translators translated two
parts without Term-Based Summariser and two parts with
Term-Based Summariser and then results were compared with the
-
M. Cristina Toledo Bez
28
three criteria described in goal 9: quality criteria, lexical richness
criteria and number of words criteria. The quality criteria are
concerned with the evaluation parameters and imply the evaluation of
the translations by semi-professional translator in terms of analytic
and holistic evaluation. The teaching software Markin is used to
evaluate the translations. The lexical richness criteria are carried out
with WordList in Wordsmith and it provides information about the
token/type ratio in a text. The number of words criteria compares the
results in translations with Term-Based Summariser with the
translations without Term-Based Summariser.
Goal 10 was to analyse translators impressions and opinions
regarding the use of Term-Based Summariser by means of a survey.
This goal is achieved in Chapter 5 with the detailed description of the
questions in the survey and the comments in regards to the qualitative
results.
Regarding our triple hypothesis, we have proved with
empirical studies as well as qualitative and quantitative results that
automatic summarization enhances specialized translation in three
languages (Spanish, English and French) and in direct and inverse
combinations, although with better results for direct translation, and,
consequently, we consider that a term-based automatic summarization
should be part of an innovative translator's workbench.
-
Abstract
29
6.2. Future work
During this research a series of possible future directions have
emerged. They are briefly discussed in this section.
The main direction is that the empirical study carried out in this
thesis with semi-professional translators should be carried out again
but this time with professional translators. The results would be good
indicators of the advantages of Term-Based Summariser as
terminological and informational resource.
Another line of research related to this is to learn whether the
findings of this research are valid for other discourses and for other
genres. We have focused on a very specific domain
(legal-technological discourse) and genre (research articles), but it
would be of particular interest to apply Term-Based Summariser to
other domains and genres in order to find out whether similar results
to the ones reported here can be obtained.
Furthermore, a possible extension of this work is to analyse the
results with other statistical methods such as the students t-test or the
chi-square test. Finally, in the future it would also be interesting to
repeat the same study with more complex and representative corpora
in order to extrapolate the results. All these future directions will be
developed in the current research project Ecosistema: espacio nico
de sistemas de informacin ontolgica y tesauros sobre el medio
ambiente (FFI2008-06080-C03-03/FILO; 2008-2011), directed by Dr.
Corpas Pastor and Dr. Faber. The possible merging of terminology,
ontology, and automatic summarization constitutes a fascinating field
to be explored.
-
INTRODUCCIN
1. MOTIVACIN
Desearamos comenzar este trabajo que presentamos como tesis
acadmica para la obtencin del grado de doctor exponiendo en
primer lugar las razones que han motivado a su desarrollo, as como el
marco investigador en el que se inscribe.
Gracias a una beca de postgrado del Programa de Formacin
del Profesorado Universitario (FPU)1, concedida por el Ministerio de
Educacin y Ciencia2 en 2006, nos incorporamos como miembro
1 La referencia de la beca es AP2005-2792 y la resolucin aparece publicada en el Boletn Oficial del Estado de 21 de abril de 2006. 2 Este Ministerio ha recibido distintas denominaciones desde la concesin de la beca. En 2006 se denomin Ministerio de Educacin y Ciencia hasta el ao 2008, cuando la competencia de la formacin de becarios de investigacin pas al Ministerio de Ciencia e Innovacin. Sin embargo, en 2009 es de nuevo el Ministerio de Educacin el encargado de convocar y gestionar las becas FPU.
-
M. Cristina Toledo Bez
32
investigador a, por un lado, el grupo de investigacin de excelencia
Lexicografa y Traduccin3 (HUM-106) y, por otro, a dos proyectos
de I+D, dirigidos, al igual que el grupo de investigacin, por la Dra.
D. Gloria Corpas Pastor: por una parte, el proyecto nacional
TURICOR: Compilacin de un corpus de contratos tursticos
(alemn, espaol, ingls, italiano) para la generacin textual
multilinge y la traduccin jurdica)4 (Ministerio de Ciencia y
Tecnologa, BFF2003-04616, 2003-2006) y, por otra, al recin
concedido, por esa fecha, proyecto de excelencia de la Junta de
Andaluca La contratacin turstica electrnica multilinge como
mediacin intercultural: aspectos legales, traductolgicos y
terminolgicos5 (Direccin General de Investigacin, Tecnologa y
Empresa, HUM-892, 2006-2009).
En este marco investigador tan propicio y gracias adems a una
estancia en Dickinson College (Pensilvania, Estados Unidos) como
lectora de espaol que nos permiti acceder a numerosos artculos,
libros y material de referencia, presentamos en 2006 nuestro trabajo
de investigacin de segundo ao de doctorado6, el cual se titul
Aproximacin a la generacin automtica multilinge de resmenes.
3 La URL del grupo HUM-106, en la que aparecen detallados los miembros, las actividades I+D, las publicaciones y los datos de contacto es la siguiente: . La versin inglesa de esta misma pgina web est disponible en . Todas las direcciones URL citadas en el presente trabajo se encontraban operativas a fecha de 20 de junio de 2009. 4 La URL del proyecto Turicor es la siguiente: . 5 Ms informacin sobre el proyecto en . 6 Nos referimos al programa de doctorado Estudios de Traduccin: Investigacin en Traduccin e Interpretacin especializadas (bienio 2004-2006) del Departamento de Traduccin e Interpretacin de la Universidad de Mlaga, al cual se le otorg adems la mencin de calidad por parte del Ministerio de Educacin y Ciencia.
-
Introduccin
33
Dicho trabajo, que constituye el punto de partida para la presente
investigacin, se centr en el estudio y comparacin de diversos
programas de resumen automtico en lnea, gratuitos y multilinges en
aras de mostrar su utilidad en la labor documental del traductor
profesional, tanto en la fase semasiolgica de comprensin del sentido
del texto, como en la onomasiolgica. Como textos objeto de estudio,
hemos de apuntar que, a partir del macrocorpus Turicor, se compil
un subcorpus compuesto por 22 condiciones generales de crucero en
espaol y 27 en ingls una serie de documentos con las condiciones
generales de los contratos de viaje combinado, especficamente de la
modalidad de crucero, en las dos lenguas seleccionadas, esto es, ingls
y espaol. El proyecto de investigacin nos permiti descubrir las
mltiples facetas que el resumen automtico como aplicacin de la
Lingstica Computacional poda ofrecer a los Estudios de
Traduccin, de ah que marcsemos esa lnea de investigacin como
columna vertebral de la presente tesis doctoral.
El germen investigador que naci con el proyecto Turicor
como marco ha madurado y crecido en la presente tesis doctoral
gracias a una doble motivacin. Por un lado, el trabajo en el seno del
proyecto HUM-892, donde nos incorporamos a las secciones de
espaol, ingls y francs con la finalidad de buscar recursos
electrnicos especficos sobre contratacin electrnica y comercio
electrnico. De este modo, nos familiarizamos con el discurso jurdico
y tecnolgico as como con los numerosos artculos de investigacin
que versaban sobre esta materia, acotando as el dominio de
especialidad y el gnero textual analizados en esta tesis. Asimismo, en
lo que concierne al discurso jurdico, hemos bebido de las fuentes y
enseanzas ofrecidas en el curso de postgrado titulado Especialista en
traduccin jurdica ingls-espaol, organizado por el Departamento
-
M. Cristina Toledo Bez
34
de Filologa Inglesa de la Universidad de Alicante y que realizamos
durante el curso acadmico 2006-2007. Sin duda, dicho curso afianz
nuestros conocimientos previos sobre traduccin jurdica y nos
permiti especializarnos en este tipo de traduccin para as
enfrentarnos a la tesis doctoral con ms eficacia y pericia.
El otro elemento motivador, crucial para nuestros fines
investigadores y para la mencin de Doctorado europeo de la
presente tesis, fue la estancia de investigacin de tres meses de
duracin en 2007 con el grupo Research Group in Computational
Linguistics, dirigido por el Dr. D. Ruslan Mitkov y perteneciente al
Research Institute in Information and Language Processing de la
Universidad de Wolverhampton (Reino Unido), la cual nos permiti
profundizar en el tema abordado en nuestro trabajo de investigacin,
ya que consultamos numerosa bibliografa en torno al resumen
automtico ofrecida de primera mano por los investigadores de ms
renombre y, adems, pudimos conocer y experimentar las tcnicas
ms novedosas a travs del programa Computer-Assisted
Summarization Tool (CAST), desarrollado por el Dr. D. Constantin
Orsan, y que constituye la piedra angular de la presente tesis doctoral
al tratarse del recurso documental y terminolgico empleado y
adaptado a nuestras necesidades investigadoras.
Con esta motivacin como teln de fondo, explicamos a
continuacin los objetivos planteados en nuestra investigacin.
-
Introduccin
35
2. OBJETIVOS
Nuestra hiptesis de partida es que el resumen automtico
como recurso documental facilita la traduccin de textos
especializados en ambos sentidos (directa e inversa). Sin embargo,
como advierte Tymoczko (2002: 16-17), en los Estudios de
Traduccin no se suele partir de una nica hiptesis, sino ms bien de
una serie de hiptesis. A este respecto nuestro estudio no va a ser una
excepcin y, por ello, partiremos de una triple hiptesis7 de trabajo:
I) La investigacin en torno a la combinacin de la
Lingstica Computacional y los Estudios de Traduccin
precisa de estudios empricos y extrapolables que prueben
su eficacia.
II) La traduccin de textos especializados, en este caso de
artculos de investigacin del mbito jurdico-tecnolgico,
tanto en ingls como en francs y tanto directa como
inversa se ve agilizada con la consulta a un programa de
resumen automtico basado en trminos.
III) El resumen automtico surge como recurso documental
innovador y fiable que podra formar parte de una futura
estacin de trabajo del traductor.
7 En el DRAE aparece definida como la que se establece provisionalmente como base de una investigacin que puede confirmar o negar la validez de aqulla.
-
M. Cristina Toledo Bez
36
De nuestra hiptesis tripartita se derivan los siguientes
objetivos generales (1-2) y especficos (3-10):
1. Realizar un excurso por la investigacin en tecnologas de
la traduccin en aras de establecer un marco para nuestra
investigacin.
2. Enfatizar la importancia de la documentacin como pilar
fundamental en la traduccin de textos especializados.
3. Compilar un corpus virtual, comparable y representativo de
textos paralelos de artculos de investigacin que versen
sobre contratacin electrnica en tres lenguas (espaol,
ingls y francs).
4. Estudiar la imbricacin de discurso jurdico con el discurso
tecnolgico en el campo de la contratacin electrnica y de
la proteccin de datos personales.
5. Contrastar, mediante un corpus comparable, multilinge y
representativo, las caractersticas del discurso
jurdico-tecnolgico en las lenguas espaol, ingls y
francs.
6. Abordar el artculo de investigacin como gnero textual
propio con caractersticas definidas y claras.
7. Cotejar mediante un corpus comparable y multilinge si la
estructura tpica del artculo de investigacin escrito en
lengua inglesa en el campo de las ciencias se extrapola: por
un lado, a las Ciencias Jurdicas; y, por otro, a las lenguas
romances espaola y francesa.
-
Introduccin
37
8. Establecer una plantilla de evaluacin propia que combine
la evaluacin analtica y la holstica en aras de lograr unos
criterios claros y definidos.
9. Llevar a cabo un estudio con un amplio nmero de