uma traduÇÃo premiada sob a perpectiva da lingÜÍstica de ... gurjao... · descritivo, além de...

ELIANE GURJÃO SILVEIRA ALAMBERT

UMA TRADUÇÃO PREMIADA SOB A PERPECTIVA DA LINGÜÍSTICA DE CORPUS

MESTRADO EM LINGÜÍSTICA APLICADA E ESTUDOS DA LINGUAGEM

PONTIFÍCIA UNIVERSIDADE CATÓLICA 2008

ELIANE GURJÃO SILVEIRA ALAMBERT

UMA TRADUÇÃO PREMIADA SOB A PERPECTIVA DA LINGÜÍSTICA DE CORPUS

Dissertação apresentada à Banca examinadora da Pontifícia Universidade Católica de São Paulo como exigência parcial para a obtenção do título de MESTRE em Lingüística Aplicada e Estudos da Linguagem sob a orientação do Prof. Dr. Antonio Paulo Berber Sardinha.

PONTIFÍCIA UNIVERSIDADE CATÓLICA 2008

BANCA EXAMINADORA

My face in thine eye, thine in mine appears,

And true plain hearts do in the faces rest;

Where can we find two better hemisferes

Without sharp North, without declining West?

Whatever dies was not mixed equally;

If our two loves be one, or thou and I

Love so alike that none do slacken, none can die

Meu rosto no teu olhar, um no outro se reflete,

E veros corações descansam nos dois rostos;

Dois hemisférios: par que melhor se complete

Onde nem frio norte e sem sequer sóis-postos

O que morre não foi mesclado muito bem;

Se amamos por igual, pois formamos um par

Nenhum pode morrer, se nenhum afrouxar.

John Donne, excerto de “The Good Morrow”

Tradução de Renata Cordeiro

AGRADECIMENTOS

Em primeiro lugar, agradeço à constante proteção de Deus e dos seus Guardiões

Divinos.

Especialmente à minha mãe e ao meu marido, agradeço por todo o apoio.

Ao meu orientador, Tony Berber Sardinha, que acreditou em mim.

Aos meus companheiros de mestrado, que sempre estiveram ao meu lado e

contribuíram de maneira direta ou indireta para a conclusão deste trabalho. Em

especial, o meu agradecimento vai para Maria Cecília Lopes, José Lopes Moreira

Filho, Márcia Veirano Pinto, Flávia Morales e Patrícia Bértoli Dutra.

Aos meus familiares, que sempre estiveram presentes.

À Profa. Leila Barbara por todo o apoio, amizade e confiança.

Aos professores da PUC, que sempre estiveram prontos para me auxiliar.

Ao CNPq, que contribuiu com o suporte financeiro essencial.

RESUMO

Este estudo teve o objetivo encontrar, de modo sistemático, características de uma

tradução premiada que revelassem a expertise do tradutor. Para tanto, foi

selecionada a tradução que recebeu o prêmio União Latina de 2006, DNA- O

segredo da Vida, traduzida por Carlos Afonso Malferrari a partir do original em

inglês DNA- The secret of life de James D. Watson. O original e a tradução foram

digitalizados, dando origem a dois subcorpora que foram alinhados para formar

um corpus paralelo. O corpus com o texto traduzido foi comparado com uma

amostra do Banco de Português em termos de tamanho de vocabulário,

mostrando que a tradução tem tamanho de vocabulário muito próximo à amostra.

Baseados no fato de que uma palavra em inglês cognata de outra em português

pode exercer influência na escolha da tradução, determinamos duas categorias de

palavras a serem investigadas, as que apresentam uma tradução imediata para o

português e as que não apresentam tradução imediata para o português. Do

corpus paralelo foi extraída uma amostra com 40 palavras, 20 de cada categoria,

para o levantamento das traduções. Descobrimos que o tradutor usa traduções

variadas para cada palavra do original e que a natureza da palavra na língua

inglesa é indiferente ao tradutor experiente, não importando a sua semelhança

com o português, pois ele atribui um número de escolhas uniforme entre ambas

as categorias. Assim, os resultados mostram que o tradutor experiente tem

compromisso com o contexto, não se prendendo a fórmulas ou soluções pré-

determinadas.

Palavras-chave: Lingüística de Corpus; Estudos de Tradução; tradução premiada;

tamanho de vocabulário; variedade de traduções

ABSTRACT

This study aimed at discover, systematically, features in an awarded translation

that could show the translator expertise. Thus, we used the winner of the União

Latina in 2006, DNA- O segredo da Vida, translated by Carlos Afonso Malferrari

from the originally English written book DNA- The secret of life of James D.

Watson. Original and translation were scanned, producing two subcorpora that

were aligned in a parallel corpus. The subcorpus containing the translated text

was compared with a Portuguese general corpus in terms of vocabulary size, and

the results showed that this feature is much alike for both corpora. Based on the

fact that a word in English that has a cognate in Portuguese can influence the

translation choices, we established two categories, one that presents a direct

translation for Portuguese and other that doesn’t present a direct translation. A

sample with 40 words, 20 of each category, was taken from the parallel corpus to

check the translations used for each one. We found that the translator use a

number of words in Portuguese for each one in English and that the origin of the

word is indifferent to the expert translator, so that it doesn’t matter which

category the word in English is fit in, for he uses a very similar number of words

in Portuguese for each one in English despite its nature. Thus, the results show

that the expert translator is committed to the context and is not attached to fixed

formulas or predetermined solutions.

Palavras-chave: Lingüística de Corpus; Estudos de Tradução; tradução premiada;

tamanho de vocabulário; variedade de traduções

Key-words: Corpus Linguistics; Translation Studies; awarded translation;

vocabulary size; translation variety

SUMÁRIO

INTRODUÇÃO ....................................................................................................... 9

CAPÍTULO 1: Fundamentação Teórica ............................................................ 12

1.1. Lingüística de Corpus .............................................................................. 12

1.1.2. Visão da linguagem como um sistema probabilístico ............... 16

1.1.3. Estudos de padrões de linguagem ............................................... 18

1.1.4. Lexical Primimg .............................................................................. 21

1.2. Estudos de Tradução com corpus .......................................................... 25

1.2.1. Corpus paralelo ............................................................................... 31

1.2.2. Corpora comparáveis ..................................................................... 34

CAPÍTULO 2: Metodologia ................................................................................ 38

2.1. Corpus de estudo ...................................................................................... 38

2.1.1. Perfil do tradutor ............................................................................ 41

2.1.2. Compilação do corpus de estudo ................................................. 42

2.2. Corpus de base .......................................................................................... 43

2.3. Ferramentas automatizadas utilizadas na pesquisa ............................ 45

2.3.1. WordSmith Tools ............................................................................ 45

2.3.2. Ferramentas CEPRIL – PUCSP ..................................................... 48

2.3.2.1 Alinhador de corpora ................................................................... 49

2.3.2.2 Concordanciador Paralelo ...................................................... 55

2.3.2.3 Etiquetador/lematizador ......................................................... 58

2.4. Método para análise dos dados .............................................................. 60

2.4.1. Extração das listas de palavras ..................................................... 60

2.4.2. Lematização ..................................................................................... 61

2.4.3. Alinhamento .................................................................................... 63

2.4.4. Seleção dos itens para análise ....................................................... 64

2.4.4.1. Estudo piloto ............................................................................ 66

2.4.4.2. Seleção de palavras para o estudo principal ....................... 69

CAPÍTULO 3: Análises dos dados ..................................................................... 72

3.1. Comparação entre tradução e corpus de base ............................... 72

3.2. Variedade de traduções empregadas .............................................. 74

3.3. Classificação do tradutor .................................................................. 87

3.4. Análise de item selecionado ............................................................. 89

CONSIDERAÇÕES FINAIS ............................................................................... 96

REFERÊNCIAS ...................................................................................................... 98

9

INTRODUÇÃO

A Tradução tem desempenhado um papel cada vez mais importante no

mundo globalizado e a necessidade de aprimoramento do tradutor se manifesta a

cada instante. Hoje em dia, a qualidade nas traduções é item da maior relevância,

especialmente para o profissional que trabalha por conta própria e está sempre

procurando por atividades nas editoras. Mas, surge a questão: quais

características em uma tradução estão relacionadas a qualidade? Será que

aspectos da expetise do tradutor podem ser identificados em uma tradução de

qualidade?

Essa curiosidade, associada o meu objetivo pessoal, como tradutora, de

saber quais aspectos eu poderia desenvolver para aperfeiçoar a minha prática,

culminou nessa pesquisa.

Logo percebi que tratar de qualidade em traduções é um tema muito

amplo, que deveria ser cuidadosamente delimitado e fundamentado, de forma

que passei a observar as críticas literárias para entender como uma obra poderia

ter a sua qualidade reconhecida, o que me colocou na trilha das premiações

anuais. Nesse aspecto, o Prêmio União Latina de Tradução Técnica se mostrou

uma boa opção, pois as obras são julgadas por uma comissão composta por

acadêmicos e profissionais da área de Tradução, de forma que escolhi, para este

estudo, a tradução da obra DNA – The secret of life, de autoria de James Watson,

editado em língua inglesa em 2003, traduzida para o português por Carlos Afonso

Malferrari e publicada pela Companhia das Letras em 2005.

A pesquisa, então, ganhou corpo e um objetivo definido, que era encontrar,

de modo sistemático, características de uma tradução premiada que revelassem a

expertise do tradutor. Entre os vários aspectos que poderia estudar, decidi iniciar

por uma exploração do vocabulário, orientada pelas minhas principais dúvidas:

10

(i) a tradução premiada apresenta um tamanho de vocabulário compatível com

um corpus de língua geral do português?; (ii) o tradutor emprega traduções

variadas para cada palavra do original?; (iii) o fato de uma palavra do inglês se

assemelhar a uma do português exerce influência sobre a variedade de traduções

empregadas?; (iv) o tradutor se prende a acepções dicionarizadas?

A escolha pela Lingüística de Corpus se deu em função seu caráter

descritivo, além de ter uma proximidade com os Estudos da Tradução que

possibilita traçar paralelos entre o texto original e a(s) sua(s) tradução(ões).

De posse do texto original e da tradução impressos, digitalizei-os para que

pudessem ser submetidos a programas e ferramentas de processamento

lingüístico. Assim, compilei um corpus paralelo com ambos os textos para que

fosse possível o cotejo entre trechos do original com o seu correspondente

traduzido. Além disso, também foi criado um corpus comparável, uma amostra

do Banco de Português, para que fosse possível comparar o tamanho do

vocabulário do texto traduzido com um corpus da língua portuguesa. A extração

de 40 palavras do texto original e as suas respectivas traduções possibilitou

descobrir se foram empregadas traduções variadas e se o houve influência de

palavras cognatas entre a língua inglesa e portuguesa sobre a escolha das

traduções, o que implicou uma verificação manual de cerca de 1800 segmentos,

entre original e tradução. Todo esse percurso de pesquisa e atualização teórico-

metodológica agregou conhecimento inestimável em termos de processamento

lingüístico.

Nesse trabalho, percebi que a aproximação entre a Lingüística de Corpus e

os Estudos da Tradução não é apenas teórica, mas envolve aspectos práticos

muito bem fundamentados que levam à produção de resultados consistentes e

não subjetivos. Na verdade, eu diria que o termo “aproximação” é bastante

tímido para expressar o quanto as duas áreas podem fazer uma pela outra.

11

O foco em uma tradução de qualidade reconhecida pode oferecer subsídios

para outros estudos, assim como para a formação e aprimoramento de tradutores.

Assim, este estudo, com início baseado em dúvidas pessoais, talvez possa prestar

a sua contribuição a outros profissionais do ramo com interesses semelhantes aos

meus.

12

CAPÍTULO 1: Fundamentação Teórica

Este estudo encontra suporte teórico em duas áreas de pesquisa, a

Lingüística de Corpus e os Estudos da Tradução baseados em Lingüística de

Corpus.

Esta seção é, portanto, destinada à apresentação da Lingüística de Corpus e

da sua aproximação com os Estudos da Tradução, com a finalidade de expor

aspectos individuais de cada uma dessas áreas e a forma como elas se relacionam.

1.1. Lingüística de Corpus

Para compreendermos melhor a Lingüística de Corpus é necessário, antes

de tudo, apresentar a noção de corpus.

Primeiramente, corpus, cujo plural é corpora, pode ser definido como um

conjunto de textos. Hunston (2002:2) define:

Linguists have always used the word corpus to describe a collection of naturally

occurring examples of language, consisting of anything from a few sentences to a set of

written texts or tape recordings, which have been collected for linguistics study. More

recently, the word has been reserved for collection of texts (or parts of text) that are stored

and accessed electronically.1

A compilação de corpus não é assunto novo. Muito pelo contrário, remonta

à antigüidade, quando eram reunidos textos de oradores importantes, filósofos,

imperadores, etc. Segundo Berber Sardinha (2004:3) “na Grécia Antiga,

Alexandre, o Grande, definiu o Corpus Helenístico. Na Antigüidade e na Idade

Média, produziam-se corpora com citações da Bíblia”.

1 Os lingüistas sempre usaram a palavra corpus para descrever um conjunto de exemplos que ocorrem naturalmente na língua e podem ser formados por quaisquer estruturas, desde frases até um agrupamento de textos escritos ou gravações em fita, coletados para estudos lingüísticos. Mais recentemente, o uso desta palavra ficou restrito à coletânea de textos (ou porções de textos) armazenados e acessados eletronicamente. (tradução minha)

13

Porém, reunir textos não é o suficiente se não for possível estudá-los,

conhecer as suas características e o uso que as pessoas fizeram das palavras.

Hunston (2002:3) corrobora essa observação:

Strictly speaking, a corpus by itself can do nothing at all, being nothing other than a store

of used language. Corpus access software, however, can re-arrange that store so that

observations of various kinds can be made.2

No passado, as análises de corpora grandes eram feitas manualmente, fato

que, associado à falta de habilidade humana para tarefas repetitivas, tornava a

tarefa árdua, demorada e cujo resultado não oferecia confiabilidade. Com a

popularização dos meios eletrônicos, o computador passou a ser utilizado na

pesquisas para levantamentos em massa dos dados de corpora com tamanhos

cada vez maiores, proporcionando diferentes perspectivas de observação de

maneira mais fácil e veloz (Berber Sardinha, 2004:4).

Em segundo lugar, Lingüística de Corpus pode ser definida como o campo

de investigação empírica, que estuda a língua em uso, “ocupa-se da coleta e da

exploração de corpora, ou conjuntos de dados lingüísticos textuais coletados

criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou

variedade lingüística. Como tal, dedica-se à exploração de evidências empíricas,

extraídas por computador” (Berber Sardinha, 2004:3). Essa definição pressupõe

não apenas a compilação de corpus e a constituição das suas ferramentas, mas a

descrição dos fatos recorrentes na língua a partir da observação da língua em

exercício.

Ao iniciarmos uma pesquisa, é necessário considerar quais são os seus

objetivos para que seja possível determinar a composição do corpus e como os

2 Falando claramente, um corpus, por si, nada pode fazer, nada mais é do que um repositório de linguagem utilizada. O software para acesso ao corpus, entretanto, pode rearranjar este repositório de forma a permitir vários tipos de observação. (tradução minha)

14

textos serão coletados. Sinclair (2004:78) afirma que a definição do conteúdo de

um corpus e da forma como os dados serão selecionados determinarão a

qualidade do resultado da pesquisa. No nosso caso, como o objetivo da pesquisa é

encontrar, de modo sistemático, características de uma tradução premiada que

revelassem a expertise do tradutor, usamos dois corpora, um com o texto original

do livro DNA – The secret of life, o outro com a sua tradução, DNA- O segredo da

vida.

Assim, dois procedimentos devem observados. O primeiro está

relacionado à natureza dos textos. Por exemplo, se a finalidade é um estudo da

linguagem na obra de Machado de Assis, não podemos incluir textos de outros

autores. O segundo refere-se à origem desses textos, como se apresentam

fisicamente, se estão disponíveis em páginas da Internet, se serão digitalizados a

partir de livros impressos, etc.

Ao se planejar um corpus, deve-se também levar em consideração o

tamanho que este deverá ter para ser representativo para a pesquisa.

A representatividade é uma característica do corpus intimamente ligada ao

tamanho deste (Berber Sardinha, 2004:22). No caso de um corpus de língua geral,

que serve a vários propósitos, quanto mais extenso o corpus, maior é a

probabilidade de conter usos raros das palavras. Um exemplo citado por Berber

Sardinha (2004:23) é a palavra serviço entendida como saque no jogo de tênis. A

probabilidade de essa palavra aparecer com este sentido em um corpus de língua

geral pequeno é muito baixa. Porém, se considerarmos um corpus pequeno que

contenha apenas textos sobre tênis, essa probabilidade pode ser alta. Assim, um

corpus de língua geral deve ter grandes proporções para que palavras de baixa

freqüência apareçam nele, enquanto um corpus de linguagem específica pode ser

pequeno, pois mesmo pequeno, a linguagem de uma determinada área pode ser

representada. Concluímos, a partir disso, que a representatividade está associada

15

à extensão e à composição do corpus e, portanto, diretamente relacionada à

questão das probabilidades, que discutiremos no próximo tópico.

Como vimos, os corpora podem ter diferentes composições, tamanhos e

finalidades. Berber Sardinha (2004:20) relaciona os principais tipos de corpora

citados na literatura segundo o a sua composição e propósito, a saber:

• Modo – falado ou escrito

• Tempo – sincrônico, diacrônico, contemporâneo ou histórico

• Seleção – de amostragem, monitor, dinâmico/orgânico, estático,

equilibrado

• Conteúdo – especializado, regional/dialetal, multilíngüe

• Autoria – de aprendiz, de língua nativa

• Disposição interna – paralelo, alinhado

• Finalidade – de estudo, de referência, de treinamento ou teste

Devido ao grande interesse na pesquisa e documentação do

comportamento da linguagem por meio da análise de grandes volumes de dados,

muitas universidades e centros de pesquisas ao redor do mundo compilaram

corpora e os disponibilizaram em formato eletrônico, que podem ser usados como

parte de um estudo ou como objeto dele.

Berber Sardinha (2004:7-12) relaciona vários corpora eletrônicos da língua

inglesa e portuguesa. Entre os de língua inglesa, estão o Brown (primeiro a ser

compilado, em 1964) e o BNC (primeiro a ter 100 milhões de palavras). Entre os

corpora de língua portuguesa estão o Banco de Português e o Comet, localizados

na PUC-SP e USP, respectivamente. Também são mencionados, pelo mesmo

autor, corpora de outras línguas, como alemão, bósnio, chinês, croata, espanhol,

italiano sueco e tcheco.

16

Há ainda outra fonte de dados que pode ser entendida como um corpus: a

web. McEnery e Wilson (1996, apud Kilgarriff e Grefenstette, 2003:333)

argumentam que, se considerarmos que a web é uma grande coletânea de textos,

ela pode ser considerada um corpus. Porém, a análise da sua composição revela

que, embora o conteúdo seja imenso, não é controlado e qualquer texto pode ser

inserido e fará parte dos mecanismos de busca. Berber Sardinha (2003a), fez um

estudo comparando o conteúdo da web com o de um corpus tradicional e

concluiu que não apresentam conteúdos similares, possivelmente em função da

presença de blogs e chats, em que se apresenta um ambiente de conversação

informal. De qualquer forma, a web “é patrimônio de valor inestimável colocado

á disposição dos usuários e também, agora, a lingüistas. Jamais em nossa história

tivemos tanto conhecimento disponível diante de nós. No âmbito da lingüística, o

mesmo pode ser dito: jamais tivemos um corpus tão extenso e renovável ao nosso

dispor” (Berber Sardinha. 2003a:216). Assim, a web pode ser considerada um

corpus, mas devemos estar conscientes das suas deficiências.

Várias pesquisas de corpora têm sido conduzidas, especialmente nos

últimos anos, e os seus resultados encontram aplicação em diversas áreas, como a

produção de gramáticas e dicionários, tradução, estudos literários e estilísticos,

lingüística forense, ensino de línguas e até mesmo para a lingüística, oferecendo,

para esta última, subsídios para a elucidação de itens importantes ao estudo de

ideologias (Hunston, 2002:96).

1.1.2. Visão da linguagem como um sistema probabilístico

Segundo Halliday (1991:30), Jan Svartvik, nos anos de 1960, pesquisou

dados de um corpus com o objetivo de observar o comportamento da voz passiva

no inglês. Assim, criou categorias e uma escala, calculou as proporções entre voz

ativa e passiva e comparou as freqüências de voz passiva em uma gama de

17

registros diferentes. A observação mais crítica do trabalho de Svartvik foi que as

freqüências para a maioria dos textos de um mesmo grupo são notoriamente

similares. Dessa forma, concluiu que os padrões investigados não eram

produzidos acidentalmente na língua (Halliday 1991:30), e que havia uma

probabilidade de ocorrência calculável para cada um deles em registros

diferentes.

Com base nas observações de Svartivik, Halliday (1991:33) afirma que “a

variação de registro pode ser definida como uma variação sistemática das

probabilidades e ‘registro’ é uma tendência a selecionar determinadas

combinações de significados com certas freqüências”. Ou seja, para qualquer

registro, há a possibilidade de ocorrência de qualquer palavra, estrutura ou

expressão, o que indica que o sistema lingüístico e’ probabilístico, ou seja, as

categorias palavras e categorias lingüísticas possuem probabilidade de ocorrência

diferentes em registros distintos.

Seguindo essa linha de raciocínio, Berber Sardinha (2004:30) conclui que “a

visão de linguagem como um sistema probabilístico pressupõe que, embora

muitos traços lingüísticos sejam possíveis teoricamente, não ocorrem com a

mesma freqüência”. Se é fato conhecido que, na língua inglesa, a freqüência de

substantivos é maior do que qualquer outra categoria, em torno de 25%

(Kennedy, 1998, apud Berber Sardinha, 2004:31), maior é a probabilidade de que

uma palavra extraída de um texto nessa língua pertença a esta categoria, embora

seja possível a ocorrência das outras.

Em resumo, as variações que ocorrem na linguagem, como a freqüências

de traços lingüísticos, não são aleatórias.

18

1.1.3. Estudos de padrões de linguagem

A conclusão de que as variações não são aleatórias e produzem efeitos

recorrentes nos leva a afirmar que a linguagem é padronizada (Berber Sardinha,

2004:31). Uma das grandes frentes de pesquisa da Lingüística de Corpus é o

estudo e a descrição dessas regularidades. Hunston e Francis (1999:3) definem

padrão:

Briefly, then, a pattern is a phraseology frequently associated with (a sense of) a word,

particularly in terms of the prepositions, groups and clauses that follow the word.

Patterns and lexis are mutually dependent, in that each pattern occurs with a restricted

set of lexical items, and each lexical item occurs with a restricted set of patterns.3

Sinclair, como um dos grandes estudiosos de corpora, fez um estudo a

partir das suas percepções sobre a língua e atesta que não há sentido em separar o

léxico da sintaxe. A maioria das palavras do dia-a-dia não tem significado(s)

independente(s), mas forma um rico repertório de multi-palavras que estruturam

o texto, fato totalmente suplantado pela gramática tradicional (Sinclair, 1991:108).

Assim, a gramática lexical, em que o léxico orienta a gramática, é defendida pelo

autor, que sugere dois modelos de interpretação para a construção de significado:

o princípio da escolha aberta e o princípio idiomático.

O princípio da escolha aberta, também chamado “lacunas e

preenchimentos”4, considera os textos como uma série de lacunas a serem

preenchidas com qualquer palavra desejada. Dessa forma, inclui expressões não

encontradas normalmente na língua. Praticamente todas as gramáticas são

concebidas sobre este modelo (Sinclair, 1991:110), pois consideram o que é

3 “Em resumo, um padrão é uma fraseologia freqüentemente associada a uma palavra (ou com o sentido dela), especialmente em termos de preposições, grupos e orações que a seguem. Padrões e repertório lexical apresentam dependência mútua, de forma que cada padrão ocorre com um conjunto limitado de itens lexicais, e cada item lexical ocorre com um conjunto limitado de padrões” (tradução minha).

4 Do inglês “slot and filler” (tradução minha)

19

possível ser produzido em termos gramaticais, sem levar em consideração o que

natural e em uso corrente.

O princípio idiomático considera evidente o fato de que as palavras não

ocorrem no texto de maneira aleatória. O mundo ao nosso redor contribui para

que coisas que ocorrem juntas sejam mencionadas juntas (Sinclair, 1991:110),

como, por exemplo, áreas de conhecimento que constituem campos semânticos e

têm vocabulário e associações vocabulares próprios. Dessa forma, “a língua tem à

sua disposição um grande número de unidades pré-construídas, que constituem

escolhas únicas, muito embora pareçam analisáveis em segmentos” (Berber

Sardinha, 2004:33).

Berber Sardinha (2004:40) conceitua a padronização como “a regularidade

expressa de unidades coocorrentes de várias ordens, seja ela lexical, gramatical,

sintática ou outra qualquer”. Segundo este autor, os padrões da língua podem ser

formalizados em três conceitos principais: (i) colocação, que é a associação entre

itens lexicais ou entre o léxico e campos semânticos; (ii) coligação, a associação

entre itens lexicais e gramaticais e (iii) prosódia semântica, a associação entre itens

lexicais e conotação ou instância avaliativa.

Hoey (2005:2) define colocação como “a propriedade da língua pela qual

duas ou mais palavras aparecem freqüentemente na companhia umas das

outras”5, afirmando ser esta qualidade um fator chave para a naturalidade e a

organização.

Assim, a colocação pressupõe palavras que apresentam laços mais fortes

entre si. Por exemplo, para a palavra “angariar”, uma forma bastante comum é

5 [...] the property of the language hereby two or more words seem to appear frequently in each other company’s (Hoey, 2005:2) (tradução minha)

20

“angariar fundos”. Porém, uma forma igualmente possível é “reunir fundos”, em

que a lacuna é preenchida por outro vocábulo da mesma categoria, seguindo o

princípio da escolha aberta descrito acima. Uma simples consulta na web revela

uma diferença numérica de 66.500 páginas da primeira forma contra 2.000 da

segunda forma6. Não podemos dizer, portanto, que esta última não pode ser

usada, mas, certamente, não representa o uso preferido, sendo uma possibilidade

com menor probabilidade de ocorrência.

O segundo tipo de padrão citado por Berber Sardinha (2004:40) é a

coligação, a associação entre itens lexicais e gramaticais. O exemplo dado pelo

autor são os verbos start, cujo uso mais comum é a forma nominalizada e orações

–ing, enquanto o verbo begin é mais usado com o complemento to. Segundo

Hunston (1995:15) este termo foi cunhado por John Rupert Firth em 1957, mas

pouco usado desde então, o que faz sentido, pois, quando se toma como princípio

a afirmação de Sinclair de que não há sentido em separar o léxico da sintaxe

entende-se que a distinção entre colocação e coligação tende a desaparecer.

Mesmo que a coligação possa ser considerada um tipo de colocação, é muitas

vezes importante ressaltar o seu aspecto ligado à gramática.

O terceiro e último tipo de padrão é a prosódia semântica. Este nome se

deve ao fato de certas palavras prepararem o ouvinte ou o leitor para o que está

por vir (Berber Sardinha, 2004:41), como algo suprasegmental, assim como à

prosódia da fala,indicando uma expectativa que o contexto a seguir será positivo,

negativo ou neutro, ou seja, a prosódia semântica e’ o processo que confere o

sentido conotativo a certas palavras e expressões. Os exemplos oferecidos por

Berber Sardinha (2004:41), são o verbo cause, que está associado a palavras

6 Consulta feita na página google.com.br em 02/02/2008. Lembramos que cada página pode ter mais de uma ocorrência, o que significa que o número de ocorrências dessa forma pode ser muito mais alto do que o mostrado pelo buscador.

21

desfavoráveis, como problems, death, disease, apresentando prosódia negativa, e

provide, que tem prosódia positiva ou neutra, relacionando-se a assistance, care,

jobs.

Portanto, reunindo os raciocínios de Sinclair, Hoey, Hunston e Berber

Sardinha, podemos dizer que a linguagem é padronizada, com regularidades

verificáveis pela freqüência, e a sua expressão se dá por meio de unidades pré-

construídas, ou padrões, que a organizam e imprimem-lhe naturalidade.

Cabe aqui um pequeno aparte sobre a postura do tradutor diante destas

regularidades. Tagnin (2002:193) argumenta que “Basicamente, a ingenuidade do

tradutor se configura numa compreensão composicional do significado e numa

falta de consciência do quanto uma língua é constituída dessas partes pré-

fabricadas. A ingenuidade do tradutor pode transparecer tanto na sua habilidade

de compreensão, quando na de produção”. Considerando essa observação, é

possível inferir que a falta de domínio do tradutor sobre tais estruturas “pode

levá-lo a escolher formas possíveis em detrimento das prováveis, produzindo

uma tradução não natural, não fluente” (Tagnin, 2002:194).

Portanto, o domínio, não apenas do vocabulário, mas das combinações

preferenciais, ou padrões, que podem ser formadas é primordial para o bom

desempenho do tradutor.

1.1.4. Lexical Primimg

A noção de lexical priming deriva da noção de priming, definida na

psicologia como:

é um tipo de memória implícita (não declarativa) referente aos efeitos facilitadores de

eventos antecedentes (primes) sobre o desempenho subseqüente (respostas aos alvos), ou

seja, um aperfeiçoamento da capacidade de detectar ou identificar palavras, objetos ou

figuras após uma experiência recente com eles. [...] O efeito de priming em tarefas

22

lingüísticas se manifesta quando o processamento de uma palavra (o alvo) é facilitado

pelo estímulo antecedente (o prime). (Salles et al., 2007:71-72).

Por essa definição, entendemos que ‘priming’ é um tipo de pré-ativação de

certos elementos ou experiências na mente. Ainda segundo a citação acima

percebemos que dispomos de uma memória implícita, em que as palavras estão

associadas de forma que o alvo é ativado mediante a apresentação do estímulo. É

também fundamental notar que as ativações (primings) se firmam na memória por

meio da experiência que temos com elas. Os estudos e experimentos de priming

lexical envolvem principalmente leitura, verificando o processo de

reconhecimento das palavras, o acesso ao léxico mental e como é feita a decisão

sobre o alvo (Salles et al., 2007:78).

Na Lingüística de Corpus, por sua vez, Hoey (2005) usou a noção acima

para explicar a existência de colocações e criar um conceito para Lexical Priming.

Para ele (Hoey, 2005:8), “da mesma forma como uma palavra é incorporada ao

vocabulário do falante por meio de contatos com ela na fala e na escrita, ela vai

acumulando contextos e cotextos nos quais é encontrada, sendo que o nosso

conhecimento dela inclui as coocorrências com outras palavras em certos

contextos”7. O autor entende a colocação como fator chave para a naturalidade e a

organização da língua, propondo-a como um “fenômeno psicolingüístico” e

redefinindo-a como “uma associação psicológica entre palavras (e não entre

lemas) distantes em até quatro palavras evidenciada pela sua ocorrência conjunta

em corpora com uma freqüência mais alta do que pode ser explicado em termos

de distribuição aleatória”8 (Hoey, 2005:5). Assim, Hoey (2005) afirma que as

7 “As a word is acquired through encounters with it in speech and writing, it becomes cumulatively loaded with contexts and co-texts

in which it is encountered, and our knowledge of it includes the fact that it co-occurs with certain other words in certain kinds of

context”. (tradução minha)

8 “[...] a psychological association between words (rather than lemmas) up to four words apart and is evidenced by their occurrence

together in corpora more often than is explicable in terms of random distribution.” (tradução minha)

23

colocações existem, são memorizadas pelos sucessivos encontros com elas e

utilizadas por meio do priming.

Uma das noções que sustentam o argumento de Hoey (2005) em relação às

colocações é oferecida por Stubbs (1996:56 apud Hoey, 2005:8), em que “Os

falantes são livres, mas apenas dentro de determinados limites [...] A reprodução

do sistema é o produto não intencional do comportamento rotineiro do falante”9.

Isso quer dizer que usamos a liberdade ao exercer a linguagem dentro de certos

limites para que possamos ser compreendidos e que, por isso, criamos hábitos

que se repetem, criando uma rotina na fala. Assim, o falante é levado pelo priming

a reproduzir, de forma não intencional, certos aspectos da linguagem que

preparam o ouvinte para o que vem a seguir. Outra noção usada por Hoey (2005)

é a de Hopper, (1988 apud Hoey, 2005:9) em que a gramática é resultado da

“rotina”, dos agrupamentos colocacionais, o uso repetido que resulta em uma

gramática para cada indivíduo.

Hoey (2005) relata a sua pesquisa com dados do corpus monolíngüe do

jornal inglês The Guardian, que teve início com uma análise de coocorrências, e

mostrou evidências de que as palavras ocorrem em determinadas combinações,

enquanto não aparecem em outras. O autor usou, inicialmente, duas frases em

inglês, a primeira extraída do corpus e a segunda é a mesma oração reescrita por

ele mesmo, de uma maneira que ele considera desajeitada e não fluente. São elas:

In winter Hammerfest is a third-hour ride by bus from Oslo, though why anyone would want to

go there in winter is a question worth considering.

Through winter, rides between Oslo and Hammerfest use thirty hours up in a bus, though

why travelers select to ride there then might be pondered.

9 “Speakers are free, but only within constraints. [...] The reproduction of the system is the unintended product of their routine

behaviour” (tradução minha)

24

Assim, Hoey extraiu combinações de ambas as frases, como, por exemplo,

a thirdy-hours ride by bus e thirdy hours up in a bus, investigou e comparou as

ocorrências no corpus, demonstrando que a frase extraída do corpus contém

seqüências mais utilizadas, enquanto a outra não. Este trabalho foi estendido por

Hoey para os campos gramatical, textual e semântico do corpus, procurando

demonstrar como o repetido contato com seqüências e estruturas recorrentes se

fixam na memória e são ativados (primed) quando é apresentado o estímulo. O

uso de um corpus possibilitou a comparação de várias combinações, o que não

seria possível de outra maneira.

Assim, podemos entender a teoria de Lexical Priming apresentada por Hoey

(2005) como uma pré-ativação de combinações pré-construídas disponíveis na

língua, que estão prontas para utilização e são mantidas na memória em estado

de latência, não estando restritas a palavras individuais, mas a combinações de

palavras e frases inteiras (Hoey, 2005: 5).

Como sempre podemos fazer novos usos das palavras, renovando o

repertório de possibilidades contidas nesse dicionário, esse “dicionário mental”

não é um conjunto estático. Além disso, o efeito priming é sensível ao contexto e

os itens lexicais de uso corrente fazem parte do nosso léxico mental, em quais

combinações eles se encaixam e em quais tipos de texto (Hoey, 2005: 10-14).

Entretanto, com relação ao uso de corpus para a detecção do efeito priming,

Hoey (2005:15) demonstra cautela, dizendo que tudo o que um corpus pode fazer

é indicar a probabilidade de que certas ativações são compartilhadas por um

grande número de falantes.

Hoey (2005) fez as suas pesquisas em um corpus monolíngüe apenas para

a língua inglesa, mas faz algumas observações sobre o priming para o

aprendizado de uma segunda língua. Ao aprendermos a língua materna, os

25

primings são desenvolvidos pela primeira vez. Quando acontece o aprendizado de

uma língua estrangeira, é desenvolvido um segundo conjunto de primings,

distinto do primeiro. Hoey (2005:183) afirma que, se no momento do aprendizado

da língua estrangeira é feita uma tradução, este processo ativa o priming para a

língua materna e não para a segunda língua, fazendo com que as associações e

coligações da nova palavra apontem para a o conjunto lexical da língua materna,

além da possibilidade de provocar um apagamento das distinções entre os

conjuntos de ambas as línguas.

Embora Hoey (2005) não faça menção à Tradução, podemos supor que o

tradutor usa o acesso ao léxico mental e aos primings de cada uma das línguas

para compreender o texto em LF10 e produzir um novo texto em LA. Aplicando o

raciocínio que Hoey tece para o aprendizado de língua estrangeira à Tradução,

podem existir situações em que o tradutor não tenha desenvolvido os conjuntos

lexicais separadamente, com distinções claras entre os primings de ambas as

línguas. Nesse caso, é possível a influência da LF no texto em LA (tradutês) ou a

seleção de um alvo incorreto, produzindo uma tradução não fluente, sem a

naturalidade da língua em uso.

1.2. Estudos de Tradução com corpus

Como uma atividade ditada pela necessidade de comunicação entre os

povos, não se sabe exatamente quando teve início a prática da tradução, mas

ensina a tradição escrita que, já no II milênio antes da era cristã, os babilônios e

hititas traduziam a correspondência oficial dos estados (Mounin, 1965:30 apud

Furlan, 2001:11).

10 LF = Língua Fonte, LA = Língua Alvo.

26

A primeira tradução literária conhecida foi realizada no ano de 250 a.C. por

Lívio Andrônico, que verteu a Odisséia de Homero para o latim. Duzentos anos

depois, Cícero ofereceu, no seu discurso De optimo genere oratorum, novas

reflexões sobre a técnica de traduzir, vertendo discursos e adaptando-os aos seus

costumes, fazendo com que soassem fluidos (Furlan, 2001:12). Portanto, dizer que

a tradução é uma “invenção romana” (Bassnett, 1991:43) serve muito bem como

um ponto de partida histórico, apesar de parecer uma afirmação um tanto

forçada.

Desde então, a atividade foi se desenvolvendo no decorrer dos tempos,

passando pela idade média, com a presença de São Jerônimo, pela idade

moderna, quando Dryden formulou as primeiras categorizações para tradução,

até chegar aos nossos tempos.

No período atual, há várias vertentes teóricas desenvolvidas para os

Estudos da Tradução, como, por exemplo, a contrastiva, a funcional e os estudos

empíricos, de forma que os estudiosos podem adotar diferentes perspectivas para

abordar as questões tradutológicas.

O interesse do nosso trabalho está em como as áreas de Tradução e de

Lingüística de Corpus podem trabalhar juntas. Assim, apresentaremos os DTS

(Descriptive Translation Studies), estudos de base empírica, concebidos por Gideon

Toury (1995), que precederam a aproximação entre a as duas áreas.

Os DTS se preocupam com a descrição sistemática de três fenômenos

empíricos distintos vistos como constituintes do objeto da disciplina como um

todo, que são função, produto e processo da tradução. O termo função é

entendido pela ótica dos DTS de maneira bastante específica, pois está

relacionado à posição que o produto e o processo de tradução ocupam na cultura

alvo. Neste contexto, a função determina a composição textual real da tradução e

27

controla o processo de tradução, ou seja, as estratégias empregadas pelo tradutor

para produzir um texto destino a partir de um texto origem e os relacionamentos

entre eles (Laviosa, 2002:11).

Toury (1995:56-61) destaca como objetos dos estudos da tradução as

normas que restringem o comportamento tradutológico e estão associadas ao

ambiente sócio-cultural: inicial norms (norma inicial), referem-se à escolha da

adequação em oposição à aceitabilidade como estratégia global de tradução;

preliminary norms (normas preliminares), referem-se à política e direcionalidade

da tradução; operational norms (normas operacionais), controlam as decisões sobre

a composição textual do texto traduzido.

A metodologia descritiva proposta por Toury (1995:70), cujo objetivo é

expor o relacionamento obtido entre função, produto e processo, é constituída de

três estágios de análise e apresenta uma evolução indutiva gradual que cobre

desde fenômenos observáveis ocorridos em produtos de tradução até fatores não

observáveis que controlam o comportamento tradutológico.

Acompanhando o pensamento de Laviosa (2002:16), o paralelo que pode

ser traçado entre os DTS e a Lingüística de Corpus está na perspectiva adotada

por ambas as áreas de pesquisa acerca do empirismo e da investigação do objeto

de estudo por meio da observação direta de exemplos da vida real, deixando de

lado a especulação baseada em dados intuitivos e pressuposições. Além disso,

ambas as abordagens afirmam que as generalizações derivadas da evidência

empírica podem somente ser válidas se baseadas em estudos de conjuntos de

textos em larga escala.

É possível notar, portanto, que a aproximação entre as duas áreas de

pesquisa se deu primeiramente pela convergência conceitual entre os DTS e a

Lingüística de Corpus. Hoje, é pensamento corrente, tanto entre estudiosos de

28

Tradução como entre os lingüistas de corpus, é de que ambas as áreas de pesquisa

têm muito a ganhar com a parceria entre as duas áreas (Berber Sardinha, 2002:15).

Teóricos como Toury enfatizam a necessidade da observação de

regularidades para oferecer hipóteses que as expliquem baseadas em corpora de

textos sempre em expansão (Kenny, 2001:57). Com isso, Toury (1995:38)

estabelece alguns critérios para a compilação de corpora de tradução, como

“tradutor, escola, período, tipo de texto, fenômeno lingüístico-textual, e qualquer

outra razão justificável”.

A importância de Toury, considerado pai dos DTS, encontrou par no

pioneirismo de Baker, considerada a mãe dos Estudos Descritivos da Tradução

baseados em Corpus (Laviosa, 2002:18). Em 1993, ela declarou que a

disponibilidade de grandes corpora de originais e traduções associados a uma

metodologia corpus-driven, permitiria que os estudiosos de tradução descobrissem

“a natureza do texto traduzido como um evento comunicativo mediado”

investigando-se o que é conhecido na literatura como universais de tradução

(Baker, 1993:243). Tais universais constituem características lingüísticas que

ocorrem tipicamente nos textos traduzidos e não dependem dos pares de língua

envolvidos no processo.

Ao formular os universais, Baker estabelece o seu interesse nos padrões

encontrados nas traduções que não são resultado da interferência de LF ou LA e,

como eles são específicos da tradução, parecem ser mais recorrentes na língua

traduzida do que na não traduzida (Olohan, 2004:92).

Sem dúvida, essa visão proporcionou uma nova perspectiva, abrindo

novos horizontes. Os universais de tradução concebidos por Baker são:

1. Explicitação (explicitation)

29

Uma tendência geral em esclarecer as coisas em vez de deixá-las

implícitas (Baker, 1996:180). Trata-se de uma estratégia utilizada para detalhar

pontos de interesse entre as duas línguas, com exemplos e ilustrações feitos

pelo tradutor, e que podem explicar a existência de textos em LA maiores do

que os da LF. Nessa categoria estão enquadradas as expansões lexicais e

gramaticais típicas que se aplicam à LA, como as explicações, que surgem

quando falta um termo equivalente em LA, e as reformulações, que

normalmente são evidenciadas pelos marcadores isto é, quero dizer, ou seja,

entre outros.

2. Simplificação (simplification)

É o fenômeno marcado pela redução vocabular do texto, que pode

incluir a fragmentação de sentenças longas, a omissão de informações

redundantes, a diminuição de estruturas complexas, entre outros. A

simplificação não implica uma tradução pobre, com perda ou prejuízo do

sentido, mas apenas a diminuição na quantidade de palavras. (Olohan,

2004:99).

No intuito de verificar se a simplificação é uma característica da

tradução, Laviosa (2002:60) pesquisou um corpus comparável de textos

traduzidos para o inglês e levantou três hipóteses sobre possíveis

manifestações de simplificação: os textos traduzidos devem ter variedade

lexical menor, carga de informação menor e sentenças mais curtas. Medindo a

densidade lexical e comprimento médio das sentenças, ela confirmou as

hipóteses, o que sustenta a noção da simplificação como característica da

tradução. Observamos aqui que o estudo de Laviosa foi feito na língua inglesa,

e essas hipóteses podem não ser verdadeiras para outras línguas mais ricas em

termos morfossintáticos.

30

3. Normalização (ou conservadorismo) (normalization or conservatism)

É a tendência de o tradutor se adequar aos padrões e às práticas que são

típicos da LA, ao ponto de cometer exageros (Baker, 1996:176). Berber

Sardinha (2002:26) comenta que “um exame das escolhas lexicais em textos

originais e em suas respectivas traduções pode revelar a normalização se

indicar, por exemplo, que as escolhas mais ‘marcadas’ (ou criativas) dos

originais tiverem sido traduzidas por outras menos marcadas”.Enquanto a

discussão de Baker sobre normalização se concentra nas estruturas gramaticais

típicas, pontuação e padrões colocacionais, Lawrence Venuti (1995, 19-20 apud

Olohan, 2004:97) concebe o fenômeno como tradução “domesticadora” ou

“estrangeirizadora”11 e que, portanto, se estende além da padronização

lingüística do texto, entrando no terreno das escolhas e estratégias mais

globais que levam em conta o material traduzido, as estratégias de tradução,

políticas, normas, etc.

4. Estabilização (levelling out)

Reflete a hipótese de que a linguagem apresenta menos variação nas

características textuais em um corpus de traduções do que em um corpus de

não-traduções, ou seja, que os textos em um corpus de traduções são mais

homogêneos em termos de características textuais do que qualquer corpus

equivalente de textos não traduzidos.

Segundo Olohan (2004:30), a análise da tradução pode nos dizer muito

sobre o comportamento do tradutor. O estudo dos universais ressalta aspectos

comuns em traduções que podem ser resultantes da influência do texto da LF em

11 Do original [...] “domesticating” or “foreigneizing” translation (tradução minha).

31

LA (Olohan, 2004:90), além de refletir estratégias usadas pelo(s) tradutor(es),

revelando o seu comportamento perante o texto original.

Nessa associação entre Tradução e Lingüística de Corpus, podemos citar

como trabalhos de destaque os estudos de Laviosa (2002) e Olohan (2004). Ambas,

sob perspectivas diferentes, além de revelar as descobertas feitas por meio de

análise de corpora e aplicação dos universais, também se voltam para a

compilação de corpora paralelos e comparáveis usados como ferramentas na

formação de tradutores e como recursos para o tradutor profissional.

1.2.1. Corpus paralelo

McEnery e Xiao, (2007:139) definem corpus paralelo como conjuntos que

contêm os textos na LF e as suas traduções. Podem ser unidirecionais (LF → LA),

bidirecionais (LF ↔ LA ) ou multi-direcionais (LF → [LA1,LA2,LA3, etc]12). Em

suma, ao se construir corpora paralelos, os segmentos13 do texto original ficam

diretamente associados à sua tradução, tornando possíveis inúmeras formas de

busca.

Sob a ótica da Lingüística de Corpus, há algumas divergências e dúvidas

em relação à nomenclatura corpus paralelo, sendo que alguns dizem que deveriam

ser chamados de comparáveis (McEnery e Xiao, 2007:139). Hoje em dia, há uma

opinião mais homogênea em relação à essa questão e admite-se que os corpora

paralelos refletem a definição oferecida por McEnery e Xiao (2007:139) citada

acima, enquanto os corpora comparáveis são aqueles compostos por vários textos

12 LA1, LA2, LA3 etc representam as várias línguas em que o mesmo texto foi traduzido.

13 Porções do texto delimitadas por um parágrafo, uma frase ou outro delimitador qualquer.

32

de mesma natureza e na mesma língua. Por exemplo, são comparáveis aqueles

corpora compostos somente com textos traduzidos para a língua portuguesa.

No presente estudo, a nomenclatura utilizada para corpora compostos do

texto original acompanhado da sua respectiva tradução será corpora paralelos,

terminologia adotada por Olohan (2004:24) e por McEnery e Xiao (2007:139).

O manuseio dos corpora paralelos pode ser feito por meio de duas

ferramentas automatizadas específicas, os alinhadores, usados para a montagem e

os concordanciadores paralelos, que possibilitam acesso às linhas dos corpora. É

impensável um trabalho manual que envolva uma tarefa deste porte, pois, como

já foi dito, as habilidades humanas para tarefas repetitivas são bastante limitadas.

Para a nossa pesquisa, trabalharemos com um corpus formado pelo texto

do livro DNA – The secret of life na LF em inglês e a sua respectiva tradução em

português. Dessa forma, utilizaremos o modelo unidirecional LF → LA,

mencionado por McEnery e Xiao (2007:139). Selecionamos, da nossa pesquisa,

dois segmentos do corpus alinhado a título de exemplo do resultado final:

In addition, the Further Reading section lists books relevant to each chapter.

Além disso, a seção Leitura Adicional indica livros relevantes a cada capítulo.

McEnery e Xiao (2007:138) comentam a grande importância que os corpora

paralelos ganharam na Lingüística de Corpus, em grande parte porque estes dois

tipos representam recursos importantes para a tradução e os estudos contrastivos.

Aijmer e Altenberg (1996:12, apud McEnery e Xiao, 2007:141) ressaltam excelentes

resultados proporcionados por esses tipos de corpora:

• “oferecem uma nova compreensão das línguas que estão sendo

comparadas, o que não seria possível em estudos de corpora monolíngües;

33

• podem ser usados para uma variedade de atividades que incluam

comparação, além de aumentar o nosso conhecimento das diferenças

específicas entre as línguas em questão;

• destacam diferenças entre os textos na LF e as suas traduções, e entre

textos nativos e não nativos;

• podem ser usados para várias aplicações práticas, como a lexicografia, o

ensino de línguas e a tradução.”14

As pesquisas que utilizam corpora paralelos são geralmente de cunho

contrastivo15. Olohan (2004:26-28) descreve dois estudos em que foi feito uso de

contrastividade com corpora paralelos.

O primeiro, conduzido por Altenberg (1998), investigou as estruturas

iniciais em traduções do inglês para o sueco e indicou que, na tradução, tais

estruturas estavam reposicionadas e havia uma predominância do

posicionamento frontal de advérbios, o que pode constituir uma característica

típica daquelas traduções.

O segundo, conduzido por Hasselgard (1998), teve como objetivo

demonstrar como a estrutura temática é preservada ou alterada na tradução de

inglês ↔ norueguês. O estudo concluiu que o tema é normalmente preservado,

mesmo quando ocorrem deslocamentos sintáticos na tradução e que os níveis de

14 Tradução minha do original: • they give new insights into the languages compared – insights that are not likely to be noticed in studies of

monolingual corpora; • they can be used for a range of comparative purposes and increase our knowledge of language-specific, typological

and cultural differences, as well as of universal features; • they illuminate differences between source texts and translations, and between native and non-native texts; • they can be used for a number of practical applications, e.g. in lexicography, language teaching and translation.

15 “A análise contrastiva consiste na aproximação de duas ou mais línguas para confrontá-las entre si e verificar as semelhanças e diferenças: por isso surge atualmente a designação ‘análise confrontativa’ em vez de ‘análise contrastiva’” (Vilela, 1994:11).

34

retenção e modificação da estrutura temática são quase idênticos nas traduções

inglês → norueguês e norueguês → inglês.

Na prática, isso quer dizer que a confrontação nos permite conhecer as

características lingüísticas impressas em LA que surgem como resultado da

tradução e que pouco aparecem quando pesquisadas na língua como um todo,

em um corpus de língua geral, por exemplo. Esses estudos podem corroborar a

afirmação de Baker (1993:243) de que a tradução não é capaz de fugir do tradutês,

e sempre encontraremos, nas traduções, vestígios que mostrem características

diferentes das que são usadas naturalmente na língua.

A opinião de Olohan (2004:29-30) é muito racional em relação às pesquisas

confrontativas. Embora reconheça que o texto original acompanhado da sua

tradução nos diga muito a respeito do comportamento do tradutor, acredita que

nada pode ser afirmado a respeito do que o motiva a fazer uma escolha. O

máximo que o pesquisador pode fazer é observar que foi feita uma determinada

opção e especular sobre as possíveis razões para isso.

1.2.2. Corpora comparáveis

Contrastando com os corpora paralelos, há os corpora comparáveis. Baker

(1995:234) define corpora comparáveis como duas coletâneas de textos na mesma

língua: uma delas composta com textos originais da língua em questão e a outra

com textos traduzidos para esta mesma língua, cobrindo domínio, variedade de

linguagem e período de tempo similares, além de ter tamanho comparável.

Baker (1996), concentrando-se nos universais de tradução, pressupõe

algumas características de tradução que podem ser estudadas por meio de

corpora comparáveis, como, por exemplo, tendência à explicitação ou

simplificação nos textos traduzidos quando comparados com textos não

35

traduzidos, ou o uso mais convencional da linguagem em textos traduzidos,

indicando uma normalização.

Segundo Olohan (2004:38), a utilização de corpora comparáveis permite o

estudo do processo de tradução a partir do produto. A identificação de traços que

emergem em textos traduzidos pode ser baseada na comparação com textos da

língua alvo.

No nosso estudo, compilamos um corpus chamado ‘corpus de base’, que é

uma amostra retirada de um corpus de língua geral do português, o Banco de

Português, para compará-lo com o texto traduzido no intuito de saber se os

tamanhos do vocabulário de ambos são aproximados.

O corpus de base foi criado devido a fato de que as línguas inglesa e

portuguesa morfologias diferentes, não sendo, portanto, possível uma

comparação direta entre número de types das duas línguas. Por exemplo, um

substantivo no inglês e’ flexionado em termos de plural apenas (possuindo dois

types possíveis, por exemplo: cat, cats), enquanto no português ele se flexiona em

gênero, número e grau (possuindo pelo menos doze types: ‘gato’, ‘gata’, ‘gatos’,

‘gatas’, ‘gatão’, gatões’, ‘gatinho’, ‘gatinhos’, ‘gatinha’, ‘gatinhas’, ‘gatona’,

‘gatonas’). Como o type-token ratio é computado a partir das formas exibidas no

texto (e não das formas lematizadas, o que seria possível, mas não perfeito, visto

que os lematizadores muitas vezes apenas substituem o plural pelo singular, mas

não normalizam os casos de aumentativo e diminutivo ou de masculino e

feminino), não se pode comparar a quantidade de formas do texto em inglês com

as do texto em português, pois haveria distorção. Por isso, precisamos comparar o

texto traduzido a textos em língua portuguesa, para que seja respeitada a

morfologia das línguas em questão. Entretanto, o TTR também e’ sensível ao

tamanho do corpus, por isso não podemos comparar corpora de tamanhos

diferentes, visto que, conforme dito, corpora maiores possuem TTRs menores e

36

vice-versa. Tendo em mente todas essas restrições, foi preciso criar um corpus de

comparação que chamamos de ‘corpus de base’ para servir como ponto de

comparação do tamanho do vocabulário do texto traduzido. Dessa maneira, foi

criado um corpus com dimensões semelhantes ao corpus de estudo para que

pudéssemos descobrir em que medida a tradução se aproxima ou se afasta do que

consideramos como base para a língua portuguesa em termos de tamanho.

A comparação dos dois corpora em termos de tamanho de vocabulário se

fundamenta em duas premissas.

A primeira, é o universal da estabilização. Este universal prevê que textos

traduzidos apresentam características diferentes daqueles escritos originalmente

na LA. Portanto, o tamanho do vocabulário do texto traduzido comparado a um

texto original pode indicar a presença da estabilização.

Em segundo lugar, nas discussões sobre a liberdade humana no exercício

da linguagem. A observação de Stubbs (1996:56 apud Hoey, 2005:8), de que “os

falantes são livres, mas apenas dentro de determinados limites [...] A reprodução

do sistema é o produto não intencional do comportamento rotineiro do falante”,

encontra complemento em Biderman (2001:10):

“[...] os condicionamentos da fala e da estrutura da língua impõem ao indivíduo um

complexo mecanismo de automação no exercício da linguagem. Mais ainda: sendo a

língua uma instituição herdada, o indivíduo não cria o sistema convencional de

comunicação que recebeu por herança e adotou desde a infância, inconscientemente. [...]

O ato de comunicação falada e escrita tem, pois, essas duas faces paradoxais: as coerções

impostas pelo sistema lingüístico e a liberdade relativa que tem o sujeito de servir-se dos

elementos constitutivos da língua. Em alguns níveis do sistema lingüístico, a liberdade

poderá exercer-se um pouco mais (domínio sintático e léxico), em outros será

consideravelmente reduzida (domínio morfológico) e, por fim, poderá ser quase nula

(domínio fonético)”

37

Sabendo-se que a liberdade individual no uso da linguagem é circunscrita,

a comparação da tradução com o corpus de base do português deve revelar se o

tamanho do vocabulário de ambos os texto é aproximado.

Encerramos aqui a seção de Fundamentação Teórica, cujos conceitos serão

retomados durante a descrição da Metodologia e Análise dos Dados.

38

CAPÍTULO 2: Metodologia

Este capítulo é destinado à descrição da metodologia utilizada para este

estudo. Aqui também serão descritos os corpora especialmente compilados, os

métodos de coleta e os critérios para seleção e análise dos itens pesquisados.

Remetendo-nos ao início deste trabalho, o objetivo da pesquisa é descrever

características lexicais de uma tradução por meio da comparação entre dois

textos, o original e a tradução de um livro premiado, no intuito identificar como o

tradutor explorou o repertório da língua portuguesa e produziu um texto fluente.

Escolhemos trabalhar com uma tradução premiada porque desejávamos

encontrar, de modo sistemático, características de uma tradução premiada que

revelassem a expertise do tradutor. Além disso, supõe-se que a tradução foi

produzida por um profissional experiente, que fez um uso adequado e fluente da

língua portuguesa, podendo proporcionar uma análise que mostre a excelência e

o comportamento de um tradutor experiente reconhecido pela comunidade

acadêmica.

2.1. Corpus de estudo

Como exposto anteriormente, qualquer corpus deve ser orientado pelos

objetivos da pesquisa. Portanto, como desejávamos analisar aspectos de uma

tradução premiada e reconhecida, precisávamos de trabalhos avaliados e aceitos

pela comunidade acadêmica como obras de qualidade superior. Assim, seguimos

os passos das premiações anuais, pois as traduções são submetidas à apreciação

de um corpo de jurados, em geral tradutores e acadêmicos, que analisam o

trabalho conforme um conjunto de parâmetros preestabelecidos para avaliação.

39

Dessa forma, podemos considerar que as obras premiadas recebem um “selo de

qualidade” avalizado por especialistas.

Para o presente estudo, usamos a classificação do Prêmio União Latina de

Tradução Especializada do ano de 2006, organizado pela Câmara Brasileira do

Livro (CBL). A seleção desta premiação tem três razões muito simples, e que a

justificam plenamente: (i) premia traduções; (ii) a Câmara Brasileira do Livro é

uma entidade nacionalmente reconhecida; (iii) a escolha dos jurados é feita entre

profissionais qualificados do meio profissional e acadêmico.

O Prêmio União Latina de Tradução Especializada (antigo Prêmio União

Latina- CBL de Tradução Científica e Técnica) foi criado em 2000 com o intuito de

promover a língua portuguesa, sendo promovido pela União Latina, organização

intergovernamental e internacional de vocação lingüística, científica, técnica e

cultural, com apoio da Câmara Brasileira do Livro. O prêmio visa valorizar as

traduções de boa qualidade que tenham contribuído para o enriquecimento da

terminologia científico-técnica em língua portuguesa, estimulando também a

profissão do tradutor especializado16. A União Latina é uma organização

internacional fundada em 1954 pela Convenção de Madrid para evidenciar e

difundir a herança cultural e as identidades do mundo latino. Atua em três

grandes áreas: Cultura e Comunicação, Promoção e Ensino de Línguas, e

Terminologia e Indústria das Línguas. O prêmio oferecido em parceria com a CBL

está relacionado a esta última área, que está direcionada para enriquecer as

terminologias científicas e técnicas das línguas latinas, contribuir para o

desenvolvimento da cooperação em matéria de terminologia, neologia e

16 texto extraído da página de Internet da Câmara Brasileira do Livro www.cbl.org.br

40

indústrias da língua nos países latinos, e favorecer o multilingüismo na sociedade

da informação17.

Os jurados recebem um formulário com os aspectos a serem avaliados.

Para alguns destes, podem ser atribuídas notas de 1 a 5, em que 1 é a nota mais

baixa. Para as outros, os jurados devem fazer uma descrição e/ou justificativa.

Assim, os critérios de avaliação usados na ocasião estavam divididos da seguinte

forma:

i) Tradução (a) Técnica de tradução (nota 1 a 5) (b) Quantidade de incorreções detectadas (nota 1 a 5) (c) Qualidade do texto na LA (nota 1 a 5)

ii) Terminologia (a) Qualidade do ponto de vista terminológico (nota 1 a 5) (b) Quantidade de incorreções detectadas (nota 1 a 5) (c) Enriquecimento da terminologia em língua portuguesa (nota 1 a 5)

iii) Apreciação global (a) Qualidade do trabalho no seu conjunto (nota 1 a 5) (b) Justificação fundamentada (descrição/justificativa) (c) Exemplos de boas soluções encontradas pelo tradutor (descrição) (d) Exemplos de escolhas questionáveis, mas criativas (descrição)

Visamos aqui a uma simples apresentação dos critérios, sem qualquer

intenção de discuti-los, pois serviu-nos apenas como orientação para aspectos que

são observados para premiação. Apenas no sentido de identificar o nosso objetivo

de pesquisa com um dos itens usados para julgamento, vemos que ele se

enquadra em i.c – Qualidade do texto na LA, pois “qualidade”, na sua abrangência,

toca também no aspecto lexical, objeto da nossa descrição.

17 Texto extraído da página de Internet da União Latina em www.unilat.org

41

O primeiro lugar na premiação do ano de 2006, escolhido para a presente

pesquisa, foi ocupado pela tradução da obra DNA – The secret of life, de autoria de

James Watson, editado em língua inglesa em 2003, traduzida para o português

por Carlos Afonso Malferrari e publicada pela Companhia das Letras em 2005.

Nesse livro, o cientista James Watson, que em 1953 desvendou a estrutura da

molécula de DNA, faz um panorama da história da biologia moderna e mostra

como a genética revolucionou nosso conhecimento sobre a vida e o meio

ambiente. É uma obra de divulgação científica na área de engenharia genética que

reúne eventos da vida pessoal do autor, fala da jornada científica da engenharia

moderna, desde a sua criação até os nossos dias, além de mencionar fatos dos

bastidores da ciência.

2.1.1. Perfil do tradutor

Para esse trabalho, julgamos importante saber algumas informações sobre

o tradutor. Infelizmente, embora tenhamos solicitado à editora, nada

conseguimos nesse sentido.

Porém, uma pesquisa na Internet nos trouxe o nome do tradutor ligado à

tradução de obras sobre História, Política, Economia, Religiões18. Dessa forma, a

única coisa que percebemos é o ecletismo dos temas traduzidos. Uma informação

que nos seria valiosa, mas não temos como saber, é a expertise do tradutor em

engenharia genética.

18 Conforme consulta à página da Livraria Cultura (www.livrariacultura.com.br) feita em 15/03/2008.

42

2.1.2. Compilação do corpus de estudo

Uma vez decidida a obra a ser pesquisada, as cópias do original em inglês

e da versão traduzida para o português foram digitalizadas separadamente e

gravadas em arquivos de documento MS-word por capítulo. Cada um destes foi

minuciosamente conferido, para assegurar que o processo de digitalização não

havia corrompido de alguma forma o texto, como troca ou omissão de letras,

omissão de palavras, etc. Para evitar uma verificação apenas visual,

extremamente sujeita a falhas, usamos também o corretor ortográfico e gramatical

do MS-word, que localizava automaticamente as palavras desconhecidas ou

estruturas gramaticais consideradas incorretas, as quais eram então comparadas

com a cópia impressa, procedimento que contribuiu imensamente para acelerar o

processo com confiabilidade.

Uma observação importante é que apenas os textos dos livros foram

digitalizados, excluindo-se as legendas das figuras e as notas de rodapé. Tal ação

é facilmente explicada, pois as legendas e as notas em LF não estão exatamente na

mesma página do texto na LA, o que dificulta o processo de alinhamento entre os

textos, além de nada acrescentarem em termos de conteúdo, pois apenas

descrevem ou explicam fotos de pessoas, instalações, processos etc.

Após a digitalização e verificação, os capítulos do texto em LF foram

reunidos em um único arquivo e convertidos para o formato de texto (.txt), para

que pudessem ser processados por um software de processamento lingüístico. O

mesmo foi feito para o texto na LA. Quando tratamos de ferramentas

automatizadas, arquivos no formato de texto, ou .txt, são mais apropriados, pois

são mais flexíveis e permitem o desenvolvimento de ferramentas e o uso de

comandos de programação que entendam facilmente o seu conteúdo.

43

Um corpus é composto de textos e, portanto, por seqüências de palavras.

Em Lingüística de Corpus, existe uma nomenclatura técnica para as palavras

conforme se apresentam no texto. Assim, tokens representa o número total de

palavras do texto, types, o número de palavras sem considerar as repetições (se a

palavra “gene” aparecer 10 vezes, serão contabilizados 10 tokens, porém apenas 1

type); o type-token ratio (TTR), é o percentual de types sobre o número total de

tokens.

Assim, obtivemos dois corpora com as seguintes características:

TokensTokensTokensTokens TypesTypesTypesTypes TTRTTRTTRTTR

CCCCorpus Lorpus Lorpus Lorpus LFFFF (inglês)(inglês)(inglês)(inglês) 135.702 12.920 9,52%

CCCCorpus Lorpus Lorpus Lorpus LAAAA (português)(português)(português)(português) 142.709 16.691 11,70%

Diferença Diferença Diferença Diferença de de de de LFLFLFLF em relação aem relação aem relação aem relação a LLLLAAAA (%)(%)(%)(%) 5,16%a 29,19% 22,89%b

Características dos corpora com texto original (inglês), com o texto traduzido (português) e a diferenças nos volumes de tokens, types, e type-token ratio entre ambos (a) LA – LF = 7.007 (b) 11,70 / 9,52 (representa o quanto a tradução é maior do que o original)

De acordo com esse quadro de informações, a tradução é mais extensa

(medido pela quantidade de tokens, sendo 5,16% maior), mais rica do ponto de

vista do vocabulário (medido pela quantidade de types, sendo 29,19% mais rica),

além de ser mais densa lexicalmente (medido pelo Type-Token Ratio, TTR, sendo

22,89% mais densa).

2.2. Corpus de base

Conforme explicado no capítulo anterior, para sabermos até que ponto a

diferença de extensão, tamanho do vocabulário e densidade lexical são fruto

simplesmente da diferença natural entre as duas línguas ou se é resultado do

trabalho do tradutor, criamos o corpus de base, que é detalhado na seção a seguir.

Para a criação do corpus de base, o primeiro critério estabelecido foi o

tamanho, que deveria se aproximar ao máximo do tamanho do corpus de estudo

44

em LA. O segundo critério, é que deveria ser composto com textos extraídos de

um corpus de língua geral em português. Um corpus de língua geral disponível

em língua portuguesa é o Banco de Português 2.0 mantido pelo CEPRIL, LAEL19

sob responsabilidade do grupo de pesquisa Direct20 da PUC-SP, com cerca de 700

milhões de palavras do português brasileiro falado e escrito.

Assim, aleatoriamente, extraímos 190 arquivos dentro do Banco de

Português versão 2, que compuseram uma amostra com o tamanho necessário

para uma comparação com o nosso texto traduzido.

O corpus de base produzido tinha as seguintes características:

Corpus de baseCorpus de baseCorpus de baseCorpus de base TokensTokensTokensTokens TypesTypesTypesTypes TTRTTRTTRTTR

143.947 18.060 12,55%

Características do corpus de base

O corpus de base, uma amostra do Banco de Português, constitui o corpus

comparável que será confrontado com o texto traduzido em termos de tamanho

de vocabulário e densidade lexical. Com a comparação entre os dois corpora,

fundamentada nas discussões sobre a liberdade humana no exercício da

linguagem e nos limites que a cercam, espera-se conhecer o comportamento do

tradutor em relação ao uso rotineiro da língua portuguesa. Dessa forma, se os

tamanhos de vocabulário em ambos os corpora forem aproximados, podemos

entender que o vocabulário usado na tradução acompanha o emprego do

vocabulário típico do português, não sendo conseqüência da prática tradutória.

19 CEPRIL é o Centro de Pesquisa, Recursos e Informação em Linguagem, ligado ao Programa de Pós-graduação do LAEL (Lingüística Aplicada e Estudos da Linguagem). Os textos do Banco de Português não estão disponíveis para o público em geral. Como aluna da instituição, a pesquisadora obteve acesso para a extração dos textos.

20 Sites do grupo: www2.lael.pucsp.br/direct, também na base de dados do CNPq.

45

2.3. Ferramentas automatizadas utilizadas na pesquisa

Antes dos anos de 1960, os corpora eram compilados e analisados

manualmente. Foi nessa época que computadores mainframe passaram a equipar

centros de pesquisa universitários e foram usados para pesquisas em linguagem

(Berber Sardinha, 2004:4). A popularização dos computadores possibilitou que

várias tarefas manuais fossam automatizadas, com um ganho significativo em

qualidade e tempo. Hoje em dia, os computadores pessoais são tão acessíveis que

dificilmente alguém faria uma exploração de corpus sem contar com ferramentas

automatizadas que façam o trabalho repetitivo e enfadonho que precede a análise.

Como é de conhecimento geral, o ser humano não está completamente

habilitado a tarefas repetitivas (Berber Sardinha, 2004:4), podendo,

inadvertidamente, deixar que se produzam erros nos resultados que dependam

de tais atividades. Todos estes fatores, por si, já justificam a utilização de

ferramentas automatizadas, dando mais confiabilidade às pesquisas de corpus.

Para o nosso trabalho, usamos o sistema operacional Windows, em que

podem ser executados a maioria dos programas de processamento lingüístico no

mercado.

2.3.1. WordSmith Tools

Compilados os corpora, precisamos analisá-los individualmente. Os

softwares para processamento de análise lingüística oferecem várias informações

sobre os conteúdos dos corpora, como, por exemplo, o número de tokens e de

types. Porém, um programa de computador pode fazer muito mais do que

contabilizar palavras. Outras informações que se pode obter por meio desses

softwares são as listas de palavras (wordlists), as palavras chaves (keywords) e as

concordâncias.

46

No mercado, há alguns softwares para processamento de análise lingüística.

Dois deles são muito utilizados, o WordSmith Tools, disponível em

www.lexically.net, e o Unitex, disponível gratuitamente em http://www-

igm.univ-mlv.fr/~unitex/. Optamos pelo WordSmith Tools V 3.0 por ser muito

mais fácil de operar, apesar de não ser gratuito

Lista de palavras (wordlist) é uma relação com todas as palavras do corpus

e a freqüência de cada uma delas. Em geral, a lista de palavras é a primeira

análise feita em um corpus, pois oferece um quadro geral da distribuição no texto.

Pode ser apresentada pelo software em ordem alfabética, ordem de freqüência e

um total estatístico que informa as quantidades totais de types e tokens, entre

outras informações. As três formas são mostradas na imagem de tela abaixo.

Figura 1 – três formas de apresentação da wordlist

Para facilitar a comparação, colocamos na tela as três formas de

apresentação dessas informações. No lado esquerdo, mostramos uma estatística

com os volumes totais do corpus (que o WordSmith Tools chama de Statistics),

como, por exemplo, a quantidade de types e de tokens. Na parte central da tela,

47

vemos a relação de palavras do corpus ordenada pelas suas freqüências (que o

WordSmith Tools chama de Wordlist(F)), que aparecem na segunda coluna, e os

percentuais de cada freqüência em relação à quantidade de types do corpus.

Assim, a palavra the tem 8873 ocorrências, o que corresponde a 6,54% de 135.702

types. Do lado direito, vemos a mesma lista da parte central disposta em ordem

alfabética (que o WordSmith Tools chama de Wordlist(A)).

As concordâncias, por sua vez, são listagens de ocorrências de um item

específico, chamado de palavra de busca ou nódulo, acompanhado do texto ao

seu redor, ou cotexto. Segundo Berber Sardinha (2004:106), as concordâncias são

ferramentas indispensáveis no estudo de colocações e da padronização lexical,

pois é por meio delas que podemos observar as coocorrências de palavras.

Apresentamos um exemplo de concordância da palavra sure na imagem de tela

abaixo.

Figura 2 – concordâncias de palavra sure, que aparece no centro.

48

Outro recurso oferecido é a extração de palavras-chave, ou keywords.

Segundo Berber Sardinha (2004:96), são itens de uma lista resultante da

confrontação entre as freqüências das listas de palavras do corpus de estudo de

um corpus de referência, ou palavras cujas freqüências são estatisticamente

diferentes no corpus de estudo e no corpus de referência. Para exemplificar, se

compararmos um corpus de estudo qualquer com um corpus de língua geral, as

palavras mais freqüentes no corpus de estudo que apresentam freqüência baixa

no corpus de língua geral serão as palavras-chave. Para o presente trabalho, não

utilizamos keywords.

Cabe, nesse momento, uma pequena observação a respeito das ferramentas

que testamos para este estudo. Quando iniciamos a nossa pesquisa, fizemos testes

com as versões 3.0 e 4.0 do WordSmith Tools e o Unitex, de forma que obtivemos

3 resultados estatísticos. Vimos que estes diferiam entre si na contabilização de

types e tokens e constatamos que as versões do WordSmith Tools e o Unitex usam

diferentes métodos para contar as palavras. Assim, usamos apenas o WordSmith

Tools 3.0, pois percebemos que, se usássemos versões ou ferramentas diferentes,

poderíamos comprometer os resultados do estudo.

2.3.2. Ferramentas CEPRIL – PUCSP

O Centro de Pesquisa, Recursos e Informação em Linguagem (CEPRIL), da

PUC-SP, disponibiliza o maior conjunto de ferramentas de análise de corpus

gratuitas do mundo para pesquisa e análise em Lingüística de Corpus no website

http://www2.lael.pucsp.br/corpora/index.htm.

Uma vez que o WordSmith Tools não oferece para alinhamento,

concordância paralela e lematização, utilizamos, para o presente trabalho, o

Alinhador de corpora, o Concordanciador paralelo, e o Etiquetador/lematizador

49

disponíveis na página do CEPRIL. Prosseguiremos com a descrição de cada uma

dessas ferramentas.

2.3.2.1 Alinhador de corpora

O alinhamento é um procedimento que extrai os trechos do texto da LF e

da LA colocando-os um abaixo do outro. Assim, será possível conhecer qual a

solução dada pelo tradutor a qualquer termo ou expressão que se deseje

pesquisar. No presente trabalho, usaremos paralelismo unidirecional (inglês →

português) e, para isso, precisamos de um software para a direção inglês –

português. O alinhador do CEPRIL não e’ o único disponível; na verdade, ele é

uma implementação online do Vanilla Aligner, usado por Church e Gale e está

disponível em http://www2.lael.pucsp.br/corpora/alinhador/index.html. Outros

alinhadores disponíveis na rede incluem o Align, MtAlign, The Uplug Sentence

Aligner, e Pesa (todos disponíveis na página

http://tcc.itc.it/people/forner/multilingualcorpora.html). Porém, como o pacote de

ferramentas do CEPRIL-PUC-SP não necessita de licença para uso e o seu

manuseio já é conhecido pela pesquisadora, tornou-se a opção mais racional.

Na pagina de Internet do alinhador do CEPRIL, constam todas as

instruções para alinhamento, desde a preparação e formato do texto até a

execução do programa. Este aligner, como também são conhecidos estes

programas, é baseado no algoritmo do Vanilla Aligner, usado por Church e Gale e,

de acordo com Danielsson e Ridings (1997)21, tem um índice de acerto de cerca de

95%, número considerado bastante elevado. O alinhador serve para qualquer

língua (ocidental), independente da direção e a experiência mostra que o

21 Este artigo está disponível na Internet sem numeração de páginas.

50

alinhamento de textos técnicos com as suas respectivas traduções apresenta

melhores resultados, o que parece fazer sentido, já que o foco da tradução está na

informação, e não na estética do texto.

Quando há dois textos para serem alinhados, o primeiro passo é

determinar em que pontos do texto serão feitas as quebras de segmento. Essa é

uma informação que o programa espera receber para poder dividir o texto em

sentenças, por exemplo. Para isso, devem ser inseridos os marcadores “.EOS” ao

final de cada frase e “.EOP” ao final de cada parágrafo. As inserções dos

marcadores devem ser feitas manualmente, nos corpora com os textos na LF e na

LA, por meio de um editor de textos, como, por exemplo, o MS-word.

Para a preparação dos textos, valem algumas recomendações:

1. Na primeira tela da ferramenta, o usuário deve informar os marcadores

para segmento menor (sentença) e segmento maior (parágrafo). Como

padrão, a ferramenta sugere “.EOS” e “.EOP”, para os segmentos maior e

menor, respectivamente. Caso seja necessário trocar o marcador, basta que

se insira esta informação nas caixas apropriadas, conforme a Figura 3, em

que o padrão foi trocado para “.FIMS” e “.FIMP”.

51

Figura 3 - Caixas para alteração de marcadores

2. Ao término de um segmento maior (ou parágrafo), sempre deve existir

também a marcação do segmento menor. Exemplo de um parágrafo na LF

e o seu correspondente na LA:

Taking the fiftieth anniversary as an opportunity to pause and take stock

of where we are, we give an unabashedly personal view both of the history

and of the issues .EOS Moreover, it is JDW's personal view and is

accordingly written in the first-person singular .EOS The double helix was

already ten years old when DNA was working its in utero magic on a fetal

AB .EOS .EOP

Tomando o qüinquagésimo aniversário como uma oportunidade de parar e

efetuar um balanço da situação em que nos encontramos, não temos vergonha

em apresentar aqui uma visão estritamente pessoal da história e seus

desdobramentos .EOS Além disso, sendo esta a visão pessoal de James

Watson, foi escrita na primeira pessoa do singular .EOS A dupla-hélice já

tinha dez anos de idade quando o DNA começou a realizar sua magia in útero

num Andrew Berry ainda em estado fetal .EOS .EOP

Depois de preparados, os textos devem ser colocados nas caixas de texto

indicadas como “Texto 1” e “Texto 2”, conforme orientação contida na página da

PUC-SP. Basta usar os comandos para copiar e colar do seu editor de textos. Veja

exemplo na Figura 4.

52

Figura 4 - Texto original copiado para a caixa indicada como “Texto 1” por meio dos comandos copiar e colar.

O mesmo procedimento deve ser executado para o texto traduzido,

colocando-o na caixa indicada como “Texto 2” e clique em “Alinhar”.

Dependendo do tamanho do texto, o tempo de alinhamento pode ser um pouco

mais longo. Ao término, aparecerá a tela com os resultados. Basta marcá-los na

tela e usar os comandos de copiar e colar para um arquivo tipo texto, vazio,

aberto no NotePad (bloco de notas), como abaixo:

53

Figura 5 - Arquivo no formato de texto (.txt) com os resultados do alinhamento, criado por meio de cópia da tela para o Notepad

Vale observar que, para a ferramenta, é indiferente qual dos dois textos é o

original ou a tradução. A ordem em que os textos foram colocados nas caixas será

a mesma apresentada no alinhamento. Acreditamos que o original deve aparecer

antes da tradução e, por isso, inserimos, na caixa 1 o texto original na LF e na

caixa 2, a tradução na LA.

Ainda observando a Figura 5, entendemos que o resultado do alinhamento

não é disponibilizado diretamente em um arquivo, mas exibido na tela. É

necessário, então, marcar todo o texto na tela e usar o recurso para copiar e colar

disponível no seu sistema operacional, gravando o resultado em um arquivo no

formato de texto. Concluído este passo, é preciso de uma ferramenta para a

extração dessas informações, agora dispostas paralelamente. Para isso, utilizamos

o Concordanciador Paralelo, próxima ferramenta a ser descrita.

54

Num corpus alinhado, os segmentos (frases ou parágrafos, geralmente) na

LF e na LA, devem ter conteúdo correspondente e colocado na mesma ordem, de

forma que o primeiro segmento do texto na LF corresponda ao primeiro

segmento da LA, e assim por diante. Sabemos que, por questões de estilo ou

necessidade, o tradutor pode quebrar ou aglutinar segmentos, mas a seqüência

lógica não pode ser alterada. Dessa forma, notas de rodapé, legendas de fotos,

entre outros, devem aparecer na mesma posição em ambos os textos, na LF e na

LA, pois o alinhador obedece à ordem dos textos e para unir os segmentos.

Fizemos um teste com uma pequena amostra de textos em português e em inglês

extraídos do corpus da pesquisa e, deliberadamente, trocamos um parágrafo

inteiro de posição. Abaixo, na imagem da tela, apresentamos, na parte superior, o

trecho da tradução na ordem correta e, na parte inferior, o último parágrafo foi

colocado logo após o primeiro. As setas marcam segmento trocado.

Figura 6 – Acima, texto conforme versão impressa. Abaixo, texto alterado, com um segmento fora de lugar. O segmento trocado é indicado pelas setas vermelhas

55

Abaixo, na parte superior, o resultado do alinhamento com a tradução na

ordem correta e, na parte inferior, com a ordem alterada. As setas vermelhas

marcam o local da alteração. Vemos que o alinhamento é feito, mas não há

correspondência entre original e tradução, pois o segundo parágrafo do original

foi alinhado com o último da tradução, que estava na ordem errada.

Figura 7 – Acima alinhamento feito com os segmentos na posição correta. Abaixo, alinhamento feito com o segmento fora do lugar

Dessa forma, vemos que a ordem da tradução deve acompanhar o seu

original para que o alinhamento seja feito corretamente.

2.3.2.2 Concordanciador Paralelo

Para que possamos fazer as buscas no corpus alinhado, precisamos de um

programa de busca próprio para esse tipo de corpus, conhecido como

concordanciador paralelo. Para um corpus não alinhado, concordância pode ser

definida como uma listagem das ocorrências de um item específico, dispostas de

56

tal modo que a palavra de busca aparece centralizada na página ou tela de

computador (Berber Sardinha, 2004:105). Os softwares de processamento de

corpora normalmente dispõem de um concordanciador, mas lidam somente com

corpora não alinhados, de forma que precisamos de um produto específico para

corpora paralelos. A ferramenta que utilizamos para executar esta tarefa está em

http://www2.lael.pucsp.br/corpora/parallelconc/index.html. É um

concordanciador que traz o segmento da LF lado a lado com o seu

correspondente de LA.

A tela do concordanciador utilizado é a seguinte:

Figura 8: Tela inicial do concordanciador paralelo

Primeiramente, é necessário enviar para o servidor o corpus já alinhado,

que foi salvo em um arquivo tipo texto, conforme descrito acima, para que a

ferramenta possa reconhecê-lo. Para isso, basta clicar no link Faça envio (upload)

do corpus que pretende usar, conforme Figura 8. Os campos obrigatórios deverão

57

ser preenchidos e o nome do arquivo a ser carregado deverá ser informado. Após

o término da carga, aparecerá um número de identificação, que poderá ser usado

quantas vezes forem necessárias dentro do período de uma semana, que é o

tempo máximo de permanência do arquivo no servidor. Portanto, este número

deve ser anotado em local seguro. Passado este tempo, o arquivo é apagado do

servidor, e é necessária uma nova carga.

Depois de alinhar e carregar os textos no servidor, as concordâncias podem

ser extraídas, sendo que o concordanciador aceita apenas uma palavra de cada

vez. Assim, se o usuário desejar buscar uma expressão como ‘x y z’, deve digitar

apenas uma das palavras constantes na expressão (‘x’, ‘y’ ou ‘z’) no espaço

correspondente..

Na página de Internet

http://www2.lael.pucsp.br/corpora/parallelconc/index.html, deverá ser informado

o número de identificação do corpus e a palavra de busca. Em seguida, deve-se

clicar o botão “Fazer concordância”. A tela com as concordâncias aparecerá com

os textos em colunas, sem esquecer que a ordem das colunas, da esquerda para a

direita, obedece à ordem dos textos inseridos nas caixas “Texto 1” e “Texto 2”

durante o alinhamento. Abaixo, a tela com a concordância da palavra condition,

que aparece em negrito:

58

Figura 9: Concordância do corpus paralelo da palavra condition

Para que possamos arquivar os resultados, basta marcar o texto na tela,

usar o comando para copiar e depois colar em um arquivo do MS-Word ou do

MS-Excel.

2.3.2.3 Etiquetador/lematizador

O etiquetador do CEPRIL é uma implementação online do Tree-tagger,

uma ferramenta para anotação e lematização desenvolvida no TC Project, no

Institute for Computational Linguistics da Universidade de Stuttgart, na

Alemanha.

A etiquetagem consiste na inserção de informações referentes a cada

unidade do texto, seja ela de ordem morfológica, sintática, semântica ou

discursiva (Berber Sardinha, 2004:150). O etiquetador do CEPRIL insere etiquetas

morfossintáticas e lematiza as palavras. Como não pesquisamos a classe

59

gramatical das palavras, nesta pesquisa usamos o etiquetador apenas como

lematizador, isto é, para lematizar o corpus de estudo. O lematizador identifica o

lema de uma palavra, que é a sua forma inflexionada. Assim, os verbos ‘escrevi’,

‘escreveu’, ‘escrevera’, estarriam todos lematizados sob o seu lema escrever, assim

como os substantivos ‘gato’, ‘gata’, ‘gatos’, ‘gatas’, ‘gatão’, gatões’, ‘gatinho’,

‘gatinhos’, ‘gatinha’, ‘gatinhas’, ‘gatona’, ‘gatonas’ seriam lematizados sob o seu

masculino singular ‘gato’. A lematização, neste estudo, serviu para comparar o

texto traduzido com o corpus de base em termos de tamanho de vocabulário,

conforme explicado no tópico 2.2.

O etiquetador/lematizador do CEPRIL está em

http://www2.lael.pucsp.br/corpora/index.htm. Para utilizá-lo, é necessário, assim

como no concordanciador paralelo, enviar o corpus alinhado para o servidor ,

salvo em um arquivo tipo texto conforme descrito acima, para que a ferramenta

possa reconhecê-lo. Para isso, basta clicar no link Enviar (upload) corpus. Os

campos obrigatórios deverão ser preenchidos e o nome do arquivo a ser

carregado deverá ser informado. Após o término da carga, aparecerá um número

de identificação, que poderá ser usado quantas vezes forem necessárias dentro do

período de uma semana, que é o tempo máximo de permanência do arquivo no

servidor. Portanto, este número deve ser anotado em local seguro. Passado este

tempo, o arquivo é apagado do servidor, e é necessária uma nova carga.

De posse desse número, usamos então o link Etiquetador online para

português, inglês, alemão, francês, espanhol e italiano. Na página seguinte,

deverá ser informada a língua do corpus que está sendo enviado e o código do

corpus já enviado. Depois disso, é só clicar em “Fazer” para que a etiquetagem

seja completada. A tela de resultado é a seguinte:

60

Figura 10: Tela de resultado do etiquetador

Como é possível ver na imagem da tela, são produzidas três colunas, uma

com a palavra, a segunda com a etiqueta morfossintática e a terceira com os

lemas. A ferramenta apenas exibe na tela e não produz um arquivo, de forma que

é necessário selecionar todo o texto na tela, copiar e colar em um arquivo de texto

sem formatação (Notepad).

2.4. Método para análise dos dados

Nesta seção, descrevemos a utilização das ferramentas descritas acima para

analise de nossos dados.

2.4.1. Extração das listas de palavras

Ao iniciar a exploração de um corpus, é necessário conhecer melhor o seu

conteúdo. Dessa maneira, começamos pela extração da lista de palavras,

61

produzida pelo WordSmith Tools, que proporciona uma visualização da

distribuição do texto e é exibida em três aspectos, por ordem de freqüência, por

ordem alfabética e uma estatística geral.

Os corpora com o texto original, com a tradução e o corpus de base foram

submetidos ao WordSmith Tools e as informações obtidas de cada um deles são:

Corpus LFCorpus LFCorpus LFCorpus LF OriginalOriginalOriginalOriginal

Corpus LACorpus LACorpus LACorpus LA TraduçãoTraduçãoTraduçãoTradução

Corpus de Corpus de Corpus de Corpus de basebasebasebase

TokensTokensTokensTokens 135.702 142.709 143.947

TypesTypesTypesTypes 12.920 16.691 18.060

TTRTTRTTRTTR 9,52% 11,70% 12,55%

Características dos corpora com o texto original, com o texto traduzido e de base

2.4.2. Lematização

Conforme mencionado anteriormente, o resultado da lematização é uma

lista com as palavras do texto reduzidas à sua forma canônica, sem derivações ou

flexões, o que possibilita uma contabilização mais precisa do tamanho de

vocabulário, já que são eliminadas as dispersões que podem encobrir o volume

real. Muitos estudos usam a lematização para averiguar o comportamento das

diferentes formas de uma mesma palavra (Olohan, 2004:52).

Para este estudo, comparamos o corpus com o texto traduzido para o

português com o corpus de base (extraído do Banco de Português), ambos

lematizados, para saber se ambos apresentam tamanho aproximado ou não.

A ferramenta etiquetador/lematizador do CEPRIL, produziu, por default,

para cada um dos dois corpora, uma lista com três colunas que foi gravada em

arquivo de texto (.txt). Porém, a única coluna que nos interessa é a terceira, que

contém os lemas, de forma que foi necessário eliminar as outras duas. Na coluna

de lemas, as formas ‘estávamos’, ‘estava’, ‘estivera’, por exemplo, estariam todas

62

como ‘estar’ de forma que podem ser contabilizadas como um type, e não como

três.

O MS-Excel é bastante eficiente para tratar de listas com colunas,

permitindo várias operações, como, por exemplo, a inclusão e exclusão de

colunas. Assim, abrimos o MS-Excel e o arquivo que contém a lista etiquetada

com texto traduzido (Notepad). No Notepad, selecionamos o texto inteiro,

copiamos e colamos na planilha MS-Excel. Para selecionar as duas primeiras

colunas a serem excluídas, basta posicionar o cursor na letra “A” que aparece no

alto da primeira coluna, pressionar o botão esquerdo do mouse e arrastar até a

coluna “B”. Depois disso, com um clique no botão direito do mouse, serão

exibidas algumas opções, entre elas “Excluir”, que eliminará as duas colunas

selecionadas. Apresentamos a imagem da planilha com as duas primeiras colunas

selecionadas e o menu de opções:

Figura 11 – Planilha do MS-Excel com o resultado da etiquetagem e lematização. As duas primeiras colunas estão marcadas para serem excluídas

63

Observando-se na imagem da tela acima, vemos que ‘estávamos’ aparece

como ‘estar’ na terceira coluna, assim como todas as outras formas deste verbo.

Como a extração da lista de palavras agrupa todas as que são iguais, aquelas que

estão sob o lema ‘estar’ contarão aqui como um único type, não importando

quantas formas desse verbo tenham aparecido no texto.

Conforme explicado anteriormente, não é possível fazer comparações entre

o inglês e o português, de forma que apenas passaram pelo procedimento de

lematização o texto traduzido na LA e o corpus de base, que são comparáveis em

língua portuguesa.

O arquivo então deverá ser salvo como arquivo texto (.txt). Nesse

momento, conseguimos eliminar as duas primeiras colunas de um dos corpora. O

procedimento foi, então, repetido para o corpus de base, de forma que obtivemos

duas listas de lemas gravadas em arquivos texto.

As listas com os lemas, separadamente, foram submetidas ao WordSmith

Tools, que produziu as listas de palavras e as informações de cada uma delas:

LemasLemasLemasLemas



TokensTokensTokensTokens 61.366 60.857

TypesTypesTypesTypes 5.760 6.356

TTRTTRTTRTTR 9,39% 10,44%

Características do corpus com o texto traduzido e o seu comparável, o corpus de base

2.4.3. Alinhamento

O procedimento seguinte foi o alinhamento dos dois corpora de estudo

para que pudéssemos fazer extrações dos segmentos do texto original

acompanhados dos seus correspondentes traduzidos. Esse processo foi executado

conforme descrito no item 2.3.2.1. Para esta investigação, conforme dito acima, foi

64

realizado o alinhamento unidirecional (inglês → português), obtido por meio da

ferramenta de alinhamento do CEPRIL.

Estatisticamente, processos de alinhamento que usam o algoritmo do

Vanilla Aligner têm um índice de acerto de cerca de 95% (cf. item 2.3.2.1.). No

nosso alinhamento foram produzidos 10.442 segmentos alinhados, dos quais 847

foram analisados (8,11% do total), sendo que nenhum estava incorreto, isto é,

100% de acerto.

2.4.4. Seleção dos itens para análise

Convém relembrar que, entre as perguntas de pesquisa, há três que se

relacionam diretamente com as escolhas feitas pelo tradutor: (i) o tradutor

empregou traduções variadas para cada palavra do original?; (ii) o fato de uma

palavra do inglês se assemelhar a uma do português pode ter exercido influência

sobre a variedade de traduções empregadas?; (iii) tradutor se prendeu a acepções

dicionarizadas?

Tendo em vista a responder a essas questões, foi claramente necessário

fazer um recorte nos dados, visto que não seria possível analisar todas as palavras

do corpus de estudo. Assim, estabelecemos como ponto de partida o texto

original, de onde selecionamos os itens como um recorte para viabilizar a análise.

Ressaltamos aqui que a seleção de palavras isoladas é apenas um início para,

posteriormente, estudarmos o uso dessas palavras no contexto, no original e na

tradução.

Antes de mais nada, faz-se necessária a distinção entre palavra gramatical e

palavra de conteúdo. As palavras gramaticais são aquelas pertencentes a

categorias fechadas (conjunções preposições, pronome ou artigo), enquanto as

palavras de conteúdo, também chamadas de ‘classe aberta’, pois podem receber

65

afixos dando origem a derivações e novas palavras, pertencem às categorias

morfossintáticas substantivos, verbos, adjetivos e advérbios, interjeição e numeral

(Berber Sardinha, 2004:166). As categorias fechadas podem receber flexão de

gênero e número, enquanto as abertas podem receber prefixos, sufixos, flexão de

gênero, número, grau, desinências verbais, sinônimos, etc. Como um dos

propósitos deste estudo é averiguar em que medida o tradutor emprega

traduções variadas do português para cada palavra do inglês, as palavras de

conteúdo são as que oferecem a característica que desejamos investigar, pois

apresentam a possibilidade de ser traduzidas por vários sinônimos diferentes.

Para que o processo fosse feito de forma isenta, isto é, sem que

predeterminássemos certas palavras como mais desejáveis para análise e

assim introduzíssemos um viés na pesquisa, colocamos a lista de freqüência

do texto em LF no MS-Excel e realizamos um processo para que os itens

fossem reordenados de maneira aleatória, de forma a evitar qualquer

intervenção humana ou escolha intencional por parte da pesquisadora.

A função matemática denominada ALEATÓRIO() disponível no MS-Excel

resulta em um número qualquer, calculado pelo sistema e impossível de ser

previsto. Usamos essa função para substituir as posições de classificação na lista

de freqüências para cada uma das palavras. Assim, usando essa função sobre o

número 1 da palavra que estava em primeiro lugar na classificação, esta recebeu

outro número. Repetimos a operação para todas as palavras da lista até a última.

Assim, Em seguida, fizemos uma reordenação da lista usando essa nova

classificação. Dessa forma, produzimos uma lista inteiramente reordenada e de

forma totalmente aleatória e automática. Na imagem de tela abaixo, mostramos a

lista de freqüências do texto original e a primeira palavra, the, com a classificação

alterada pela função ALEATÓRIO().

66

Figura 12 – nova classificação na lista atribuída pela função ALEATÓRIO () do MS-Excel

2.4.4.1. Estudo piloto

Fizemos, então, um estudo piloto para detectar alguns pontos de entrada

nos dados e testar a metodologia apresentada até aqui. Para isso, selecionamos as

cinco primeiras palavras de conteúdo dessa lista reordenada e extraímos as

concordâncias por meio do concordanciador paralelo, relacionando quais

traduções foram usadas para cada uma delas e as freqüências. As palavras de

busca elegidas aleatoriamente como pontos de partida para a investigação piloto

foram: alternative, condition, control, enormous, e start. No quadro abaixo, podemos

ver o termo em inglês, a tradução prima facie em português, isto é, a tradução

imediata, segundo Tognini-Bonelli (2001:134), a quantidade de ocorrências no

texto original e quais os traduções usadas pelo tradutor e as ocorrências de cada

um deles na tradução. A tradução imediata, ou prima facie, pode se apresentar, por

67

exemplo, quando a palavra em inglês tem semelhança com alguma palavra da

língua portuguesa.

palavrapalavrapalavrapalavra prima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em português totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN alternative alternativo(a) 18 alternativo 3

alternativos 2 alternativa 12 alternativas 1

condition condição 23 afecção 1 condição 11 doença 6

enfermidade 1 mal 3

síndrome 1 control controle 16 Controle 15

coordenação 1 enormous (ly) enorme 23 colossal 1

descomunal 1 enorme 7

extraordinário 1 fabulosos 1 fenomenais 1 gigantesco 5 grande 2 grandioso 1

imensamente 1 tremendo 2

start (sem prima facie possível)(sem prima facie possível)(sem prima facie possível)(sem prima facie possível) 23 a partir 1 começar 3 começaria 1 começariam 1 começo 1 estava 1 iniciado 1 iniciar 3 início 4

ponto de partida 2 primeiro 1

(sem tradução) 2

Palavras para a análise piloto

Observando o quadro acima, vemos que há 4 palavras que apresentam

semelhança com palavras do português, mostrando que ambas podem ter a

mesma origem, forma ou sentido. São palavras cognatas do português e, para

68

compreendermos melhor como esse conceito se insere no nosso trabalho,

iniciaremos pela definição de cognatos.

Santos (1995), que aborda na sua obra traduções de palavras cognatas entre

inglês e português, oferece uma definição extraída de Lado (1979:115 apud Santos

1995:XIX):

“cognatos aqui são palavras semelhantes em forma e sentido, independentemente da

origem. O sentido comum é ‘aparentado na origem’. Para nós, mesmo se duas palavras

não forem aparentadas na origem, serão chamadas cognatas se forem semelhantes em

forma e sentido.”

Entende-se, pois, que uma palavra pode ser considerada cognata tanto pelo

aspecto etimológico como morfológico. O conceito de cognatos é fundamental

para o nosso estudo, pois pretendemos descobrir se o fato de uma palavra em

inglês se assemelhar a uma do português pode influenciar na variedade de

traduções empregadas para ela na tradução. Entretanto, ao observar as palavras

em inglês extraídas do texto, no quadro acima, vemos que a escolha de uma

tradução cognata em português é apenas uma das várias possibilidades de

tradução, de forma que decidimos adotar uma nomenclatura que não vinculasse

diretamente a palavra em inglês com a sua aparentada em português.

Nomeamos, então, duas categorias: ‘com tradução imediata’ (CTI) para as

palavras em inglês que apresentam a possibilidade de uma tradução cognata e

‘sem tradução imediata’ (STI) para as outras.

Podemos notar que quatro das palavras em inglês pertencem à categoria

CTI (alternative, condition, control, enormous), para as quais o tradutor usou um

total de 23 traduções, enquanto para apenas uma palavra STI (start), ele usou 12

traduções. Assim, calculando-se a média aritmética, para cada palavra do inglês

que pertence à categoria CTI foram usadas 5,75 palavras em português (23/4 =

5,75) contra 12 de média de STI. Esse valor é menos da metade das 12 variações

usadas para a única palavra da categoria STI. A partir da constatação dessas

69

proporções, decidimos expandir a seleção e análise no intuito de investigar como

o tradutor lida com palavras das categorias CTI e STI. Ou seja, a tradução de

palavras com opções imediatas parecia ser menos variada do que a tradução de

palavras sem as opções imediatas. Dessa forma, parecia-nos interessante

perseguir essa hipótese de que o tradutor premiado, quando confrontado com

palavras com tradução imediata, usa menos variações de tradução do que quando

confrontado com palavras sem opções imediatas. Poderíamos dizer que, tendo em

vista esses achados do estudo piloto inicial, poderíamos vir a supor que haveria,

talvez, dois estilos de tradução dentro da mesma obra: um para palavras mais

‘fáceis’ de traduzir e outro para palavras mais ‘complicadas’ de traduzir. Assim,

no intuito de substanciar a investigação, estabelecemos que deveriam ser

selecionadas 20 palavras CTI e 20 STI.

2.4.4.2. Seleção de palavras para o estudo principal

Usando a mesma lista de palavras reordenada, montamos duas listas com

20 palavras de cada categoria, CTI e STI. O método utilizado para a seleção foi a

verificação das palavras, uma a uma, na ordem em que se apresentavam na lista,

e a classificação como CTI ou STI até que se completassem duas listas, uma para

cada categoria, com 20 palavras cada. As palavras gramaticais eram dispensadas,

passando-se imediatamente à palavra seguinte.

Para enquadrar as palavras na categoria CTI, usamos o critério

etimológico, observando a origem da palavra em inglês informada pelo dicionário

American Heritage (1994), que deveria ser latina. Além disso, o seu ‘parente’ da

língua portuguesa deveria apresentar semelhança morfológica e mesma

etimologia, verificadas no dicionário Houais (2001).

70

Depois de selecionados os itens, fizemos a concordância paralela de cada

um deles. A concordância paralela apresenta os segmentos de cada ocorrência do

original acompanhados pelos segmentos correspondentes na tradução, que

analisamos um a um, de forma a identificar os traduções diretas em português e

os padrões associados elas. As concordâncias paralelas foram apresentadas no

tópico 2.3.2.2 com o exemplo da concordância paralela da palavra condition.

Assim, foram produzidas duas listas com 20 palavras cada, uma com

palavras da categoria CTI e outra com palavras da categoria STI, detalhadas nos

quadros abaixo, em que aparecem as palavras selecionadas no texto original,

quantas ocorrências, quais as traduções usadas na tradução e as ocorrências de

cada uma delas. Para a categoria CTI incluímos uma coluna que menciona qual

seria a tradução prima facie, ou imediata. Sempre que, no texto traduzido, não

encontramos uma tradução direta em português para o termo em inglês,

detalhamos como ‘(sem tradução)’.

Categoria CTICategoria CTICategoria CTICategoria CTI Categoria STICategoria STICategoria STICategoria STI agriculture argued alternative bewildering (ly) apart birth

application field condition hunt control inherited

controversy level effects linked

enormous purpose(s) functioning range limited remain parent(s) start problems step producing strain progress strong regulation sure relative traits rest trial story wrong success yield

Palavras selecionadas do texto original para a análise principal das categorias CTI e STI

71

Encerramos aqui a seção de Metodologia, com a descrição completa de

todos os recursos utilizados assim como os passos seguidos, no intuito de orientar

o leitor durante a análise.

72

CAPÍTULO 3: Análises dos dados

Primeiramente, relembrando que o objetivo do presente trabalho é

identificar características presentes em uma tradução premiada que revelem a

expertise do tradutor, iniciamos a análise observando o tamanho de vocabulário

do texto. Em seguida, mostraremos como o tradutor emprega as traduções em

termos de variedade e identificaremos se as escolhas feitas por ele são

influenciadas pela semelhança entre palavras do inglês e do português. Por

último, faremos uma confrontação entre as traduções de 4 palavras e acepções

dicionarizadas procurando exemplos, na prática, do desprendimento de

instrumentos que oferecem fórmulas fixas por parte do tradutor, ou seja, que ele

está comprometido com o contexto.

3.1. Comparação entre tradução e corpus de base

Assim, procuramos descobrir, inicialmente, se a tradução apresenta um

tamanho de vocabulário compatível com o tamanho de uma amostra do Banco de

Português. Vejamos as informações dos corpora de estudo, com o texto original

na língua fonte e o texto traduzido para a língua alvo.

Corpus de estudoCorpus de estudoCorpus de estudoCorpus de estudo TokensTokensTokensTokens TypesTypesTypesTypes TTRTTRTTRTTR

Corpus LFCorpus LFCorpus LFCorpus LF (inglês)(inglês)(inglês)(inglês) 135.702 12.920 9,52%

Corpus LACorpus LACorpus LACorpus LA (português)(português)(português)(português) 142.709 16.691 11,70%

Diferença entre LF e LA (%)Diferença entre LF e LA (%)Diferença entre LF e LA (%)Diferença entre LF e LA (%) 5,16% 29,19% 22,90%

Características dos corpora com texto original (inglês), com o texto traduzido (português) e a diferenças nos volumes de tokens, types, e type-token ratio entre ambos

Podemos ver que o texto traduzido é maior, em tokens, do que o texto

original, na ordem de 5,16%, e que há também um aumento no número de types.

Porém, as comparações diretas entre original e tradução são muito limitadas, pois

são línguas com diferenças morfossintáticas que não permitem uma confrontação.

Por isso, criamos um corpus comparável, que denominamos ‘corpus de base’,

73

composto de uma amostra do Banco de Português com tamanho muito próximo

ao do nosso texto traduzido, de forma a possibilitar uma comparação das

características da tradução com um texto originalmente produzido em português.

Essa comparação foi feita sob duas premissas: (i) o universal da

estabilização, (levelling out) prevê que textos traduzidos apresentam características

muito distantes dos textos não traduzidos, escritos originalmente na LA, e muito

parecidas com outros textos traduzidos. Portanto, um tamanho de vocabulário do

texto traduzido próximo ao do corpus de base indicaria que a tradução premiada

segue a direção contrária à estabilização e apresenta mais características de textos

da LA do que da LF. (ii) o falante, no exercício da linguagem, usufrui de uma

liberdade circunscrita, de forma que tamanhos de vocabulário próximos podem

indicar um mecanismo de controle de uso do vocabulário imposto pelo uso

cotidiano.

Assim, o corpus com o texto traduzido e o corpus de base, que são

comparáveis, têm as seguintes características:



DiferençaDiferençaDiferençaDiferença

TokensTokensTokensTokens 142.709 143.947 1.238 TypesTypesTypesTypes 16.691 18.060 1.369 TTRTTRTTRTTR 11,70% 12,55% 0,85%

Características do corpus com o texto traduzido em português e o corpus de base, com a amostra do Banco de Português V 2.0

Conforme explicado anteriormente, o processo de lematização elimina as

dispersões provocadas pelas derivações e flexões, permitindo uma contabilização

mais precisa das formas. Portanto, para uma comparação mais acurada da

quantidade do vocabulário, foi feita a lematização de ambos os corpora e

produzida uma nova relação estatística com as seguintes informações:

74

LemasLemasLemasLemas



DiferençaDiferençaDiferençaDiferença

TokensTokensTokensTokens 61.366 60.857 -509

TypesTypesTypesTypes 5.760 6.356 596

TTRTTRTTRTTR 9,39% 10,44% 1,06%

Característica do corpus co o texto traduzido e com o corpus de base após a lematização e a diferença entre ambos

Para a interpretação do quadro acima, usamos o teste qui-quadrado, que

tem o objetivo verificar se dois (ou mais) conjuntos de dados são

significativamente diferentes um do outro. O qui-quadrado faz uso de uma tabela

de distribuição com graus de liberdade, que, na verdade, constituem margens de

tolerância para que os dois grupos possam ser considerados estatisticamente

iguais ou não. Uma diferença estatisticamente não significativa indica que as

quantidades dos dois grupos, considerados os graus de liberdade adotados

durante o teste, estão próximas o suficiente para que sejam consideradas iguais.

Podemos perceber a quantidade de vocabulário aproximada entre os dois corpora

como um indicativo de que o tradutor emprega o vocabulário em uma

quantidade . A diferença no tamanho do vocabulário de ambos corresponde a

apenas 1,06% dos lemas, o que resultou em um qui-quadrado de 0,064, valor

considerado não significativo, ou seja, as quantidades são estatisticamente iguais.

3.2. Variedade de traduções empregadas

Parte do nosso objetivo é descobrir se tradutor emprega traduções variadas

para cada palavra do original. Além disso, também desejamos saber se esta

variedade é influenciada pelo fato de a palavra em inglês ser cognata de uma

palavra do português. Para isso, foi feito um recorte nos dados no sentido de

eleger para análise, no texto original, 20 palavras da categoria CTI e 20 da

categoria STI. Os quadros abaixo mostram as palavras selecionadas no original, o

75

prima facie possível, a sua freqüência, as traduções encontradas e as freqüências de

cada uma delas.

76

Palavras com tradução imediata (CTI) para o portuguêsPalavras com tradução imediata (CTI) para o portuguêsPalavras com tradução imediata (CTI) para o portuguêsPalavras com tradução imediata (CTI) para o português termo inglêstermo inglêstermo inglêstermo inglês prima facie possível em portuguêprima facie possível em portuguêprima facie possível em portuguêprima facie possível em portuguêssss totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN

alternative alternativo(a) 18

alternativo 3 alternativos 2 alternativa 12 alternativas 1

agriculture agricultura 19 agricultura 19

apart aparte 21

"desnaturar" 1 à parte 1 abaixo 1 afastar 1

deteriorando 1 dilaceradas 1 distingue 3 distinguem 1 distinguir 3

distinguiram 1 longe um do outro 4

separam 1 distantes um do outro 1

(sem tradução)(sem tradução)(sem tradução)(sem tradução) 1

application aplicação 24

aplicação 8 aplicações 4 aplicada 1 aplicado 2 dedicação 1 pedido 6 requisição 1


condition condição 23

afecção 1 condição 11 doença 6

enfermidade 1 mal 3

síndrome 1

control controle 16 Controle 15

coordenação 1

controversy controvérsia 22

controversa 1 controvérsia 17 controvérsias 3 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 1

Palavras da categoria CTI com possível tradução imediata, ocorrências no original, as respectivas traduções e as ocorrências de cada uma– parte 1

77

Palavras com tradução imediata (Palavras com tradução imediata (Palavras com tradução imediata (Palavras com tradução imediata (CTI) para o português (continuação)CTI) para o português (continuação)CTI) para o português (continuação)CTI) para o português (continuação) termo inglêstermo inglêstermo inglêstermo inglês prima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em português totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN

effects efeitos 25 efeitos 20 impacto 1


enormous enorme 23

colossal 1 descomunal 1 enorme 7

extraordinário 1 fabulosos 1 fenomenais 1 gigantesco 5 grande 2 grandioso 1

imensamente 1 tremendo 2

functioning funcionando 15

atuação 1 funcional 6

funcionamento 7 funcionando 0 operante 1

limited limitado 26

limitada 4 limitadas 6 limitado 6 limitados 4 limitar 1

pouco usados 1 prejudicadas 1 restringiram 1 restringiu 1 restrito 1

parent(s) parentes 21

genitor 5 genitora 3 genitores 1 mãe 5

original 1 pai e mãe 1 pai ou mãe 2 pai(s) 2


problems problemas 23 problemas 20 questões 2



78

Palavras com tradução imediata (CTI) para o português (continuação)Palavras com tradução imediata (CTI) para o português (continuação)Palavras com tradução imediata (CTI) para o português (continuação)Palavras com tradução imediata (CTI) para o português (continuação) termo inglêstermo inglêstermo inglêstermo inglês prima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em português totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN

producing produzindo 26

formar 1 geram 1 gerando 1 gerar 3

gerarem 1 produção 2 produtoras 2 produtores 1 produz 1 produza 1

produzindo 4 produzir 5

produzirmos 1 produzissem 1 tenham 1

progress progresso 26

andamento 1 avançaríamos 1

avanço 4 avanços 5 fazendo 1 progredir 1 progresso 11


regulation regulação 12

controle 1 legislação 2 norma 1

orientado 1 regra 1

regulação 1 regulador 2

regulamentação 2 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 1

relative relativo 15

em relação 1 membro da família 1

parente 1 parentes 1 relativa 2 relativas 5 relativo 1 relativos 2



79

PalaPalaPalaPalavras com tradução imediata (CTI) para o portuguêsvras com tradução imediata (CTI) para o portuguêsvras com tradução imediata (CTI) para o portuguêsvras com tradução imediata (CTI) para o português termo inglêstermo inglêstermo inglêstermo inglês prima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em português totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN

rest resto 25

descartada 1 (os) demais 1

fim 2 resolvidas 1 restante 10 resto 7 seja 1


story estória 23

caso 2 história 14 livro 1

narrativa 1 reportagem 1 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 4

success sucesso 6

final feliz 1 elucidação 1 êxito 1 sucesso 22

conseguira 1


Palavras com tradução imediata (CTI) para o português (totais)Palavras com tradução imediata (CTI) para o português (totais)Palavras com tradução imediata (CTI) para o português (totais)Palavras com tradução imediata (CTI) para o português (totais)

20 types selecionados 430 tokens

139 variações

Totalizações para as palavras da categoria CTI

80

PalavrasPalavrasPalavrasPalavras sem tradução imediata (STI) para o portuguêssem tradução imediata (STI) para o portuguêssem tradução imediata (STI) para o portuguêssem tradução imediata (STI) para o português termotermotermotermo totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN

argued 20

afirmava 1 afirmou 3

argumentam 1 argumentaram 2 argumentava 5 argumentou 3 debatidos 1 discutiram 1

bewildering (ly) 3 alucinante 1 desnorteante 1 estonteante 1

birth 20

ao nascer 2 origem 1 berço 1

congênitos 1 engendrou 1 nascimento 10 natalidade 3


field 26

à margem 1 âmbito 1 área 4 campo 14 plantação 2 terreno 1


hunt 20

busca 3 buscam 1 caça 9 caçar 5

caçarem 1 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 1

inherited 23

herdada 4 herdadas 3 herdado 3 herdados 3 herdamos 1 herdara 1 herdaram 1 herdei 1

hereditária 3 hereditário 2


Palavras da categoria STI, ocorrências no original, as respectivas traduções e as ocorrências de cada uma– parte 1

81

Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.) termotermotermotermo totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN

level 21

grau 1 níveis 10 nível 5

número 1 taxas 3 teor 1

linked 21

associado 3 associados 2 associou 1 atribuídos 1 ligada 4 ligadas 1 ligados 1 ligarem 1 ligavam 1

relacionados 1 unem 1 unidas 1 unidos 1 vinculado 1


purpose(s) 19

fim 1 finalidade 3

fins 4 propósito 7


range 21

amplo espectro 1 campo 1 diversos 1 faixa 1 gama 11

inúmeras 1 varia 1 variar 1 várias 1


82


remain 23

continuam 3 continuar 2 continuará 1 continuaria 1 continuasse 1 permanecem 4 permanecer 2 permanecerá 1 permaneceria 4 permaneceu 1 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 3

start 21

a partir 1 começar 3 começaria 1 começariam 1 começo 1 estava 1 iniciado 1 iniciar 3 início 4

ponto de partida 2 primeiro 1

step 25 etapa 5 medida 3 passo 17

strain 23 cepa 12

linhagem 9 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 2

strong 22

enfática 1 forte 6 fortes 5 maciço 1 poderosa 1 poderoso 1 resistentes 1 rigorosa 1 vigorosa 1



83


sure 24

certeza 8 certo 6 certos 2

sem dúvida 3 está fadado 1 fiz questão 1 infalível 1


traits 21 caracteríticas 2

traço 2 traços 17

trial 19

experimento 4 julgamento 12 processo 1 tentativa 1 teste 4


wrong 23

corrompido 1 enganados 1 equivocada 2 equivocado 1 equívoco 1 errada 1 erradas 3 errado 8 erramos 1 erro 1 pior 1


yield 22

contivessem 2 fornecer 1 gera 1

oferecer 1 produção 2 produzir 1

proporcionar 1 rendimento 7 revelar 2 revelaria 1



84

Palavras sem tradução imediata (STI) para o português Palavras sem tradução imediata (STI) para o português Palavras sem tradução imediata (STI) para o português Palavras sem tradução imediata (STI) para o português ---- totaistotaistotaistotais 20 types

selecionados 417 tokens 158 traduções

Totalizações para as palavras da categoria STI

Primeiramente, em uma análise geral, vemos que, para cada item

selecionado na LF o tradutor usou mais de uma tradução. Isso já indica que uma

possível característica da tradução premiada é não ter traduções fixas, ou seja, em

que uma palavra ou expressão da LF é sempre traduzida pela mesma da LA.

Além disso, também mostra que o tradutor utiliza o contexto para escolher suas

traduções.

Ao extrairmos a média geral de traduções para cada palavra em inglês,

obtivemos os resultados apresentados no quadro abaixo.

CategoriasCategoriasCategoriasCategorias CálculoCálculoCálculoCálculo Média de Média de Média de Média de

traduções por traduções por traduções por traduções por palavra do originalpalavra do originalpalavra do originalpalavra do original

CTICTICTICTI 139 em LA / 20 em LF 6,95

STISTISTISTI 158 em LF / 20 em LA 7,90

MédiaMédiaMédiaMédia (139 + 158) / 40 7,43

Diferença entre CTI e STIDiferença entre CTI e STIDiferença entre CTI e STIDiferença entre CTI e STI 19

Média de traduções por palavra para cada categoria e média geral

Para os resultados do quadro acima, aplicamos os testes estatísticos qui-

quadrado, descrito anteriormente, e teste T, cujo objetivo é testar a igualdade

entre duas médias, ou seja, se a diferença entre as médias de 2 grupos é

estatisticamente significativa ou não.

Uma melhor interpretação do quadro mostra que, em média, o tradutor

usou 7,43 palavras diferentes na língua portuguesa para cada item analisado no

inglês, o que indica uma grande variedade de opções de traduções colocadas em

prática no texto.

85

Em segundo lugar, não houve diferença estatística significativa entre as

traduções empregadas para as palavras da categoria CTI e STI. O tradutor usou

apenas 19 traduções a mais para as palavras da categoria STI, o que resulta em

um qui-quadrado 0,10 e um teste T 0,11, ambos indicativos de falta de diferença

entre as quantidades de traduções das duas categorias. Isso sugere que o tradutor

premiado parece não se deixar levar pela tradução mais próxima do português.

Ele parece levar em conta o uso no contexto tanto das palavras e padrões que

possuem traduções simples do português quanto das que não. Em termos teóricos

dos universais de tradução, esses resultados parecem, à primeira vista, apontar

para a incidência da normalização. Ou seja, o tradutor estaria tornando o texto

traduzido ‘normal’ perante a língua portuguesa. Mas na verdade não nos parece

que seja isso. O universal de normalização parece prever que os tradutores

retiram a criatividade e o estilo do autor, tornando o texto traduzido menos

inovador. Mas o que nossos dados mostram o uso de muitas opções de tradução

para o mesmo item, o que parece apontar para a direção oposta. Ou seja, o

tradutor, aparentemente, foi criativo nas suas escolhas.

Entretanto, surge a questão de se o tradutor premiado, ao usar o contexto

para escolher a melhor opção de tradução, não estaria, ao mesmo, inflando seu

texto com padrões longos, visto que segundo nossos dados, ele usou, em média

(entre as 40 palavras pesquisadas) 7,43 traduções diferentes para a mesma palavra

do inglês. Isso nos levou a supor que o texto traduzido teria ganhado uma

quantidade grande de vocabulário. No entanto, ao olharmos mais de modo

qualitativo as traduções empregadas, vimos que o tradutor empregou a mesma

tradução para várias palavras e padrões do original. Ou seja, não é o caso de que

cada palavra do original foi traduzida por mais de sete, mas que muitas palavras

diferentes do original foram traduzidas pela mesma palavra do português. Isso

também parece reforçar o que havíamos descoberto sobre a utilização do contexto

na tradução, visto que o tradutor premiado usou a mesma tradução para várias

86

palavras e padrões do original. O que parece emergir dessas descobertas é um

trabalho complexo, em que as relações entre LF e LA não são diretas nem

unidirecionais. Em vista disso, a expansão do texto, em termos de types, fica em

patamares muito menores do que se poderia supor ao considerar um número de

traduções tão grande para cada palavra do inglês. Para ilustrar, mostramos abaixo

o caso de sure.

sure (8)

certeza

assured 1 certain 2 certainly 1 certainty 7 certitude 1 confident 2 conviction 1 doubtless 1 probably 1 surely 1

was bound to 1

Relações multidirecionais da palavra sure

Vemos, no quadro, que sure foi traduzido como ‘certeza’ em 8 ocorrências,

mas assure, certain, etc, também foram traduzidas como ‘certeza’ em outras

ocorrências.

Assim, a tradução premiada enfocada aqui não parece exigir do leitor um

conhecimento de vocabulário acima do que é esperado para ler outros textos no

original, o que se contrapõe, em termos teóricos, ao universal de estabilização

(leveling out), que previa que a tradução seria distante (em vários sentidos,

incluindo o tamanho do vocabulário) de textos originais e que, ao mesmo tempo,

as traduções, quaisquer que sejam, seriam mais semelhantes entre si do que em

relação a seus originais. Nossos resultados apontam para outra direção: a

tradução premiada tem características de um texto original.

Ao mesmo tempo, o ‘reaproveitamento’ das traduções para várias palavras

do original nos conduz novamente aos limites invisíveis aos quais o falante está

87

sujeito, pois, aparentemente, este é um mecanismo que mantém o texto dentro de

um espaço demarcado pelo uso cotidiano. Também pode indicar o domínio do

tradutor sobre essas relações de reutilização, possivelmente adquirido pelos

múltiplos encontros entre LF e LA experimentados por ele. Isto nos leva a crer

que essas relações se encontram em estado latente na memória do tradutor e são

ativadas na LA conforme se apresentam palavras, padrões e contextos na LF.

3.3. Classificação do tradutor

Levando-se em consideração que há tradutores com experiências

diferenciadas, podemos supor que a forma como um tradutor inexperiente lida

com as palavras semelhantes em inglês e português é diferente da maneira como

um tradutor experiente o faz.

Tagnin (2002:193) refere-se ao tradutor ingênuo como aquele que, além de

ter problemas de compreensão com a língua fonte, tem dificuldades na produção

do texto na língua alvo, com pouco domínio do vocabulário e das estruturas da

língua. Seria aquele com um repertório limitado, que tende à produção de uma

tradução com redundâncias, pobre em recursos e, por conseqüência, em

vocabulário. Presumimos, portanto, que o tradutor experiente teria um

comportamento diferente. Espera-se deste o domínio do vocabulário e das

estruturas, tanto na língua fonte quanto na língua alvo, de forma a produzir um

texto variado em vocabulário e recursos lingüísticos.

É desse raciocínio que surge a expectativa de que o tradutor inexperiente,

ou ingênuo, deve mostrar uma variedade pequena de traduções em português

para cada palavra do inglês, para ambas as categorias de palavra, CTI e STI,

enquanto o tradutor experiente mostraria grande variedade de traduções,

independentemente da categoria. Mas haveria também os tradutores com

88

desenvolvimento intermediário, que podem apresentar boa variação de traduções

para as palavras em inglês dependendo da categoria. A representação gráfica

abaixo reflete quatro tipos de tradutor: (i) o tradutor ingênuo ou inexperiente, que

usa uma variedade pequena de traduções na língua alvo para cada palavra da

língua fonte para ambas as categorias, CTI e STI; (ii) tradutor experiente 1, que

apresenta uma variação de traduções baixa para a categoria CTI e alta para STI,

demonstrando que se prende à natureza da palavra, ou seja, palavras em inglês

que apresentem semelhança com o português recebem uma variedade limitada

de traduções; (iii) tradutor experiente 2, que apresenta uma variação de traduções

baixa para a categoria STI e alta para CTI; (iv) tradutor experiente 3, que

apresenta variação alta para ambas as categorias e não se prende à natureza das

palavras.

Figura 12 – Representação gráfica com os quatro tipos de tradutor (a escala de 1-10 é ilustrativa)

Dessa forma, de acordo com a análise dos dados, percebemos que o

tradutor investigado é igualmente produtivo em ambas as categorias, CTI e STI, o

que o coloca como ‘tradutor experiente 3’, pois está mais preso ao contexto do que

à natureza individual das palavras.

89

3.4. Análise de item selecionado

Uma das finalidades da nossa pesquisa é verificar se o tradutor premiado

se prende a acepções dicionarizadas na sua escolha.

Embora tenhamos identificado indícios de que o tradutor não se atém a

fórmulas fixas, uma maneira de se observar este fato na prática é comparar

traduções usadas pelo tradutor com acepções de dicionários bilíngües.

Assim, para encontrar evidências de que o tradutor se aproxima do

contexto, utilizando o vocabulário disponível na língua portuguesa de maneira

criteriosa, decidimos comparar traduções usadas por ele com acepções

disponíveis em dois dicionários bilíngües, o Michaelis e o Webster Online. Esse

procedimento, feito para as 2 palavras, sorteadas à maneira tradicional entre as 40

selecionadas para a análise principal, mostrou quais traduções utilizadas pelo

tradutor não estavam entre as acepções dos dois dicionários. As palavras

sorteadas foram: yield, limited.

A primeira palavra, yield, é apresentada abaixo com as traduções utilizadas

para ela e, do lado direito, as acepções dos dois dicionários bilíngües Michaelis e

o Webster Online:

90

Palavra yield no original com as respectivas traduções à esquerda. À direita, acepções dos dicionários

Michaelis e Webster Online

As acepções ‘contivessem’, ‘fornecer’, ‘oferecer’ e ‘proporcionar’, não estão

presentes nos dicionários bilíngües, e por isso estão circuladas em vermelho.

Primeiramente, pesquisamos no dicionário Houaiss se alguma delas pode ser

sinônima de uma (ou mais) acepção encontrada nos dicionários para yield. Esse

procedimento revelou que, ‘fornecer’, ‘oferecer’ e ‘proporcionar’ podem ser

sinônimos de ‘produzir’ e/ou ‘dar’ em algumas situações, o que justificaria a

escolha destas traduções.

Entretanto, as acepções dos dicionários bilíngües envolvem,

principalmente, o conceito de produzir, gerar, que não é o mesmo de

‘contivessem’. Uma análise dos segmentos do original e da tradução pode nos

ajudar a compreender as razões que poderiam ter levado o tradutor a utilizar esse

verbo.

And because there are from 500 to 1,000 mitochondria in every cell, but only two copies of the genome proper (in the nucleus), Krings knew that those decaying Neanderthal bones were much more likely to yieldyieldyieldyield intact

mitochondrial sequences than intact nuclear ones

Como há entre quinhentas e mil mitocôndrias em cada célula, mas apenas duas cópias do genoma

propriamente dito (no núcleo), Krings sabia que era muito mais provável que

aqueles ossos neandertais em decomposição contivessem contivessem contivessem contivessem seqüências

mitocondriais intactas do que seqüências nucleares intactas

Segmentos do original e da tradução para yield com a tradução ‘contivessem’

91

Sabemos que as palavras nunca podem ser consideradas de forma isolada,

pois assumem sentidos diferentes em função das outras palavras que as

circundam e dos contextos em que estão inseridas. Como o verbo ‘contivessem’

está relacionado a ‘seqüências mitocondriais’, a lógica nos levou para o terreno da

biologia. Descobrimos que as mitocôndrias, salvo algumas exceções, são parte

inerente das células, ou seja, elas não são produzidas pelo processo de

decomposição. Portanto, o verbo ‘conter’ é mais adequado do que ‘produzir’. Essa

escolha é, possivelmente, resultado de uma pesquisa cuidadosa, que

proporcionou a compreensão do processo que estava sendo relatado no texto e,

conseqüentemente, a escolha do vocábulo mais apropriado. Esta é uma situação

em que percebemos o quanto um dicionário bilíngüe é insuficiente para a tomada

de decisões, sendo necessária uma integração entre o texto e o tradutor para que

este compreenda o que está sendo relatado em vez de somente traduzir.

Além dos verbos que não estão dicionarizados, notamos que há dois casos,

marcados no quadro como ‘sem tradução’, em que o tradutor não usou uma

tradução direta para a palavra yield. Fizemos uma análise desses casos para

descobrir a razão dessa omissão. Os segmentos estão apresentados no quadro

abaixo:

OriginalOriginalOriginalOriginal TraduçãoTraduçãoTraduçãoTradução

And in the absence of gene guns and the like, this activity depended on some form of artificial selection, whereby farmers bred only those individuals exhibiting the desired traits-the cows with the highest milk yieldyieldyieldyield, for example

E, na falta de pistolas gênicas e instrumentos similares, essa atividade dependia de alguma forma de seleção artificial, pela qual os fazendeiros

procriariam somente os indivíduos que apresentassem as características

desejadas - as vacas mais leiteirasleiteirasleiteirasleiteiras, por exemplo

Later, his wheat yieldyieldyieldyield policy did another U-turn when Lysenko called for

warming (instead of cooling) the seed prior to planting

Mais tarde, sua política trigueiratrigueiratrigueiratrigueira sofreu outra reviravolta e Lissenko pôs-se a exaltar as vantagens de aquecer (em vez de resfriar) as sementes antes do

plantio

Segmentos do original e da tradução para yield nos casos em que não havia uma tradução direta

92

Nesse processo, o tradutor converteu as possíveis locuções adjetivas

‘produtora de leite’ e ‘da produção de trigo’ nos adjetivos ‘leiteira’ e ‘trigueira’,

respectivamente. Esta solução condensa o texto, tornando-o mais claro,

eliminando preposições que poderiam tornar a linguagem pesada.

Assim, tanto para ‘contivessem’ como para as duas situações em que o

tradutor não ofereceu uma tradução para a palavra, podemos perceber que o

tradutor se liga mais ao contexto e à LA.

A próxima palavra a ser analisada será limited. Pelo mesmo processo

utilizado para yield, relacionamos abaixo as traduções e as acepções dos

dicionários, com as traduções não dicionarizadas circulados em vermelho:

Palavra limited no original com as respectivas traduções à esquerda. À direita, acepções dos dicionários

Michaelis e Webster Online

Aparentemente, ‘pouco usados’ e ‘prejudicadas’ têm sentidos que se

afastam muito das acepções dos dicionários. Para a melhor visualização,

apresentamos os segmentos correspondentes.

93

OriginalOriginalOriginalOriginal TraduçãoTraduçãoTraduçãoTradução

This social calculus is debatable, but the same reasoning does not hold in the case of cystic fibrosis, for which testing

is nevertheless also limitedlimitedlimitedlimited

Afora o fato de esse tipo de cálculo social ser discutível, o raciocínio não se sustenta no caso da fibrose cística - e, no entanto, os testes para detectá-la

também são pouco usadossão pouco usadossão pouco usadossão pouco usados

But what about the Inuit peoples, who live in or dose to the hardly sunny

Arctic but are surprisingly dark? Their opportunities for producing the vitamin would appear to be further limited limited limited limited by the need to be fully clothed all the time

in their climate

Mas o que dizer dos povos esquimós, que vivem próximo do pouco ensolarado Ártico mas são

surpreendentemente escuros? Suas chances de produzir a vitamina parecem ser prejudicadas pelaser prejudicadas pelaser prejudicadas pelaser prejudicadas pela necessidade de permanecerem

totalmente vestidos a maior parte do tempo em virtude do clima

Segmentos do original e da tradução para a palavra limited com as traduções ‘pouco usados’ e ‘prejudicadas’

Ao observar o primeiro segmento, vemos que, mesmo em português, pouco

usados apresenta uma noção um tanto diferente de limitados ou restritos. Estes

últimos poderiam passar a idéia de que os testes não são efetivos, não produzem

resultados confiáveis. Imaginamos, nesse caso, que a análise do contexto talvez

possa oferecer boas condições para se obter uma resposta. As duas orações, na

tradução, que precedem o segmento em questão são:

Os testes para doença de Huntington e distrofia muscular do tipo Duchenne em geral só são aplicados

em famílias em que já houver alguém afetado.A justificativa é que essas doenças são raras e os testes,

caros.

Segmentos que precedem a ocorrência de ‘pouco usados’

Pelo contexto, fica claro que os testes não são ineficientes, mas realmente

pouco usados por questões financeiras, e não faria sentido usar um termo que

expressasse uma idéia contrária. Para confirmar essa informação, acessamos o

website do Grupo Brasileiro de Estudos de Fibrose Cística, que corrobora esse

dado dizendo que “ainda há muito sub-diagnóstico de FC e diagnósticos tardios,

94

o que piora o prognóstico destes pacientes”22. Esse passo da análise mostrou a

observação atenta do contexto.

Para o segundo segmento, percebemos que os sentidos de prejudicadas e

limitadas não são tão distantes, pois, conforme o dicionário Houaiss, ambos

apresentam a noção de insuficiência, dificuldade. Embora não sejam sinônimas,

os seus sentidos se aproximam bastante.

Essa pequena análise baseada nas acepções dos dicionários procurou

mostrar, na prática, traços de desprendimento do tradutor. Pudemos observar

dois casos em que houve um afastamento do sentido dado às palavras em

português para atender ao contexto. Essa aproximação, que teoricamente poderia

indicar uma normalização, não parece exagerada ou conservadora a ponto de

retirar a criatividade do tradutor, como sugere a teoria. Muito pelo contrário, as

traduções parecem criativas e elaboradas, compatíveis com o tradutor experiente

que dispõe de opções variadas e apropriadas aos contextos.

Assim, por meio da nossa análise, descobrimos três características da

tradução premiada: (i) tamanho do vocabulário compatível com textos originais,

visto que o tamanho do vocabulário do texto traduzido ficou próximo do

tamanho do vocabulário típico dos textos originais escritos em português, na

norma culta brasileira, representados pelo corpus de base. Ou seja, a tradução

premiada não parece exigir do tradutor um conhecimento maior de vocabulário

(de leitura) do que um outro texto publicado no Brasil (segundo o representado

no corpus de base; vide capítulo de metodologia). Ao mesmo tempo, esta

característica pode revelar um mecanismo interno que controla o tamanho de

22 Website do GBEF, consultado em 20/05/2008.

95

vocabulário que pode ser utilizado para conceder inteligibilidade ao texto. (ii)

desprendimento da tradução imediata, visto que o tradutor não se deixou

influenciar pela proximidade morfológica e etimológica entre LA e LF. As

escolhas que o tradutor premiado fez não são previsíveis. Ele não parece ter

usado prima facie como um critério de tradução. (iii) multidirecionalidade, visto

que ele empregou a mesma tradução para várias palavras e padrões do original.

Assim, embora tenha havido uma profusão de traduções para cada item, o texto

não ficou carregado, denso de vocabulário. A mesma tradução de um item x do

inglês serviu para traduzir outro item y. Essas características apontam para um

tradutor experiente, ciente do papel do contexto na escolha das traduções, e

possuidor de um repertório rico e interligado de opções de tradução. Em termos

teóricos, sugere um profissional com primings complexos, sem relação direta, que

são ativados pela ocorrência no contexto, tendo em vista os padrões que

circundam a palavra que vai traduzir, de um lado, e que circundam as próprias

traduções que faz, de outro.

96

CONSIDERAÇÕES FINAIS

O objetivo da pesquisa apresentada aqui foi encontrar, de modo

sistemático, características de uma tradução premiada que revelassem a expertise

do tradutor. Usamos um corpus paralelo com o original do livro DNA – The secret

of life, de autoria de James Watson, e a sua tradução para o português, feita por

Carlos Afonso Malferrari. A análise nos trouxe os seguintes achados: (i) tamanho

do vocabulário compatível com textos originais, visto que o tamanho do

vocabulário do texto traduzido ficou próximo do tamanho do vocabulário típico

dos textos originais escritos em português, na norma culta brasileira,

representados pelo corpus de base. Ou seja, a tradução premiada não parece

exigir do tradutor um conhecimento maior de vocabulário (de leitura) do que um

outro texto publicado no Brasil (segundo o representado no corpus de base; vide

capítulo de metodologia). Assim, a tradução premiada enfocada aqui não parece

exigir do leitor um conhecimento de vocabulário acima do que é esperado para

ler outros textos no original. Isso nos pareceu um traço importante de uma

tradução premiada. Em termos teóricos, isso se contrapõe ao universal de

estabilização (leveling out), que previa que a tradução seria distante (em vários

sentidos, incluindo o tamanho do vocabulário) de textos originais e que, ao

mesmo tempo, as traduções, quaisquer que sejam, seriam mais semelhantes entre

si do que em relação a seus originais. Nossos resultados apontam para outra

direção: a tradução premiada tem características de um texto original. Como

temos apenas um texto analisado, não podemos refutar a hipótese do universal,

mas podemos pelo menos colocar em dúvida a sua aplicabilidade em todos os

casos (sua própria universalidade). Talvez haja traduções que, como a investigada

aqui, sejam de fato bem parecidas, na sua fluência, escolha vocabular,

padronização, a um texto original. É preciso mais pesquisas para saber se há

realmente outros casos como esse e se eles podem, no conjunto, refutar a hipótese

97

de universalidade da semelhança entre traduções colocada por Baker (1993). (ii)

desprendimento da tradução imediata, visto que o tradutor não se deixou

influenciar pela proximidade morfológica e etimológica entre LA e LF. As

escolhas que o tradutor premiado fez não são previsíveis. Ele não parece ter

usado prima facie como um critério de tradução. (iii) multidirecionalidade, visto

que ele empregou a mesma tradução para várias palavras e padrões do original.

Assim, embora tenha havido uma profusão de traduções para cada item, o texto

não ficou carregado, denso de vocabulário. Os achados (i) e (iii) estão diretamente

relacionados, pois essa multidirecionalidade fez com que o tamanho do

vocabulário fosse mantido em níveis próximos a outros textos originais, podendo

revelar um mecanismo interno do tradutor que controla os limites em que o texto

pode ser produzido.

Como qualquer pesquisa, a nossa também possui limitações. A primeira é

o tamanho do recorte dos dados. Enfocamos quarenta itens apenas; com mais

itens talvez pudéssemos ter uma visão mais detalhada das características da

tradução premiada. A segunda é a quantidade de textos analisados. Pudemos

verificar apenas uma tradução; novamente, caso pudéssemos ter investigado

outras traduções premiadas, talvez tivéssemos encontrado mais detalhes.

Com a pesquisa aqui apresentada, esperamos, pode ter vindo a colaborar

com a aproximação contínua entre a Lingüística de Corpus e os Estudos da

Tradução. Nosso foco em uma tradução de qualidade pode ter trazido subsídios

para outros textos e mesmo para a formação de tradutores, visto que as

características reveladas aqui podem servir para formar profissionais, além do

que, o exame cuidadoso das escolhas do tradutor serviu-me, particularmente,

para o aprimoramento de minha prática profissional como tradutora.

98

REFERÊNCIAS

Hoghton Mifflin Company (Ed.). The American Heritage Dictionary of English: Softkey American Inc. 1994. CD-ROM.

Allen-Mills, S. Jellis,S. et al (Ed.). Cambridge Advanced Learners Dictionary. Cambridge: Cambridge University Press. 2003. CD-ROM.

Editora Melhoramentos Ltda. (Ed.). Michaelis - Moderno Dicionário de Inglês: Editora Melhoramentos Ltda. 2005. CD-ROM.

Aijmer, K., B. Altenberg, et al. Languages in contrast : papers from a symposium on text-based cross-linguistic studies, Lund, 4-5 March 1994. Lund Univ. Press. 1996. 200 p.

Almeida, N. M. D. Gramática metódica da língua portuguesa. São Paulo: Ed. Saraiva. 1999. 698 p.

Altenberg, B. Connectors and sentence openings in English and Swedish. In: S. Johansson e S. Oksefjell (Ed.). Corpora and Cross-Linguistic Research. Theory, Method and Case Studies. Amsterdam/Atlanta: Rodopi, 1998. p.115-143

Baker, M. Corpus Linguistics and translation studies: Implications and applications. In: Baker, M Francis, G et al (Ed.). Text and technology: In honour of John Sinclair. Philadelphia/Amsterdam: John Benjamins Publishing Company, 1993. p.233-250

______. Corpora in Translation Studies: An Overview and Some Suggestions for Future Research. Target, v.7, n.1, p.223-243. 1995.

______. Corpus-based translation studies: the challenges that lie ahead. In: H. Somers (Ed.). Terminology, LSP and Translation:studies in language engineering, in honour of Juan C. Sager. Philadelphia/Amsterdam: John Benjamins Publishing Company, 1996. p.175-186

______. A corpus-based view of similarity and difference in translation. International Journal of Corpus Linguistics, v.9, n.2, p.167-193. 2005.

Bassnett, S. Translation studies. London: Routledge. 1991. 167 p.

Berber Sardinha, T. Corpora Eletrônicos na pesquisa em Tradução. Cadernos de Tradução: Corpora e Tradução, v.9, n.1, p.15-59. 2002.

______. Que tipo de corpus é a web? Revista da ANPOLL, v.15, p.191-220. 2003a.

99

______. Uso de corpora na formação de tradutores. Delta, v.19, n.spe, p.43-70. 2003b.

______. Lingüística de Corpus. São Paulo: Ed. Manole. 2004. 410 p.

Biderman, M. T. C. Teoria Lingüística. São Paulo: Martins Fontes. 2001. 356 p.

Bowker, L. Towards a methodology for exploiting a specialized target language corpora as translation resources. International Journal of Corpus Linguistics, v.5, n.1, p.17-52. 2000.

Danielsson, P. e D. Ridings. Practical Presentation of a "Vanilla" Aligner. Disponível em <http://nl.ijs.si/telri/Vanilla/doc/ljubljana/>. Última atualização. Acesso em: 10/12/2006.

Furlan, M. Brevíssima história da teoria da tradução no ocidente. Cadernos de Tradução, v.8, n.2, p.11-28. 2001.

Gentzler, E. Contemporary translation theories. London: Routledge. 1993

Halliday, M. A. K. Corpus studies and probabilistic grammar. In: K. Aijmer e B. Altenberg (Ed.). English Corpus Studies: In honour of Jan Svartvik. London: Longman, 1991. p.30-43

______. Language as system and language as instance: The corpus as a theoretical construct. Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82. Estocolmo: De Gruyter. 4-8 agosto de 1991, 1992.

Hasselgard, H. Thematic Structure in Translation between English and Norwegian. In: S. Johansson e S. Oksefjell (Ed.). Corpora and Cross-Linguistic Research. Theory, Method and Case Studies. Amsterdam/Atlanta: Rodopi, 1998. p.145-168

Hoey, M. Lexical Priming - a new theory of words and language. London: Routledge. 2005. 202 p.

Hopper, P. J. Emergent grammar and the A Priori Grammar constraint. In: D. Tannen (Ed.). Linguistics in context: connecting observation and understanding. Norwood: Ablex Pub. Co., 1988. p.117-134

Houaiss, A. (Ed.). Dicionário eletrônico Houaiss da língua portuguesa - V1.0.5a. Rio de Janeiro: Ed. Objetiva Ltda. 2001. CD-ROM.

Hunston, S. Colligation, lexis, pattern and text. In: Scott, M. e Thompson, G. (Ed.). Patterns of text. Philadelphia/Amsterdam: John Benjamins Publishing Company,

100

1995. p.13-33

______. Corpora in Applied Linguistics. Cambridge: Cambridge University Press. 2002. 241 p. (Cambridge Applied Linguistics)

Hunston, S. e Francis, G. Pattern Grammar - A corpus-driven approach to the lexical grammar of English. Philadelphia/Amsterdam: John Benjamins Publishing Company. 1999. 229 p. (Studies in Corpus Linguistics)

Kenny, D. Lexis and creativity in Translation - a corpus based study. Manchester: St. Jerome Publishing. 2001. 254 p.

Kilgarriff, A. e Grefenstette, G. Introduction to the special issue on the web as corpus. Computational Linguistics, v.29, n.3, p.333-347. 2003.

Lado, R. Introdução à Lingüística Aplicada - Lingüística Aplicada para professores de línguas. Petrópolis: Ed. Vozes. 1972

Lamparelli, A. H. C. A. A naturalidade da tradução: quem garante? Departamento de Letras Modernas da Faculdade de Filosofia Letras e Ciências Humanas, Universidade de São Paulo, São Paulo, 2007. 251 p.

Laviosa, S. Corpus-based translation studies - theory, findings, applications. Amsterdam: Editions Rodopi. 2002. 138 p.

McEnery, A. e Xiao, Z. Parallel and comparable corpora: what are they up to. In: Incorporating corpora: Translations and the Linguist. Clevedon: Multilingual Matters, 2007. p.138

Oakes, M. P. Statistics for Corpus Linguists. Edimburgo: Edimburg University Press. 1998. 287 p. (Edinburgh Textbooks in Empirical Linguistics)

Olohan, M. Introducing Corpora in Translation Studies. Oxfordshire: Routledge. 2004. 220 p.

Parker, P. M. Webster's Online Dictionary. Disponível em <websters-online-dictionary.org>.

Partington, A. Patterns and Meanings. Philadelphia/Amsterdam: John Benjamins Publishing Company. 1998. 163 p. (Studies in Corpus Linguistics)

Rodrigues, C. C. Tradução e diferença. São Paulo: Editora UNESP. 1999. 237 p.

Salles, J. F., Jou, G. I. D. et al. O paradigma de priming semântico na investigação do processamento de leitura de palavras. Interação em Psicologia, v.11, n.1, p.71-

101

80. 2007.

Santos, A. S. Guia prático de tradução inglesa. São Paulo: Ed. Cultrix. 1995. 511 p.

Simões, A. Alinhamento de corpora paralelos. CP3A Corpora Paralelos, Aplicações e Algoritmos Associados. Braga: Universidade do Minho, 2003.

Sinclair, J. Corpus, Concordance, Collocation. Oxford: Oxford University Press. 1991. 179 p. (Describing English Language)

______. Corpus Creation. In: McCarthy, D. e Sampsom, G. (Ed.). Corpus Linguistics: Readings in a widening discipline. London: Continuum, 2004. p.78-84. (Open Linguistics Series)

Stubbs, M. Text and corpus analysis : computer assisted studies of language and institutions. Oxford: Blackwell. 1996. 272p.

Tagnin, S. E. O. Os corpora: instrumentos de auto-ajuda do tradutor. Cadernos de Tradução: Corpora e Tradução, v.9, n.2002/1, p.191-213. 2002.

Toury, G. Descriptive translation studies and beyond. Philadelphia/Amsterdam: John Benjamins Publishing Company. 1995. 311 p.

Venuti, L. The translators invisibility: A history of translation. London: Routledge. 1995. 353 p.

Vilela, M. Tradução e análise contrastiva: teoria e aplicação. Lisboa: Editorial Caminho. 1994. 170 p. (Lingüística)

Vinay, J.-P. e Darbelnet, J. Comparative Stylistics of French and English - a methodology for translation. Philadelphia/Amsterdam: John Benjamins Publishing Company. 1995. 358 p.

Watson, J. D. DNA - The secret of life. New York: Alfred A. Knopf. 2003. 446 p.

______. DNA - O segredo da vida. Tradução: C. A. Malferrari. São Paulo: Companhia das Letras. 2005. 470 p.

uma traduÇÃo premiada sob a perpectiva da lingÜÍstica de ... gurjao... · descritivo, além de...

Documents