uma traduÇÃo premiada sob a perpectiva da lingÜÍstica de ... gurjao... · descritivo, além de...
TRANSCRIPT
ELIANE GURJÃO SILVEIRA ALAMBERT
UMA TRADUÇÃO PREMIADA SOB A PERPECTIVA DA LINGÜÍSTICA DE CORPUS
MESTRADO EM LINGÜÍSTICA APLICADA E ESTUDOS DA LINGUAGEM
PONTIFÍCIA UNIVERSIDADE CATÓLICA 2008
ELIANE GURJÃO SILVEIRA ALAMBERT
UMA TRADUÇÃO PREMIADA SOB A PERPECTIVA DA LINGÜÍSTICA DE CORPUS
Dissertação apresentada à Banca examinadora da Pontifícia Universidade Católica de São Paulo como exigência parcial para a obtenção do título de MESTRE em Lingüística Aplicada e Estudos da Linguagem sob a orientação do Prof. Dr. Antonio Paulo Berber Sardinha.
PONTIFÍCIA UNIVERSIDADE CATÓLICA 2008
BANCA EXAMINADORA
My face in thine eye, thine in mine appears,
And true plain hearts do in the faces rest;
Where can we find two better hemisferes
Without sharp North, without declining West?
Whatever dies was not mixed equally;
If our two loves be one, or thou and I
Love so alike that none do slacken, none can die
Meu rosto no teu olhar, um no outro se reflete,
E veros corações descansam nos dois rostos;
Dois hemisférios: par que melhor se complete
Onde nem frio norte e sem sequer sóis-postos
O que morre não foi mesclado muito bem;
Se amamos por igual, pois formamos um par
Nenhum pode morrer, se nenhum afrouxar.
John Donne, excerto de “The Good Morrow”
Tradução de Renata Cordeiro
AGRADECIMENTOS
Em primeiro lugar, agradeço à constante proteção de Deus e dos seus Guardiões
Divinos.
Especialmente à minha mãe e ao meu marido, agradeço por todo o apoio.
Ao meu orientador, Tony Berber Sardinha, que acreditou em mim.
Aos meus companheiros de mestrado, que sempre estiveram ao meu lado e
contribuíram de maneira direta ou indireta para a conclusão deste trabalho. Em
especial, o meu agradecimento vai para Maria Cecília Lopes, José Lopes Moreira
Filho, Márcia Veirano Pinto, Flávia Morales e Patrícia Bértoli Dutra.
Aos meus familiares, que sempre estiveram presentes.
À Profa. Leila Barbara por todo o apoio, amizade e confiança.
Aos professores da PUC, que sempre estiveram prontos para me auxiliar.
Ao CNPq, que contribuiu com o suporte financeiro essencial.
RESUMO
Este estudo teve o objetivo encontrar, de modo sistemático, características de uma
tradução premiada que revelassem a expertise do tradutor. Para tanto, foi
selecionada a tradução que recebeu o prêmio União Latina de 2006, DNA- O
segredo da Vida, traduzida por Carlos Afonso Malferrari a partir do original em
inglês DNA- The secret of life de James D. Watson. O original e a tradução foram
digitalizados, dando origem a dois subcorpora que foram alinhados para formar
um corpus paralelo. O corpus com o texto traduzido foi comparado com uma
amostra do Banco de Português em termos de tamanho de vocabulário,
mostrando que a tradução tem tamanho de vocabulário muito próximo à amostra.
Baseados no fato de que uma palavra em inglês cognata de outra em português
pode exercer influência na escolha da tradução, determinamos duas categorias de
palavras a serem investigadas, as que apresentam uma tradução imediata para o
português e as que não apresentam tradução imediata para o português. Do
corpus paralelo foi extraída uma amostra com 40 palavras, 20 de cada categoria,
para o levantamento das traduções. Descobrimos que o tradutor usa traduções
variadas para cada palavra do original e que a natureza da palavra na língua
inglesa é indiferente ao tradutor experiente, não importando a sua semelhança
com o português, pois ele atribui um número de escolhas uniforme entre ambas
as categorias. Assim, os resultados mostram que o tradutor experiente tem
compromisso com o contexto, não se prendendo a fórmulas ou soluções pré-
determinadas.
Palavras-chave: Lingüística de Corpus; Estudos de Tradução; tradução premiada;
tamanho de vocabulário; variedade de traduções
ABSTRACT
This study aimed at discover, systematically, features in an awarded translation
that could show the translator expertise. Thus, we used the winner of the União
Latina in 2006, DNA- O segredo da Vida, translated by Carlos Afonso Malferrari
from the originally English written book DNA- The secret of life of James D.
Watson. Original and translation were scanned, producing two subcorpora that
were aligned in a parallel corpus. The subcorpus containing the translated text
was compared with a Portuguese general corpus in terms of vocabulary size, and
the results showed that this feature is much alike for both corpora. Based on the
fact that a word in English that has a cognate in Portuguese can influence the
translation choices, we established two categories, one that presents a direct
translation for Portuguese and other that doesn’t present a direct translation. A
sample with 40 words, 20 of each category, was taken from the parallel corpus to
check the translations used for each one. We found that the translator use a
number of words in Portuguese for each one in English and that the origin of the
word is indifferent to the expert translator, so that it doesn’t matter which
category the word in English is fit in, for he uses a very similar number of words
in Portuguese for each one in English despite its nature. Thus, the results show
that the expert translator is committed to the context and is not attached to fixed
formulas or predetermined solutions.
Palavras-chave: Lingüística de Corpus; Estudos de Tradução; tradução premiada;
tamanho de vocabulário; variedade de traduções
Key-words: Corpus Linguistics; Translation Studies; awarded translation;
vocabulary size; translation variety
SUMÁRIO
INTRODUÇÃO ....................................................................................................... 9
CAPÍTULO 1: Fundamentação Teórica ............................................................ 12
1.1. Lingüística de Corpus .............................................................................. 12
1.1.2. Visão da linguagem como um sistema probabilístico ............... 16
1.1.3. Estudos de padrões de linguagem ............................................... 18
1.1.4. Lexical Primimg .............................................................................. 21
1.2. Estudos de Tradução com corpus .......................................................... 25
1.2.1. Corpus paralelo ............................................................................... 31
1.2.2. Corpora comparáveis ..................................................................... 34
CAPÍTULO 2: Metodologia ................................................................................ 38
2.1. Corpus de estudo ...................................................................................... 38
2.1.1. Perfil do tradutor ............................................................................ 41
2.1.2. Compilação do corpus de estudo ................................................. 42
2.2. Corpus de base .......................................................................................... 43
2.3. Ferramentas automatizadas utilizadas na pesquisa ............................ 45
2.3.1. WordSmith Tools ............................................................................ 45
2.3.2. Ferramentas CEPRIL – PUCSP ..................................................... 48
2.3.2.1 Alinhador de corpora ................................................................... 49
2.3.2.2 Concordanciador Paralelo ...................................................... 55
2.3.2.3 Etiquetador/lematizador ......................................................... 58
2.4. Método para análise dos dados .............................................................. 60
2.4.1. Extração das listas de palavras ..................................................... 60
2.4.2. Lematização ..................................................................................... 61
2.4.3. Alinhamento .................................................................................... 63
2.4.4. Seleção dos itens para análise ....................................................... 64
2.4.4.1. Estudo piloto ............................................................................ 66
2.4.4.2. Seleção de palavras para o estudo principal ....................... 69
CAPÍTULO 3: Análises dos dados ..................................................................... 72
3.1. Comparação entre tradução e corpus de base ............................... 72
3.2. Variedade de traduções empregadas .............................................. 74
3.3. Classificação do tradutor .................................................................. 87
3.4. Análise de item selecionado ............................................................. 89
CONSIDERAÇÕES FINAIS ............................................................................... 96
REFERÊNCIAS ...................................................................................................... 98
9
INTRODUÇÃO
A Tradução tem desempenhado um papel cada vez mais importante no
mundo globalizado e a necessidade de aprimoramento do tradutor se manifesta a
cada instante. Hoje em dia, a qualidade nas traduções é item da maior relevância,
especialmente para o profissional que trabalha por conta própria e está sempre
procurando por atividades nas editoras. Mas, surge a questão: quais
características em uma tradução estão relacionadas a qualidade? Será que
aspectos da expetise do tradutor podem ser identificados em uma tradução de
qualidade?
Essa curiosidade, associada o meu objetivo pessoal, como tradutora, de
saber quais aspectos eu poderia desenvolver para aperfeiçoar a minha prática,
culminou nessa pesquisa.
Logo percebi que tratar de qualidade em traduções é um tema muito
amplo, que deveria ser cuidadosamente delimitado e fundamentado, de forma
que passei a observar as críticas literárias para entender como uma obra poderia
ter a sua qualidade reconhecida, o que me colocou na trilha das premiações
anuais. Nesse aspecto, o Prêmio União Latina de Tradução Técnica se mostrou
uma boa opção, pois as obras são julgadas por uma comissão composta por
acadêmicos e profissionais da área de Tradução, de forma que escolhi, para este
estudo, a tradução da obra DNA – The secret of life, de autoria de James Watson,
editado em língua inglesa em 2003, traduzida para o português por Carlos Afonso
Malferrari e publicada pela Companhia das Letras em 2005.
A pesquisa, então, ganhou corpo e um objetivo definido, que era encontrar,
de modo sistemático, características de uma tradução premiada que revelassem a
expertise do tradutor. Entre os vários aspectos que poderia estudar, decidi iniciar
por uma exploração do vocabulário, orientada pelas minhas principais dúvidas:
10
(i) a tradução premiada apresenta um tamanho de vocabulário compatível com
um corpus de língua geral do português?; (ii) o tradutor emprega traduções
variadas para cada palavra do original?; (iii) o fato de uma palavra do inglês se
assemelhar a uma do português exerce influência sobre a variedade de traduções
empregadas?; (iv) o tradutor se prende a acepções dicionarizadas?
A escolha pela Lingüística de Corpus se deu em função seu caráter
descritivo, além de ter uma proximidade com os Estudos da Tradução que
possibilita traçar paralelos entre o texto original e a(s) sua(s) tradução(ões).
De posse do texto original e da tradução impressos, digitalizei-os para que
pudessem ser submetidos a programas e ferramentas de processamento
lingüístico. Assim, compilei um corpus paralelo com ambos os textos para que
fosse possível o cotejo entre trechos do original com o seu correspondente
traduzido. Além disso, também foi criado um corpus comparável, uma amostra
do Banco de Português, para que fosse possível comparar o tamanho do
vocabulário do texto traduzido com um corpus da língua portuguesa. A extração
de 40 palavras do texto original e as suas respectivas traduções possibilitou
descobrir se foram empregadas traduções variadas e se o houve influência de
palavras cognatas entre a língua inglesa e portuguesa sobre a escolha das
traduções, o que implicou uma verificação manual de cerca de 1800 segmentos,
entre original e tradução. Todo esse percurso de pesquisa e atualização teórico-
metodológica agregou conhecimento inestimável em termos de processamento
lingüístico.
Nesse trabalho, percebi que a aproximação entre a Lingüística de Corpus e
os Estudos da Tradução não é apenas teórica, mas envolve aspectos práticos
muito bem fundamentados que levam à produção de resultados consistentes e
não subjetivos. Na verdade, eu diria que o termo “aproximação” é bastante
tímido para expressar o quanto as duas áreas podem fazer uma pela outra.
11
O foco em uma tradução de qualidade reconhecida pode oferecer subsídios
para outros estudos, assim como para a formação e aprimoramento de tradutores.
Assim, este estudo, com início baseado em dúvidas pessoais, talvez possa prestar
a sua contribuição a outros profissionais do ramo com interesses semelhantes aos
meus.
12
CAPÍTULO 1: Fundamentação Teórica
Este estudo encontra suporte teórico em duas áreas de pesquisa, a
Lingüística de Corpus e os Estudos da Tradução baseados em Lingüística de
Corpus.
Esta seção é, portanto, destinada à apresentação da Lingüística de Corpus e
da sua aproximação com os Estudos da Tradução, com a finalidade de expor
aspectos individuais de cada uma dessas áreas e a forma como elas se relacionam.
1.1. Lingüística de Corpus
Para compreendermos melhor a Lingüística de Corpus é necessário, antes
de tudo, apresentar a noção de corpus.
Primeiramente, corpus, cujo plural é corpora, pode ser definido como um
conjunto de textos. Hunston (2002:2) define:
Linguists have always used the word corpus to describe a collection of naturally
occurring examples of language, consisting of anything from a few sentences to a set of
written texts or tape recordings, which have been collected for linguistics study. More
recently, the word has been reserved for collection of texts (or parts of text) that are stored
and accessed electronically.1
A compilação de corpus não é assunto novo. Muito pelo contrário, remonta
à antigüidade, quando eram reunidos textos de oradores importantes, filósofos,
imperadores, etc. Segundo Berber Sardinha (2004:3) “na Grécia Antiga,
Alexandre, o Grande, definiu o Corpus Helenístico. Na Antigüidade e na Idade
Média, produziam-se corpora com citações da Bíblia”.
1 Os lingüistas sempre usaram a palavra corpus para descrever um conjunto de exemplos que ocorrem naturalmente na língua e podem ser formados por quaisquer estruturas, desde frases até um agrupamento de textos escritos ou gravações em fita, coletados para estudos lingüísticos. Mais recentemente, o uso desta palavra ficou restrito à coletânea de textos (ou porções de textos) armazenados e acessados eletronicamente. (tradução minha)
13
Porém, reunir textos não é o suficiente se não for possível estudá-los,
conhecer as suas características e o uso que as pessoas fizeram das palavras.
Hunston (2002:3) corrobora essa observação:
Strictly speaking, a corpus by itself can do nothing at all, being nothing other than a store
of used language. Corpus access software, however, can re-arrange that store so that
observations of various kinds can be made.2
No passado, as análises de corpora grandes eram feitas manualmente, fato
que, associado à falta de habilidade humana para tarefas repetitivas, tornava a
tarefa árdua, demorada e cujo resultado não oferecia confiabilidade. Com a
popularização dos meios eletrônicos, o computador passou a ser utilizado na
pesquisas para levantamentos em massa dos dados de corpora com tamanhos
cada vez maiores, proporcionando diferentes perspectivas de observação de
maneira mais fácil e veloz (Berber Sardinha, 2004:4).
Em segundo lugar, Lingüística de Corpus pode ser definida como o campo
de investigação empírica, que estuda a língua em uso, “ocupa-se da coleta e da
exploração de corpora, ou conjuntos de dados lingüísticos textuais coletados
criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou
variedade lingüística. Como tal, dedica-se à exploração de evidências empíricas,
extraídas por computador” (Berber Sardinha, 2004:3). Essa definição pressupõe
não apenas a compilação de corpus e a constituição das suas ferramentas, mas a
descrição dos fatos recorrentes na língua a partir da observação da língua em
exercício.
Ao iniciarmos uma pesquisa, é necessário considerar quais são os seus
objetivos para que seja possível determinar a composição do corpus e como os
2 Falando claramente, um corpus, por si, nada pode fazer, nada mais é do que um repositório de linguagem utilizada. O software para acesso ao corpus, entretanto, pode rearranjar este repositório de forma a permitir vários tipos de observação. (tradução minha)
14
textos serão coletados. Sinclair (2004:78) afirma que a definição do conteúdo de
um corpus e da forma como os dados serão selecionados determinarão a
qualidade do resultado da pesquisa. No nosso caso, como o objetivo da pesquisa é
encontrar, de modo sistemático, características de uma tradução premiada que
revelassem a expertise do tradutor, usamos dois corpora, um com o texto original
do livro DNA – The secret of life, o outro com a sua tradução, DNA- O segredo da
vida.
Assim, dois procedimentos devem observados. O primeiro está
relacionado à natureza dos textos. Por exemplo, se a finalidade é um estudo da
linguagem na obra de Machado de Assis, não podemos incluir textos de outros
autores. O segundo refere-se à origem desses textos, como se apresentam
fisicamente, se estão disponíveis em páginas da Internet, se serão digitalizados a
partir de livros impressos, etc.
Ao se planejar um corpus, deve-se também levar em consideração o
tamanho que este deverá ter para ser representativo para a pesquisa.
A representatividade é uma característica do corpus intimamente ligada ao
tamanho deste (Berber Sardinha, 2004:22). No caso de um corpus de língua geral,
que serve a vários propósitos, quanto mais extenso o corpus, maior é a
probabilidade de conter usos raros das palavras. Um exemplo citado por Berber
Sardinha (2004:23) é a palavra serviço entendida como saque no jogo de tênis. A
probabilidade de essa palavra aparecer com este sentido em um corpus de língua
geral pequeno é muito baixa. Porém, se considerarmos um corpus pequeno que
contenha apenas textos sobre tênis, essa probabilidade pode ser alta. Assim, um
corpus de língua geral deve ter grandes proporções para que palavras de baixa
freqüência apareçam nele, enquanto um corpus de linguagem específica pode ser
pequeno, pois mesmo pequeno, a linguagem de uma determinada área pode ser
representada. Concluímos, a partir disso, que a representatividade está associada
15
à extensão e à composição do corpus e, portanto, diretamente relacionada à
questão das probabilidades, que discutiremos no próximo tópico.
Como vimos, os corpora podem ter diferentes composições, tamanhos e
finalidades. Berber Sardinha (2004:20) relaciona os principais tipos de corpora
citados na literatura segundo o a sua composição e propósito, a saber:
• Modo – falado ou escrito
• Tempo – sincrônico, diacrônico, contemporâneo ou histórico
• Seleção – de amostragem, monitor, dinâmico/orgânico, estático,
equilibrado
• Conteúdo – especializado, regional/dialetal, multilíngüe
• Autoria – de aprendiz, de língua nativa
• Disposição interna – paralelo, alinhado
• Finalidade – de estudo, de referência, de treinamento ou teste
Devido ao grande interesse na pesquisa e documentação do
comportamento da linguagem por meio da análise de grandes volumes de dados,
muitas universidades e centros de pesquisas ao redor do mundo compilaram
corpora e os disponibilizaram em formato eletrônico, que podem ser usados como
parte de um estudo ou como objeto dele.
Berber Sardinha (2004:7-12) relaciona vários corpora eletrônicos da língua
inglesa e portuguesa. Entre os de língua inglesa, estão o Brown (primeiro a ser
compilado, em 1964) e o BNC (primeiro a ter 100 milhões de palavras). Entre os
corpora de língua portuguesa estão o Banco de Português e o Comet, localizados
na PUC-SP e USP, respectivamente. Também são mencionados, pelo mesmo
autor, corpora de outras línguas, como alemão, bósnio, chinês, croata, espanhol,
italiano sueco e tcheco.
16
Há ainda outra fonte de dados que pode ser entendida como um corpus: a
web. McEnery e Wilson (1996, apud Kilgarriff e Grefenstette, 2003:333)
argumentam que, se considerarmos que a web é uma grande coletânea de textos,
ela pode ser considerada um corpus. Porém, a análise da sua composição revela
que, embora o conteúdo seja imenso, não é controlado e qualquer texto pode ser
inserido e fará parte dos mecanismos de busca. Berber Sardinha (2003a), fez um
estudo comparando o conteúdo da web com o de um corpus tradicional e
concluiu que não apresentam conteúdos similares, possivelmente em função da
presença de blogs e chats, em que se apresenta um ambiente de conversação
informal. De qualquer forma, a web “é patrimônio de valor inestimável colocado
á disposição dos usuários e também, agora, a lingüistas. Jamais em nossa história
tivemos tanto conhecimento disponível diante de nós. No âmbito da lingüística, o
mesmo pode ser dito: jamais tivemos um corpus tão extenso e renovável ao nosso
dispor” (Berber Sardinha. 2003a:216). Assim, a web pode ser considerada um
corpus, mas devemos estar conscientes das suas deficiências.
Várias pesquisas de corpora têm sido conduzidas, especialmente nos
últimos anos, e os seus resultados encontram aplicação em diversas áreas, como a
produção de gramáticas e dicionários, tradução, estudos literários e estilísticos,
lingüística forense, ensino de línguas e até mesmo para a lingüística, oferecendo,
para esta última, subsídios para a elucidação de itens importantes ao estudo de
ideologias (Hunston, 2002:96).
1.1.2. Visão da linguagem como um sistema probabilístico
Segundo Halliday (1991:30), Jan Svartvik, nos anos de 1960, pesquisou
dados de um corpus com o objetivo de observar o comportamento da voz passiva
no inglês. Assim, criou categorias e uma escala, calculou as proporções entre voz
ativa e passiva e comparou as freqüências de voz passiva em uma gama de
17
registros diferentes. A observação mais crítica do trabalho de Svartvik foi que as
freqüências para a maioria dos textos de um mesmo grupo são notoriamente
similares. Dessa forma, concluiu que os padrões investigados não eram
produzidos acidentalmente na língua (Halliday 1991:30), e que havia uma
probabilidade de ocorrência calculável para cada um deles em registros
diferentes.
Com base nas observações de Svartivik, Halliday (1991:33) afirma que “a
variação de registro pode ser definida como uma variação sistemática das
probabilidades e ‘registro’ é uma tendência a selecionar determinadas
combinações de significados com certas freqüências”. Ou seja, para qualquer
registro, há a possibilidade de ocorrência de qualquer palavra, estrutura ou
expressão, o que indica que o sistema lingüístico e’ probabilístico, ou seja, as
categorias palavras e categorias lingüísticas possuem probabilidade de ocorrência
diferentes em registros distintos.
Seguindo essa linha de raciocínio, Berber Sardinha (2004:30) conclui que “a
visão de linguagem como um sistema probabilístico pressupõe que, embora
muitos traços lingüísticos sejam possíveis teoricamente, não ocorrem com a
mesma freqüência”. Se é fato conhecido que, na língua inglesa, a freqüência de
substantivos é maior do que qualquer outra categoria, em torno de 25%
(Kennedy, 1998, apud Berber Sardinha, 2004:31), maior é a probabilidade de que
uma palavra extraída de um texto nessa língua pertença a esta categoria, embora
seja possível a ocorrência das outras.
Em resumo, as variações que ocorrem na linguagem, como a freqüências
de traços lingüísticos, não são aleatórias.
18
1.1.3. Estudos de padrões de linguagem
A conclusão de que as variações não são aleatórias e produzem efeitos
recorrentes nos leva a afirmar que a linguagem é padronizada (Berber Sardinha,
2004:31). Uma das grandes frentes de pesquisa da Lingüística de Corpus é o
estudo e a descrição dessas regularidades. Hunston e Francis (1999:3) definem
padrão:
Briefly, then, a pattern is a phraseology frequently associated with (a sense of) a word,
particularly in terms of the prepositions, groups and clauses that follow the word.
Patterns and lexis are mutually dependent, in that each pattern occurs with a restricted
set of lexical items, and each lexical item occurs with a restricted set of patterns.3
Sinclair, como um dos grandes estudiosos de corpora, fez um estudo a
partir das suas percepções sobre a língua e atesta que não há sentido em separar o
léxico da sintaxe. A maioria das palavras do dia-a-dia não tem significado(s)
independente(s), mas forma um rico repertório de multi-palavras que estruturam
o texto, fato totalmente suplantado pela gramática tradicional (Sinclair, 1991:108).
Assim, a gramática lexical, em que o léxico orienta a gramática, é defendida pelo
autor, que sugere dois modelos de interpretação para a construção de significado:
o princípio da escolha aberta e o princípio idiomático.
O princípio da escolha aberta, também chamado “lacunas e
preenchimentos”4, considera os textos como uma série de lacunas a serem
preenchidas com qualquer palavra desejada. Dessa forma, inclui expressões não
encontradas normalmente na língua. Praticamente todas as gramáticas são
concebidas sobre este modelo (Sinclair, 1991:110), pois consideram o que é
3 “Em resumo, um padrão é uma fraseologia freqüentemente associada a uma palavra (ou com o sentido dela), especialmente em termos de preposições, grupos e orações que a seguem. Padrões e repertório lexical apresentam dependência mútua, de forma que cada padrão ocorre com um conjunto limitado de itens lexicais, e cada item lexical ocorre com um conjunto limitado de padrões” (tradução minha).
4 Do inglês “slot and filler” (tradução minha)
19
possível ser produzido em termos gramaticais, sem levar em consideração o que
natural e em uso corrente.
O princípio idiomático considera evidente o fato de que as palavras não
ocorrem no texto de maneira aleatória. O mundo ao nosso redor contribui para
que coisas que ocorrem juntas sejam mencionadas juntas (Sinclair, 1991:110),
como, por exemplo, áreas de conhecimento que constituem campos semânticos e
têm vocabulário e associações vocabulares próprios. Dessa forma, “a língua tem à
sua disposição um grande número de unidades pré-construídas, que constituem
escolhas únicas, muito embora pareçam analisáveis em segmentos” (Berber
Sardinha, 2004:33).
Berber Sardinha (2004:40) conceitua a padronização como “a regularidade
expressa de unidades coocorrentes de várias ordens, seja ela lexical, gramatical,
sintática ou outra qualquer”. Segundo este autor, os padrões da língua podem ser
formalizados em três conceitos principais: (i) colocação, que é a associação entre
itens lexicais ou entre o léxico e campos semânticos; (ii) coligação, a associação
entre itens lexicais e gramaticais e (iii) prosódia semântica, a associação entre itens
lexicais e conotação ou instância avaliativa.
Hoey (2005:2) define colocação como “a propriedade da língua pela qual
duas ou mais palavras aparecem freqüentemente na companhia umas das
outras”5, afirmando ser esta qualidade um fator chave para a naturalidade e a
organização.
Assim, a colocação pressupõe palavras que apresentam laços mais fortes
entre si. Por exemplo, para a palavra “angariar”, uma forma bastante comum é
5 [...] the property of the language hereby two or more words seem to appear frequently in each other company’s (Hoey, 2005:2) (tradução minha)
20
“angariar fundos”. Porém, uma forma igualmente possível é “reunir fundos”, em
que a lacuna é preenchida por outro vocábulo da mesma categoria, seguindo o
princípio da escolha aberta descrito acima. Uma simples consulta na web revela
uma diferença numérica de 66.500 páginas da primeira forma contra 2.000 da
segunda forma6. Não podemos dizer, portanto, que esta última não pode ser
usada, mas, certamente, não representa o uso preferido, sendo uma possibilidade
com menor probabilidade de ocorrência.
O segundo tipo de padrão citado por Berber Sardinha (2004:40) é a
coligação, a associação entre itens lexicais e gramaticais. O exemplo dado pelo
autor são os verbos start, cujo uso mais comum é a forma nominalizada e orações
–ing, enquanto o verbo begin é mais usado com o complemento to. Segundo
Hunston (1995:15) este termo foi cunhado por John Rupert Firth em 1957, mas
pouco usado desde então, o que faz sentido, pois, quando se toma como princípio
a afirmação de Sinclair de que não há sentido em separar o léxico da sintaxe
entende-se que a distinção entre colocação e coligação tende a desaparecer.
Mesmo que a coligação possa ser considerada um tipo de colocação, é muitas
vezes importante ressaltar o seu aspecto ligado à gramática.
O terceiro e último tipo de padrão é a prosódia semântica. Este nome se
deve ao fato de certas palavras prepararem o ouvinte ou o leitor para o que está
por vir (Berber Sardinha, 2004:41), como algo suprasegmental, assim como à
prosódia da fala,indicando uma expectativa que o contexto a seguir será positivo,
negativo ou neutro, ou seja, a prosódia semântica e’ o processo que confere o
sentido conotativo a certas palavras e expressões. Os exemplos oferecidos por
Berber Sardinha (2004:41), são o verbo cause, que está associado a palavras
6 Consulta feita na página google.com.br em 02/02/2008. Lembramos que cada página pode ter mais de uma ocorrência, o que significa que o número de ocorrências dessa forma pode ser muito mais alto do que o mostrado pelo buscador.
21
desfavoráveis, como problems, death, disease, apresentando prosódia negativa, e
provide, que tem prosódia positiva ou neutra, relacionando-se a assistance, care,
jobs.
Portanto, reunindo os raciocínios de Sinclair, Hoey, Hunston e Berber
Sardinha, podemos dizer que a linguagem é padronizada, com regularidades
verificáveis pela freqüência, e a sua expressão se dá por meio de unidades pré-
construídas, ou padrões, que a organizam e imprimem-lhe naturalidade.
Cabe aqui um pequeno aparte sobre a postura do tradutor diante destas
regularidades. Tagnin (2002:193) argumenta que “Basicamente, a ingenuidade do
tradutor se configura numa compreensão composicional do significado e numa
falta de consciência do quanto uma língua é constituída dessas partes pré-
fabricadas. A ingenuidade do tradutor pode transparecer tanto na sua habilidade
de compreensão, quando na de produção”. Considerando essa observação, é
possível inferir que a falta de domínio do tradutor sobre tais estruturas “pode
levá-lo a escolher formas possíveis em detrimento das prováveis, produzindo
uma tradução não natural, não fluente” (Tagnin, 2002:194).
Portanto, o domínio, não apenas do vocabulário, mas das combinações
preferenciais, ou padrões, que podem ser formadas é primordial para o bom
desempenho do tradutor.
1.1.4. Lexical Primimg
A noção de lexical priming deriva da noção de priming, definida na
psicologia como:
é um tipo de memória implícita (não declarativa) referente aos efeitos facilitadores de
eventos antecedentes (primes) sobre o desempenho subseqüente (respostas aos alvos), ou
seja, um aperfeiçoamento da capacidade de detectar ou identificar palavras, objetos ou
figuras após uma experiência recente com eles. [...] O efeito de priming em tarefas
22
lingüísticas se manifesta quando o processamento de uma palavra (o alvo) é facilitado
pelo estímulo antecedente (o prime). (Salles et al., 2007:71-72).
Por essa definição, entendemos que ‘priming’ é um tipo de pré-ativação de
certos elementos ou experiências na mente. Ainda segundo a citação acima
percebemos que dispomos de uma memória implícita, em que as palavras estão
associadas de forma que o alvo é ativado mediante a apresentação do estímulo. É
também fundamental notar que as ativações (primings) se firmam na memória por
meio da experiência que temos com elas. Os estudos e experimentos de priming
lexical envolvem principalmente leitura, verificando o processo de
reconhecimento das palavras, o acesso ao léxico mental e como é feita a decisão
sobre o alvo (Salles et al., 2007:78).
Na Lingüística de Corpus, por sua vez, Hoey (2005) usou a noção acima
para explicar a existência de colocações e criar um conceito para Lexical Priming.
Para ele (Hoey, 2005:8), “da mesma forma como uma palavra é incorporada ao
vocabulário do falante por meio de contatos com ela na fala e na escrita, ela vai
acumulando contextos e cotextos nos quais é encontrada, sendo que o nosso
conhecimento dela inclui as coocorrências com outras palavras em certos
contextos”7. O autor entende a colocação como fator chave para a naturalidade e a
organização da língua, propondo-a como um “fenômeno psicolingüístico” e
redefinindo-a como “uma associação psicológica entre palavras (e não entre
lemas) distantes em até quatro palavras evidenciada pela sua ocorrência conjunta
em corpora com uma freqüência mais alta do que pode ser explicado em termos
de distribuição aleatória”8 (Hoey, 2005:5). Assim, Hoey (2005) afirma que as
7 “As a word is acquired through encounters with it in speech and writing, it becomes cumulatively loaded with contexts and co-texts
in which it is encountered, and our knowledge of it includes the fact that it co-occurs with certain other words in certain kinds of
context”. (tradução minha)
8 “[...] a psychological association between words (rather than lemmas) up to four words apart and is evidenced by their occurrence
together in corpora more often than is explicable in terms of random distribution.” (tradução minha)
23
colocações existem, são memorizadas pelos sucessivos encontros com elas e
utilizadas por meio do priming.
Uma das noções que sustentam o argumento de Hoey (2005) em relação às
colocações é oferecida por Stubbs (1996:56 apud Hoey, 2005:8), em que “Os
falantes são livres, mas apenas dentro de determinados limites [...] A reprodução
do sistema é o produto não intencional do comportamento rotineiro do falante”9.
Isso quer dizer que usamos a liberdade ao exercer a linguagem dentro de certos
limites para que possamos ser compreendidos e que, por isso, criamos hábitos
que se repetem, criando uma rotina na fala. Assim, o falante é levado pelo priming
a reproduzir, de forma não intencional, certos aspectos da linguagem que
preparam o ouvinte para o que vem a seguir. Outra noção usada por Hoey (2005)
é a de Hopper, (1988 apud Hoey, 2005:9) em que a gramática é resultado da
“rotina”, dos agrupamentos colocacionais, o uso repetido que resulta em uma
gramática para cada indivíduo.
Hoey (2005) relata a sua pesquisa com dados do corpus monolíngüe do
jornal inglês The Guardian, que teve início com uma análise de coocorrências, e
mostrou evidências de que as palavras ocorrem em determinadas combinações,
enquanto não aparecem em outras. O autor usou, inicialmente, duas frases em
inglês, a primeira extraída do corpus e a segunda é a mesma oração reescrita por
ele mesmo, de uma maneira que ele considera desajeitada e não fluente. São elas:
In winter Hammerfest is a third-hour ride by bus from Oslo, though why anyone would want to
go there in winter is a question worth considering.
Through winter, rides between Oslo and Hammerfest use thirty hours up in a bus, though
why travelers select to ride there then might be pondered.
9 “Speakers are free, but only within constraints. [...] The reproduction of the system is the unintended product of their routine
behaviour” (tradução minha)
24
Assim, Hoey extraiu combinações de ambas as frases, como, por exemplo,
a thirdy-hours ride by bus e thirdy hours up in a bus, investigou e comparou as
ocorrências no corpus, demonstrando que a frase extraída do corpus contém
seqüências mais utilizadas, enquanto a outra não. Este trabalho foi estendido por
Hoey para os campos gramatical, textual e semântico do corpus, procurando
demonstrar como o repetido contato com seqüências e estruturas recorrentes se
fixam na memória e são ativados (primed) quando é apresentado o estímulo. O
uso de um corpus possibilitou a comparação de várias combinações, o que não
seria possível de outra maneira.
Assim, podemos entender a teoria de Lexical Priming apresentada por Hoey
(2005) como uma pré-ativação de combinações pré-construídas disponíveis na
língua, que estão prontas para utilização e são mantidas na memória em estado
de latência, não estando restritas a palavras individuais, mas a combinações de
palavras e frases inteiras (Hoey, 2005: 5).
Como sempre podemos fazer novos usos das palavras, renovando o
repertório de possibilidades contidas nesse dicionário, esse “dicionário mental”
não é um conjunto estático. Além disso, o efeito priming é sensível ao contexto e
os itens lexicais de uso corrente fazem parte do nosso léxico mental, em quais
combinações eles se encaixam e em quais tipos de texto (Hoey, 2005: 10-14).
Entretanto, com relação ao uso de corpus para a detecção do efeito priming,
Hoey (2005:15) demonstra cautela, dizendo que tudo o que um corpus pode fazer
é indicar a probabilidade de que certas ativações são compartilhadas por um
grande número de falantes.
Hoey (2005) fez as suas pesquisas em um corpus monolíngüe apenas para
a língua inglesa, mas faz algumas observações sobre o priming para o
aprendizado de uma segunda língua. Ao aprendermos a língua materna, os
25
primings são desenvolvidos pela primeira vez. Quando acontece o aprendizado de
uma língua estrangeira, é desenvolvido um segundo conjunto de primings,
distinto do primeiro. Hoey (2005:183) afirma que, se no momento do aprendizado
da língua estrangeira é feita uma tradução, este processo ativa o priming para a
língua materna e não para a segunda língua, fazendo com que as associações e
coligações da nova palavra apontem para a o conjunto lexical da língua materna,
além da possibilidade de provocar um apagamento das distinções entre os
conjuntos de ambas as línguas.
Embora Hoey (2005) não faça menção à Tradução, podemos supor que o
tradutor usa o acesso ao léxico mental e aos primings de cada uma das línguas
para compreender o texto em LF10 e produzir um novo texto em LA. Aplicando o
raciocínio que Hoey tece para o aprendizado de língua estrangeira à Tradução,
podem existir situações em que o tradutor não tenha desenvolvido os conjuntos
lexicais separadamente, com distinções claras entre os primings de ambas as
línguas. Nesse caso, é possível a influência da LF no texto em LA (tradutês) ou a
seleção de um alvo incorreto, produzindo uma tradução não fluente, sem a
naturalidade da língua em uso.
1.2. Estudos de Tradução com corpus
Como uma atividade ditada pela necessidade de comunicação entre os
povos, não se sabe exatamente quando teve início a prática da tradução, mas
ensina a tradição escrita que, já no II milênio antes da era cristã, os babilônios e
hititas traduziam a correspondência oficial dos estados (Mounin, 1965:30 apud
Furlan, 2001:11).
10 LF = Língua Fonte, LA = Língua Alvo.
26
A primeira tradução literária conhecida foi realizada no ano de 250 a.C. por
Lívio Andrônico, que verteu a Odisséia de Homero para o latim. Duzentos anos
depois, Cícero ofereceu, no seu discurso De optimo genere oratorum, novas
reflexões sobre a técnica de traduzir, vertendo discursos e adaptando-os aos seus
costumes, fazendo com que soassem fluidos (Furlan, 2001:12). Portanto, dizer que
a tradução é uma “invenção romana” (Bassnett, 1991:43) serve muito bem como
um ponto de partida histórico, apesar de parecer uma afirmação um tanto
forçada.
Desde então, a atividade foi se desenvolvendo no decorrer dos tempos,
passando pela idade média, com a presença de São Jerônimo, pela idade
moderna, quando Dryden formulou as primeiras categorizações para tradução,
até chegar aos nossos tempos.
No período atual, há várias vertentes teóricas desenvolvidas para os
Estudos da Tradução, como, por exemplo, a contrastiva, a funcional e os estudos
empíricos, de forma que os estudiosos podem adotar diferentes perspectivas para
abordar as questões tradutológicas.
O interesse do nosso trabalho está em como as áreas de Tradução e de
Lingüística de Corpus podem trabalhar juntas. Assim, apresentaremos os DTS
(Descriptive Translation Studies), estudos de base empírica, concebidos por Gideon
Toury (1995), que precederam a aproximação entre a as duas áreas.
Os DTS se preocupam com a descrição sistemática de três fenômenos
empíricos distintos vistos como constituintes do objeto da disciplina como um
todo, que são função, produto e processo da tradução. O termo função é
entendido pela ótica dos DTS de maneira bastante específica, pois está
relacionado à posição que o produto e o processo de tradução ocupam na cultura
alvo. Neste contexto, a função determina a composição textual real da tradução e
27
controla o processo de tradução, ou seja, as estratégias empregadas pelo tradutor
para produzir um texto destino a partir de um texto origem e os relacionamentos
entre eles (Laviosa, 2002:11).
Toury (1995:56-61) destaca como objetos dos estudos da tradução as
normas que restringem o comportamento tradutológico e estão associadas ao
ambiente sócio-cultural: inicial norms (norma inicial), referem-se à escolha da
adequação em oposição à aceitabilidade como estratégia global de tradução;
preliminary norms (normas preliminares), referem-se à política e direcionalidade
da tradução; operational norms (normas operacionais), controlam as decisões sobre
a composição textual do texto traduzido.
A metodologia descritiva proposta por Toury (1995:70), cujo objetivo é
expor o relacionamento obtido entre função, produto e processo, é constituída de
três estágios de análise e apresenta uma evolução indutiva gradual que cobre
desde fenômenos observáveis ocorridos em produtos de tradução até fatores não
observáveis que controlam o comportamento tradutológico.
Acompanhando o pensamento de Laviosa (2002:16), o paralelo que pode
ser traçado entre os DTS e a Lingüística de Corpus está na perspectiva adotada
por ambas as áreas de pesquisa acerca do empirismo e da investigação do objeto
de estudo por meio da observação direta de exemplos da vida real, deixando de
lado a especulação baseada em dados intuitivos e pressuposições. Além disso,
ambas as abordagens afirmam que as generalizações derivadas da evidência
empírica podem somente ser válidas se baseadas em estudos de conjuntos de
textos em larga escala.
É possível notar, portanto, que a aproximação entre as duas áreas de
pesquisa se deu primeiramente pela convergência conceitual entre os DTS e a
Lingüística de Corpus. Hoje, é pensamento corrente, tanto entre estudiosos de
28
Tradução como entre os lingüistas de corpus, é de que ambas as áreas de pesquisa
têm muito a ganhar com a parceria entre as duas áreas (Berber Sardinha, 2002:15).
Teóricos como Toury enfatizam a necessidade da observação de
regularidades para oferecer hipóteses que as expliquem baseadas em corpora de
textos sempre em expansão (Kenny, 2001:57). Com isso, Toury (1995:38)
estabelece alguns critérios para a compilação de corpora de tradução, como
“tradutor, escola, período, tipo de texto, fenômeno lingüístico-textual, e qualquer
outra razão justificável”.
A importância de Toury, considerado pai dos DTS, encontrou par no
pioneirismo de Baker, considerada a mãe dos Estudos Descritivos da Tradução
baseados em Corpus (Laviosa, 2002:18). Em 1993, ela declarou que a
disponibilidade de grandes corpora de originais e traduções associados a uma
metodologia corpus-driven, permitiria que os estudiosos de tradução descobrissem
“a natureza do texto traduzido como um evento comunicativo mediado”
investigando-se o que é conhecido na literatura como universais de tradução
(Baker, 1993:243). Tais universais constituem características lingüísticas que
ocorrem tipicamente nos textos traduzidos e não dependem dos pares de língua
envolvidos no processo.
Ao formular os universais, Baker estabelece o seu interesse nos padrões
encontrados nas traduções que não são resultado da interferência de LF ou LA e,
como eles são específicos da tradução, parecem ser mais recorrentes na língua
traduzida do que na não traduzida (Olohan, 2004:92).
Sem dúvida, essa visão proporcionou uma nova perspectiva, abrindo
novos horizontes. Os universais de tradução concebidos por Baker são:
1. Explicitação (explicitation)
29
Uma tendência geral em esclarecer as coisas em vez de deixá-las
implícitas (Baker, 1996:180). Trata-se de uma estratégia utilizada para detalhar
pontos de interesse entre as duas línguas, com exemplos e ilustrações feitos
pelo tradutor, e que podem explicar a existência de textos em LA maiores do
que os da LF. Nessa categoria estão enquadradas as expansões lexicais e
gramaticais típicas que se aplicam à LA, como as explicações, que surgem
quando falta um termo equivalente em LA, e as reformulações, que
normalmente são evidenciadas pelos marcadores isto é, quero dizer, ou seja,
entre outros.
2. Simplificação (simplification)
É o fenômeno marcado pela redução vocabular do texto, que pode
incluir a fragmentação de sentenças longas, a omissão de informações
redundantes, a diminuição de estruturas complexas, entre outros. A
simplificação não implica uma tradução pobre, com perda ou prejuízo do
sentido, mas apenas a diminuição na quantidade de palavras. (Olohan,
2004:99).
No intuito de verificar se a simplificação é uma característica da
tradução, Laviosa (2002:60) pesquisou um corpus comparável de textos
traduzidos para o inglês e levantou três hipóteses sobre possíveis
manifestações de simplificação: os textos traduzidos devem ter variedade
lexical menor, carga de informação menor e sentenças mais curtas. Medindo a
densidade lexical e comprimento médio das sentenças, ela confirmou as
hipóteses, o que sustenta a noção da simplificação como característica da
tradução. Observamos aqui que o estudo de Laviosa foi feito na língua inglesa,
e essas hipóteses podem não ser verdadeiras para outras línguas mais ricas em
termos morfossintáticos.
30
3. Normalização (ou conservadorismo) (normalization or conservatism)
É a tendência de o tradutor se adequar aos padrões e às práticas que são
típicos da LA, ao ponto de cometer exageros (Baker, 1996:176). Berber
Sardinha (2002:26) comenta que “um exame das escolhas lexicais em textos
originais e em suas respectivas traduções pode revelar a normalização se
indicar, por exemplo, que as escolhas mais ‘marcadas’ (ou criativas) dos
originais tiverem sido traduzidas por outras menos marcadas”.Enquanto a
discussão de Baker sobre normalização se concentra nas estruturas gramaticais
típicas, pontuação e padrões colocacionais, Lawrence Venuti (1995, 19-20 apud
Olohan, 2004:97) concebe o fenômeno como tradução “domesticadora” ou
“estrangeirizadora”11 e que, portanto, se estende além da padronização
lingüística do texto, entrando no terreno das escolhas e estratégias mais
globais que levam em conta o material traduzido, as estratégias de tradução,
políticas, normas, etc.
4. Estabilização (levelling out)
Reflete a hipótese de que a linguagem apresenta menos variação nas
características textuais em um corpus de traduções do que em um corpus de
não-traduções, ou seja, que os textos em um corpus de traduções são mais
homogêneos em termos de características textuais do que qualquer corpus
equivalente de textos não traduzidos.
Segundo Olohan (2004:30), a análise da tradução pode nos dizer muito
sobre o comportamento do tradutor. O estudo dos universais ressalta aspectos
comuns em traduções que podem ser resultantes da influência do texto da LF em
11 Do original [...] “domesticating” or “foreigneizing” translation (tradução minha).
31
LA (Olohan, 2004:90), além de refletir estratégias usadas pelo(s) tradutor(es),
revelando o seu comportamento perante o texto original.
Nessa associação entre Tradução e Lingüística de Corpus, podemos citar
como trabalhos de destaque os estudos de Laviosa (2002) e Olohan (2004). Ambas,
sob perspectivas diferentes, além de revelar as descobertas feitas por meio de
análise de corpora e aplicação dos universais, também se voltam para a
compilação de corpora paralelos e comparáveis usados como ferramentas na
formação de tradutores e como recursos para o tradutor profissional.
1.2.1. Corpus paralelo
McEnery e Xiao, (2007:139) definem corpus paralelo como conjuntos que
contêm os textos na LF e as suas traduções. Podem ser unidirecionais (LF → LA),
bidirecionais (LF ↔ LA ) ou multi-direcionais (LF → [LA1,LA2,LA3, etc]12). Em
suma, ao se construir corpora paralelos, os segmentos13 do texto original ficam
diretamente associados à sua tradução, tornando possíveis inúmeras formas de
busca.
Sob a ótica da Lingüística de Corpus, há algumas divergências e dúvidas
em relação à nomenclatura corpus paralelo, sendo que alguns dizem que deveriam
ser chamados de comparáveis (McEnery e Xiao, 2007:139). Hoje em dia, há uma
opinião mais homogênea em relação à essa questão e admite-se que os corpora
paralelos refletem a definição oferecida por McEnery e Xiao (2007:139) citada
acima, enquanto os corpora comparáveis são aqueles compostos por vários textos
12 LA1, LA2, LA3 etc representam as várias línguas em que o mesmo texto foi traduzido.
13 Porções do texto delimitadas por um parágrafo, uma frase ou outro delimitador qualquer.
32
de mesma natureza e na mesma língua. Por exemplo, são comparáveis aqueles
corpora compostos somente com textos traduzidos para a língua portuguesa.
No presente estudo, a nomenclatura utilizada para corpora compostos do
texto original acompanhado da sua respectiva tradução será corpora paralelos,
terminologia adotada por Olohan (2004:24) e por McEnery e Xiao (2007:139).
O manuseio dos corpora paralelos pode ser feito por meio de duas
ferramentas automatizadas específicas, os alinhadores, usados para a montagem e
os concordanciadores paralelos, que possibilitam acesso às linhas dos corpora. É
impensável um trabalho manual que envolva uma tarefa deste porte, pois, como
já foi dito, as habilidades humanas para tarefas repetitivas são bastante limitadas.
Para a nossa pesquisa, trabalharemos com um corpus formado pelo texto
do livro DNA – The secret of life na LF em inglês e a sua respectiva tradução em
português. Dessa forma, utilizaremos o modelo unidirecional LF → LA,
mencionado por McEnery e Xiao (2007:139). Selecionamos, da nossa pesquisa,
dois segmentos do corpus alinhado a título de exemplo do resultado final:
In addition, the Further Reading section lists books relevant to each chapter.
Além disso, a seção Leitura Adicional indica livros relevantes a cada capítulo.
McEnery e Xiao (2007:138) comentam a grande importância que os corpora
paralelos ganharam na Lingüística de Corpus, em grande parte porque estes dois
tipos representam recursos importantes para a tradução e os estudos contrastivos.
Aijmer e Altenberg (1996:12, apud McEnery e Xiao, 2007:141) ressaltam excelentes
resultados proporcionados por esses tipos de corpora:
• “oferecem uma nova compreensão das línguas que estão sendo
comparadas, o que não seria possível em estudos de corpora monolíngües;
33
• podem ser usados para uma variedade de atividades que incluam
comparação, além de aumentar o nosso conhecimento das diferenças
específicas entre as línguas em questão;
• destacam diferenças entre os textos na LF e as suas traduções, e entre
textos nativos e não nativos;
• podem ser usados para várias aplicações práticas, como a lexicografia, o
ensino de línguas e a tradução.”14
As pesquisas que utilizam corpora paralelos são geralmente de cunho
contrastivo15. Olohan (2004:26-28) descreve dois estudos em que foi feito uso de
contrastividade com corpora paralelos.
O primeiro, conduzido por Altenberg (1998), investigou as estruturas
iniciais em traduções do inglês para o sueco e indicou que, na tradução, tais
estruturas estavam reposicionadas e havia uma predominância do
posicionamento frontal de advérbios, o que pode constituir uma característica
típica daquelas traduções.
O segundo, conduzido por Hasselgard (1998), teve como objetivo
demonstrar como a estrutura temática é preservada ou alterada na tradução de
inglês ↔ norueguês. O estudo concluiu que o tema é normalmente preservado,
mesmo quando ocorrem deslocamentos sintáticos na tradução e que os níveis de
14 Tradução minha do original: • they give new insights into the languages compared – insights that are not likely to be noticed in studies of
monolingual corpora; • they can be used for a range of comparative purposes and increase our knowledge of language-specific, typological
and cultural differences, as well as of universal features; • they illuminate differences between source texts and translations, and between native and non-native texts; • they can be used for a number of practical applications, e.g. in lexicography, language teaching and translation.
15 “A análise contrastiva consiste na aproximação de duas ou mais línguas para confrontá-las entre si e verificar as semelhanças e diferenças: por isso surge atualmente a designação ‘análise confrontativa’ em vez de ‘análise contrastiva’” (Vilela, 1994:11).
34
retenção e modificação da estrutura temática são quase idênticos nas traduções
inglês → norueguês e norueguês → inglês.
Na prática, isso quer dizer que a confrontação nos permite conhecer as
características lingüísticas impressas em LA que surgem como resultado da
tradução e que pouco aparecem quando pesquisadas na língua como um todo,
em um corpus de língua geral, por exemplo. Esses estudos podem corroborar a
afirmação de Baker (1993:243) de que a tradução não é capaz de fugir do tradutês,
e sempre encontraremos, nas traduções, vestígios que mostrem características
diferentes das que são usadas naturalmente na língua.
A opinião de Olohan (2004:29-30) é muito racional em relação às pesquisas
confrontativas. Embora reconheça que o texto original acompanhado da sua
tradução nos diga muito a respeito do comportamento do tradutor, acredita que
nada pode ser afirmado a respeito do que o motiva a fazer uma escolha. O
máximo que o pesquisador pode fazer é observar que foi feita uma determinada
opção e especular sobre as possíveis razões para isso.
1.2.2. Corpora comparáveis
Contrastando com os corpora paralelos, há os corpora comparáveis. Baker
(1995:234) define corpora comparáveis como duas coletâneas de textos na mesma
língua: uma delas composta com textos originais da língua em questão e a outra
com textos traduzidos para esta mesma língua, cobrindo domínio, variedade de
linguagem e período de tempo similares, além de ter tamanho comparável.
Baker (1996), concentrando-se nos universais de tradução, pressupõe
algumas características de tradução que podem ser estudadas por meio de
corpora comparáveis, como, por exemplo, tendência à explicitação ou
simplificação nos textos traduzidos quando comparados com textos não
35
traduzidos, ou o uso mais convencional da linguagem em textos traduzidos,
indicando uma normalização.
Segundo Olohan (2004:38), a utilização de corpora comparáveis permite o
estudo do processo de tradução a partir do produto. A identificação de traços que
emergem em textos traduzidos pode ser baseada na comparação com textos da
língua alvo.
No nosso estudo, compilamos um corpus chamado ‘corpus de base’, que é
uma amostra retirada de um corpus de língua geral do português, o Banco de
Português, para compará-lo com o texto traduzido no intuito de saber se os
tamanhos do vocabulário de ambos são aproximados.
O corpus de base foi criado devido a fato de que as línguas inglesa e
portuguesa morfologias diferentes, não sendo, portanto, possível uma
comparação direta entre número de types das duas línguas. Por exemplo, um
substantivo no inglês e’ flexionado em termos de plural apenas (possuindo dois
types possíveis, por exemplo: cat, cats), enquanto no português ele se flexiona em
gênero, número e grau (possuindo pelo menos doze types: ‘gato’, ‘gata’, ‘gatos’,
‘gatas’, ‘gatão’, gatões’, ‘gatinho’, ‘gatinhos’, ‘gatinha’, ‘gatinhas’, ‘gatona’,
‘gatonas’). Como o type-token ratio é computado a partir das formas exibidas no
texto (e não das formas lematizadas, o que seria possível, mas não perfeito, visto
que os lematizadores muitas vezes apenas substituem o plural pelo singular, mas
não normalizam os casos de aumentativo e diminutivo ou de masculino e
feminino), não se pode comparar a quantidade de formas do texto em inglês com
as do texto em português, pois haveria distorção. Por isso, precisamos comparar o
texto traduzido a textos em língua portuguesa, para que seja respeitada a
morfologia das línguas em questão. Entretanto, o TTR também e’ sensível ao
tamanho do corpus, por isso não podemos comparar corpora de tamanhos
diferentes, visto que, conforme dito, corpora maiores possuem TTRs menores e
36
vice-versa. Tendo em mente todas essas restrições, foi preciso criar um corpus de
comparação que chamamos de ‘corpus de base’ para servir como ponto de
comparação do tamanho do vocabulário do texto traduzido. Dessa maneira, foi
criado um corpus com dimensões semelhantes ao corpus de estudo para que
pudéssemos descobrir em que medida a tradução se aproxima ou se afasta do que
consideramos como base para a língua portuguesa em termos de tamanho.
A comparação dos dois corpora em termos de tamanho de vocabulário se
fundamenta em duas premissas.
A primeira, é o universal da estabilização. Este universal prevê que textos
traduzidos apresentam características diferentes daqueles escritos originalmente
na LA. Portanto, o tamanho do vocabulário do texto traduzido comparado a um
texto original pode indicar a presença da estabilização.
Em segundo lugar, nas discussões sobre a liberdade humana no exercício
da linguagem. A observação de Stubbs (1996:56 apud Hoey, 2005:8), de que “os
falantes são livres, mas apenas dentro de determinados limites [...] A reprodução
do sistema é o produto não intencional do comportamento rotineiro do falante”,
encontra complemento em Biderman (2001:10):
“[...] os condicionamentos da fala e da estrutura da língua impõem ao indivíduo um
complexo mecanismo de automação no exercício da linguagem. Mais ainda: sendo a
língua uma instituição herdada, o indivíduo não cria o sistema convencional de
comunicação que recebeu por herança e adotou desde a infância, inconscientemente. [...]
O ato de comunicação falada e escrita tem, pois, essas duas faces paradoxais: as coerções
impostas pelo sistema lingüístico e a liberdade relativa que tem o sujeito de servir-se dos
elementos constitutivos da língua. Em alguns níveis do sistema lingüístico, a liberdade
poderá exercer-se um pouco mais (domínio sintático e léxico), em outros será
consideravelmente reduzida (domínio morfológico) e, por fim, poderá ser quase nula
(domínio fonético)”
37
Sabendo-se que a liberdade individual no uso da linguagem é circunscrita,
a comparação da tradução com o corpus de base do português deve revelar se o
tamanho do vocabulário de ambos os texto é aproximado.
Encerramos aqui a seção de Fundamentação Teórica, cujos conceitos serão
retomados durante a descrição da Metodologia e Análise dos Dados.
38
CAPÍTULO 2: Metodologia
Este capítulo é destinado à descrição da metodologia utilizada para este
estudo. Aqui também serão descritos os corpora especialmente compilados, os
métodos de coleta e os critérios para seleção e análise dos itens pesquisados.
Remetendo-nos ao início deste trabalho, o objetivo da pesquisa é descrever
características lexicais de uma tradução por meio da comparação entre dois
textos, o original e a tradução de um livro premiado, no intuito identificar como o
tradutor explorou o repertório da língua portuguesa e produziu um texto fluente.
Escolhemos trabalhar com uma tradução premiada porque desejávamos
encontrar, de modo sistemático, características de uma tradução premiada que
revelassem a expertise do tradutor. Além disso, supõe-se que a tradução foi
produzida por um profissional experiente, que fez um uso adequado e fluente da
língua portuguesa, podendo proporcionar uma análise que mostre a excelência e
o comportamento de um tradutor experiente reconhecido pela comunidade
acadêmica.
2.1. Corpus de estudo
Como exposto anteriormente, qualquer corpus deve ser orientado pelos
objetivos da pesquisa. Portanto, como desejávamos analisar aspectos de uma
tradução premiada e reconhecida, precisávamos de trabalhos avaliados e aceitos
pela comunidade acadêmica como obras de qualidade superior. Assim, seguimos
os passos das premiações anuais, pois as traduções são submetidas à apreciação
de um corpo de jurados, em geral tradutores e acadêmicos, que analisam o
trabalho conforme um conjunto de parâmetros preestabelecidos para avaliação.
39
Dessa forma, podemos considerar que as obras premiadas recebem um “selo de
qualidade” avalizado por especialistas.
Para o presente estudo, usamos a classificação do Prêmio União Latina de
Tradução Especializada do ano de 2006, organizado pela Câmara Brasileira do
Livro (CBL). A seleção desta premiação tem três razões muito simples, e que a
justificam plenamente: (i) premia traduções; (ii) a Câmara Brasileira do Livro é
uma entidade nacionalmente reconhecida; (iii) a escolha dos jurados é feita entre
profissionais qualificados do meio profissional e acadêmico.
O Prêmio União Latina de Tradução Especializada (antigo Prêmio União
Latina- CBL de Tradução Científica e Técnica) foi criado em 2000 com o intuito de
promover a língua portuguesa, sendo promovido pela União Latina, organização
intergovernamental e internacional de vocação lingüística, científica, técnica e
cultural, com apoio da Câmara Brasileira do Livro. O prêmio visa valorizar as
traduções de boa qualidade que tenham contribuído para o enriquecimento da
terminologia científico-técnica em língua portuguesa, estimulando também a
profissão do tradutor especializado16. A União Latina é uma organização
internacional fundada em 1954 pela Convenção de Madrid para evidenciar e
difundir a herança cultural e as identidades do mundo latino. Atua em três
grandes áreas: Cultura e Comunicação, Promoção e Ensino de Línguas, e
Terminologia e Indústria das Línguas. O prêmio oferecido em parceria com a CBL
está relacionado a esta última área, que está direcionada para enriquecer as
terminologias científicas e técnicas das línguas latinas, contribuir para o
desenvolvimento da cooperação em matéria de terminologia, neologia e
16 texto extraído da página de Internet da Câmara Brasileira do Livro www.cbl.org.br
40
indústrias da língua nos países latinos, e favorecer o multilingüismo na sociedade
da informação17.
Os jurados recebem um formulário com os aspectos a serem avaliados.
Para alguns destes, podem ser atribuídas notas de 1 a 5, em que 1 é a nota mais
baixa. Para as outros, os jurados devem fazer uma descrição e/ou justificativa.
Assim, os critérios de avaliação usados na ocasião estavam divididos da seguinte
forma:
i) Tradução (a) Técnica de tradução (nota 1 a 5) (b) Quantidade de incorreções detectadas (nota 1 a 5) (c) Qualidade do texto na LA (nota 1 a 5)
ii) Terminologia (a) Qualidade do ponto de vista terminológico (nota 1 a 5) (b) Quantidade de incorreções detectadas (nota 1 a 5) (c) Enriquecimento da terminologia em língua portuguesa (nota 1 a 5)
iii) Apreciação global (a) Qualidade do trabalho no seu conjunto (nota 1 a 5) (b) Justificação fundamentada (descrição/justificativa) (c) Exemplos de boas soluções encontradas pelo tradutor (descrição) (d) Exemplos de escolhas questionáveis, mas criativas (descrição)
Visamos aqui a uma simples apresentação dos critérios, sem qualquer
intenção de discuti-los, pois serviu-nos apenas como orientação para aspectos que
são observados para premiação. Apenas no sentido de identificar o nosso objetivo
de pesquisa com um dos itens usados para julgamento, vemos que ele se
enquadra em i.c – Qualidade do texto na LA, pois “qualidade”, na sua abrangência,
toca também no aspecto lexical, objeto da nossa descrição.
17 Texto extraído da página de Internet da União Latina em www.unilat.org
41
O primeiro lugar na premiação do ano de 2006, escolhido para a presente
pesquisa, foi ocupado pela tradução da obra DNA – The secret of life, de autoria de
James Watson, editado em língua inglesa em 2003, traduzida para o português
por Carlos Afonso Malferrari e publicada pela Companhia das Letras em 2005.
Nesse livro, o cientista James Watson, que em 1953 desvendou a estrutura da
molécula de DNA, faz um panorama da história da biologia moderna e mostra
como a genética revolucionou nosso conhecimento sobre a vida e o meio
ambiente. É uma obra de divulgação científica na área de engenharia genética que
reúne eventos da vida pessoal do autor, fala da jornada científica da engenharia
moderna, desde a sua criação até os nossos dias, além de mencionar fatos dos
bastidores da ciência.
2.1.1. Perfil do tradutor
Para esse trabalho, julgamos importante saber algumas informações sobre
o tradutor. Infelizmente, embora tenhamos solicitado à editora, nada
conseguimos nesse sentido.
Porém, uma pesquisa na Internet nos trouxe o nome do tradutor ligado à
tradução de obras sobre História, Política, Economia, Religiões18. Dessa forma, a
única coisa que percebemos é o ecletismo dos temas traduzidos. Uma informação
que nos seria valiosa, mas não temos como saber, é a expertise do tradutor em
engenharia genética.
18 Conforme consulta à página da Livraria Cultura (www.livrariacultura.com.br) feita em 15/03/2008.
42
2.1.2. Compilação do corpus de estudo
Uma vez decidida a obra a ser pesquisada, as cópias do original em inglês
e da versão traduzida para o português foram digitalizadas separadamente e
gravadas em arquivos de documento MS-word por capítulo. Cada um destes foi
minuciosamente conferido, para assegurar que o processo de digitalização não
havia corrompido de alguma forma o texto, como troca ou omissão de letras,
omissão de palavras, etc. Para evitar uma verificação apenas visual,
extremamente sujeita a falhas, usamos também o corretor ortográfico e gramatical
do MS-word, que localizava automaticamente as palavras desconhecidas ou
estruturas gramaticais consideradas incorretas, as quais eram então comparadas
com a cópia impressa, procedimento que contribuiu imensamente para acelerar o
processo com confiabilidade.
Uma observação importante é que apenas os textos dos livros foram
digitalizados, excluindo-se as legendas das figuras e as notas de rodapé. Tal ação
é facilmente explicada, pois as legendas e as notas em LF não estão exatamente na
mesma página do texto na LA, o que dificulta o processo de alinhamento entre os
textos, além de nada acrescentarem em termos de conteúdo, pois apenas
descrevem ou explicam fotos de pessoas, instalações, processos etc.
Após a digitalização e verificação, os capítulos do texto em LF foram
reunidos em um único arquivo e convertidos para o formato de texto (.txt), para
que pudessem ser processados por um software de processamento lingüístico. O
mesmo foi feito para o texto na LA. Quando tratamos de ferramentas
automatizadas, arquivos no formato de texto, ou .txt, são mais apropriados, pois
são mais flexíveis e permitem o desenvolvimento de ferramentas e o uso de
comandos de programação que entendam facilmente o seu conteúdo.
43
Um corpus é composto de textos e, portanto, por seqüências de palavras.
Em Lingüística de Corpus, existe uma nomenclatura técnica para as palavras
conforme se apresentam no texto. Assim, tokens representa o número total de
palavras do texto, types, o número de palavras sem considerar as repetições (se a
palavra “gene” aparecer 10 vezes, serão contabilizados 10 tokens, porém apenas 1
type); o type-token ratio (TTR), é o percentual de types sobre o número total de
tokens.
Assim, obtivemos dois corpora com as seguintes características:
TokensTokensTokensTokens TypesTypesTypesTypes TTRTTRTTRTTR
CCCCorpus Lorpus Lorpus Lorpus LFFFF (inglês)(inglês)(inglês)(inglês) 135.702 12.920 9,52%
CCCCorpus Lorpus Lorpus Lorpus LAAAA (português)(português)(português)(português) 142.709 16.691 11,70%
Diferença Diferença Diferença Diferença de de de de LFLFLFLF em relação aem relação aem relação aem relação a LLLLAAAA (%)(%)(%)(%) 5,16%a 29,19% 22,89%b
Características dos corpora com texto original (inglês), com o texto traduzido (português) e a diferenças nos volumes de tokens, types, e type-token ratio entre ambos (a) LA – LF = 7.007 (b) 11,70 / 9,52 (representa o quanto a tradução é maior do que o original)
De acordo com esse quadro de informações, a tradução é mais extensa
(medido pela quantidade de tokens, sendo 5,16% maior), mais rica do ponto de
vista do vocabulário (medido pela quantidade de types, sendo 29,19% mais rica),
além de ser mais densa lexicalmente (medido pelo Type-Token Ratio, TTR, sendo
22,89% mais densa).
2.2. Corpus de base
Conforme explicado no capítulo anterior, para sabermos até que ponto a
diferença de extensão, tamanho do vocabulário e densidade lexical são fruto
simplesmente da diferença natural entre as duas línguas ou se é resultado do
trabalho do tradutor, criamos o corpus de base, que é detalhado na seção a seguir.
Para a criação do corpus de base, o primeiro critério estabelecido foi o
tamanho, que deveria se aproximar ao máximo do tamanho do corpus de estudo
44
em LA. O segundo critério, é que deveria ser composto com textos extraídos de
um corpus de língua geral em português. Um corpus de língua geral disponível
em língua portuguesa é o Banco de Português 2.0 mantido pelo CEPRIL, LAEL19
sob responsabilidade do grupo de pesquisa Direct20 da PUC-SP, com cerca de 700
milhões de palavras do português brasileiro falado e escrito.
Assim, aleatoriamente, extraímos 190 arquivos dentro do Banco de
Português versão 2, que compuseram uma amostra com o tamanho necessário
para uma comparação com o nosso texto traduzido.
O corpus de base produzido tinha as seguintes características:
Corpus de baseCorpus de baseCorpus de baseCorpus de base TokensTokensTokensTokens TypesTypesTypesTypes TTRTTRTTRTTR
143.947 18.060 12,55%
Características do corpus de base
O corpus de base, uma amostra do Banco de Português, constitui o corpus
comparável que será confrontado com o texto traduzido em termos de tamanho
de vocabulário e densidade lexical. Com a comparação entre os dois corpora,
fundamentada nas discussões sobre a liberdade humana no exercício da
linguagem e nos limites que a cercam, espera-se conhecer o comportamento do
tradutor em relação ao uso rotineiro da língua portuguesa. Dessa forma, se os
tamanhos de vocabulário em ambos os corpora forem aproximados, podemos
entender que o vocabulário usado na tradução acompanha o emprego do
vocabulário típico do português, não sendo conseqüência da prática tradutória.
19 CEPRIL é o Centro de Pesquisa, Recursos e Informação em Linguagem, ligado ao Programa de Pós-graduação do LAEL (Lingüística Aplicada e Estudos da Linguagem). Os textos do Banco de Português não estão disponíveis para o público em geral. Como aluna da instituição, a pesquisadora obteve acesso para a extração dos textos.
20 Sites do grupo: www2.lael.pucsp.br/direct, também na base de dados do CNPq.
45
2.3. Ferramentas automatizadas utilizadas na pesquisa
Antes dos anos de 1960, os corpora eram compilados e analisados
manualmente. Foi nessa época que computadores mainframe passaram a equipar
centros de pesquisa universitários e foram usados para pesquisas em linguagem
(Berber Sardinha, 2004:4). A popularização dos computadores possibilitou que
várias tarefas manuais fossam automatizadas, com um ganho significativo em
qualidade e tempo. Hoje em dia, os computadores pessoais são tão acessíveis que
dificilmente alguém faria uma exploração de corpus sem contar com ferramentas
automatizadas que façam o trabalho repetitivo e enfadonho que precede a análise.
Como é de conhecimento geral, o ser humano não está completamente
habilitado a tarefas repetitivas (Berber Sardinha, 2004:4), podendo,
inadvertidamente, deixar que se produzam erros nos resultados que dependam
de tais atividades. Todos estes fatores, por si, já justificam a utilização de
ferramentas automatizadas, dando mais confiabilidade às pesquisas de corpus.
Para o nosso trabalho, usamos o sistema operacional Windows, em que
podem ser executados a maioria dos programas de processamento lingüístico no
mercado.
2.3.1. WordSmith Tools
Compilados os corpora, precisamos analisá-los individualmente. Os
softwares para processamento de análise lingüística oferecem várias informações
sobre os conteúdos dos corpora, como, por exemplo, o número de tokens e de
types. Porém, um programa de computador pode fazer muito mais do que
contabilizar palavras. Outras informações que se pode obter por meio desses
softwares são as listas de palavras (wordlists), as palavras chaves (keywords) e as
concordâncias.
46
No mercado, há alguns softwares para processamento de análise lingüística.
Dois deles são muito utilizados, o WordSmith Tools, disponível em
www.lexically.net, e o Unitex, disponível gratuitamente em http://www-
igm.univ-mlv.fr/~unitex/. Optamos pelo WordSmith Tools V 3.0 por ser muito
mais fácil de operar, apesar de não ser gratuito
Lista de palavras (wordlist) é uma relação com todas as palavras do corpus
e a freqüência de cada uma delas. Em geral, a lista de palavras é a primeira
análise feita em um corpus, pois oferece um quadro geral da distribuição no texto.
Pode ser apresentada pelo software em ordem alfabética, ordem de freqüência e
um total estatístico que informa as quantidades totais de types e tokens, entre
outras informações. As três formas são mostradas na imagem de tela abaixo.
Figura 1 – três formas de apresentação da wordlist
Para facilitar a comparação, colocamos na tela as três formas de
apresentação dessas informações. No lado esquerdo, mostramos uma estatística
com os volumes totais do corpus (que o WordSmith Tools chama de Statistics),
como, por exemplo, a quantidade de types e de tokens. Na parte central da tela,
47
vemos a relação de palavras do corpus ordenada pelas suas freqüências (que o
WordSmith Tools chama de Wordlist(F)), que aparecem na segunda coluna, e os
percentuais de cada freqüência em relação à quantidade de types do corpus.
Assim, a palavra the tem 8873 ocorrências, o que corresponde a 6,54% de 135.702
types. Do lado direito, vemos a mesma lista da parte central disposta em ordem
alfabética (que o WordSmith Tools chama de Wordlist(A)).
As concordâncias, por sua vez, são listagens de ocorrências de um item
específico, chamado de palavra de busca ou nódulo, acompanhado do texto ao
seu redor, ou cotexto. Segundo Berber Sardinha (2004:106), as concordâncias são
ferramentas indispensáveis no estudo de colocações e da padronização lexical,
pois é por meio delas que podemos observar as coocorrências de palavras.
Apresentamos um exemplo de concordância da palavra sure na imagem de tela
abaixo.
Figura 2 – concordâncias de palavra sure, que aparece no centro.
48
Outro recurso oferecido é a extração de palavras-chave, ou keywords.
Segundo Berber Sardinha (2004:96), são itens de uma lista resultante da
confrontação entre as freqüências das listas de palavras do corpus de estudo de
um corpus de referência, ou palavras cujas freqüências são estatisticamente
diferentes no corpus de estudo e no corpus de referência. Para exemplificar, se
compararmos um corpus de estudo qualquer com um corpus de língua geral, as
palavras mais freqüentes no corpus de estudo que apresentam freqüência baixa
no corpus de língua geral serão as palavras-chave. Para o presente trabalho, não
utilizamos keywords.
Cabe, nesse momento, uma pequena observação a respeito das ferramentas
que testamos para este estudo. Quando iniciamos a nossa pesquisa, fizemos testes
com as versões 3.0 e 4.0 do WordSmith Tools e o Unitex, de forma que obtivemos
3 resultados estatísticos. Vimos que estes diferiam entre si na contabilização de
types e tokens e constatamos que as versões do WordSmith Tools e o Unitex usam
diferentes métodos para contar as palavras. Assim, usamos apenas o WordSmith
Tools 3.0, pois percebemos que, se usássemos versões ou ferramentas diferentes,
poderíamos comprometer os resultados do estudo.
2.3.2. Ferramentas CEPRIL – PUCSP
O Centro de Pesquisa, Recursos e Informação em Linguagem (CEPRIL), da
PUC-SP, disponibiliza o maior conjunto de ferramentas de análise de corpus
gratuitas do mundo para pesquisa e análise em Lingüística de Corpus no website
http://www2.lael.pucsp.br/corpora/index.htm.
Uma vez que o WordSmith Tools não oferece para alinhamento,
concordância paralela e lematização, utilizamos, para o presente trabalho, o
Alinhador de corpora, o Concordanciador paralelo, e o Etiquetador/lematizador
49
disponíveis na página do CEPRIL. Prosseguiremos com a descrição de cada uma
dessas ferramentas.
2.3.2.1 Alinhador de corpora
O alinhamento é um procedimento que extrai os trechos do texto da LF e
da LA colocando-os um abaixo do outro. Assim, será possível conhecer qual a
solução dada pelo tradutor a qualquer termo ou expressão que se deseje
pesquisar. No presente trabalho, usaremos paralelismo unidirecional (inglês →
português) e, para isso, precisamos de um software para a direção inglês –
português. O alinhador do CEPRIL não e’ o único disponível; na verdade, ele é
uma implementação online do Vanilla Aligner, usado por Church e Gale e está
disponível em http://www2.lael.pucsp.br/corpora/alinhador/index.html. Outros
alinhadores disponíveis na rede incluem o Align, MtAlign, The Uplug Sentence
Aligner, e Pesa (todos disponíveis na página
http://tcc.itc.it/people/forner/multilingualcorpora.html). Porém, como o pacote de
ferramentas do CEPRIL-PUC-SP não necessita de licença para uso e o seu
manuseio já é conhecido pela pesquisadora, tornou-se a opção mais racional.
Na pagina de Internet do alinhador do CEPRIL, constam todas as
instruções para alinhamento, desde a preparação e formato do texto até a
execução do programa. Este aligner, como também são conhecidos estes
programas, é baseado no algoritmo do Vanilla Aligner, usado por Church e Gale e,
de acordo com Danielsson e Ridings (1997)21, tem um índice de acerto de cerca de
95%, número considerado bastante elevado. O alinhador serve para qualquer
língua (ocidental), independente da direção e a experiência mostra que o
21 Este artigo está disponível na Internet sem numeração de páginas.
50
alinhamento de textos técnicos com as suas respectivas traduções apresenta
melhores resultados, o que parece fazer sentido, já que o foco da tradução está na
informação, e não na estética do texto.
Quando há dois textos para serem alinhados, o primeiro passo é
determinar em que pontos do texto serão feitas as quebras de segmento. Essa é
uma informação que o programa espera receber para poder dividir o texto em
sentenças, por exemplo. Para isso, devem ser inseridos os marcadores “.EOS” ao
final de cada frase e “.EOP” ao final de cada parágrafo. As inserções dos
marcadores devem ser feitas manualmente, nos corpora com os textos na LF e na
LA, por meio de um editor de textos, como, por exemplo, o MS-word.
Para a preparação dos textos, valem algumas recomendações:
1. Na primeira tela da ferramenta, o usuário deve informar os marcadores
para segmento menor (sentença) e segmento maior (parágrafo). Como
padrão, a ferramenta sugere “.EOS” e “.EOP”, para os segmentos maior e
menor, respectivamente. Caso seja necessário trocar o marcador, basta que
se insira esta informação nas caixas apropriadas, conforme a Figura 3, em
que o padrão foi trocado para “.FIMS” e “.FIMP”.
51
Figura 3 - Caixas para alteração de marcadores
2. Ao término de um segmento maior (ou parágrafo), sempre deve existir
também a marcação do segmento menor. Exemplo de um parágrafo na LF
e o seu correspondente na LA:
Taking the fiftieth anniversary as an opportunity to pause and take stock
of where we are, we give an unabashedly personal view both of the history
and of the issues .EOS Moreover, it is JDW's personal view and is
accordingly written in the first-person singular .EOS The double helix was
already ten years old when DNA was working its in utero magic on a fetal
AB .EOS .EOP
Tomando o qüinquagésimo aniversário como uma oportunidade de parar e
efetuar um balanço da situação em que nos encontramos, não temos vergonha
em apresentar aqui uma visão estritamente pessoal da história e seus
desdobramentos .EOS Além disso, sendo esta a visão pessoal de James
Watson, foi escrita na primeira pessoa do singular .EOS A dupla-hélice já
tinha dez anos de idade quando o DNA começou a realizar sua magia in útero
num Andrew Berry ainda em estado fetal .EOS .EOP
Depois de preparados, os textos devem ser colocados nas caixas de texto
indicadas como “Texto 1” e “Texto 2”, conforme orientação contida na página da
PUC-SP. Basta usar os comandos para copiar e colar do seu editor de textos. Veja
exemplo na Figura 4.
52
Figura 4 - Texto original copiado para a caixa indicada como “Texto 1” por meio dos comandos copiar e colar.
O mesmo procedimento deve ser executado para o texto traduzido,
colocando-o na caixa indicada como “Texto 2” e clique em “Alinhar”.
Dependendo do tamanho do texto, o tempo de alinhamento pode ser um pouco
mais longo. Ao término, aparecerá a tela com os resultados. Basta marcá-los na
tela e usar os comandos de copiar e colar para um arquivo tipo texto, vazio,
aberto no NotePad (bloco de notas), como abaixo:
53
Figura 5 - Arquivo no formato de texto (.txt) com os resultados do alinhamento, criado por meio de cópia da tela para o Notepad
Vale observar que, para a ferramenta, é indiferente qual dos dois textos é o
original ou a tradução. A ordem em que os textos foram colocados nas caixas será
a mesma apresentada no alinhamento. Acreditamos que o original deve aparecer
antes da tradução e, por isso, inserimos, na caixa 1 o texto original na LF e na
caixa 2, a tradução na LA.
Ainda observando a Figura 5, entendemos que o resultado do alinhamento
não é disponibilizado diretamente em um arquivo, mas exibido na tela. É
necessário, então, marcar todo o texto na tela e usar o recurso para copiar e colar
disponível no seu sistema operacional, gravando o resultado em um arquivo no
formato de texto. Concluído este passo, é preciso de uma ferramenta para a
extração dessas informações, agora dispostas paralelamente. Para isso, utilizamos
o Concordanciador Paralelo, próxima ferramenta a ser descrita.
54
Num corpus alinhado, os segmentos (frases ou parágrafos, geralmente) na
LF e na LA, devem ter conteúdo correspondente e colocado na mesma ordem, de
forma que o primeiro segmento do texto na LF corresponda ao primeiro
segmento da LA, e assim por diante. Sabemos que, por questões de estilo ou
necessidade, o tradutor pode quebrar ou aglutinar segmentos, mas a seqüência
lógica não pode ser alterada. Dessa forma, notas de rodapé, legendas de fotos,
entre outros, devem aparecer na mesma posição em ambos os textos, na LF e na
LA, pois o alinhador obedece à ordem dos textos e para unir os segmentos.
Fizemos um teste com uma pequena amostra de textos em português e em inglês
extraídos do corpus da pesquisa e, deliberadamente, trocamos um parágrafo
inteiro de posição. Abaixo, na imagem da tela, apresentamos, na parte superior, o
trecho da tradução na ordem correta e, na parte inferior, o último parágrafo foi
colocado logo após o primeiro. As setas marcam segmento trocado.
Figura 6 – Acima, texto conforme versão impressa. Abaixo, texto alterado, com um segmento fora de lugar. O segmento trocado é indicado pelas setas vermelhas
55
Abaixo, na parte superior, o resultado do alinhamento com a tradução na
ordem correta e, na parte inferior, com a ordem alterada. As setas vermelhas
marcam o local da alteração. Vemos que o alinhamento é feito, mas não há
correspondência entre original e tradução, pois o segundo parágrafo do original
foi alinhado com o último da tradução, que estava na ordem errada.
Figura 7 – Acima alinhamento feito com os segmentos na posição correta. Abaixo, alinhamento feito com o segmento fora do lugar
Dessa forma, vemos que a ordem da tradução deve acompanhar o seu
original para que o alinhamento seja feito corretamente.
2.3.2.2 Concordanciador Paralelo
Para que possamos fazer as buscas no corpus alinhado, precisamos de um
programa de busca próprio para esse tipo de corpus, conhecido como
concordanciador paralelo. Para um corpus não alinhado, concordância pode ser
definida como uma listagem das ocorrências de um item específico, dispostas de
56
tal modo que a palavra de busca aparece centralizada na página ou tela de
computador (Berber Sardinha, 2004:105). Os softwares de processamento de
corpora normalmente dispõem de um concordanciador, mas lidam somente com
corpora não alinhados, de forma que precisamos de um produto específico para
corpora paralelos. A ferramenta que utilizamos para executar esta tarefa está em
http://www2.lael.pucsp.br/corpora/parallelconc/index.html. É um
concordanciador que traz o segmento da LF lado a lado com o seu
correspondente de LA.
A tela do concordanciador utilizado é a seguinte:
Figura 8: Tela inicial do concordanciador paralelo
Primeiramente, é necessário enviar para o servidor o corpus já alinhado,
que foi salvo em um arquivo tipo texto, conforme descrito acima, para que a
ferramenta possa reconhecê-lo. Para isso, basta clicar no link Faça envio (upload)
do corpus que pretende usar, conforme Figura 8. Os campos obrigatórios deverão
57
ser preenchidos e o nome do arquivo a ser carregado deverá ser informado. Após
o término da carga, aparecerá um número de identificação, que poderá ser usado
quantas vezes forem necessárias dentro do período de uma semana, que é o
tempo máximo de permanência do arquivo no servidor. Portanto, este número
deve ser anotado em local seguro. Passado este tempo, o arquivo é apagado do
servidor, e é necessária uma nova carga.
Depois de alinhar e carregar os textos no servidor, as concordâncias podem
ser extraídas, sendo que o concordanciador aceita apenas uma palavra de cada
vez. Assim, se o usuário desejar buscar uma expressão como ‘x y z’, deve digitar
apenas uma das palavras constantes na expressão (‘x’, ‘y’ ou ‘z’) no espaço
correspondente..
Na página de Internet
http://www2.lael.pucsp.br/corpora/parallelconc/index.html, deverá ser informado
o número de identificação do corpus e a palavra de busca. Em seguida, deve-se
clicar o botão “Fazer concordância”. A tela com as concordâncias aparecerá com
os textos em colunas, sem esquecer que a ordem das colunas, da esquerda para a
direita, obedece à ordem dos textos inseridos nas caixas “Texto 1” e “Texto 2”
durante o alinhamento. Abaixo, a tela com a concordância da palavra condition,
que aparece em negrito:
58
Figura 9: Concordância do corpus paralelo da palavra condition
Para que possamos arquivar os resultados, basta marcar o texto na tela,
usar o comando para copiar e depois colar em um arquivo do MS-Word ou do
MS-Excel.
2.3.2.3 Etiquetador/lematizador
O etiquetador do CEPRIL é uma implementação online do Tree-tagger,
uma ferramenta para anotação e lematização desenvolvida no TC Project, no
Institute for Computational Linguistics da Universidade de Stuttgart, na
Alemanha.
A etiquetagem consiste na inserção de informações referentes a cada
unidade do texto, seja ela de ordem morfológica, sintática, semântica ou
discursiva (Berber Sardinha, 2004:150). O etiquetador do CEPRIL insere etiquetas
morfossintáticas e lematiza as palavras. Como não pesquisamos a classe
59
gramatical das palavras, nesta pesquisa usamos o etiquetador apenas como
lematizador, isto é, para lematizar o corpus de estudo. O lematizador identifica o
lema de uma palavra, que é a sua forma inflexionada. Assim, os verbos ‘escrevi’,
‘escreveu’, ‘escrevera’, estarriam todos lematizados sob o seu lema escrever, assim
como os substantivos ‘gato’, ‘gata’, ‘gatos’, ‘gatas’, ‘gatão’, gatões’, ‘gatinho’,
‘gatinhos’, ‘gatinha’, ‘gatinhas’, ‘gatona’, ‘gatonas’ seriam lematizados sob o seu
masculino singular ‘gato’. A lematização, neste estudo, serviu para comparar o
texto traduzido com o corpus de base em termos de tamanho de vocabulário,
conforme explicado no tópico 2.2.
O etiquetador/lematizador do CEPRIL está em
http://www2.lael.pucsp.br/corpora/index.htm. Para utilizá-lo, é necessário, assim
como no concordanciador paralelo, enviar o corpus alinhado para o servidor ,
salvo em um arquivo tipo texto conforme descrito acima, para que a ferramenta
possa reconhecê-lo. Para isso, basta clicar no link Enviar (upload) corpus. Os
campos obrigatórios deverão ser preenchidos e o nome do arquivo a ser
carregado deverá ser informado. Após o término da carga, aparecerá um número
de identificação, que poderá ser usado quantas vezes forem necessárias dentro do
período de uma semana, que é o tempo máximo de permanência do arquivo no
servidor. Portanto, este número deve ser anotado em local seguro. Passado este
tempo, o arquivo é apagado do servidor, e é necessária uma nova carga.
De posse desse número, usamos então o link Etiquetador online para
português, inglês, alemão, francês, espanhol e italiano. Na página seguinte,
deverá ser informada a língua do corpus que está sendo enviado e o código do
corpus já enviado. Depois disso, é só clicar em “Fazer” para que a etiquetagem
seja completada. A tela de resultado é a seguinte:
60
Figura 10: Tela de resultado do etiquetador
Como é possível ver na imagem da tela, são produzidas três colunas, uma
com a palavra, a segunda com a etiqueta morfossintática e a terceira com os
lemas. A ferramenta apenas exibe na tela e não produz um arquivo, de forma que
é necessário selecionar todo o texto na tela, copiar e colar em um arquivo de texto
sem formatação (Notepad).
2.4. Método para análise dos dados
Nesta seção, descrevemos a utilização das ferramentas descritas acima para
analise de nossos dados.
2.4.1. Extração das listas de palavras
Ao iniciar a exploração de um corpus, é necessário conhecer melhor o seu
conteúdo. Dessa maneira, começamos pela extração da lista de palavras,
61
produzida pelo WordSmith Tools, que proporciona uma visualização da
distribuição do texto e é exibida em três aspectos, por ordem de freqüência, por
ordem alfabética e uma estatística geral.
Os corpora com o texto original, com a tradução e o corpus de base foram
submetidos ao WordSmith Tools e as informações obtidas de cada um deles são:
Corpus LFCorpus LFCorpus LFCorpus LF OriginalOriginalOriginalOriginal
Corpus LACorpus LACorpus LACorpus LA TraduçãoTraduçãoTraduçãoTradução
Corpus de Corpus de Corpus de Corpus de basebasebasebase
TokensTokensTokensTokens 135.702 142.709 143.947
TypesTypesTypesTypes 12.920 16.691 18.060
TTRTTRTTRTTR 9,52% 11,70% 12,55%
Características dos corpora com o texto original, com o texto traduzido e de base
2.4.2. Lematização
Conforme mencionado anteriormente, o resultado da lematização é uma
lista com as palavras do texto reduzidas à sua forma canônica, sem derivações ou
flexões, o que possibilita uma contabilização mais precisa do tamanho de
vocabulário, já que são eliminadas as dispersões que podem encobrir o volume
real. Muitos estudos usam a lematização para averiguar o comportamento das
diferentes formas de uma mesma palavra (Olohan, 2004:52).
Para este estudo, comparamos o corpus com o texto traduzido para o
português com o corpus de base (extraído do Banco de Português), ambos
lematizados, para saber se ambos apresentam tamanho aproximado ou não.
A ferramenta etiquetador/lematizador do CEPRIL, produziu, por default,
para cada um dos dois corpora, uma lista com três colunas que foi gravada em
arquivo de texto (.txt). Porém, a única coluna que nos interessa é a terceira, que
contém os lemas, de forma que foi necessário eliminar as outras duas. Na coluna
de lemas, as formas ‘estávamos’, ‘estava’, ‘estivera’, por exemplo, estariam todas
62
como ‘estar’ de forma que podem ser contabilizadas como um type, e não como
três.
O MS-Excel é bastante eficiente para tratar de listas com colunas,
permitindo várias operações, como, por exemplo, a inclusão e exclusão de
colunas. Assim, abrimos o MS-Excel e o arquivo que contém a lista etiquetada
com texto traduzido (Notepad). No Notepad, selecionamos o texto inteiro,
copiamos e colamos na planilha MS-Excel. Para selecionar as duas primeiras
colunas a serem excluídas, basta posicionar o cursor na letra “A” que aparece no
alto da primeira coluna, pressionar o botão esquerdo do mouse e arrastar até a
coluna “B”. Depois disso, com um clique no botão direito do mouse, serão
exibidas algumas opções, entre elas “Excluir”, que eliminará as duas colunas
selecionadas. Apresentamos a imagem da planilha com as duas primeiras colunas
selecionadas e o menu de opções:
Figura 11 – Planilha do MS-Excel com o resultado da etiquetagem e lematização. As duas primeiras colunas estão marcadas para serem excluídas
63
Observando-se na imagem da tela acima, vemos que ‘estávamos’ aparece
como ‘estar’ na terceira coluna, assim como todas as outras formas deste verbo.
Como a extração da lista de palavras agrupa todas as que são iguais, aquelas que
estão sob o lema ‘estar’ contarão aqui como um único type, não importando
quantas formas desse verbo tenham aparecido no texto.
Conforme explicado anteriormente, não é possível fazer comparações entre
o inglês e o português, de forma que apenas passaram pelo procedimento de
lematização o texto traduzido na LA e o corpus de base, que são comparáveis em
língua portuguesa.
O arquivo então deverá ser salvo como arquivo texto (.txt). Nesse
momento, conseguimos eliminar as duas primeiras colunas de um dos corpora. O
procedimento foi, então, repetido para o corpus de base, de forma que obtivemos
duas listas de lemas gravadas em arquivos texto.
As listas com os lemas, separadamente, foram submetidas ao WordSmith
Tools, que produziu as listas de palavras e as informações de cada uma delas:
LemasLemasLemasLemas
Corpus LACorpus LACorpus LACorpus LA TraduçãoTraduçãoTraduçãoTradução
Corpus de Corpus de Corpus de Corpus de basebasebasebase
TokensTokensTokensTokens 61.366 60.857
TypesTypesTypesTypes 5.760 6.356
TTRTTRTTRTTR 9,39% 10,44%
Características do corpus com o texto traduzido e o seu comparável, o corpus de base
2.4.3. Alinhamento
O procedimento seguinte foi o alinhamento dos dois corpora de estudo
para que pudéssemos fazer extrações dos segmentos do texto original
acompanhados dos seus correspondentes traduzidos. Esse processo foi executado
conforme descrito no item 2.3.2.1. Para esta investigação, conforme dito acima, foi
64
realizado o alinhamento unidirecional (inglês → português), obtido por meio da
ferramenta de alinhamento do CEPRIL.
Estatisticamente, processos de alinhamento que usam o algoritmo do
Vanilla Aligner têm um índice de acerto de cerca de 95% (cf. item 2.3.2.1.). No
nosso alinhamento foram produzidos 10.442 segmentos alinhados, dos quais 847
foram analisados (8,11% do total), sendo que nenhum estava incorreto, isto é,
100% de acerto.
2.4.4. Seleção dos itens para análise
Convém relembrar que, entre as perguntas de pesquisa, há três que se
relacionam diretamente com as escolhas feitas pelo tradutor: (i) o tradutor
empregou traduções variadas para cada palavra do original?; (ii) o fato de uma
palavra do inglês se assemelhar a uma do português pode ter exercido influência
sobre a variedade de traduções empregadas?; (iii) tradutor se prendeu a acepções
dicionarizadas?
Tendo em vista a responder a essas questões, foi claramente necessário
fazer um recorte nos dados, visto que não seria possível analisar todas as palavras
do corpus de estudo. Assim, estabelecemos como ponto de partida o texto
original, de onde selecionamos os itens como um recorte para viabilizar a análise.
Ressaltamos aqui que a seleção de palavras isoladas é apenas um início para,
posteriormente, estudarmos o uso dessas palavras no contexto, no original e na
tradução.
Antes de mais nada, faz-se necessária a distinção entre palavra gramatical e
palavra de conteúdo. As palavras gramaticais são aquelas pertencentes a
categorias fechadas (conjunções preposições, pronome ou artigo), enquanto as
palavras de conteúdo, também chamadas de ‘classe aberta’, pois podem receber
65
afixos dando origem a derivações e novas palavras, pertencem às categorias
morfossintáticas substantivos, verbos, adjetivos e advérbios, interjeição e numeral
(Berber Sardinha, 2004:166). As categorias fechadas podem receber flexão de
gênero e número, enquanto as abertas podem receber prefixos, sufixos, flexão de
gênero, número, grau, desinências verbais, sinônimos, etc. Como um dos
propósitos deste estudo é averiguar em que medida o tradutor emprega
traduções variadas do português para cada palavra do inglês, as palavras de
conteúdo são as que oferecem a característica que desejamos investigar, pois
apresentam a possibilidade de ser traduzidas por vários sinônimos diferentes.
Para que o processo fosse feito de forma isenta, isto é, sem que
predeterminássemos certas palavras como mais desejáveis para análise e
assim introduzíssemos um viés na pesquisa, colocamos a lista de freqüência
do texto em LF no MS-Excel e realizamos um processo para que os itens
fossem reordenados de maneira aleatória, de forma a evitar qualquer
intervenção humana ou escolha intencional por parte da pesquisadora.
A função matemática denominada ALEATÓRIO() disponível no MS-Excel
resulta em um número qualquer, calculado pelo sistema e impossível de ser
previsto. Usamos essa função para substituir as posições de classificação na lista
de freqüências para cada uma das palavras. Assim, usando essa função sobre o
número 1 da palavra que estava em primeiro lugar na classificação, esta recebeu
outro número. Repetimos a operação para todas as palavras da lista até a última.
Assim, Em seguida, fizemos uma reordenação da lista usando essa nova
classificação. Dessa forma, produzimos uma lista inteiramente reordenada e de
forma totalmente aleatória e automática. Na imagem de tela abaixo, mostramos a
lista de freqüências do texto original e a primeira palavra, the, com a classificação
alterada pela função ALEATÓRIO().
66
Figura 12 – nova classificação na lista atribuída pela função ALEATÓRIO () do MS-Excel
2.4.4.1. Estudo piloto
Fizemos, então, um estudo piloto para detectar alguns pontos de entrada
nos dados e testar a metodologia apresentada até aqui. Para isso, selecionamos as
cinco primeiras palavras de conteúdo dessa lista reordenada e extraímos as
concordâncias por meio do concordanciador paralelo, relacionando quais
traduções foram usadas para cada uma delas e as freqüências. As palavras de
busca elegidas aleatoriamente como pontos de partida para a investigação piloto
foram: alternative, condition, control, enormous, e start. No quadro abaixo, podemos
ver o termo em inglês, a tradução prima facie em português, isto é, a tradução
imediata, segundo Tognini-Bonelli (2001:134), a quantidade de ocorrências no
texto original e quais os traduções usadas pelo tradutor e as ocorrências de cada
um deles na tradução. A tradução imediata, ou prima facie, pode se apresentar, por
67
exemplo, quando a palavra em inglês tem semelhança com alguma palavra da
língua portuguesa.
palavrapalavrapalavrapalavra prima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em português totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN alternative alternativo(a) 18 alternativo 3
alternativos 2 alternativa 12 alternativas 1
condition condição 23 afecção 1 condição 11 doença 6
enfermidade 1 mal 3
síndrome 1 control controle 16 Controle 15
coordenação 1 enormous (ly) enorme 23 colossal 1
descomunal 1 enorme 7
extraordinário 1 fabulosos 1 fenomenais 1 gigantesco 5 grande 2 grandioso 1
imensamente 1 tremendo 2
start (sem prima facie possível)(sem prima facie possível)(sem prima facie possível)(sem prima facie possível) 23 a partir 1 começar 3 começaria 1 começariam 1 começo 1 estava 1 iniciado 1 iniciar 3 início 4
ponto de partida 2 primeiro 1
(sem tradução) 2
Palavras para a análise piloto
Observando o quadro acima, vemos que há 4 palavras que apresentam
semelhança com palavras do português, mostrando que ambas podem ter a
mesma origem, forma ou sentido. São palavras cognatas do português e, para
68
compreendermos melhor como esse conceito se insere no nosso trabalho,
iniciaremos pela definição de cognatos.
Santos (1995), que aborda na sua obra traduções de palavras cognatas entre
inglês e português, oferece uma definição extraída de Lado (1979:115 apud Santos
1995:XIX):
“cognatos aqui são palavras semelhantes em forma e sentido, independentemente da
origem. O sentido comum é ‘aparentado na origem’. Para nós, mesmo se duas palavras
não forem aparentadas na origem, serão chamadas cognatas se forem semelhantes em
forma e sentido.”
Entende-se, pois, que uma palavra pode ser considerada cognata tanto pelo
aspecto etimológico como morfológico. O conceito de cognatos é fundamental
para o nosso estudo, pois pretendemos descobrir se o fato de uma palavra em
inglês se assemelhar a uma do português pode influenciar na variedade de
traduções empregadas para ela na tradução. Entretanto, ao observar as palavras
em inglês extraídas do texto, no quadro acima, vemos que a escolha de uma
tradução cognata em português é apenas uma das várias possibilidades de
tradução, de forma que decidimos adotar uma nomenclatura que não vinculasse
diretamente a palavra em inglês com a sua aparentada em português.
Nomeamos, então, duas categorias: ‘com tradução imediata’ (CTI) para as
palavras em inglês que apresentam a possibilidade de uma tradução cognata e
‘sem tradução imediata’ (STI) para as outras.
Podemos notar que quatro das palavras em inglês pertencem à categoria
CTI (alternative, condition, control, enormous), para as quais o tradutor usou um
total de 23 traduções, enquanto para apenas uma palavra STI (start), ele usou 12
traduções. Assim, calculando-se a média aritmética, para cada palavra do inglês
que pertence à categoria CTI foram usadas 5,75 palavras em português (23/4 =
5,75) contra 12 de média de STI. Esse valor é menos da metade das 12 variações
usadas para a única palavra da categoria STI. A partir da constatação dessas
69
proporções, decidimos expandir a seleção e análise no intuito de investigar como
o tradutor lida com palavras das categorias CTI e STI. Ou seja, a tradução de
palavras com opções imediatas parecia ser menos variada do que a tradução de
palavras sem as opções imediatas. Dessa forma, parecia-nos interessante
perseguir essa hipótese de que o tradutor premiado, quando confrontado com
palavras com tradução imediata, usa menos variações de tradução do que quando
confrontado com palavras sem opções imediatas. Poderíamos dizer que, tendo em
vista esses achados do estudo piloto inicial, poderíamos vir a supor que haveria,
talvez, dois estilos de tradução dentro da mesma obra: um para palavras mais
‘fáceis’ de traduzir e outro para palavras mais ‘complicadas’ de traduzir. Assim,
no intuito de substanciar a investigação, estabelecemos que deveriam ser
selecionadas 20 palavras CTI e 20 STI.
2.4.4.2. Seleção de palavras para o estudo principal
Usando a mesma lista de palavras reordenada, montamos duas listas com
20 palavras de cada categoria, CTI e STI. O método utilizado para a seleção foi a
verificação das palavras, uma a uma, na ordem em que se apresentavam na lista,
e a classificação como CTI ou STI até que se completassem duas listas, uma para
cada categoria, com 20 palavras cada. As palavras gramaticais eram dispensadas,
passando-se imediatamente à palavra seguinte.
Para enquadrar as palavras na categoria CTI, usamos o critério
etimológico, observando a origem da palavra em inglês informada pelo dicionário
American Heritage (1994), que deveria ser latina. Além disso, o seu ‘parente’ da
língua portuguesa deveria apresentar semelhança morfológica e mesma
etimologia, verificadas no dicionário Houais (2001).
70
Depois de selecionados os itens, fizemos a concordância paralela de cada
um deles. A concordância paralela apresenta os segmentos de cada ocorrência do
original acompanhados pelos segmentos correspondentes na tradução, que
analisamos um a um, de forma a identificar os traduções diretas em português e
os padrões associados elas. As concordâncias paralelas foram apresentadas no
tópico 2.3.2.2 com o exemplo da concordância paralela da palavra condition.
Assim, foram produzidas duas listas com 20 palavras cada, uma com
palavras da categoria CTI e outra com palavras da categoria STI, detalhadas nos
quadros abaixo, em que aparecem as palavras selecionadas no texto original,
quantas ocorrências, quais as traduções usadas na tradução e as ocorrências de
cada uma delas. Para a categoria CTI incluímos uma coluna que menciona qual
seria a tradução prima facie, ou imediata. Sempre que, no texto traduzido, não
encontramos uma tradução direta em português para o termo em inglês,
detalhamos como ‘(sem tradução)’.
Categoria CTICategoria CTICategoria CTICategoria CTI Categoria STICategoria STICategoria STICategoria STI agriculture argued alternative bewildering (ly) apart birth
application field condition hunt control inherited
controversy level effects linked
enormous purpose(s) functioning range limited remain parent(s) start problems step producing strain progress strong regulation sure relative traits rest trial story wrong success yield
Palavras selecionadas do texto original para a análise principal das categorias CTI e STI
71
Encerramos aqui a seção de Metodologia, com a descrição completa de
todos os recursos utilizados assim como os passos seguidos, no intuito de orientar
o leitor durante a análise.
72
CAPÍTULO 3: Análises dos dados
Primeiramente, relembrando que o objetivo do presente trabalho é
identificar características presentes em uma tradução premiada que revelem a
expertise do tradutor, iniciamos a análise observando o tamanho de vocabulário
do texto. Em seguida, mostraremos como o tradutor emprega as traduções em
termos de variedade e identificaremos se as escolhas feitas por ele são
influenciadas pela semelhança entre palavras do inglês e do português. Por
último, faremos uma confrontação entre as traduções de 4 palavras e acepções
dicionarizadas procurando exemplos, na prática, do desprendimento de
instrumentos que oferecem fórmulas fixas por parte do tradutor, ou seja, que ele
está comprometido com o contexto.
3.1. Comparação entre tradução e corpus de base
Assim, procuramos descobrir, inicialmente, se a tradução apresenta um
tamanho de vocabulário compatível com o tamanho de uma amostra do Banco de
Português. Vejamos as informações dos corpora de estudo, com o texto original
na língua fonte e o texto traduzido para a língua alvo.
Corpus de estudoCorpus de estudoCorpus de estudoCorpus de estudo TokensTokensTokensTokens TypesTypesTypesTypes TTRTTRTTRTTR
Corpus LFCorpus LFCorpus LFCorpus LF (inglês)(inglês)(inglês)(inglês) 135.702 12.920 9,52%
Corpus LACorpus LACorpus LACorpus LA (português)(português)(português)(português) 142.709 16.691 11,70%
Diferença entre LF e LA (%)Diferença entre LF e LA (%)Diferença entre LF e LA (%)Diferença entre LF e LA (%) 5,16% 29,19% 22,90%
Características dos corpora com texto original (inglês), com o texto traduzido (português) e a diferenças nos volumes de tokens, types, e type-token ratio entre ambos
Podemos ver que o texto traduzido é maior, em tokens, do que o texto
original, na ordem de 5,16%, e que há também um aumento no número de types.
Porém, as comparações diretas entre original e tradução são muito limitadas, pois
são línguas com diferenças morfossintáticas que não permitem uma confrontação.
Por isso, criamos um corpus comparável, que denominamos ‘corpus de base’,
73
composto de uma amostra do Banco de Português com tamanho muito próximo
ao do nosso texto traduzido, de forma a possibilitar uma comparação das
características da tradução com um texto originalmente produzido em português.
Essa comparação foi feita sob duas premissas: (i) o universal da
estabilização, (levelling out) prevê que textos traduzidos apresentam características
muito distantes dos textos não traduzidos, escritos originalmente na LA, e muito
parecidas com outros textos traduzidos. Portanto, um tamanho de vocabulário do
texto traduzido próximo ao do corpus de base indicaria que a tradução premiada
segue a direção contrária à estabilização e apresenta mais características de textos
da LA do que da LF. (ii) o falante, no exercício da linguagem, usufrui de uma
liberdade circunscrita, de forma que tamanhos de vocabulário próximos podem
indicar um mecanismo de controle de uso do vocabulário imposto pelo uso
cotidiano.
Assim, o corpus com o texto traduzido e o corpus de base, que são
comparáveis, têm as seguintes características:
Corpus LACorpus LACorpus LACorpus LA TraduçãoTraduçãoTraduçãoTradução
Corpus de Corpus de Corpus de Corpus de basebasebasebase
DiferençaDiferençaDiferençaDiferença
TokensTokensTokensTokens 142.709 143.947 1.238 TypesTypesTypesTypes 16.691 18.060 1.369 TTRTTRTTRTTR 11,70% 12,55% 0,85%
Características do corpus com o texto traduzido em português e o corpus de base, com a amostra do Banco de Português V 2.0
Conforme explicado anteriormente, o processo de lematização elimina as
dispersões provocadas pelas derivações e flexões, permitindo uma contabilização
mais precisa das formas. Portanto, para uma comparação mais acurada da
quantidade do vocabulário, foi feita a lematização de ambos os corpora e
produzida uma nova relação estatística com as seguintes informações:
74
LemasLemasLemasLemas
Corpus LACorpus LACorpus LACorpus LA TraduçãoTraduçãoTraduçãoTradução
Corpus de Corpus de Corpus de Corpus de basebasebasebase
DiferençaDiferençaDiferençaDiferença
TokensTokensTokensTokens 61.366 60.857 -509
TypesTypesTypesTypes 5.760 6.356 596
TTRTTRTTRTTR 9,39% 10,44% 1,06%
Característica do corpus co o texto traduzido e com o corpus de base após a lematização e a diferença entre ambos
Para a interpretação do quadro acima, usamos o teste qui-quadrado, que
tem o objetivo verificar se dois (ou mais) conjuntos de dados são
significativamente diferentes um do outro. O qui-quadrado faz uso de uma tabela
de distribuição com graus de liberdade, que, na verdade, constituem margens de
tolerância para que os dois grupos possam ser considerados estatisticamente
iguais ou não. Uma diferença estatisticamente não significativa indica que as
quantidades dos dois grupos, considerados os graus de liberdade adotados
durante o teste, estão próximas o suficiente para que sejam consideradas iguais.
Podemos perceber a quantidade de vocabulário aproximada entre os dois corpora
como um indicativo de que o tradutor emprega o vocabulário em uma
quantidade . A diferença no tamanho do vocabulário de ambos corresponde a
apenas 1,06% dos lemas, o que resultou em um qui-quadrado de 0,064, valor
considerado não significativo, ou seja, as quantidades são estatisticamente iguais.
3.2. Variedade de traduções empregadas
Parte do nosso objetivo é descobrir se tradutor emprega traduções variadas
para cada palavra do original. Além disso, também desejamos saber se esta
variedade é influenciada pelo fato de a palavra em inglês ser cognata de uma
palavra do português. Para isso, foi feito um recorte nos dados no sentido de
eleger para análise, no texto original, 20 palavras da categoria CTI e 20 da
categoria STI. Os quadros abaixo mostram as palavras selecionadas no original, o
75
prima facie possível, a sua freqüência, as traduções encontradas e as freqüências de
cada uma delas.
76
Palavras com tradução imediata (CTI) para o portuguêsPalavras com tradução imediata (CTI) para o portuguêsPalavras com tradução imediata (CTI) para o portuguêsPalavras com tradução imediata (CTI) para o português termo inglêstermo inglêstermo inglêstermo inglês prima facie possível em portuguêprima facie possível em portuguêprima facie possível em portuguêprima facie possível em portuguêssss totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN
alternative alternativo(a) 18
alternativo 3 alternativos 2 alternativa 12 alternativas 1
agriculture agricultura 19 agricultura 19
apart aparte 21
"desnaturar" 1 à parte 1 abaixo 1 afastar 1
deteriorando 1 dilaceradas 1 distingue 3 distinguem 1 distinguir 3
distinguiram 1 longe um do outro 4
separam 1 distantes um do outro 1
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
application aplicação 24
aplicação 8 aplicações 4 aplicada 1 aplicado 2 dedicação 1 pedido 6 requisição 1
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
condition condição 23
afecção 1 condição 11 doença 6
enfermidade 1 mal 3
síndrome 1
control controle 16 Controle 15
coordenação 1
controversy controvérsia 22
controversa 1 controvérsia 17 controvérsias 3 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
Palavras da categoria CTI com possível tradução imediata, ocorrências no original, as respectivas traduções e as ocorrências de cada uma– parte 1
77
Palavras com tradução imediata (Palavras com tradução imediata (Palavras com tradução imediata (Palavras com tradução imediata (CTI) para o português (continuação)CTI) para o português (continuação)CTI) para o português (continuação)CTI) para o português (continuação) termo inglêstermo inglêstermo inglêstermo inglês prima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em português totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN
effects efeitos 25 efeitos 20 impacto 1
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 4
enormous enorme 23
colossal 1 descomunal 1 enorme 7
extraordinário 1 fabulosos 1 fenomenais 1 gigantesco 5 grande 2 grandioso 1
imensamente 1 tremendo 2
functioning funcionando 15
atuação 1 funcional 6
funcionamento 7 funcionando 0 operante 1
limited limitado 26
limitada 4 limitadas 6 limitado 6 limitados 4 limitar 1
pouco usados 1 prejudicadas 1 restringiram 1 restringiu 1 restrito 1
parent(s) parentes 21
genitor 5 genitora 3 genitores 1 mãe 5
original 1 pai e mãe 1 pai ou mãe 2 pai(s) 2
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 3
problems problemas 23 problemas 20 questões 2
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
Palavras da categoria CTI com possível tradução imediata, ocorrências no original, as respectivas traduções e as ocorrências de cada uma– parte 2
78
Palavras com tradução imediata (CTI) para o português (continuação)Palavras com tradução imediata (CTI) para o português (continuação)Palavras com tradução imediata (CTI) para o português (continuação)Palavras com tradução imediata (CTI) para o português (continuação) termo inglêstermo inglêstermo inglêstermo inglês prima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em português totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN
producing produzindo 26
formar 1 geram 1 gerando 1 gerar 3
gerarem 1 produção 2 produtoras 2 produtores 1 produz 1 produza 1
produzindo 4 produzir 5
produzirmos 1 produzissem 1 tenham 1
progress progresso 26
andamento 1 avançaríamos 1
avanço 4 avanços 5 fazendo 1 progredir 1 progresso 11
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 2
regulation regulação 12
controle 1 legislação 2 norma 1
orientado 1 regra 1
regulação 1 regulador 2
regulamentação 2 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
relative relativo 15
em relação 1 membro da família 1
parente 1 parentes 1 relativa 2 relativas 5 relativo 1 relativos 2
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
Palavras da categoria CTI com possível tradução imediata, ocorrências no original, as respectivas traduções e as ocorrências de cada uma– parte 3
79
PalaPalaPalaPalavras com tradução imediata (CTI) para o portuguêsvras com tradução imediata (CTI) para o portuguêsvras com tradução imediata (CTI) para o portuguêsvras com tradução imediata (CTI) para o português termo inglêstermo inglêstermo inglêstermo inglês prima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em portuguêsprima facie possível em português totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN
rest resto 25
descartada 1 (os) demais 1
fim 2 resolvidas 1 restante 10 resto 7 seja 1
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 2
story estória 23
caso 2 história 14 livro 1
narrativa 1 reportagem 1 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 4
success sucesso 6
final feliz 1 elucidação 1 êxito 1 sucesso 22
conseguira 1
Palavras da categoria CTI com possível tradução imediata, ocorrências no original, as respectivas traduções e as ocorrências de cada uma– parte 4
Palavras com tradução imediata (CTI) para o português (totais)Palavras com tradução imediata (CTI) para o português (totais)Palavras com tradução imediata (CTI) para o português (totais)Palavras com tradução imediata (CTI) para o português (totais)
20 types selecionados 430 tokens
139 variações
Totalizações para as palavras da categoria CTI
80
PalavrasPalavrasPalavrasPalavras sem tradução imediata (STI) para o portuguêssem tradução imediata (STI) para o portuguêssem tradução imediata (STI) para o portuguêssem tradução imediata (STI) para o português termotermotermotermo totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN
argued 20
afirmava 1 afirmou 3
argumentam 1 argumentaram 2 argumentava 5 argumentou 3 debatidos 1 discutiram 1
bewildering (ly) 3 alucinante 1 desnorteante 1 estonteante 1
birth 20
ao nascer 2 origem 1 berço 1
congênitos 1 engendrou 1 nascimento 10 natalidade 3
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
field 26
à margem 1 âmbito 1 área 4 campo 14 plantação 2 terreno 1
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 3
hunt 20
busca 3 buscam 1 caça 9 caçar 5
caçarem 1 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
inherited 23
herdada 4 herdadas 3 herdado 3 herdados 3 herdamos 1 herdara 1 herdaram 1 herdei 1
hereditária 3 hereditário 2
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
Palavras da categoria STI, ocorrências no original, as respectivas traduções e as ocorrências de cada uma– parte 1
81
Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.) termotermotermotermo totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN
level 21
grau 1 níveis 10 nível 5
número 1 taxas 3 teor 1
linked 21
associado 3 associados 2 associou 1 atribuídos 1 ligada 4 ligadas 1 ligados 1 ligarem 1 ligavam 1
relacionados 1 unem 1 unidas 1 unidos 1 vinculado 1
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
purpose(s) 19
fim 1 finalidade 3
fins 4 propósito 7
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 4
range 21
amplo espectro 1 campo 1 diversos 1 faixa 1 gama 11
inúmeras 1 varia 1 variar 1 várias 1
Palavras da categoria STI, ocorrências no original, as respectivas traduções e as ocorrências de cada uma– parte 2
82
Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.) termotermotermotermo totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN
remain 23
continuam 3 continuar 2 continuará 1 continuaria 1 continuasse 1 permanecem 4 permanecer 2 permanecerá 1 permaneceria 4 permaneceu 1 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 3
start 21
a partir 1 começar 3 começaria 1 começariam 1 começo 1 estava 1 iniciado 1 iniciar 3 início 4
ponto de partida 2 primeiro 1
step 25 etapa 5 medida 3 passo 17
strain 23 cepa 12
linhagem 9 (sem tradução)(sem tradução)(sem tradução)(sem tradução) 2
strong 22
enfática 1 forte 6 fortes 5 maciço 1 poderosa 1 poderoso 1 resistentes 1 rigorosa 1 vigorosa 1
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 4
Palavras da categoria STI, ocorrências no original, as respectivas traduções e as ocorrências de cada uma– parte 3
83
Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.)Palavras sem tradução imediata (STI) para o português (cont.) termotermotermotermo totaltotaltotaltotal traduçõestraduçõestraduçõestraduções NNNN
sure 24
certeza 8 certo 6 certos 2
sem dúvida 3 está fadado 1 fiz questão 1 infalível 1
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 2
traits 21 caracteríticas 2
traço 2 traços 17
trial 19
experimento 4 julgamento 12 processo 1 tentativa 1 teste 4
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 1
wrong 23
corrompido 1 enganados 1 equivocada 2 equivocado 1 equívoco 1 errada 1 erradas 3 errado 8 erramos 1 erro 1 pior 1
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 2
yield 22
contivessem 2 fornecer 1 gera 1
oferecer 1 produção 2 produzir 1
proporcionar 1 rendimento 7 revelar 2 revelaria 1
(sem tradução)(sem tradução)(sem tradução)(sem tradução) 3
Palavras da categoria STI, ocorrências no original, as respectivas traduções e as ocorrências de cada uma– parte 4
84
Palavras sem tradução imediata (STI) para o português Palavras sem tradução imediata (STI) para o português Palavras sem tradução imediata (STI) para o português Palavras sem tradução imediata (STI) para o português ---- totaistotaistotaistotais 20 types
selecionados 417 tokens 158 traduções
Totalizações para as palavras da categoria STI
Primeiramente, em uma análise geral, vemos que, para cada item
selecionado na LF o tradutor usou mais de uma tradução. Isso já indica que uma
possível característica da tradução premiada é não ter traduções fixas, ou seja, em
que uma palavra ou expressão da LF é sempre traduzida pela mesma da LA.
Além disso, também mostra que o tradutor utiliza o contexto para escolher suas
traduções.
Ao extrairmos a média geral de traduções para cada palavra em inglês,
obtivemos os resultados apresentados no quadro abaixo.
CategoriasCategoriasCategoriasCategorias CálculoCálculoCálculoCálculo Média de Média de Média de Média de
traduções por traduções por traduções por traduções por palavra do originalpalavra do originalpalavra do originalpalavra do original
CTICTICTICTI 139 em LA / 20 em LF 6,95
STISTISTISTI 158 em LF / 20 em LA 7,90
MédiaMédiaMédiaMédia (139 + 158) / 40 7,43
Diferença entre CTI e STIDiferença entre CTI e STIDiferença entre CTI e STIDiferença entre CTI e STI 19
Média de traduções por palavra para cada categoria e média geral
Para os resultados do quadro acima, aplicamos os testes estatísticos qui-
quadrado, descrito anteriormente, e teste T, cujo objetivo é testar a igualdade
entre duas médias, ou seja, se a diferença entre as médias de 2 grupos é
estatisticamente significativa ou não.
Uma melhor interpretação do quadro mostra que, em média, o tradutor
usou 7,43 palavras diferentes na língua portuguesa para cada item analisado no
inglês, o que indica uma grande variedade de opções de traduções colocadas em
prática no texto.
85
Em segundo lugar, não houve diferença estatística significativa entre as
traduções empregadas para as palavras da categoria CTI e STI. O tradutor usou
apenas 19 traduções a mais para as palavras da categoria STI, o que resulta em
um qui-quadrado 0,10 e um teste T 0,11, ambos indicativos de falta de diferença
entre as quantidades de traduções das duas categorias. Isso sugere que o tradutor
premiado parece não se deixar levar pela tradução mais próxima do português.
Ele parece levar em conta o uso no contexto tanto das palavras e padrões que
possuem traduções simples do português quanto das que não. Em termos teóricos
dos universais de tradução, esses resultados parecem, à primeira vista, apontar
para a incidência da normalização. Ou seja, o tradutor estaria tornando o texto
traduzido ‘normal’ perante a língua portuguesa. Mas na verdade não nos parece
que seja isso. O universal de normalização parece prever que os tradutores
retiram a criatividade e o estilo do autor, tornando o texto traduzido menos
inovador. Mas o que nossos dados mostram o uso de muitas opções de tradução
para o mesmo item, o que parece apontar para a direção oposta. Ou seja, o
tradutor, aparentemente, foi criativo nas suas escolhas.
Entretanto, surge a questão de se o tradutor premiado, ao usar o contexto
para escolher a melhor opção de tradução, não estaria, ao mesmo, inflando seu
texto com padrões longos, visto que segundo nossos dados, ele usou, em média
(entre as 40 palavras pesquisadas) 7,43 traduções diferentes para a mesma palavra
do inglês. Isso nos levou a supor que o texto traduzido teria ganhado uma
quantidade grande de vocabulário. No entanto, ao olharmos mais de modo
qualitativo as traduções empregadas, vimos que o tradutor empregou a mesma
tradução para várias palavras e padrões do original. Ou seja, não é o caso de que
cada palavra do original foi traduzida por mais de sete, mas que muitas palavras
diferentes do original foram traduzidas pela mesma palavra do português. Isso
também parece reforçar o que havíamos descoberto sobre a utilização do contexto
na tradução, visto que o tradutor premiado usou a mesma tradução para várias
86
palavras e padrões do original. O que parece emergir dessas descobertas é um
trabalho complexo, em que as relações entre LF e LA não são diretas nem
unidirecionais. Em vista disso, a expansão do texto, em termos de types, fica em
patamares muito menores do que se poderia supor ao considerar um número de
traduções tão grande para cada palavra do inglês. Para ilustrar, mostramos abaixo
o caso de sure.
sure (8)
certeza
assured 1 certain 2 certainly 1 certainty 7 certitude 1 confident 2 conviction 1 doubtless 1 probably 1 surely 1
was bound to 1
Relações multidirecionais da palavra sure
Vemos, no quadro, que sure foi traduzido como ‘certeza’ em 8 ocorrências,
mas assure, certain, etc, também foram traduzidas como ‘certeza’ em outras
ocorrências.
Assim, a tradução premiada enfocada aqui não parece exigir do leitor um
conhecimento de vocabulário acima do que é esperado para ler outros textos no
original, o que se contrapõe, em termos teóricos, ao universal de estabilização
(leveling out), que previa que a tradução seria distante (em vários sentidos,
incluindo o tamanho do vocabulário) de textos originais e que, ao mesmo tempo,
as traduções, quaisquer que sejam, seriam mais semelhantes entre si do que em
relação a seus originais. Nossos resultados apontam para outra direção: a
tradução premiada tem características de um texto original.
Ao mesmo tempo, o ‘reaproveitamento’ das traduções para várias palavras
do original nos conduz novamente aos limites invisíveis aos quais o falante está
87
sujeito, pois, aparentemente, este é um mecanismo que mantém o texto dentro de
um espaço demarcado pelo uso cotidiano. Também pode indicar o domínio do
tradutor sobre essas relações de reutilização, possivelmente adquirido pelos
múltiplos encontros entre LF e LA experimentados por ele. Isto nos leva a crer
que essas relações se encontram em estado latente na memória do tradutor e são
ativadas na LA conforme se apresentam palavras, padrões e contextos na LF.
3.3. Classificação do tradutor
Levando-se em consideração que há tradutores com experiências
diferenciadas, podemos supor que a forma como um tradutor inexperiente lida
com as palavras semelhantes em inglês e português é diferente da maneira como
um tradutor experiente o faz.
Tagnin (2002:193) refere-se ao tradutor ingênuo como aquele que, além de
ter problemas de compreensão com a língua fonte, tem dificuldades na produção
do texto na língua alvo, com pouco domínio do vocabulário e das estruturas da
língua. Seria aquele com um repertório limitado, que tende à produção de uma
tradução com redundâncias, pobre em recursos e, por conseqüência, em
vocabulário. Presumimos, portanto, que o tradutor experiente teria um
comportamento diferente. Espera-se deste o domínio do vocabulário e das
estruturas, tanto na língua fonte quanto na língua alvo, de forma a produzir um
texto variado em vocabulário e recursos lingüísticos.
É desse raciocínio que surge a expectativa de que o tradutor inexperiente,
ou ingênuo, deve mostrar uma variedade pequena de traduções em português
para cada palavra do inglês, para ambas as categorias de palavra, CTI e STI,
enquanto o tradutor experiente mostraria grande variedade de traduções,
independentemente da categoria. Mas haveria também os tradutores com
88
desenvolvimento intermediário, que podem apresentar boa variação de traduções
para as palavras em inglês dependendo da categoria. A representação gráfica
abaixo reflete quatro tipos de tradutor: (i) o tradutor ingênuo ou inexperiente, que
usa uma variedade pequena de traduções na língua alvo para cada palavra da
língua fonte para ambas as categorias, CTI e STI; (ii) tradutor experiente 1, que
apresenta uma variação de traduções baixa para a categoria CTI e alta para STI,
demonstrando que se prende à natureza da palavra, ou seja, palavras em inglês
que apresentem semelhança com o português recebem uma variedade limitada
de traduções; (iii) tradutor experiente 2, que apresenta uma variação de traduções
baixa para a categoria STI e alta para CTI; (iv) tradutor experiente 3, que
apresenta variação alta para ambas as categorias e não se prende à natureza das
palavras.
Figura 12 – Representação gráfica com os quatro tipos de tradutor (a escala de 1-10 é ilustrativa)
Dessa forma, de acordo com a análise dos dados, percebemos que o
tradutor investigado é igualmente produtivo em ambas as categorias, CTI e STI, o
que o coloca como ‘tradutor experiente 3’, pois está mais preso ao contexto do que
à natureza individual das palavras.
89
3.4. Análise de item selecionado
Uma das finalidades da nossa pesquisa é verificar se o tradutor premiado
se prende a acepções dicionarizadas na sua escolha.
Embora tenhamos identificado indícios de que o tradutor não se atém a
fórmulas fixas, uma maneira de se observar este fato na prática é comparar
traduções usadas pelo tradutor com acepções de dicionários bilíngües.
Assim, para encontrar evidências de que o tradutor se aproxima do
contexto, utilizando o vocabulário disponível na língua portuguesa de maneira
criteriosa, decidimos comparar traduções usadas por ele com acepções
disponíveis em dois dicionários bilíngües, o Michaelis e o Webster Online. Esse
procedimento, feito para as 2 palavras, sorteadas à maneira tradicional entre as 40
selecionadas para a análise principal, mostrou quais traduções utilizadas pelo
tradutor não estavam entre as acepções dos dois dicionários. As palavras
sorteadas foram: yield, limited.
A primeira palavra, yield, é apresentada abaixo com as traduções utilizadas
para ela e, do lado direito, as acepções dos dois dicionários bilíngües Michaelis e
o Webster Online:
90
Palavra yield no original com as respectivas traduções à esquerda. À direita, acepções dos dicionários
Michaelis e Webster Online
As acepções ‘contivessem’, ‘fornecer’, ‘oferecer’ e ‘proporcionar’, não estão
presentes nos dicionários bilíngües, e por isso estão circuladas em vermelho.
Primeiramente, pesquisamos no dicionário Houaiss se alguma delas pode ser
sinônima de uma (ou mais) acepção encontrada nos dicionários para yield. Esse
procedimento revelou que, ‘fornecer’, ‘oferecer’ e ‘proporcionar’ podem ser
sinônimos de ‘produzir’ e/ou ‘dar’ em algumas situações, o que justificaria a
escolha destas traduções.
Entretanto, as acepções dos dicionários bilíngües envolvem,
principalmente, o conceito de produzir, gerar, que não é o mesmo de
‘contivessem’. Uma análise dos segmentos do original e da tradução pode nos
ajudar a compreender as razões que poderiam ter levado o tradutor a utilizar esse
verbo.
And because there are from 500 to 1,000 mitochondria in every cell, but only two copies of the genome proper (in the nucleus), Krings knew that those decaying Neanderthal bones were much more likely to yieldyieldyieldyield intact
mitochondrial sequences than intact nuclear ones
Como há entre quinhentas e mil mitocôndrias em cada célula, mas apenas duas cópias do genoma
propriamente dito (no núcleo), Krings sabia que era muito mais provável que
aqueles ossos neandertais em decomposição contivessem contivessem contivessem contivessem seqüências
mitocondriais intactas do que seqüências nucleares intactas
Segmentos do original e da tradução para yield com a tradução ‘contivessem’
91
Sabemos que as palavras nunca podem ser consideradas de forma isolada,
pois assumem sentidos diferentes em função das outras palavras que as
circundam e dos contextos em que estão inseridas. Como o verbo ‘contivessem’
está relacionado a ‘seqüências mitocondriais’, a lógica nos levou para o terreno da
biologia. Descobrimos que as mitocôndrias, salvo algumas exceções, são parte
inerente das células, ou seja, elas não são produzidas pelo processo de
decomposição. Portanto, o verbo ‘conter’ é mais adequado do que ‘produzir’. Essa
escolha é, possivelmente, resultado de uma pesquisa cuidadosa, que
proporcionou a compreensão do processo que estava sendo relatado no texto e,
conseqüentemente, a escolha do vocábulo mais apropriado. Esta é uma situação
em que percebemos o quanto um dicionário bilíngüe é insuficiente para a tomada
de decisões, sendo necessária uma integração entre o texto e o tradutor para que
este compreenda o que está sendo relatado em vez de somente traduzir.
Além dos verbos que não estão dicionarizados, notamos que há dois casos,
marcados no quadro como ‘sem tradução’, em que o tradutor não usou uma
tradução direta para a palavra yield. Fizemos uma análise desses casos para
descobrir a razão dessa omissão. Os segmentos estão apresentados no quadro
abaixo:
OriginalOriginalOriginalOriginal TraduçãoTraduçãoTraduçãoTradução
And in the absence of gene guns and the like, this activity depended on some form of artificial selection, whereby farmers bred only those individuals exhibiting the desired traits-the cows with the highest milk yieldyieldyieldyield, for example
E, na falta de pistolas gênicas e instrumentos similares, essa atividade dependia de alguma forma de seleção artificial, pela qual os fazendeiros
procriariam somente os indivíduos que apresentassem as características
desejadas - as vacas mais leiteirasleiteirasleiteirasleiteiras, por exemplo
Later, his wheat yieldyieldyieldyield policy did another U-turn when Lysenko called for
warming (instead of cooling) the seed prior to planting
Mais tarde, sua política trigueiratrigueiratrigueiratrigueira sofreu outra reviravolta e Lissenko pôs-se a exaltar as vantagens de aquecer (em vez de resfriar) as sementes antes do
plantio
Segmentos do original e da tradução para yield nos casos em que não havia uma tradução direta
92
Nesse processo, o tradutor converteu as possíveis locuções adjetivas
‘produtora de leite’ e ‘da produção de trigo’ nos adjetivos ‘leiteira’ e ‘trigueira’,
respectivamente. Esta solução condensa o texto, tornando-o mais claro,
eliminando preposições que poderiam tornar a linguagem pesada.
Assim, tanto para ‘contivessem’ como para as duas situações em que o
tradutor não ofereceu uma tradução para a palavra, podemos perceber que o
tradutor se liga mais ao contexto e à LA.
A próxima palavra a ser analisada será limited. Pelo mesmo processo
utilizado para yield, relacionamos abaixo as traduções e as acepções dos
dicionários, com as traduções não dicionarizadas circulados em vermelho:
Palavra limited no original com as respectivas traduções à esquerda. À direita, acepções dos dicionários
Michaelis e Webster Online
Aparentemente, ‘pouco usados’ e ‘prejudicadas’ têm sentidos que se
afastam muito das acepções dos dicionários. Para a melhor visualização,
apresentamos os segmentos correspondentes.
93
OriginalOriginalOriginalOriginal TraduçãoTraduçãoTraduçãoTradução
This social calculus is debatable, but the same reasoning does not hold in the case of cystic fibrosis, for which testing
is nevertheless also limitedlimitedlimitedlimited
Afora o fato de esse tipo de cálculo social ser discutível, o raciocínio não se sustenta no caso da fibrose cística - e, no entanto, os testes para detectá-la
também são pouco usadossão pouco usadossão pouco usadossão pouco usados
But what about the Inuit peoples, who live in or dose to the hardly sunny
Arctic but are surprisingly dark? Their opportunities for producing the vitamin would appear to be further limited limited limited limited by the need to be fully clothed all the time
in their climate
Mas o que dizer dos povos esquimós, que vivem próximo do pouco ensolarado Ártico mas são
surpreendentemente escuros? Suas chances de produzir a vitamina parecem ser prejudicadas pelaser prejudicadas pelaser prejudicadas pelaser prejudicadas pela necessidade de permanecerem
totalmente vestidos a maior parte do tempo em virtude do clima
Segmentos do original e da tradução para a palavra limited com as traduções ‘pouco usados’ e ‘prejudicadas’
Ao observar o primeiro segmento, vemos que, mesmo em português, pouco
usados apresenta uma noção um tanto diferente de limitados ou restritos. Estes
últimos poderiam passar a idéia de que os testes não são efetivos, não produzem
resultados confiáveis. Imaginamos, nesse caso, que a análise do contexto talvez
possa oferecer boas condições para se obter uma resposta. As duas orações, na
tradução, que precedem o segmento em questão são:
Os testes para doença de Huntington e distrofia muscular do tipo Duchenne em geral só são aplicados
em famílias em que já houver alguém afetado.A justificativa é que essas doenças são raras e os testes,
caros.
Segmentos que precedem a ocorrência de ‘pouco usados’
Pelo contexto, fica claro que os testes não são ineficientes, mas realmente
pouco usados por questões financeiras, e não faria sentido usar um termo que
expressasse uma idéia contrária. Para confirmar essa informação, acessamos o
website do Grupo Brasileiro de Estudos de Fibrose Cística, que corrobora esse
dado dizendo que “ainda há muito sub-diagnóstico de FC e diagnósticos tardios,
94
o que piora o prognóstico destes pacientes”22. Esse passo da análise mostrou a
observação atenta do contexto.
Para o segundo segmento, percebemos que os sentidos de prejudicadas e
limitadas não são tão distantes, pois, conforme o dicionário Houaiss, ambos
apresentam a noção de insuficiência, dificuldade. Embora não sejam sinônimas,
os seus sentidos se aproximam bastante.
Essa pequena análise baseada nas acepções dos dicionários procurou
mostrar, na prática, traços de desprendimento do tradutor. Pudemos observar
dois casos em que houve um afastamento do sentido dado às palavras em
português para atender ao contexto. Essa aproximação, que teoricamente poderia
indicar uma normalização, não parece exagerada ou conservadora a ponto de
retirar a criatividade do tradutor, como sugere a teoria. Muito pelo contrário, as
traduções parecem criativas e elaboradas, compatíveis com o tradutor experiente
que dispõe de opções variadas e apropriadas aos contextos.
Assim, por meio da nossa análise, descobrimos três características da
tradução premiada: (i) tamanho do vocabulário compatível com textos originais,
visto que o tamanho do vocabulário do texto traduzido ficou próximo do
tamanho do vocabulário típico dos textos originais escritos em português, na
norma culta brasileira, representados pelo corpus de base. Ou seja, a tradução
premiada não parece exigir do tradutor um conhecimento maior de vocabulário
(de leitura) do que um outro texto publicado no Brasil (segundo o representado
no corpus de base; vide capítulo de metodologia). Ao mesmo tempo, esta
característica pode revelar um mecanismo interno que controla o tamanho de
22 Website do GBEF, consultado em 20/05/2008.
95
vocabulário que pode ser utilizado para conceder inteligibilidade ao texto. (ii)
desprendimento da tradução imediata, visto que o tradutor não se deixou
influenciar pela proximidade morfológica e etimológica entre LA e LF. As
escolhas que o tradutor premiado fez não são previsíveis. Ele não parece ter
usado prima facie como um critério de tradução. (iii) multidirecionalidade, visto
que ele empregou a mesma tradução para várias palavras e padrões do original.
Assim, embora tenha havido uma profusão de traduções para cada item, o texto
não ficou carregado, denso de vocabulário. A mesma tradução de um item x do
inglês serviu para traduzir outro item y. Essas características apontam para um
tradutor experiente, ciente do papel do contexto na escolha das traduções, e
possuidor de um repertório rico e interligado de opções de tradução. Em termos
teóricos, sugere um profissional com primings complexos, sem relação direta, que
são ativados pela ocorrência no contexto, tendo em vista os padrões que
circundam a palavra que vai traduzir, de um lado, e que circundam as próprias
traduções que faz, de outro.
96
CONSIDERAÇÕES FINAIS
O objetivo da pesquisa apresentada aqui foi encontrar, de modo
sistemático, características de uma tradução premiada que revelassem a expertise
do tradutor. Usamos um corpus paralelo com o original do livro DNA – The secret
of life, de autoria de James Watson, e a sua tradução para o português, feita por
Carlos Afonso Malferrari. A análise nos trouxe os seguintes achados: (i) tamanho
do vocabulário compatível com textos originais, visto que o tamanho do
vocabulário do texto traduzido ficou próximo do tamanho do vocabulário típico
dos textos originais escritos em português, na norma culta brasileira,
representados pelo corpus de base. Ou seja, a tradução premiada não parece
exigir do tradutor um conhecimento maior de vocabulário (de leitura) do que um
outro texto publicado no Brasil (segundo o representado no corpus de base; vide
capítulo de metodologia). Assim, a tradução premiada enfocada aqui não parece
exigir do leitor um conhecimento de vocabulário acima do que é esperado para
ler outros textos no original. Isso nos pareceu um traço importante de uma
tradução premiada. Em termos teóricos, isso se contrapõe ao universal de
estabilização (leveling out), que previa que a tradução seria distante (em vários
sentidos, incluindo o tamanho do vocabulário) de textos originais e que, ao
mesmo tempo, as traduções, quaisquer que sejam, seriam mais semelhantes entre
si do que em relação a seus originais. Nossos resultados apontam para outra
direção: a tradução premiada tem características de um texto original. Como
temos apenas um texto analisado, não podemos refutar a hipótese do universal,
mas podemos pelo menos colocar em dúvida a sua aplicabilidade em todos os
casos (sua própria universalidade). Talvez haja traduções que, como a investigada
aqui, sejam de fato bem parecidas, na sua fluência, escolha vocabular,
padronização, a um texto original. É preciso mais pesquisas para saber se há
realmente outros casos como esse e se eles podem, no conjunto, refutar a hipótese
97
de universalidade da semelhança entre traduções colocada por Baker (1993). (ii)
desprendimento da tradução imediata, visto que o tradutor não se deixou
influenciar pela proximidade morfológica e etimológica entre LA e LF. As
escolhas que o tradutor premiado fez não são previsíveis. Ele não parece ter
usado prima facie como um critério de tradução. (iii) multidirecionalidade, visto
que ele empregou a mesma tradução para várias palavras e padrões do original.
Assim, embora tenha havido uma profusão de traduções para cada item, o texto
não ficou carregado, denso de vocabulário. Os achados (i) e (iii) estão diretamente
relacionados, pois essa multidirecionalidade fez com que o tamanho do
vocabulário fosse mantido em níveis próximos a outros textos originais, podendo
revelar um mecanismo interno do tradutor que controla os limites em que o texto
pode ser produzido.
Como qualquer pesquisa, a nossa também possui limitações. A primeira é
o tamanho do recorte dos dados. Enfocamos quarenta itens apenas; com mais
itens talvez pudéssemos ter uma visão mais detalhada das características da
tradução premiada. A segunda é a quantidade de textos analisados. Pudemos
verificar apenas uma tradução; novamente, caso pudéssemos ter investigado
outras traduções premiadas, talvez tivéssemos encontrado mais detalhes.
Com a pesquisa aqui apresentada, esperamos, pode ter vindo a colaborar
com a aproximação contínua entre a Lingüística de Corpus e os Estudos da
Tradução. Nosso foco em uma tradução de qualidade pode ter trazido subsídios
para outros textos e mesmo para a formação de tradutores, visto que as
características reveladas aqui podem servir para formar profissionais, além do
que, o exame cuidadoso das escolhas do tradutor serviu-me, particularmente,
para o aprimoramento de minha prática profissional como tradutora.
98
REFERÊNCIAS
Hoghton Mifflin Company (Ed.). The American Heritage Dictionary of English: Softkey American Inc. 1994. CD-ROM.
Allen-Mills, S. Jellis,S. et al (Ed.). Cambridge Advanced Learners Dictionary. Cambridge: Cambridge University Press. 2003. CD-ROM.
Editora Melhoramentos Ltda. (Ed.). Michaelis - Moderno Dicionário de Inglês: Editora Melhoramentos Ltda. 2005. CD-ROM.
Aijmer, K., B. Altenberg, et al. Languages in contrast : papers from a symposium on text-based cross-linguistic studies, Lund, 4-5 March 1994. Lund Univ. Press. 1996. 200 p.
Almeida, N. M. D. Gramática metódica da língua portuguesa. São Paulo: Ed. Saraiva. 1999. 698 p.
Altenberg, B. Connectors and sentence openings in English and Swedish. In: S. Johansson e S. Oksefjell (Ed.). Corpora and Cross-Linguistic Research. Theory, Method and Case Studies. Amsterdam/Atlanta: Rodopi, 1998. p.115-143
Baker, M. Corpus Linguistics and translation studies: Implications and applications. In: Baker, M Francis, G et al (Ed.). Text and technology: In honour of John Sinclair. Philadelphia/Amsterdam: John Benjamins Publishing Company, 1993. p.233-250
______. Corpora in Translation Studies: An Overview and Some Suggestions for Future Research. Target, v.7, n.1, p.223-243. 1995.
______. Corpus-based translation studies: the challenges that lie ahead. In: H. Somers (Ed.). Terminology, LSP and Translation:studies in language engineering, in honour of Juan C. Sager. Philadelphia/Amsterdam: John Benjamins Publishing Company, 1996. p.175-186
______. A corpus-based view of similarity and difference in translation. International Journal of Corpus Linguistics, v.9, n.2, p.167-193. 2005.
Bassnett, S. Translation studies. London: Routledge. 1991. 167 p.
Berber Sardinha, T. Corpora Eletrônicos na pesquisa em Tradução. Cadernos de Tradução: Corpora e Tradução, v.9, n.1, p.15-59. 2002.
______. Que tipo de corpus é a web? Revista da ANPOLL, v.15, p.191-220. 2003a.
99
______. Uso de corpora na formação de tradutores. Delta, v.19, n.spe, p.43-70. 2003b.
______. Lingüística de Corpus. São Paulo: Ed. Manole. 2004. 410 p.
Biderman, M. T. C. Teoria Lingüística. São Paulo: Martins Fontes. 2001. 356 p.
Bowker, L. Towards a methodology for exploiting a specialized target language corpora as translation resources. International Journal of Corpus Linguistics, v.5, n.1, p.17-52. 2000.
Danielsson, P. e D. Ridings. Practical Presentation of a "Vanilla" Aligner. Disponível em <http://nl.ijs.si/telri/Vanilla/doc/ljubljana/>. Última atualização. Acesso em: 10/12/2006.
Furlan, M. Brevíssima história da teoria da tradução no ocidente. Cadernos de Tradução, v.8, n.2, p.11-28. 2001.
Gentzler, E. Contemporary translation theories. London: Routledge. 1993
Halliday, M. A. K. Corpus studies and probabilistic grammar. In: K. Aijmer e B. Altenberg (Ed.). English Corpus Studies: In honour of Jan Svartvik. London: Longman, 1991. p.30-43
______. Language as system and language as instance: The corpus as a theoretical construct. Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82. Estocolmo: De Gruyter. 4-8 agosto de 1991, 1992.
Hasselgard, H. Thematic Structure in Translation between English and Norwegian. In: S. Johansson e S. Oksefjell (Ed.). Corpora and Cross-Linguistic Research. Theory, Method and Case Studies. Amsterdam/Atlanta: Rodopi, 1998. p.145-168
Hoey, M. Lexical Priming - a new theory of words and language. London: Routledge. 2005. 202 p.
Hopper, P. J. Emergent grammar and the A Priori Grammar constraint. In: D. Tannen (Ed.). Linguistics in context: connecting observation and understanding. Norwood: Ablex Pub. Co., 1988. p.117-134
Houaiss, A. (Ed.). Dicionário eletrônico Houaiss da língua portuguesa - V1.0.5a. Rio de Janeiro: Ed. Objetiva Ltda. 2001. CD-ROM.
Hunston, S. Colligation, lexis, pattern and text. In: Scott, M. e Thompson, G. (Ed.). Patterns of text. Philadelphia/Amsterdam: John Benjamins Publishing Company,
100
1995. p.13-33
______. Corpora in Applied Linguistics. Cambridge: Cambridge University Press. 2002. 241 p. (Cambridge Applied Linguistics)
Hunston, S. e Francis, G. Pattern Grammar - A corpus-driven approach to the lexical grammar of English. Philadelphia/Amsterdam: John Benjamins Publishing Company. 1999. 229 p. (Studies in Corpus Linguistics)
Kenny, D. Lexis and creativity in Translation - a corpus based study. Manchester: St. Jerome Publishing. 2001. 254 p.
Kilgarriff, A. e Grefenstette, G. Introduction to the special issue on the web as corpus. Computational Linguistics, v.29, n.3, p.333-347. 2003.
Lado, R. Introdução à Lingüística Aplicada - Lingüística Aplicada para professores de línguas. Petrópolis: Ed. Vozes. 1972
Lamparelli, A. H. C. A. A naturalidade da tradução: quem garante? Departamento de Letras Modernas da Faculdade de Filosofia Letras e Ciências Humanas, Universidade de São Paulo, São Paulo, 2007. 251 p.
Laviosa, S. Corpus-based translation studies - theory, findings, applications. Amsterdam: Editions Rodopi. 2002. 138 p.
McEnery, A. e Xiao, Z. Parallel and comparable corpora: what are they up to. In: Incorporating corpora: Translations and the Linguist. Clevedon: Multilingual Matters, 2007. p.138
Oakes, M. P. Statistics for Corpus Linguists. Edimburgo: Edimburg University Press. 1998. 287 p. (Edinburgh Textbooks in Empirical Linguistics)
Olohan, M. Introducing Corpora in Translation Studies. Oxfordshire: Routledge. 2004. 220 p.
Parker, P. M. Webster's Online Dictionary. Disponível em <websters-online-dictionary.org>.
Partington, A. Patterns and Meanings. Philadelphia/Amsterdam: John Benjamins Publishing Company. 1998. 163 p. (Studies in Corpus Linguistics)
Rodrigues, C. C. Tradução e diferença. São Paulo: Editora UNESP. 1999. 237 p.
Salles, J. F., Jou, G. I. D. et al. O paradigma de priming semântico na investigação do processamento de leitura de palavras. Interação em Psicologia, v.11, n.1, p.71-
101
80. 2007.
Santos, A. S. Guia prático de tradução inglesa. São Paulo: Ed. Cultrix. 1995. 511 p.
Simões, A. Alinhamento de corpora paralelos. CP3A Corpora Paralelos, Aplicações e Algoritmos Associados. Braga: Universidade do Minho, 2003.
Sinclair, J. Corpus, Concordance, Collocation. Oxford: Oxford University Press. 1991. 179 p. (Describing English Language)
______. Corpus Creation. In: McCarthy, D. e Sampsom, G. (Ed.). Corpus Linguistics: Readings in a widening discipline. London: Continuum, 2004. p.78-84. (Open Linguistics Series)
Stubbs, M. Text and corpus analysis : computer assisted studies of language and institutions. Oxford: Blackwell. 1996. 272p.
Tagnin, S. E. O. Os corpora: instrumentos de auto-ajuda do tradutor. Cadernos de Tradução: Corpora e Tradução, v.9, n.2002/1, p.191-213. 2002.
Toury, G. Descriptive translation studies and beyond. Philadelphia/Amsterdam: John Benjamins Publishing Company. 1995. 311 p.
Venuti, L. The translators invisibility: A history of translation. London: Routledge. 1995. 353 p.
Vilela, M. Tradução e análise contrastiva: teoria e aplicação. Lisboa: Editorial Caminho. 1994. 170 p. (Lingüística)
Vinay, J.-P. e Darbelnet, J. Comparative Stylistics of French and English - a methodology for translation. Philadelphia/Amsterdam: John Benjamins Publishing Company. 1995. 358 p.
Watson, J. D. DNA - The secret of life. New York: Alfred A. Knopf. 2003. 446 p.
______. DNA - O segredo da vida. Tradução: C. A. Malferrari. São Paulo: Companhia das Letras. 2005. 470 p.