concebendo e construindo um corpus para a questão do acento no português brasileiro
TRANSCRIPT
![Page 1: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/1.jpg)
Concebendo e construindo um corpus
para a questão do acento no Português Brasileiro
Bruno Ferrari Guide
Orientação: Marcelo Barra Ferreira
Universidade de São Paulo
2015
![Page 2: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/2.jpg)
Objetivos
Apresentar a questão do acento no Português Brasileiro: Perfil do acento no PB
Abordagens teóricas (Bisol (1992), Lee (1995), Hermans & Wetzels (2012))
Alcance das teorias
Abordagem computacional: Criação e Implementação de modelos
Extração de padrões de copora diversos
Construindo um corpus: Fala versus Escrita
Os diferentes registros
Apontamentos
![Page 3: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/3.jpg)
O Acento no PB
Restrito as últimas três sílabas da palavra: Oxítonas: ‘caqui’, ‘sordidez’ Paroxítonas: ‘corda’, ‘beleza’ Proparoxítonas: ‘último’, ‘metódico’
Comportamento previsível: ‘-inho(a)’, ‘-ável’, ‘-eza’, ‘-ico’ Flexões verbais;
Nomes não derivados morfologicamente apresentam um comportamento não completamente previsível.
Levando em conta o peso silábico: Acentuar a penúltima sílaba, porém última sílaba pesada atrai o acento.
![Page 4: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/4.jpg)
O Acento no PB - perfil
Corpus ortográfico wikipedia:
Dicionário com 40.924 palavras listadas e já separadas de acordo com categoria acentual.
Total 40924 100%
Oxítonas 10183 25%
Paroxítonas 25967 63%
Proparoxítonas 4774 12%
![Page 5: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/5.jpg)
O acento no PB - perfil
Maioria das palavras se encaixa nesses dois grupos: Paroxítonas terminada em vogal (sílaba leve) [Pesquisa ER]
Oxítonas terminadas em consoante (sílaba pesada) [Pesquisa ER]
Aproximadamente 70% do total das palavras está representado aqui.
Paroxítonas 25967 100%
Paroxítonas terminadas em V. 20886 80%
Oxítonas 10183 100%
Oxítonas terminadas em C. 7888 77%
![Page 6: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/6.jpg)
O acento no PB – perfil
Dos 30% que sobram:
12% são proparóxitonas
6% são oxítonas terminadas em vogal [consoante subjacente?]
12% são paroxítonas terminadas em consoantes [plural]
![Page 7: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/7.jpg)
O acento no PB - Teorias
Abordagens teóricas (Bisol (1992), Lee (1995))
Bisol (1992):Padrão- Sílaba pesada final atrai o acento. Caso a sílaba final não seja pesada, forme um constituinte binário com proêminencia à
esquerda (troqueu) partindo da borda direita da palavra.
Lee (1995):
Padrão (Verbos):
Na forma final da palavra, faça constituintes binários.
Elemento proeminente é o mais a esquerda do pé.
(Paroxítonas e proparoxítonas)
Exceções (Verbos):
Na forma final da palavra, o acento vai cair no elemento mais à direita.
(Oxítonas)
![Page 8: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/8.jpg)
O acento no PB - Teorias
Abordagen teórica (Lee (1995)) Não verbos:
Padrão:
Elemento mais a direita do radical da palavra.
(Paroxítonas terminadas em vogal, oxítonas)
Exceções:
No radical da palavra, derivar constituintes binários.
O item proeminente do constituinte é o mais a esquerda do pé. (iambo)
(Paroxítonas terminadas em consoante, proparoxítonas)
Abordagem de Lee exige informações morfológicas, dá um novo sentido mas não elimina a marcação arbitrária.
![Page 9: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/9.jpg)
O acento no PB - Teorias
Abordagen teórica (Hermans & Wetzels (2012))
Os autores apresentam uma investigação sobre o acento baseada na observação do comportamento dos falantes diantes de palavras novas (neologismos).
A partir disso, entendem o funcionamento do acento através das noções de padrão produtivo e padrão improdutivo.
Padrão produtivo obedece ao peso silábico, o improdutivo não.
![Page 10: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/10.jpg)
Abordagem Computacional
Criação de modelos Implementar as teorias a fim de fundamentar uma discussão quantitativa.
(Alcance das teorias)
Extração de padrões de copora diversos Retomando Hermans & Wetzels – Padrão improdutivo tem subpadrões?
A análise de um grande volume de dados, porém, exige um grande volume de dados
![Page 11: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/11.jpg)
Concebendo e construindo um corpus fonológico Necessidade de automatização
Extrair padrões fonológicos exige uma grande quantidade de dados transcritos.
Fala versus Escrita – algumas diferenças
Correspondência entre sons e escrita:
Epêntese – “Capta” é paroxítona?
Dígrafos: ‘ch’, ‘lh’, ‘xc’, ‘ss’, ‘gu’...
Letra representando mais de um som: ‘r’, ‘s’, ‘x’...
![Page 12: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/12.jpg)
Concebendo e construindo um corpus fonológico Construindo um transcritor: Programação e Chave de transcrição
Python Linguagem de programação simples e poderosa.
Conta com boas bibliotecas já prontas para dar continuidade ao andamento da pesquisa.
NLTK, Scikit-Learn, Pandas...
Chave de transcrição baseada em Guide (2013): Cada caractere representa um som.
Diferença na transcrição de vogais átonas e tônicas, nasais e não-nasais
Codificação ASCII
![Page 13: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/13.jpg)
Concebendo e construindo um corpus fonológico Construindo o Corpus:
Textos Escritos
Artigos Acadêmicos (342.847 palavras)
Jornais (Estado de S. Paulo – 397.869 palavras | Folha de S. Paulo – 819.381)
Blogs (215.126 palavras)
Textos Falados
ProjetoSP: (230.116 palavras)
60 entrevistas com diferentes perfis sociolinguisticos
Iboruna (corpus recebendo tratamento) :
151 entrevistas com diferentes perfis sociolinguisticos
11 de diário de campo
Total: 2005339 palavras
![Page 14: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/14.jpg)
Apontamentos
Esse corpus servirá para a extração de padrões para alimentar algumas abordagens probabilísticas para a questão do acento: Acentuador baseado em n-gramas.
Modelo simples, mas pode demonstrar a ‘localidade’ da questão do acento
Acentuador baseado em um classificador bayesiano ingênuo. Traços para a classificação podem incluir classe morfológica, frequência da palavra,
informatividade da palavra, vogal da última sílaba, vogal da penúltima sílaba...
![Page 15: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/15.jpg)
Bibliografia
JURAFSKY, D. and MARTIN, J. (2008). Speech and Language Processing. Upper Saddle River, NJ: Prentice Hall.
LEE, S.H (1995) – “Morfologia e Fonologia lexical do Português Brasileiro” – Tese de Doutorado –UNICAMP
BISOL, L. (Org.) (2010) . Introdução a estudos de fonologia do português brasileiro. 5º. ed. Porto Alegre: ediPUCRS.
GUIDE, B, F. (2013). Construção de um silabificador probabilístico para o
português brasileiro. Iniciação científica pela Universidade de São Paulo.
Wetzels, W. L. and Hermans, B. Productive and Unproductive stress patterns in brazilian portuguese. (2012) Revista Letras & Letras. v. 28.
BYBEE, Joan. (2001). Phonology and language use. Cambridge: Cambridge University Press.
BERBER SARDINHA, Tony. "O que é um corpus representativo." Direct Papers44 (2000).
![Page 16: Concebendo e construindo um corpus para a questão do acento no Português Brasileiro](https://reader031.vdocuments.site/reader031/viewer/2022013122/55abebd01a28ab54318b45a7/html5/thumbnails/16.jpg)
Obrigado pela atenção!