e-dictor: histórico e perspectivas (2015)

195
Codex Calistinus, livro V séc. XII

Upload: maria-clara-paixao-de-sousa

Post on 29-Jan-2018

230 views

Category:

Science


3 download

TRANSCRIPT

Codex Calistinus,

livro V

séc. XII

Gallæcia

Santiago de Compostela

27 a 30 de julho 2015

III Congresso Internacional de Linguística Histórica

Coordenação:

Charlotte M.C. Galves

Xavier G. Guinovart

SimpósioCorpus linguísticos e gramática histórica

Maria Clara Paixão de SousaUniversidade de São Paulo

Universidade de São Paulo

dictor:histórico e perspectivas

e

dictor:histórico e perspectivas

O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos

especialmente voltado ao trabalho filológico e à análise lingüística automática.

Combinando um editor de XML a um etiquetador morfossintático, o software

permite a geração automática de versões correspondentes a edições

diplomáticas, semi-diplomáticas e modernizadas, e de versões com anotação

morfossintática. Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e

grupos de pesquisa, em diferentes universidades de diversos países da lusofonia.

Resultado de oito anos de trabalho de linguistas, filólogos e cientistas da

computação, o desenvolvimento da ferramenta tem sido orientado pela

demanda dos usuários, como atestam Paixão de Sousa (2014), Paixão de Sousa

et ali (2010) e Paixão de Sousa et ali (2007), entre outros. Entretanto, a partir de

Veronesi (2014), uma proposta independente e inovadora está colocada para o

futuro desse desenvolvimento, em ambiente de rede, e em um formato que

subverte em grande parte o inicialmente concebido. Nesta comunicação,

apresentaremos uma avaliação dessa nova proposta de desenvolvimento,

comparando-a conceitualmente à ferramenta original, e pesando suas vantagens

e desvantagens conforme observáveis já na fase inicial de sua implementação.

Resumo

e

dictor:histórico e perspectivas

O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos

especialmente voltado ao trabalho filológico e à análise lingüística automática.

Combinando um editor de XML a um etiquetador morfossintático, o software

permite a geração automática de versões correspondentes a edições diplomáticas,

semi-diplomáticas e modernizadas, e de versões com anotação morfossintática.

Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e grupos de

pesquisa, em diferentes universidades de diversos países da lusofonia. Resultado

de oito anos de trabalho de linguistas, filólogos e cientistas da computação, o

desenvolvimento da ferramenta tem sido orientado pela demanda dos usuários,

como atestam Paixão de Sousa (2014), Paixão de Sousa et ali (2010) e Paixão de

Sousa et ali (2007), entre outros. Entretanto, a partir de Veronesi (2014), uma

proposta independente e inovadora está colocada para o futuro desse

desenvolvimento, em ambiente de rede, e em um formato que subverte em

grande parte o inicialmente concebido. Nesta comunicação, apresentaremos uma

avaliação dessa nova proposta de desenvolvimento, comparando-a

conceitualmente à ferramenta original, e pesando suas vantagens e desvantagens

conforme observáveis já na fase inicial de sua implementação.

Resumo

e

O que é?

edictore

De onde veio?

O que é?

edictore

De onde veio?

Para onde vai?

O que é?

edictore

>De onde veio?

Para onde vai?

O que é?

edictore

> Uma ferramenta para

edição filológica eletrônica

e análise linguística

automática

edictore

>

O que me importa?

A principal finalidade do eDictor

é oferecer uma interface amigável

aliada a um alto nível de controle

e flexibilidade na codificação de

textos eletrônicos com finalidade

de pesquisa linguística.

dictore

> É um software livre,

atualmente com duas

versões:

edictore

>Versão 1.0 Beta 10

Versão Web – em teste

edictor

Versão 1.0 Beta 10

Versão Web – em teste

“O que é”

“Para onde vai”

edictore

> Versão 1.0 Beta 10

Versão Web – em teste

edictore

> Versão 1.0 Beta 10

Disponível para windows,

por download em

http://edictor.net

edictore

http://edictor.net

http://edictor.net

eDictor 1.0 Beta 10

eDictor 1.0 Beta 10 – Módulo Transcrição

eDictor 1.0 Beta 10 – Módulo "Transcrição"

Aba "Transcrição"

eDictor 1.0 Beta 10 – Módulo Edição

Aba "Edição"

eDictor 1.0 Beta 10 – Módulo Etiquetação

Aba "Morfologia"

CUNHA, Luís Antonio Rosado

da. Relaçãoo da entrada que fez o

excellentissimo, e reverendissimo senhor

D. Fr. Antonio [...].Rio de Janeiro :

Na Segunda Oficina de Antonio

Isidoro da Fonseca, 1747.

CUNHA, Luís Antonio Rosado

da. Relaçãoo da entrada que fez o

excellentissimo, e reverendissimo senhor

D. Fr. Antonio [...].Rio de Janeiro :

Na Segunda Oficina de Antonio

Isidoro da Fonseca, 1747.

O primeiro

livro impresso

no Brasil !

eDictor 1.0 Beta 10 – Módulo "Transcrição"

eDictor 1.0 Beta 10 – Módulo Edição

eDictor 1.0 Beta 10 – Módulo Edição

eDictor 1.0 Beta 10 – Configuração de preferências

eDictor 1.0 Beta 10 – Configuração de preferências

eDictor 1.0 Beta 10 – Configuração de preferências

eDictor 1.0 Beta 10 – Configuração de preferências

>eDictor 1.0 Beta 10 – Exportação de Versões

Apresentação Diplomática

Apresentação Modernizada

Apresentação Modernizada

RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID

COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID

RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID

Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID

Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID

Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID

Texto

anotado:

P.O.S.

Léxico das edições

Por trás disso…>

dictore

eDictor 1.0 Beta 10 – Configuração de preferências

A interface do eDictor simula um

editor de textos normal, mas a

ferramenta é em essência um

anotador linguístico, que aplica

uma linguagem de marcação

sobre os textos

>

dictore

A interface do eDictor simula um

editor de textos normal, mas a

ferramenta é em essência um

anotador linguístico, que aplica

uma linguagem de marcação

sobre os textos?

dictore

XML tended

arkup

anguage

e

>

> XML Código-base do

eDictor 1.0 Beta 10

>

> Versão 1.0 Beta 10

Usada atualmente por seis

grupos de pesquisa no

Brasil e em Portugal

dictore

Corpus Anotado do Português

Histórico Tycho Brahe,

(Universidade Estadual de Campinas)

Grupo de Pesquisas

Humanidades Digitais

(Universidade de São Paulo)

P.S. Arquivo Digital de Escrita Quotidiana em

Portugal e Espanha na Época Moderna

(Universidade de Lisboa)

Corpus Eletrônico de

Documentos Históricos do Sertão,

CEDOHS (Universidade Federal de Feira de Santana)

Laboratório de História do Português Brasileiro

(Universidade Federal do Rio de Janeiro)

Memória Conquistense

(Universidade Estadual do Sudoeste da Bahia)

Corpus Anotado do Português

Histórico Tycho Brahe,

(Universidade Estadual de Campinas)

Grupo de Pesquisas

Humanidades Digitais

(Universidade de São Paulo)

P.S. Arquivo Digital de Escrita Quotidiana em

Portugal e Espanha na Época Moderna

(Universidade de Lisboa)

Corpus Eletrônico de

Documentos Históricos do Sertão,

CEDOHS (Universidade Federal de Feira de Santana)

Laboratório de História do Português Brasileiro

(Universidade Federal do Rio de Janeiro)

Memória Conquistense

(Universidade Estadual do Sudoeste da Bahia)

>Versão 1.0 Beta 10

Exemplos de aplicação

dictore

>Versão 1.0 Beta 10

1) Preparação de textos em

corpora anotados

(Corpus Tycho Brahe)

dictore

O Corpus Tycho Brahe

http://www.tycho.iel.unicamp.br/corpus/index.html

O Corpus Tycho Brahe

Exemplo de um texto em versão “original”

O Corpus Tycho Brahe

Exemplo de um texto em versão “modernizada”

[ prologue (author: P.M. Gandavo)]

[ title: AO MUITO ILUSTRE SENHOR DOM LIONIS PEREIRA, Epístola de Pero de Magalhães. ]

[g_008_s_43] Neste pequeno serviço (muito ilustre senhor ) que ofereço a Vossa Mercê das primícias de meu fraco

entendimento, poderá em alguma maneira conhecer os desejos que tenho de pagar com minha possibilidade

alguma parte do muito que se deve à ínclita fama de vosso heróico nome.

[g_008_s_44] E isto assim pelo merecimento do nobilíssimo sangue e clara progênie de onde traz sua origem,

como pelos troféus das grandes vitórias , e casos bem afortunados que lhe hão sucedido nessas partes do Oriente

em que Deus o quis favorecer com tão larga mão, que não cuido ser toda minha vida bastante para satisfazer à

menor parte de seus louvores .

[g_008_s_45] E como todas estas razões me ponham em tanta obrigação , e eu entenda que outra nenhuma coisa

deve ser mais aceita a pessoas de altos ânimos que a lição das escrituras , por cujos meios se alcançam os

segredos de todas as ciências , e os homens vêm a ilustrar seus nomes e perpetuar os na terra com fama imortal ,

determinei escolher a Vossa Mercê entre os mais senhores da terra , e dedicar lhe esta breve história .

[g_008_s_46] A qual espero que folgue de ver com atenção e receber me a benignamente debaixo de seu amparo :

assim por ser coisa nova , e eu a escrever como testemunha de vista : como por saber quão particular afeição

Vossa Mercê tem às coisas do engenho , e que por esta causa lhe não será menos aceito o exercício das escrituras

, que o das armas.

[g_008_s_47] Por onde com muita razão favorecido desta confiança possa seguramente sair a luz com esta

pequena empresa e divulgar a pela terra sem nenhum receio , tendo por defensor dela a Vossa Mercê Cuja muito

ilustre pessoa nosso Senhor guarde e acrescente sua vida e estado por longos e felizes anos .

[ end prologue ]

O Corpus Tycho Brahe

Exemplo de um texto em versão para ferramentas

O Corpus

Tycho Brahe

Exemplo de

um código-

base XML

> Versão 1.0 Beta 10

2) edição de manuscritos

(LaborHistórico e CEDOHS)

dictore

LaborHistorico

Laboratório de História do Português Brasileiro

Universidade Federal do Rio de Janeiro.

Coord. Célia Lopes

http://www.letras.ufrj.br/laborhistorico/

>

LaborHistorico

Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral

http://www.letras.ufrj.br/laborhistorico/

LaborHistorico

Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral

http://www.letras.ufrj.br/laborhistorico/

CEDOHS

Corpus Eletrônico de Documentos

Históricos do Sertão,

Coord. Zenaide Carneiro

http://www2.uefs.br/cedohs/

>

CEDOHS

Acervo - Cartas particulares do Recôncavo da Bahia (1818-1886))

http://www2.uefs.br/cedohs/

64

Documentos editados com o eDictor

em diferentes corpora

(2005-2013)

Número total de documentos:

1.398Número de palavras:

2.856.127

dictore

65

Problemas da atual versão

66

Há muitos!

…vamos escolher dois:( )

Problemas da atual versão

Problemas

67

1. Baixa interoperabilidade - O código XML do eDictor

não segue padrões internacionais estabelecidos, desde

meados dos anos 2000, para corpora eletrônicos -

notadamente, o nenhuma das diferentes versões do TEI

(Text Encoding Initiative). Com isso, os textos trabalhados

no editor não são facilmente compartilháveis com outros

corpora. Alguns grupos desenvolveram scripts para essa

adaptação. Mas o ideal seria que a própria ferramenta

seguisse um código-standard, ou, ao menos, oferecesse essa

transição.

2. Alta dependência do código à estrutura lógica do

texto. As categorias básicas da marcação XML do eDictor

seguem uma hierarquia: seção > parágrafo > sentença >

palavra, que “prende” a anotação à hierarquia do texto. Isso

vem impedindo que a anotação se expanda para a anotação

da estrutura sintática dos textos (que era um importante

da atual versão

Problemas

68

1. Baixa interoperabilidade - O código XML do eDictor

não segue padrões internacionais estabelecidos, desde meados

dos anos 2000, para corpora eletrônicos - notadamente, o

nenhuma das diferentes versões do TEI (Text Encoding

Initiative). Com isso, os textos trabalhados no editor não são

facilmente compartilháveis com outros corpora. Alguns

grupos desenvolveram scripts para essa adaptação. Mas o

ideal seria que a própria ferramenta seguisse um código-

standard, ou, ao menos, oferecesse essa transição.

2. Alta dependência do código à estrutura lógica do

texto. As categorias básicas da marcação XML do eDictor

seguem uma hierarquia: seção > parágrafo > sentença >

palavra, que “prende” a anotação à hierarquia do texto. Isso

vem impedindo que a anotação se expanda para a anotação da

estrutura sintática dos textos (que era um importante objetivo

inicial, até hoje frustrado).

da atual versão

Problemas

70

Estes dois problemas principais estão estritamente

ligados à história do desenvolvimento do eDictor - a

trajetória entre seus objetivos iniciais e a ampliação

desses objetivos sempre no sentido de absorver

demandas de novos usuários.

da atual versão

> De onde veio?

Para onde vai?

O que é?

dictore

2004-2006Primeiras Ideias

http://www.ime.usp.br/~tycho/participants/psousa/memorias/index.html

PAIXÃO DE SOUSA, M.C. Memórias do Texto: Aspectos tecnológicos

na construção de um corpus histórico do português. Post-doc Research

Project, 2004-2007. Unicamp/Fapesp.

>

PAIXÃO DE SOUSA, M. C.; TRIPPEL, T. Single source processing of

Historic corpora for diverse uses.

In: Proceedings of the Association for Literary and Linguistic

Computing (ALLC) Annual Conference, 2004.

PAIXÃO DE SOUSA, M. C. A Anotação da variação de grafia no Corpus

Histórico do Português Tycho Brahe: Frentes abertas para estudos do léxico. V

Encontro de Corpora: Lingüística de Corpus: a aplicabilidade nos estudos sobre

Léxico, São Carlos, 2005.

PAIXÃO DE SOUSA, M. C. Memórias do Texto. Mesa-redonda “Bibliotecas e bancos de

dados digitais de literatura”, II Simpósio Nacional de Literatura e Informática, Florianópolis,

2005.

Published in 2006 as:

PAIXÃO DE SOUSA, M. C. Memórias do Texto. Texto Digital (UERJ), v. 1, p. 10, 2006.

PAIXÃO DE SOUSA, M. C. Critical Hipereditions and the new challenges for text-critique.

Seminário Internacional Literaturas: Del texto al hipertexto. Madri, Universidade

Complutense, setembro de 2006.

Published in 2007 as:

PAIXÃO DE SOUSA, M. C. Digital Text: Conceptual and methodological frontiers. In: Dolores

Romero; Amelia Sanz. (Org.). Literatures in the Digital Era: Theory and Praxis. Cambridge: Cambridge

Scholarly, 2007.

http://www.ime.usp.br/~tycho/participants/psousa/memorias/critical_hyper/ece_Frameset.html

Electronic Editions and Tycho Brahe Text Preparation Manual

June 2006

TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards

at work: a corpus repository of Historical Portuguese texts. V International

Conference on Language Resources and Evaluation (LREC), 2006.

TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards

at work: a corpus repository of Historical Portuguese texts. V International

Conference on Language Resources and Evaluation (LREC), 2006.

I Oficina de Anotação – Projeto CorPorA.

Salvador, 19-21 de abril, 2006.

I Oficina de Anotação – Projeto CorPorA.

Salvador, 19-21 de abril, 2006.

2007Lançamento

(Versão Beta 1.0 000)

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-dictor: uma

ferramenta integrada para a anotação de edição e classe de palavras.

VI Encontro de Lingüística de Corpus, São Paulo, 2007.

Interface do eDictor 1.0 beta 01

Interface do eDictor 1.0 beta 01

2008-2014Crescimento para novos usos

(Versões Beta 1.0 002 a 010)

> Versão 1.0 Beta 10

3) edição de obras raras

digitalizadas

- Projeto Edições Filológicas na

Brasiliana Digital, 2009-2013

dictore

Bibioteca Brasiliana Guita e José Mindlin, doada

à Universidade de São Paulo em 2006:

40.000 obras dos séculos XVI a XXI…

imagem

=

“digitalizado...”

RELAÇAÕPA ENTRJDJ QUE FEZO

EXCELI, ENTlSSIMO, E

REVERENDÍSSIMO SENHORD. F

RANTONIO DO DESTERRO

MALHEYROAiſpoào Rio de Janeiro, em o

primeiro dia defle prtzente Anno de

1747,havendo fidoſeis Annos Biſpo do B,

eyno de Angola, donde por no-miacaõ de

Sua Mageftade, e Bulla Pontificia, foy

promovidopara ella Diocefi. COMPOSTA

PELO DOUTORLÜIZ ANTONIO

ROSADODA CUNHA£ fm\ de Fora, e

Provedor dos defuntos, e au-Z$nte$ y

Capella*, c ReJĩdos do Rio de Janeiro. RIO

DE JANEIRO tía Segunda Officina de

ANTONIO ISID. ORO DAĩONCECA,

Anno de M. CC. XLVII. Com licenças do

Senhor Bijfo,

OCR “Optical

Character

Recognition”

texto

imagem

RELAÇAÕPA ENTRJDJ QUE FEZO

EXCELI, ENTlSSIMO, E REVERENDÍSSIMO

SENHORD. F RANTONIO DO DESTERRO

MALHEYROAiſpoào Rio de Janeiro, em o primeiro

dia defle prtzente Anno de 1747,havendo fidoſeis

Annos Biſpo do B, eyno de Angola, donde por no-

miacaõ de Sua Mageftade, e Bulla Pontificia, foy

promovidopara ella Diocefi. COMPOSTA PELO

DOUTORLÜIZ ANTONIO ROSADODA

CUNHA£ fm\ de Fora, e Provedor dos defuntos, e

au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro.

RIO DE JANEIRO tía Segunda Officina de

ANTONIO ISID. ORO DAĩONCECA, Anno de

M. CC. XLVII. Com licenças do Senhor Bijfo,?

Relação da entrada que fez o excelentíssimo, e

reverendíssimo senhor Dom Frei Antonio do

Desterro Malheiro, Bispo do Rio de Janeiro,

em o primeiro dia deste presente Ano de 1747

havendo sido seis Anos Bispo do Reino de

Angola, donde por nomeação de Sua

Majestade, e Bula Pontifícia, foi promovido

para esta Diocese. Composta pelo doutor Luiz

Antonio Rosado da Cunha Juiz de Fora, e

Provedor dos defuntos, e ausentes, Capelas, e

Residos do Rio de Janeiro. Rio de Janeiro, Na

Segunda Oficina de Antonio Isidoro da

Fonseca, Ano de MCCXLVII. Com licenças

do Senhor Bispo.

!

>O Projeto Edições Filológicas na

Brasiliana Digital (2009-2013)

criou, com o eDictor, edições

corrigidas e modernizadas para

algumas obras do acervo, além de

um banco de dados de erros de

reconhecimento automático

(OCR).

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros

experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,

2009.

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento

automático de textos antigos: Desafios e Experiências. Workshop de Linguística de Corpus

do Projeto Para a História do Português Brasileiro (PHPB), São Paulo, 2010.

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros

experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,

2009.

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros

experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,

2009.

(Abbyy Finereader 10.0 training module)

Apresentação Diplomática

texto imagem

Apresentação Modernizada

Apresentação Modernizada

RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID

COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID

RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID

Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID

Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID

Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID

Texto

anotado:

P.O.S.

<w id="s_6#86">

<o> amiſjade</o>

<e t="ocr">amiſſade</e>

<e t="gra">amissade</e>

<e t="mod">amizade </e>

<m v="N"/>

</w>

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros

experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,

2009.

<w id="s_6#86">

<o> amiſjade</o>

<e t="ocr">amiſſade</e>

<e t="gra">amissade</e>

<e t="mod">amizade </e>

<m v="N"/>

</w>

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros

experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,

2009.

>

Interface of eDictor in 2009 – Edition Module

em todo esse processo de

adaptação ao uso por novos

projetos foi que

“Edição” passou a ser

uma categoria aberta, que

pode ser configurada por cada

grupo.

> O mais importante…

em todo esse processo de

adaptação ao uso por novos

projetos foi que

“Edição” passou a ser

uma categoria aberta, que

pode ser configurada por cada

grupo.

> O mais importante…

“Edição” passa a ser uma categoria aberta

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas

perspectivas na codificação e edição de corpora de textos históricos. In: VIII

Encontro de Linguística de Corpus, 2009, Rio de Janeiro. 2009.

First Version of eDictor’s Manual (2010)

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas

perspectivas na codificação e edição de corpora de textos históricos. In: Tania

Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto. (Org.). Caminhos da

linguística de corpus. Campinas: Mercado de Letras, 2010.

116

Workshop:

Construction and use of large annotated corporaUnicamp, Setembro de 2013

Nova página, manual e interface do e-Dictor,

Setembro de 2013

> Em resumo…

desde 2007 foram lançadas

10 versões ('builds')

do eDictor 1.0 beta,

cada uma refletindo

modificações e

acrescentamentos

solicitados pelos novos

projetos que

adotaram a ferramenta.

Em resumo…

>

2015

2015e agora?

>De onde veio?

Para onde vai?

O que é?

dictore

>Versão 1.0 Beta 10

Versão Web – em teste

edictore

Versão Web – em testehttp://www.tycho.iel.unicamp.br/workflow/index.action

125

Luiz Henrique Lima Veronesi:

e-Dictor: da plataforma para a nuvem.Dissertação de Mestrado em Filologia e Língua Portuguesa, Universidade de São Paulo, 2014.

Versão Web – em teste

Versão Web – em teste

> XML Código-base do

eDictor Web

> XML Código-base do

eDictor Web

> XML Código-base do

eDictor Web

>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"/>

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"/>

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"/>

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR" ... />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR"/></t>

<t pos="70" value="ANTONIO">

<attributes part-of-speech=“NPR"/></t>

<t pos="71" value="ROSADO">

<attributes part-of-speech=“NPR"/></t>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA">

<attributes part-of-speech=“NPR”/></t>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR"/></t>

<t pos="70" value="ANTONIO">

<attributes part-of-speech=“NPR"/></t>

<t pos="71" value="ROSADO">

<attributes part-of-speech=“NPR"/></t>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA">

<attributes part-of-speech=“NPR”/></t>

XML - Código-base do eDictor Web

XML - Código-base do eDictor Web

XML - Código-base do eDictor Web

“considerar os tokens 69 a 73 como uma unidade"

>O que me importa?

Vantagens e

Problemasda nova versão web

Primeira vantagem

142

1. A primeira vantagem da nova

versão é “libertar” o código do

eDictor de sua dependência à

estrutura gráfica do texto.

Problemas

143

(lembrando….)

1. Alta dependência do código à estrutura gráfica do

texto. As categorias básicas da marcação XML do

eDictor seguem uma hierarquia: seção >

parágrafo > sentença > palavra, que “prende” a

anotação à hierarquia do texto. Isso vem

impedindo que a anotação se expanda para a

anotação da estrutura sintática dos textos (que era

um importante objetivo inicial, até hoje frustrado).

da atual versão

Primeira vantagem

144

1. A primeira vantagem da nova versão é “libertar” o

código do eDictor de sua dependência à estrutura

gráfica do texto.

Com o novo código, finalmente nos

aproximamos do objetivo de incluir a

anotação sintática entre as

tarefas que podem ser cumpridas no

interior da ferramenta.

Pois, nas palavras de Veronesi (2014:52),

“O texto passa a ser compreendido por listas

Primeira vantagem

145

1. A primeira vantagem da nova versão é “libertar” o código

do eDictor de sua dependência à estrutura gráfica do texto.

Com o novo código, finalmente nos aproximamos do

objetivo de incluir a anotação sintática entre as

tarefas que podem ser cumpridas no interior da ferramenta.

Pois, nas palavras de Veronesi (2014:52),

“O texto passa a ser compreendido por

listas que se relacionam logicamente em

função da posição linear que os tokens

ocupam após o processo de tokenização”.

Primeira vantagem

146

Primeira vantagem

147

“Luiz Antonio Rosado da Cunha” <chunk/>

Primeira vantagem

148

“Luiz Antonio Rosado da Cunha” <chunk/>

[Luiz Antonio Rosado da Cunha] Sintagma

Primeira vantagem

149

“Luiz Antonio Rosado da Cunha” <chunk/>

[Luiz Antonio Rosado da Cunha] Sintagma

Primeira vantagem

150

Ilustração do esquema de anotação sintática proposto em

Veronesi (2014):

Primeira vantagem

151

Ilustração do esquema de anotação sintática proposto em

Veronesi (2014):

Sintagmas

“Palavras” >

>

Primeira vantagem

152

Ilustração do esquema de anotação sintática proposto em

Veronesi (2014):

Sintagmas

“X” >

>

Primeira vantagem

153

Ilustração da interface para anotação sintática

(versão interna para testes, ainda não publicada)

Primeira vantagem

154

Em resumo:

Anotação fundada na

estrutura gráfica

Anotação fundada em

“listas logicamente relacionadas”

Segunda vantagem

155

Segunda vantagem

156

2. A segunda vantagem da nova versão está

ligada a sua disponibilização em ambiente de

nuvem.

Em tese, uma ferramenta que não precisa ser

“baixada” por cada usuário permite que as

novas versões e melhoramentos sejam

imediatamente disponíveis para todos os

usuários, entre outras vantagens apontadas

por Veronesi 2014.

Primeiro problema

157

Primeiro problema

158

1. O primeiro problema está ligado à segunda

vantagem. Nem todos os usuários sentem-se

confortáveis com uma ferramenta que nunca

está disponível localmente - a dependência de

todo um projeto ao acesso a um servidor

remoto, muitas vezes em outro continente,

passível de problemas e quedas, etc., não é

desejada pela maioria. Do outro lado, o

funcionamento “em nuvem” traz à equipe de

desenvolvedores da ferramenta uma grande

responsabilidade, pois precisam manter e

tornar disponível algo que forma a base das

pesquisas de muitos grupos. A solução desse

problema, em princípio, não parece complexa:

Primeiro problema

159

1. O primeiro problema está ligado à segunda vantagem.

Nem todos os usuários sentem-se confortáveis com uma

ferramenta que nunca está disponível localmente - a

dependência de todo um projeto ao acesso a um servidor

remoto, muitas vezes em outro continente, passível de

problemas e quedas, etc., não é desejada pela maioria. Do

outro lado, o funcionamento “em nuvem” traz à equipe

de desenvolvedores da ferramenta uma grande

responsabilidade, pois precisam manter e tornar

disponível algo que forma a base das pesquisas de muitos

grupos. A solução, em princípio, não

parece complexa: seria possível

implementar uma ferramenta híbrida,

com versão em nuvem e local. Mas isso

nos leva ao segundo problema.

Segundo problema

160

Segundo problema

161

1.O segundo problema está fortemente

ligado ao primeiro. Para que o

funcionamento “em nuvem” seja

garantido, é preciso haver uma equipe de

desenvolvedores dedicados; mesmo para

se fazer uma ferramenta híbrida, com

versão em nuvem e local, é necessário

termos uma equipe.

O fato, entretanto, é que o eDictor nunca

contou com uma equipe dedicada.

Segundo problema

162

1.O segundo problema está fortemente

ligado ao primeiro. Para que o

funcionamento “em nuvem” seja

garantido, é preciso haver uma equipe de

desenvolvedores dedicados; mesmo para

se fazer uma ferramenta híbrida, com

versão em nuvem e local, é necessário

termos uma equipe.

O fato, entretanto, é que o eDictor nunca

contou com uma equipe dedicada.

Possível solução

163

Possível solução

164

A meu ver há uma medida que pode solucionar todos os

problemas do eDictor.

Deveríamos abrir o código-fonte tanto da versão 1.0 como

da nova-versão web, enviá-lo a um portal de

desenvolvedores, transformando o eDictor em uma

ferramenta de construção colaborativa, por

meio do uso de plataformas do tipo CSD -

Collaborative Software Development Platforms.

Esta sempre foi, de fato, a vocação dessa ferramenta.

Possível solução

165

Desde o início, o eDictor foi construído em pequenas etapas,

por diferentes pesquisadores vindos de diferentes formações,

e com diferentes objetivos.

Como vimos, isso trouxe problemas para as diferentes versões.

Entretanto, é também daí que vem a força

da ferramenta.

A proposta, agora, seria assumir definitivamente a vocação

“múltipla” dessa forma de desenvolvimento, e lançar a

criança no mundo, esperando que ela construa agora seus

próprios caminhos.

Possível solução

166

Desde o início, o eDictor foi construído em pequenas etapas,

por diferentes pesquisadores vindos de diferentes formações,

e com diferentes objetivos.

Como vimos, isso trouxe problemas para as diferentes versões.

Entretanto, é também daí que vem a força

da ferramenta.

A proposta, agora, seria assumir definitivamente a vocação

“múltipla” dessa forma de desenvolvimento, e lançar a

criança no mundo, esperando que ela construa agora seus

próprios caminhos.

Desde o início, o eDictor foi construído em pequenas

etapas, por diferentes pesquisadores vindos de diferentes

formações, e com diferentes objetivos.

Como vimos agora, isso trouxe problemas para as

diferentes versões.

Entretanto, é também daí, a meu ver, que vem a força da

ferramenta.

A proposta, agora, seria assumir definitivamente essa

vocação “múltipla”, e digamos, “ bastarda” dessa forma de

desenvolvimento, e

Obrigada!

Maria Clara Paixão de SousaUniversidade de São Paulo

[email protected]

eDictor:

histórico e perspectivas

PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances

and perspectives”. Workshop Construction and use

of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação

e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto.

(Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF]

FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating

Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual Meeting

of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010.

(Congresso). [PDF (poster)]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos

antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do

Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)]

PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana

Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e

edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009.

(Comunicação).

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e

edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro.

Resumos, 2009. [PDF (slides)]

PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de edição

e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]

eDictor 1.0 Beta 10 – Módulo Transcrição

> XML

XML tended

arkup

anguage

e

>

XML tended

arkup

anguage

e

>

XML tended

arkup

anguage

e

>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR" />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR" ... />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR"

... />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" exp="d@" exp="a"/>

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"

pos="NPR"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" exp="d@" exp="a"/>

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR" />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR" ... />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR"

... />

</t>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" exp="d@" exp="a"/>

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" mod="LUIZ"

pos="NPR"/>

<t pos="70" value="ANTONIO"/>

<t pos="71" value="ROSADO"/>

<t pos="72" value="DA" exp="d@" exp="a"/>

<t pos="73" value="CUNHA"/>

XML - Código-base do eDictor Web

XML - Código-base do eDictor Web

<t pos="66" value="COMPOSTA"/>

<t pos="67" value="PELO" />

<t pos="68" value="DOUTOR"/>

<t pos="69" value="LÜIZ" >

<attributes data-modernization="LUIZ"

part-of-speech="NPR"/></t>

<t pos="70" value="ANTONIO">

<attributes part-of-speech=“NPR"/></t>

<t pos="71" value="ROSADO">

<attributes part-of-speech=“NPR"/></t>

<t pos="72" value="DA" />

<t pos="73" value="CUNHA">

<attributes part-of-speech=“NPR”/></t>

eDictor 1.0 Beta 10 – Módulo Transcrição

eDictor 1.0 Beta 10 – Módulo Transcrição

eDictor 1.0 Beta 10 – Módulo Edição

eDictor 1.0 Beta 10 – Módulo Etiquetação

eDictor 1.0 Beta 10 – Módulo Edição

<page data-uid="1">

RELAÇÃO DA ENTRADA QUE FEZ O

EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR

DOM FREI ANTONIO DO DESTERRO MALHEYRO

Bispo do Rio de Janeiro, em o primeiro dia deste presente

Ano de 1747 havendo sido seis Anos Bispo do Reino de

Angola, donde por nomeação de Sua Magestade, e Bula

Pontifícia, foi promovido para esta Diocese. COMPOSTA

PELO DOUTOR LUIZ ANTONIO ROSADO DA

CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes,

Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO Na

Segunda Oficina de ANTONIO ISIDORO DA FONCECA.

Ano de M. CC. XLVII. Com licenças do Senhor Bispo.

</page>

Versão Web – em teste