INVESTIGAÇÃODEPROCESSO
DECONVERSÃOAUTOMÁTICADE
TEXTOSESTRUTURADOSPARA
HIPERDOCUMENTOS
ALESSANDRADORANTE
DissertaçãoapresentadaaoInstitutodeFísicade
SãoCarlos,daUniversidadedeSãoPaulo,
paraobtençãodotítulodeMestreemCiências–
“FísicaAplicadasub‐áreaFísicaComputacional”
PROF.DR.ÁLVAROGARCIANETOOrientador
SãoCarlos1997
Dorante,AlessandraInvestigaçãodeProcessodeConversãoAutomáticadeTextos
EstruturadosparaHiperdocumentos/AlessandraDorante–SãoCarlos,1997.
142p.
Dissertação(Mestrado)–InstitutodeFísicadeSãoCarlos,1997.
Orientador:Prof.Dr.ÁlvaroGarciaNeto
1.Hipertexto;2.Conversãoautomática.I.Título
UNIVERSIDADEDE SAO PAULO
Av. Dr. Carlos Botelho, 1465CEP 13560-250 - Sao Carlos - SPBrasil
Fane (016) 274-3444_ _ Fax (016) 272-2218
MEMBROS DA COMISSAO JULGADORA DA DISSERTACAO DE MESTRADO DEALESSANDRA DORANTE APRESENTADA AO INSTITUTO DE FISICA DE SAO CARLOS,DA UNIVERSIDADE DE SAO PAULO, EM 28 DE NOVEMBRO DE 1997.
COMISSAO JULGADORA:/
~
'i ~ '\i _A.,~_\ _-'I' '--'--/ _____________:______ :, ~__"_J _
Prof. Dr. AIV~/ Garcia ~e~/I~SC~-~SP
---------~:-:!-_---~--------------
b I, ! /
_________S'~_=:;:---- ~_:.'::'::_':.2~~':::_<t.:_L _Profa. Ora. Sandra' Maria AIu1sia/ICMSC-USP
“Navegarépreciso,vivernãoépreciso”
aoÁlvaro,poracreditaremmim.
AGRADEÇODECORAÇÃO
AoHomero
AMamy
AoGrupodeRedeseHipermídia
AoPeter
AoMaikon
AClaudinha
AWladerez
eatodosmeusamigos.
i
ÍNDICE
LISTADEFIGURAS v
LISTADETABELAS vi
LISTADEQUADROS viii
LISTADEALGORITMOS ix
RESUMO x
ABSTRACT xi
1 INTRODUÇÃO 1
1.1 CONTEXTUALIZAÇÃO 2
1.1.1 OQUEÉACONVERSÃOAUTOMÁTICA 3
1.2 APRESENTAÇÃODOPROJETO 6
ii
1.3 PROBLEMASCARACTERÍSTICOSDAÁREA 8
1.4 SOLUÇÃOPROPOSTA 11
1.4.1 OBJETIVOS 15
1.5 ABORDAGEMEMCAPÍTULOS 16
2 ACONVERSÃOAUTOMÁTICA 18
2.1 PRINCÍPIOSDEHIPERTEXTO 19
2.1.1 CONCEITODEHIPERTEXTO 20
2.1.2 HIPERTEXTOS“MANUAIS” 21
2.1.3 OATODENAVEGAR 22
2.1.4 AINTERAÇÃOCOMAINFORMAÇÃO 23
2.1.5 DIFERENTESPONTOSDEVISTAEMUMHIPERTEXTO:VISÕES 24
2.1.6 DEFINIÇÕESBÁSICAS 24
2.1.7 OSNÓSDEUMHIPERTEXTO 25
2.1.8 OSLINKSDEUMHIPERTEXTO 26
2.2 PORQUÊCONVERTER:PAPELXHIPERTEXTO 27
2.2.1 DIFICULDADESCOMOTEXTOIMPRESSO 27
2.2.2 VANTAGENSDOFORMATOHIPERTEXTO 28
2.3 COMOCONVERTER:CONVERSÃOMANUALXAUTOMÁTICA 29
2.3.1 CONVERSÃOMANUAL 29
2.3.2 CONVERSÃOAUTOMÁTICA 30
2.4 ASETAPASDACONVERSÃOAUTOMÁTICA 31
2.4.1 SELEÇÃODEDOCUMENTOS 31
2.4.2 AQUISIÇÃODEDADOS 322.4.2.1 Método1–CópiaouDigitação 332.4.2.2 Método2–Digitalização 332.4.2.3 Método3–TextonoFormatoDigital 35
2.4.3 PREPARAÇÃODOTEXTO 372.4.3.1 VerificaçãoOrtográfica 372.4.3.2 Verificação“Inteligente” 382.4.3.3 VerificaçãoVisual 38
2.4.4 APLICAÇÃODACONVERSÃOAUTOMÁTICA 38
2.4.5 CODIFICAÇÃOEMLINGUAGEMESPECÍFICA 40
2.5 TRABALHOSRELACIONADOS 41
iii
3 OPROCESSODECONVERSÃOAUTOMÁTICA 44
3.1 TEXTOSESTRUTURADOS 45
3.2 DESCRIÇÃOGERALDOPROCESSO 48
3.3 FORMATODEENTRADADOPROCESSODECONVERSÃO 49
3.4 SEGMENTAÇÃO 53
3.4.1 PREPARAÇÃODOSDOCUMENTOSSTDNORM 53
3.4.2 ANÁLISEDEPARÁGRAFOS 54
3.5 HIERARQUIZAÇÃO 57
3.6 INFERÊNCIADELINKS 59
3.6.1 EXTRAÇÃODASCITAÇÕES 60
3.6.2 ENDEREÇAMENTODASCITAÇÕES 633.6.2.1 FormaNormalparaEndereçamentodeSegmentos 64
3.6.3 ESTABELECIMENTODELINKS 663.6.3.1 EstruturadePares 673.6.3.2 GeraçãodoEndereçonaFormaNormal 68
3.7 CONSTRUÇÃODOHIPERTEXTO 70
4 NORMAS:ANATUREZADAINFORMAÇÃOESEUSUSOS 71
4.1 CONCEITODENORMA 72
4.1.1 TIPOSDENORMAS 72
4.1.2 CARACTERÍSTICASDENORMAS 73
4.1.3 PRINCÍPIOSPARAOTRATAMENTODASNEJBS 75
4.2 ESTRUTURAÇÃOESEGMENTAÇÃODEUMANORMA 76
4.3 DEFINIÇÃOFORMALDASNEJBS 80
4.3.1 FUNDAMENTAÇÃOTEÓRICAPARAADEFINIÇÃOFORMAL 80
4.3.2 APLICAÇÃOPARAOCONJUNTODASNEJBS 84
4.4 REGRASDEPRODUÇÃOPARAASNEJBS 85
4.4.1 REGRASDEPRODUÇÃOPARAOPORTUGUÊSDOBRASIL 85
4.4.2 REGRASDEPRODUÇÃOPARAOCONJUNTODASNEJBS 87
4.4.3 REGRASDEVALIDAÇÃO 89
4.5 REGRASDEPRODUÇÃOPARAASCITAÇÕES 90
4.6 MODELODEDADOSPARANEJBS 93
4.6.1 MODELOENTIDADERELACIONAMENTOESTENDIDO 94
4.6.2 ESQUEMACONCEITUALDOMODELODEDADOSPARANEJBS 94
iv
4.6.3 CITAÇÕESNOMODELODEDADOSPARANEJBS 98
5 AFERRAMENTAWEBIFYLAW 100
5.1 IMPLEMENTAÇÃO 101
5.1.1 LINGUAGEMDEPROGRAMAÇÃO 102
5.1.2 MÓDULOSEBIBLIOTECAS 103
5.2 AGERAÇÃODEHIPERDOCUMENTOS 104
5.3 USODAFERRAMENTAWEBIFYLAW 108
5.4 RESULTADOS 108
5.4.1 RESULTADOSDAEXTRAÇÃODASCITAÇÕES 109
5.4.2 RESULTADOSDAGERAÇÃODELINKS 111
5.4.3 SITE:PROJETOWEBIFYLAW 116
6 CONCLUSÃO 117
6.1 CONTRIBUIÇÕESDOTRABALHO 118
6.2 SUGESTÕESPARATRABALHOFUTURO 119
REFERÊNCIASBIBLIOGRÁFICAS 122
APÊNDICE
v
LISTADEFIGURAS
Figura1Macro‐etapasdaConversãoAutomática 4
Figura2VerificaçãodeDocumentoscomoumainterface 12
Figura3Estruturahierárquicaemárvore 45
Figura4Exemplodeumaestruturahierárquicadenível4 47
Figura5IdentificaçãodoiníciodedocumentosemumdocumentoSTDNORM 55
Figura6Afunçãodaextraçãodascitações 60
Figura7ComposiçãodeumaNEJB 95
Figura8ModelodeDadosparaNEJBs 97
Figura9Esquemaconceitualparaarepresentaçãodecitações 99
vi
LISTADETABELAS
Tabela1PadrãoSTDNORM:formatodeentradadedadosnoprocessodeconversão 50
Tabela2AlgumascategoriaspresentesnascitaçõesemNEJBs 61
Tabela3Exemplodeformalizaçãodetiposdecitação 62
Tabela4Exemplosdeendereçosnaformanormaldeendereçamento 65
Tabela5Regrasparaadefiniçãodetextobrasileiro,baseadonalínguaportuguesa 86
Tabela6Regrasparaadefiniçãoformaldenormasestatutáriasjurídicasbrasileiras 89
Tabela7RegrasdeProduçãoparaasCitaçõesemNEJBs 92
Tabela8ConstruçõesutilizadasnomodeloEntidadeRelacionamentoEstendido 94
Tabela9Exemplosdecitaçõescompostas 98
Tabela10Opçõesdeconfiguração 102
Tabela11Siglasparaostiposdenormas 105
vii
Tabela12Resultadosdaextraçãodascitaçõesporsegmento 109
Tabela13Casosdeextraçãodecitaçãonãocoincidentes 109
viii
LISTADEQUADROS
Quadro1DocumentodeacordocomopadrãoSTDNORM 52
Quadro2ExemplosdaestruturadeparesaplicadaàsNEJBs 67
Quadro3Exemplodehiperdocumentogeradoautomaticamente 106
Quadro4Exemplodeumtrechodehiperdocumentocomíndiceinterno 107
Quadro5CódigofontegeradoautomaticamenteemlinguagemHTML 107
Quadro6Estatísticasdaextraçãodecitaçõesportipodecitação 110
ix
LISTADEALGORITMOS
Algoritmo1PreparaçãodedocumentopadrãoSTDNORM 54
Algoritmo2EtapadeSegmentaçãonoprocessodeconversão 56
Algoritmo3Ahierarquizaçãodesegmentosnoprocessodeconversãoautomática 58
Algoritmo4Geraçãodehierarquia 58
Algoritmo5Atribuiçãodaordemdosegmento 59
Algoritmo6Atribuiçãodosegmentopai 59
Algoritmo7Extraçãodascitaçõesnaetapadeinferênciadelinks 62
Algoritmo8Processodegeraçãodelinks 66
Algoritmo9Análiseeestabelecimentodelinks 66
x
RESUMO
Estadissertaçãoinvestigaoprocessodeconversãoautomáticadetextosestruturadospara
hiperdocumentos. Analisa vantagens e desvantagens da utilização de um processo
automático.Fazumlevantamentodetalhadodasetapasenvolvidasnestaconversão.Como
resultadodapesquisapropõeumprocessodeconversãobaseadoemdefiniçõesformaisda
estrutura dos documentos e das citações. O domínio de aplicação do processo de
conversãoéoconjuntodenormasestatutáriasjurídicasbrasileiras.Outroresultadodeste
trabalhoéaferramentaWebifyLawque implementaoprocessodeconversãoautomática
paraoconjuntodasnormasestatutáriasjurídicasbrasileiras.Osresultadosdaaplicaçãoda
WebifyLaw na Constituição Federal, no Código Civil e no Código de Processo Civil e em
outras42normassãoapresentadosediscutidos.
xi
ABSTRACT
Thiswork iscentered intheresearchoftheautomaticconversionofstructuredtexts into
hyperdocuments. Itpresentsananalysis concerning theadvantagesanddisadvantagesof
suchautomaticprocess. Italsodetailsthestepsinvolvedinthisconversion.Asoneofthe
resultsitproposesanautomaticconversionprocess,whichisbasedondocumentstructure
andcitations’formaldefinitions.TheapplicationdomainissetasBrazilianstatutorynorms.
Another contribution from this work is a tool calledWebifyLaw which implements the
automaticconversionprocessforthechosendomain.ThetoolwasappliedtotheBrazilian
Constitution, the Civil Code among other 43 norms. The results obtained in using this
applicationarealsopresentedanddiscussed.
1
INVESTIGAÇÃODEPROCESSO
DECONVERSÃOAUTOMÁTICADE
TEXTOSESTRUTURADOSPARA
HIPERDOCUMENTOS
1 INTRODUÇÃO
Este projeto investiga mecanismos para aproveitamento automatizado de material
impressocomofontedeinformaçãoparaacriaçãoautomáticadehipertextos.Estaéuma
áreadebastanterelevânciadevidoàgrandequantidadedematerialimpressojáexistente,
uma significativa parte do qual é melhor lido na forma de hipertexto. A ênfase dessa
dissertaçãoénoprocessodeconversãoautomáticadetextoparahipertexto.
O processo de conversão é de difícil tratamento computacional, e apresenta dois
problemas principais: o primeiro é o reconhecimento da formatação e estruturação dos
documentos, identificando seus módulos. Outro problema é o tratamento das relações
entredocumentos,decomoutilizarainformaçãocontidanascitações.Estasdesempenham
2
importantepapelnaconstruçãoderelacionamentosentreostextos,quevãoresultarem
linksparaoshipertextos.
As dificuldades na criação de um processo automatizado se devem, principalmente, à
multiplicidadedeformatosutilizadosnacomposiçãodedocumentosedecitações,exigindo
umaflexibilidadenainterpretação.Umaparteconsideráveldainformaçãodecertostextos
encontra‐seemformanão‐verbal,incluindoaformataçãodetítuloseaformadascitações
internas.
O domínio de aplicação para teste do processo escolhido foram as normas estatutárias
jurídicas brasileiras – NEJBs. Esse domínio foi escolhido porque possui várias vantagens:
temsuadivulgação,emgrandeparte,aindavoltadaparaamídia impressae temsurgido
grandeinteressedesdeaúltimadécada,nacolocaçãodessesdocumentosemmeiodigital
([27], [28]). Além disso possui uma estrutura e formatação mais formal do que outros
textos. Esta iniciativa de conversão foi feita para suprir duas necessidades básicas:
alimentarbancosdedadoseparaseremdisponibilizadosnaformadehipertexto.
1.1 Contextualização
Atecnologiadehipertextocausouforte impactonomodode interaçãoemanipulaçãoda
informação.Ainformaçãomaisdinâmica,adivulgaçãomaiságil,aatualizaçãodematerial
mais eficiente, a facilidade de navegação são algumas entre as muitas vantagens do
hipertexto. Os benefícios da utilização de hipertexto já estão comprovados pela
popularidade alcançada em diversos domínios de aplicação, como por exemplo helps
interativoseobrasdereferência.
AnteriormentedivulgadaatravésdeCD‐ROMsoumesmopormeiodosdiscosflexíveis,com
o advento daWWW na Internet, a informação também passou a ser divulgada on‐line.
Hoje, a tecnologiaWeb está cada vez mais presente no cotidiano das pessoas. Há uma
3
verdadeira explosão no crescimento de web sites. Desde aproximadamente janeiro de
1993,ocrescimentotemsidoexponencial.Deacordocomestatísticas,onúmerodeweb
sitesdobraa,aproximadamente,cada6meses([30],[18]).Juntamentecomoaumentodo
númerodewebsites,aumentoutambémaproduçãodehipertextos.
DeacordocomAllan[2],conformeaWebeoutroshipertextoscrescemesetornammais
dinâmicos, é cada vez menos provável que a informação seja processada somente com
meiosmanuais.
Apesar de a criação de hipertextos simples não mais exigir uma grande especialização,
quando se trata de informação altamente interrelacionada ou em grande volume, essa
especialização ainda é necessária. Num processo não‐automatizado de criação de
hipertextos, os projetos são abordados individualmente, e a cada hiperdocumento a ser
produzido todo o processo é repetido [33]. Assim, os benefícios da utilização dessa
tecnologia podem ser prejudicados pelo alto custo de criação e manutenção derivados
destemododeprodução.Alémdessesaspectos,existeumgrandevolumede informação
queaindaseencontraarmazenadanamídiatradicional:livrosedocumentosimpressosque
precisamserconvertidosparahipertexto.
Taléaáreadeatuaçãodaconversãoautomáticadetextoparahipertexto,cujoobjetivoé
minimizar as dificuldades inerentes aos fatores mencionados acima. Para otimizar a
geraçãodehipertextos,aconversãoautomáticabuscaautomatizarastarefasrepetitivase
mecânicas,tornandoviávelaproduçãodehipertextosdequalidadeemummenorintervalo
detempo.
1.1.1 OQueéaConversãoAutomática
Aconversãoautomáticadetextoparahipertextoéumprocessodegeraçãodeestruturas
hipertextuais a partir do texto na sua forma linear. Apesar das evoluções tecnológicas
4
alcançadas,oprocessodeconversãonãoégeralmenteumprocessoautomatizado,ainda
necessitando da participação humana para confirmar certas inferências geradas
automaticamente.
Todaageraçãodeumhipertextoapartirdeumtexto jáexistentepodesergeneralizada
emcincomacro‐etapas[36],ilustradasnaFigura1:
Figura1Macro‐etapasdaConversãoAutomática
SeleçãodeDocumentos:Definiçãodoconjuntodedocumentosqueserãoconvertidosem
hiperdocumentos.
AquisiçãodeDados:Transformaçãodosdocumentosselecionadosemdadosdigitais.
AplicaçãodaConversãoAutomática:Segmentaçãoda informaçãoemmódulosecriação
dehiper‐elosoulinks.
CodificaçãoemLinguagemEspecífica:Transformaçãodainformaçãoemumalinguagem
comsuporteahipertextos.
Disponibilização:Integraçãoaumservidorconectado.
Desdeomomentodaescolhadotextoatéomomentonoqualohipertextoestáprontoe
disponível para interação com o usuário, todo este processo é objeto da conversão
automática. As duas primeiras etapas, seleção de documentos e a aquisição de dados,
5
funcionamcomoprocessosexternosque fazemo tratamentoda informaçãocolocando‐a
noformatodeentradadoprocessodeconversão.
Assim,aanálisedessasetapaspreliminareséimportanteparaidentificarcaracterísticasdo
processo como um todo e para que o processo de conversão possa atuar com sucesso
sobreainformaçãodesejada.
Depois da aplicação da conversão automática, o resultado é então codificado em uma
linguagemespecífica.EstalinguagempodeserHTML,SGML,HyperCardouqualqueroutra
linguagemquedê suporteparamecanismosde relações entre segmentosde informação
emgeral.
Apósa codificação,a informaçãodeveserdisponibilizadaparauso.Atualmenteosmeios
mais comuns para isto são a publicação em CD‐ROMs ou a disponibilização on‐line na
WWWdaInternet.
O processo de conversão automática engloba as duas penúltimas etapas: aplica a
conversão automática e codifica os resultados em uma linguagem específica. A última
etapa,adisponibilização,nãoéautomatizadaporesseprocessodeconversão.
Técnicasdediversasáreas,alémdaáreadosconhecimentosespecíficosemhipertexto,são
necessárias para a efetivação de todo o processo: Banco de Dados, Indexação e
Recuperação de Informação, entre outras, para que se possa chegar a um resultado
satisfatório.Autilizaçãodetécnicasmaisespecíficas,deáreascomoaInteligênciaArtificial
e Sistemas Especialistas, é uma prática que pode vir a melhorar o desempenho dos
processos de conversão,mas está fora do âmbito deste trabalho. Conhecimentos dessas
áreas são utilizados em sistemas para “aprender” a identificar links entre documentos a
partir de textos marcados por um leitor [6]. Esses sistemas “aprendizes” supõem a
intervençãohumananamaioriadoscasosparaconfirmarinferências.
6
1.2 ApresentaçãodoProjeto
Trabalhandocomaconversãoautomáticadetextoparahipertextoedefinindoodomínio
deaplicaçãocomooconjuntodasnormasestatutárias jurídicasbrasileiras,oalvoprático
doprojetoconsisteemestabelecerumprocessoautomáticoedesenvolverumaferramenta
– WebifyLaw – através da qual um conjunto de normas possa ser automaticamente
convertidoparaumhipertexto.Oalvoprincipaldaconversãoégerarinformaçãonaforma
dedocumentosHTMLparaquepossaserfacilmentedisponibilizadanaWWWdaInternet.
Apesar do grandenúmerode aplicativos visando a conversãodehipertextos surgidonos
últimosanos, estes sãonormalmentebaseadosemalgum tipodemarcaçãoexistenteno
texto [2].Estamarcaçãopodeserbasicamentededois tipos:descritivaouprocedimental
[40].
Amarcaçãodescritiva fazusodecódigosembutidosno texto,ouetiquetasdemarcação,
para descrever ou comentar elementos de documentos. Exemplos de linguagem de
marcaçãodescritivasãoLatex,SGMLeHTML.AaplicaçãoLatex2html[13]éumexemplode
interpretaçãodasetiquetasdemarcaçãoLatex,econversãoparaetiquetasHTML.
A marcação procedimental, de acordo com Tittel [40], é “uma forma de descrever
conteúdos e layouts de documento que destaca o modo de apresentação, em vez de
elementos estruturais incorporados nos documentos”. Este tipo de marcação é muito
comumnosdocumentosprovenientesdeprocessadoresdemarcasproprietárias, comoo
MicrosoftWord,porexemplo.
Nesses casos de marcação, os aplicativos funcionam como simples conversores de
formatos. Interpretam as marcações existentes nos textos e se alguma formatação ou
estruturação estiver presente neste formato, esta é convertida para o hipertexto. Caso
contrário,otextoémantidocomsuaestruturaoriginallinearizada,eficadescaracterizado
7
como hipertexto. Deixam a desejar, portanto, quando se trata de estabelecer uma
segmentaçãoparaodocumentoederealizarainferênciade links,aspectosfundamentais
deumhipertexto.
Asnormasestatutáriasjurídicassãonormalmenteapresentadasparaconsultacomoblocos
detextomonolíticoscondensadosemvolumesdeacordocomaordemcronológicadesua
publicação, como por exemplo, faz o LEX. Este suporte restringe algumas ações, como a
busca por palavras‐chave, e dificulta outras, no caso de se desejar consultar as citações
presentesnanorma,porexemplo.
O processo de conversão aqui proposto parte da informação em seu formato original –
textoemblocomonolítico, seqüencial,e semformatação– identificaelementoseatribui
seuverdadeirosignificadosintático:cabeçalho,seções,subseções,parágrafos,itenseassim
pordiante,comosegmentoscomponentesdeumanorma.
Uma vez identificados de acordo com categorias estabelecidas e armazenados
devidamente, os elementos têm suas relações exploradas através da inferência de links.
Posteriormentesão“reagrupados”,masdestavez,emestruturadehipertexto.
Emfacedadefiniçãododomíniodeaplicaçãoalgumasrestriçõesficamassimestabelecidas
emderivaçãodesta,eforamimportantesnodesenvolvimentodaferramentaWebifyLaw:
• A línguaparaosdocumentos fonteéoPortuguêsdoBrasil.Aplicam‐se,destemodo,
todasas restriçõesda línguanaconsideraçãodecaracteres,vocábuloseabreviaturas
permitidos.Exceçõesaestaregradevemsertratadascomotal.
• Outras normas, que não as estatutárias jurídicas brasileiras não se encaixam neste
contextoeassimnãosãoalvodaferramentaWebifyLawimplementadanestetrabalho.
A conversãoautomáticade informaçãodeoutrosdomíniospode ser feita atravésda
8
aplicação do processo de conversão automática proposto no Capítulo 3, adaptando
cadaumadassuasetapas.
• O tipo de informação a ser processada pela ferramenta é a informação textual, que
corresponde ao texto das normas acima definidas. Assim, o trabalho proposto se
concentra principalmente em técnicas demanipulação destas informações para criar
hipertextos.
• Informação não textual é tratada como um componente externo ao propósito do
trabalhoeporconseqüênciaétambémumcomponenteexternoaoprocessoproposto.
Esseformatodeinformaçãonãogerahiper‐elos.
1.3 ProblemasCaracterísticosdaÁrea
Partindodainformaçãoemseuestadooriginal:seqüencialesemformatação,paraqueseja
possívelchegaraoresultadodesejado,osproblemasdacriaçãodehipertextosdevemser
detalhados.Estaseçãodescreveosproblemasqueenvolvemoalcancedoobjetivofinal.A
seçãoseguinteapresentaaspropostasdesoluçãoparacadaumdeles.
Problema1:AAquisiçãodeDados–Qualdeveserométodoparaaaquisiçãodedadoseo
formatodeentradadosdados?
Da etapa de aquisição de dados resultam os documentos digitalizados, que servirão de
entrada para o processo de conversão para os documentos hipertexto. É uma etapa
importante pois sem dados de qualidade não é possível criar hipertextos de qualidade.
Questõesrelevantesnessaetapasão:quaisostiposdesuportepossíveisparaainformação
de entrada; quais são osmétodos de aquisição de dados; e qual o tempo envolvido em
cada um deles. Por exemplo, para um determinado documento pode‐se ter uma versão
impressa de qualidade e uma versão digital. A princípio, o uso da versão digital pode
pareceróbvio.Masestadecisãodependedadisponibilidadedeconversoresdesteformato
9
digitalparao formatoaceitopeloprocessodeconversão.Casocontrário,ométodomais
adequadoparaaaquisiçãodedadospassaaseradigitalizaçãodaversãoimpressa.
Oformatodeentradadosdadoséoutroaspectoimportante.Oresultadodoprocessode
aquisiçãodedadosestáintimamenterelacionadocomosdocumentosdeentrada.Quanto
menor a necessidade de outros processos entre estes,menor o esforço na realização da
tarefa. Para tal, deve‐se procurar utilizar a saída do processo de aquisição diretamente
comoentradadoprocessodeconversão.Istorepresentamenoresforço,noentantoéum
casorarodeocorrer.
Problema 2: A Segmentação de Dados – Como estabelecer uma segmentação para a
informaçãoqueatribuaosignificadosintáticodeseuselementos,talcomoéfeitoquando
executamosaleituradeumdocumento?
Durantealeituradeumtexto,nossocérebrovaiidentificandoeestruturandosuaspartes.
Pelanossacapacidadedeabstraçãoépossívelidentificarotítulodeumaseção,oassunto
principal de um parágrafo, os itens subordinados ao mesmo, e assim por diante. Como
funcionaessemecanismoqueocorreautomaticamentesemaaçãovoluntária?Aresposta
a esta pergunta é fonte de inspiração para tentar identificar elementos do documento e
segmentá‐locorretamente.
Asoluçãoparaesteproblemapartedainvestigaçãodequaissãooselementossignificativos
do conjunto de documentos emquestão, e como tais elementos podem ser distinguidos
unsdosoutros.
10
Problema 3: O Armazenamento de Dados – Como fazer o armazenamento dos dados?
Qual é a base para a definição de uma base de dados para segmentos de informação
interrelacionados?
Éumproblemarelacionadomaisdiretamentecomatecnologiadainformaçãodoquecom
atecnologiadehipertexto.Noentanto,asoluçãoparaesseproblemadevebuscaradaptar
atecnologiaparaascaracterísticasdeumhipertexto.
Umdospontoséqueaestruturadesuportedoarmazenamentodosdadosdevepermitir
acessorápidoaositensmaisrequisitadosdeumanorma.Assoluçõesdevemserbuscadas
naáreadebancodedados,porjátratartaisproblemas.Oarmazenamentodedadosalém
de representar as construções convencionais como a hierarquia entre elementos de um
documento,deveserprojetadoparasuportartambémasoutrasrelaçõesnelespresentes.
Exemplificando,nocasodasNEJBs,deveseroferecidoumsuporteparaestasrelações,que
seriamascitações.
Problema 4: A Inferência de Links – Quais são os tipos de links que devem ser
estabelecidosnoconjuntodas informações?Comoos links sãodeterminadosapartirdos
segmentosdodocumento?
A inferênciade linkséumassuntosubjetivo.Muitos linkspodemsercriados.Noentanto,
não é boa prática estabelecer todos os links possíveis1. E sim, determinar quais são
essenciais e representam verdadeiramente uma relação entre dois segmentos de uma
norma. Cabe assim, propor limites para que a subjetividade inerente à criação de links
possa ser revertida em casos objetivos e determinados. Uma vez feito isto, o problema
consisteem:como identificartaisrelaçõesnotexto,umavezquesuacomposiçãoparece
livre?
1Istovaicontraosprincípiosdecomposiçãodeumbomhipertexto,gerandoumdocumentoconfuso.
11
Problema5:AConstruçãodoHipertexto–Comoohipertextodeveserconstruído?Quais
recursosdevemseracrescentadosparaaapresentaçãoparaousuário?
Esta é a etapa alvo deste trabalho, construir o hipertexto. Os problemas anteriores
trataram de explorar como segmentar adequadamente a informação e descobrir as
relações nela presentes. Nesta etapa, a perspectiva se inverte. O objetivo é colocar os
segmentos juntos novamentemas, desta vez, no formato de hipertexto. A problemática
aquienvolvidaécomocoordenartodasasinformaçõeslevantadasnaconstruçãodenovos
documentos.
1.4 SoluçãoProposta
Uma vez que foram apresentados os problemas, nesta seção as soluções propostas são
discutidas.
SoluçãoPropostaparaoProblema1:AAquisiçãodeDados
A informaçãodeentradaparaoprocessode conversãoestá restrita apraticamentedois
suportes.Oprimeiroéodocumentoimpresso,omaiscomum.Outrocasoéodocumento
digital, já armazenado digitalmente, normalmente de acordo com algum formato de
processadordetexto.Cabedeterminarquaissãoosdiversosmétodosparaaaquisiçãode
acordocomcadasuporteecomsuascondiçõesparticularese,estabelecerumformatode
entradaúnicoparatodososdocumentosnoprocesso.
Da aquisição, a informação deve ainda, passar por uma verificação numa etapa
intermediáriapara ser validadaeaí ser colocadano formatodeentrada.Considerandoa
verificaçãodedocumentoscomoumainterface,conformeilustraaFigura2,aodeterminar
umformatodeentradapróximodoformatodesaídadaaquisiçãodedados,diminui‐seo
trabalhodestaetapa.
12
Figura2VerificaçãodeDocumentoscomoumainterface
SoluçãoPropostaparaoProblema2:ASegmentaçãodeDados
Asegmentaçãodeumanormaestáintimamenterelacionadacomaidentificaçãodosseus
elementos significativos.Os futuros segmentos sãoos elementos significativos separados
em blocos. Assim, para resolver estas questões, a solução proposta é tentar estabelecer
umadefiniçãoformaldaestruturadodocumentoemquestão.Estadefiniçãoformalpassa
a ser responsável por colocar todos os documentos de um conjunto em uma situação
uniforme,fazendocomquesejapossívelaplicarummesmométododesegmentaçãopara
todoseles.Assim,oprimeiropassonasoluçãodoproblemadasegmentaçãoéestabelecer
umaúnicadefiniçãodaestruturadosdocumentosalvoquepossa ser seguidaduranteas
fasessubseqüentes.
Uma vez que esta estrutura estiver determinada, o passo seguinte é determinar um
métodoparaa segmentação,a soluçãoparaa segundapartedoproblema.Apropostaé
partir para a realização de análises léxica e sintática baseadas nesta definição formal de
normas. A aplicação destas análises vai produzir os segmentos do documento,
representando elementos significativos (identificados como, por exemplo: capítulos,
seções, e parágrafos). A partir daí, a preocupação passa a ser o armazenamento dos
segmentos,opróximoproblema.
13
SoluçãoPropostaparaoProblema3:OArmazenamentodeDados
Asoluçãoparaoarmazenamentodedadosédefinirummodelodedadosespecíficoparao
domíniodeaplicação.Assim,omodelodedadosassumeafunção‐chavedeuniformizaro
armazenamento dos segmentos de normas identificados em etapas precedentes. Outras
funções do modelo surgem da consideração das formas básicas de utilização dos
segmentos:
• Na recuperação de elementos citados: Considerando que no conteúdo dos
documentos, os segmentos são freqüentemente citados – um tipo de relação
explícita que tem como suporte as relações estruturais2. Na sua forma, a
referenciação através de uma citação é variável3. Além disto, a citação pode ser
feita a documentos externos, ou a segmentos do próprio documento. Tal
referenciação, ou o estabelecimento de um link, implica na identificação e
recuperaçãodosegmentocitado.
• Enarecuperaçãodeelementosespecíficos,ourecuperaçãodeconteúdo:Alémde
citações, documentos podem ser referenciados através dos assuntos nele
abordados. Trata‐se de um caso de relação implícita4, a qual também deve ser
representadanomodelodedados.
Omodelodedadosdeveserprojetadoparapermitirtaisutilizações.Emambososcasos,a
recuperaçãoéderesponsabilidadedomodelodedados.Épossibilitadaatravésdasoutras
etapas:adesegmentação5edainferênciadelinks6.
Na definição domodelo de dados, a fonte de informação principal é a definição formal,
partedasoluçãoanterior. Istoporquenadefiniçãoformaléqueestãodefinidostodosos
2AdescriçãodetiposderelaçãoéabordadanoCapítulo2,página39.3AcitaçãoéabordadaespecificamentenaSoluçãoPropostaparaoProblema4.4Idemànota2.5SoluçãopropostaparaoProblema2.6SoluçãopropostaparaoProblema4.
14
elementossignificativosdosdocumentos,comexceçãodascitações.Domodelodefine‐se
uma base de dados7 na qual as diversas operações possam ser executadas sobre os
segmentosacontento.
SoluçãoPropostaparaoProblema4:AInferênciadeLinks
Uma observação analítica dos documentos permite identificar os três tipos básicos de
relaçõesentreelementos:asreferênciasdehierarquia,decitaçõesedeassunto.Cadauma
destasexigemétodosespecíficospara sua identificação.As referênciasdehierarquia são
abordadasprincipalmenteduranteaconstruçãodohipertexto8.Asreferênciasrelacionadas
ao assunto são dependentes da indexação do texto do segmento. As de citações são a
preocupaçãoprincipalnestaetapa.
Uma citação semprepossui um segmento emissorouhospedeiro – aqueleque contéma
citação–,eumreceptor–aquelequeécitado.Ousodacitaçãoindicaváriassituações,as
diferentesrelaçõesentreossegmentosrelacionados9:adependência,acomplementação,
o esclarecimento, ou até a negação. Para poder estabelecer links representando estas
citações,énecessáriaumaanálisequeasreconheçanotexto.Aanáliseédificultadapela
característicadecomposiçãolivredacitação.Apropostanestecasoconsisteemexaminar
umaamostradedocumentos,fazendoaanálisedecorpuseextrairexemplosmaiscomuns
de citação. Com base nesta amostragem tenta‐se estabelecer uma forma normal e um
métodoparaaextraçãoautomáticadecitações.Ascitaçõesquecaíremdentrodestaforma
normal são reconhecidas pelo processo. Outras formas devem ser tratadas como uma
exceção,necessitandodaintervençãodousuário.
7Abasededados,depoisdedefinida,podeserimplementadautilizandooaplicativodeSGBDquesepreferir.8Paraareferênciamaispróxima,vejaaSoluçãoPropostaparaoProblema5.9Amelhorcomprovaçãoparaestaafirmaçãoaindaéaleituracríticadostextosdenormas.
15
SoluçãoPropostaparaoProblema5:AConstruçãodoHipertexto
Aconstruçãodohipertextoéumaetapaquepermeiatodoodesenrolardestetrabalho.Éo
objetivo final de todas as outras propostas permitir que se chegue a esta etapa com as
informaçõesnecessárias.Considerandoisto,apropostaéconstruirohipertextocombase
nossegmentosidentificadosedevidamentearmazenados.Atravésdeconsultasnabasede
dados são recuperados os segmentos de uma mesma norma e as informações sobre a
hierarquia e outras relações. São criados diversos documentos no formato de saída
escolhido,cadaumcontendoumhipertextoisolado.Paraousuárioseráapresentadauma
espéciede índiceno iníciopara representaraestrutura internadodocumentoepermitir
acessorápidoaopontodesejado,alémdosoutroslinkspresentesnocorpodaquele.
A complicaçãomaior está em coordenar todas as informações e produzir um hipertexto
representando fielmente a estruturadodocumentooriginal.Na soluçãodesteproblema,
deve ser especificado um método que promova o encaixe perfeito das informações já
levantadas:ossegmentoseasrelaçõesentreeles.
Com relação à manutenção do sistema, a base é a comparação das mudanças a serem
feitascomoestadoatualdosistema.Nainserçãodenovoshipertextosaoconjuntodevem
serconsideradasquaisasreferênciasqueestesfazemaoutroshipertextosjápresentesno
conjunto.Nestecaso,estasreferênciasdevemserestabelecidas.
1.4.1 Objetivos
Osobjetivosprincipaisdestetrabalhoseconcentramem:
1. Especificarmétodos para a aquisição de dados para cada suporte de acordo com as
condiçõesparticulares.
16
2. Apresentar diretivas para a realização da etapa de verificação dos dados, antes que
estesatinjamoformatodeentrada.
3. Especificar um formato para entrada de dados, e apresentar diretivas de como
alcançá‐lopartindodaaquisiçãodosdados.
4. Estabelecerumadefiniçãoformalparaaestruturaçãodenormasestatutáriasjurídicas
brasileiras.
5. Definir e implementar um método para a segmentação de normas com base na
especificaçãoformal.
6. Especificar um modelo de dados, utilizando o modelo entidade‐relacionamento
estendidocomorepresentaçãoformal.
7. Definirumaformanormalparaoreconhecimentoearepresentaçãodecitações.
8. Definirformalmenteummétodoparaaextraçãoautomáticadecitaçõescombasena
formanormalparacitaçõeseespecificá‐loemtermosdeumalgoritmoquepossibilite
suaimplementação.
9. Especificare implementarummétodoparaaconstruçãodedocumentoshipertextoa
partir domodelo de dados, que apresente documentos em HTML como formato de
saída.Índicesporcategoriaeporordemcronológicatambémdevemserapresentados
comoresultadodaaplicaçãodométodo.
1.5 AbordagememCapítulos
Esta seção descreve a estrutura desta dissertação. O Capítulo 2 investiga o tema
“ConversãoAutomática”.Discuteoutrossistemasdesenvolvidosqueforamutilizadoscomo
embasamento teórico para o desenvolvimento do projeto proposto. Também explora as
vantagens e desvantagens da utilização de um processo para a conversão automática, e
17
apresenta diretivas de como executar uma conversão de texto para hipertexto
generalizada.
OprocessodeconversãoédiscutidonoCapítulo3.Essecapítuloapresentaumadefinição
detalhada do processo de modo generalizado, sem aludir a um domínio específico de
aplicação.
AsnormasestatutáriasjurídicasbrasileirassãorevistasnoCapítulo4,definindoanatureza
dainformação,comoécriada,estruturada,eseususosatuais.Apartirdaí,forma‐seabase
para levantamento de questões pertinentes à estruturação de normas em geral. Como
soluçãosãoapresentadasduasformalizações:umadefiniçãoformaldaestruturaçãoeum
modelodedadosparaoarmazenamentodeNEJBs.
O Capítulo 5 aborda o desenvolvimento, a implementação e o uso da ferramenta
WebifyLawqueempregaosconceitosdiscutidosnosCapítulos3e4,passandoportodosos
passosdaconversãoautomática.
Finalmente, o Capítulo 6 apresenta as conclusões, as contribuições do trabalho e as
sugestõesparatrabalhosfuturos.
18
2 ACONVERSÃOAUTOMÁTICA
Ograndedesenvolvimentoalcançadonosanos80pelosprocessadoresde textomostrou
queo texto na sua formaeletrônica pode sermanipulado e visualizadodeumamaneira
muitomaisflexíveldoqueotextonasuaformaimpressa[25].Osprocessadoresdetexto
conquistaramespaço revolucionandooprocessodeeditoraçãoda informaçãoatravésda
exibiçãodosresultadosdiretamentenatela,simulandoousodopapelnocomputador.
O armazenamento e consumo de textos em forma eletrônica permite remeter rápida e
eficientemente o leitor de uma parte para outra do documento. Esta capacidade de
navegação, que liberta o leitor das restrições impostas pelo formato físico da
encadernação,éumadasbasesdomecanismodehipertexto.
19
Seguindo a analogia, como hipertexto, pode‐se explorar uma simulação do ato físico de
seguir referências de uma citação para outra. Domínios específicos caracterizados
fortemente como obras de referência e de grande volume de informação só têm a se
beneficiar desta tecnologia. Mesmo assim, ainda hoje, grande parte do material de
referência ainda é consultado na forma impressa, talvez porque as dificuldades de
disponibilizarestematerialnoformatodigitalsejamgrandes.
Essecapítulointroduzatecnologiabásicaemhipertexto,queéoresultadofinalealvodo
processodeconversão.Tambémfazumaanálisedosprocessosdeconversãoautomática,
explorando as razões que justificam o interesse nessa conversão e investigando as
dificuldadesinerentesaoprocesso.
2.1 PrincípiosdeHipertexto
Antes mesmo de o termo hipertexto ser utilizado pela primeira vez10, os princípios
relacionadosaelejátinhamsidodefinidosporVannevarBushem1945,noseuartigo“As
we may think” [8]. Bush defendia a utilização de meios de manipular a informação
inspirados namente humana, nos processosmentais. Omeio atual de apresentação ou
manipulaçãodainformaçãoaindanosremeteàlinearidadeimpostapelaculturaimpressa
[26]. A mente humana por sua vez opera por associações, relacionando as diversas
informaçõesqueacumulamosduranteoperíododevida.Asinformaçõesquenossamente
manipula provém da interação com o mundo experimentado por nós: interações com
(grupos de) indivíduos, interações com artefatos; consistindo‐se de fontes naturalmente
multimídia,ricasemimagens,sons,figuraseoutroselementosdelinguagem.Nósestamos
continuamente transformando, gerando esse universo, produzido pela comunicação, na
qual somosatores; nãopodemosescolher ficar fora, esseuniversonos invade. Aoouvir
10OtermohipertextofoiinstituídoporTedNelsonem1965.
20
uma palavra, é ativada em nossa mente uma rede de infinitas conexões com outras
palavras e também com sons, odores, imagens remotas e imaginárias, sensações e
lembranças.
Longedetentarserumaduplicaçãodamentehumana,ohipertextotemnamentehumana
asuafontedeinspiração,materializaçãodepartedaidealizaçãodeBush.
2.1.1 ConceitodeHipertexto
Hiper.[dogr.Hypér.]pref.=‘posiçãosuperior’;‘além’;‘excesso’.
Texto.[dolat.Textu,‘tecido’.]s.m.1.Conjuntodepalavras,defrasesescritas11.
O termohipertexto surgiu,emcontraste como texto tradicional, comoum tipode texto
queexcede,superaouvaialémdotextotradicional.Umtextotradicionaléseqüencial,uma
característica que define o modo de construção e manipulação do texto. Há uma única
seqüênciadefinindoaordemdeleitura:umapáginaapósaoutra.
A imposição de uma ordem também está presente no processo de escrita. Mesmo
raramenteutilizandoumraciocíniolinear,oautoréobrigadoalinearizarotextoparaasua
publicação.
O hipertexto é essencialmente não seqüencial, não existe seqüência única de escrita ou
leitura [31].Analogiasa “hipertextosmanuais” serão feitasadiante,masohipertexto, tal
como o concebemos hoje, depende do computador para sua existência. O hipertexto só
pôde ser concretizado quando no cenário da informática conseguiu‐se colocar em um
mesmoambiente,demodointegrado,diversascaracterísticas:
• evoluçãodohardwarecomaumentodacapacidadedeprocessamentoedeutilização
dememória,diminuiçãodocustodeequipamentos;
• representaçãodainformaçãoporinterfacesgráficasutilizandoícones;
21
• abstração dos comandos em ações executadas com o uso de menus e ícones,
eliminandoanecessidadedeconhecimentodecomandos;
• utilização do mouse como dispositivo indicador, permitindo agir de forma ‘mais’
intuitiva;
• evoluçãonocampodascomunicações,permitindoalargautilizaçãodasredes;
• evolução da estruturação da informação permitindo bancos de dados distribuídos e
acessoconcorrentedainformação.
Encontrarumaúnicadefiniçãoparaaconcepçãodoqueseriaumhipertextoéumatarefa
difícil. Conforme esta tecnologia é utilizada em maior escala, suas possibilidades são
expandidas,eassimohipertextoé redefinido.Tambémnãoencontraremossistemasque
incorporem todas as características que serão abordadas aqui. As características são
incorporadasounãoaossistemasatendendoapropósitosespecíficos.
2.1.2 Hipertextos“Manuais”
De algum modo todos nós já tivemos contato com o princípio que rege o hipertexto.
Simplificandoo conceitodehipertexto,oquepode ser chamadode “hipertextomanual”
nos rodeia de alguma forma: cartões e livros de referência comomanuais, dicionários e
enciclopédias[10].Atravésdestetipodemanipulaçãodainformaçãojápodemosidentificar
algumascaracterísticas:
• ainformaçãoestáestruturadaemblocosseparados;
• existesempreumaordemdeapresentaçãoadotada,normalmentealfabética;
• a consulta é feita em um pequeno número de blocos dentro do todo; os blocos
possuemreferênciasaoutrosblocosrelacionados;
11DefiniçõesdadaspeloDicionárioAurélio[15].
22
• oleitorprocuraporoutrositensdeacordocomseuinteresseounecessidade.
Dentrodeumtextoseqüencial,tambémexistemoutrasestruturas,comoíndices,sumários,
notasderodapé,ereferênciasbibliográficasquepossibilitamacessoàinformaçãodemodo
não‐seqüencial.
Quandoutilizamosumlivro,esquecemosqueestetipode“dispositivológico”nemsempre
existiu. Mencionando “algumas interfaces da escrita”, Lévy [26] nota que estamos “tão
habituados comesta interface que nemnotamosmais que existe”. Mas quando do seu
surgimentonasubstituiçãodomanuscrito,pessoasprovavelmentetambémpassarampor
umafasedaadaptação.Nósnosencontramoshojeemumafasedetransiçãosemelhante.
A interfacemais comum fornecidapelo computador ainda se restringe à tela, o quenão
permite a interação do modo que estamos habituados a realizar com livros ou jornais.
Meios de manipulação específicos devem ser desenvolvidos para esta interface [45]. E
outrasinterfacesirãosurgir,emudarnossomododeinteragir,vereviveromundo.
2.1.3 OAtodeNavegar
Emumhipertexto,ousuárioélivreparacaminharpelainformaçãodisponível,atravésdos
linksestabelecidos,ouestabelecendonovos.Estecaminhoépercorridoconformeocurso
ouinteressedeterminadopelo“comandante”queéoleitordohipertexto.
A navegação possível em um hipertexto abre novas possibilidades de exploração da
informação.Oqueantes,emumlivrotambémerapossívelatravésdoatodesimplesmente
folhearpáginasoulendotrechosdeparágrafos,nohipertextoassumeumnovocaráter.A
velocidadeemqueainformaçãoétrazidadiantedatelaéqueaproximaacomparaçãocom
a navegação. Técnicas de busca se encarregam de selecionar informação de interesse,
quando a navegação é direcionada. Já o ato de navegar curiosamente pelo hipertexto,
comoofolheardeumjornaléexpressadopelaaçãodebrowsing.
23
Devido à vastidãode informaçãodisponível emalgunshipertextos, os diversos caminhos
possíveis,eofatodesomenteumaseçãodestecaminhoserexibidaporvez,achancedese
tornar“perdidonohiperespaço”aumentaconsideravelmente.Nanavegaçãonohipertexto,
mecanismosparaaorientaçãosãofundamentais.Permitemaoleitormaior‘segurança’na
navegação. Os mecanismos de orientação no hipertexto como a gravação do caminho
percorrido–backtracking–,paraconsultaposterior,evisualizaçãodaáreasendovisitada
pormapas,facilitamalocalizaçãoesituamoleitor.
2.1.4 AInteraçãocomaInformação
Imaginandoumhipertexto,deacordocomo idealizadoporVannevarBusheTedNelson,
como algo passível de representação física, teríamos um espaço comparável a uma
megabiblioteca[26].Umespaçoondefossepossívelarmazenarumagamadeinformações
abrangendo todo o universo de conhecimento. Interagindo neste espaço, pessoas
“navegam” fazendo consultas, anotações, inserindo comentários em textos, imagens,
filmes.Estaéumarepresentaçãoimagináriadainteraçãoemum‘hipertextofísico’nasua
totalidade.
Com a informação impressa, realizamos outras formas de interação. Os sublinhados e
destaques,entreoutros, freqüentementefeitosnasbordaseentrelinhasdeumlivroeas
anotações paralelas auxiliam no entendimento, traduzem a forma de raciocínio e até
explicitampartedosprocessoscognitivosdurantealeitura.Estesregistrosutilizadosmuitas
vezes para ‘reavivar amemória’ representammodos de interagir com a informação. No
hipertexto, tais registros também são possíveis, e se estendem quando possibilitam o
estabelecimentode linkspessoais,relacionandonovasinformações,acrescentandodados;
criandoerecriandooespaçohipertextual.
24
2.1.5 DiferentesPontosdeVistaemumHipertexto:Visões
As visões são estabelecidas em um hipertexto para que a mesma informação possa ser
consultadademaneirasdiferentesporgruposdiferentesdeleitores.
Assim,considerandoumhipertextoeducacional,ainformaçãoéconsultadaporeducadores
eporalunos.Utilizando‐sedoconceitodevisão,oeducadortempermissão,porexemplo,
paraeditaroconteúdodainformação,visualizarasanotaçõesdetodososalunoseincluir
correções [19]. Os alunos possuem limitações com relação à edição da informação
existente, mas podem ser autorizados a estabelecer links próprios, inserir novas
informações, comentários e até talvez examinar anotações e soluções de outros (após a
datadaentrega,porexemplo).
Paraoatendimentodegruposcomdiferentesníveisdeconhecimento,pode‐seestabelecer
visõesdeterminandoníveiscomointrodutório,normalouavançado.Astarefaspropostas,
ouacomplexidadedoassuntoparacadagruposãodeterminadasdeacordocomavisão.
Umúnicoassuntoemumhipertextopodeassumirdiferentesfunçõescomousodasvisões.
No caso de um manual, podem ser estabelecidas visões para: treinamento completo,
manutençãode rotina, soluçãodeproblemasurgentes – troubleshooting, ou até guia do
proprietário[36].
2.1.6 DefiniçõesBásicas
Umhipertextoéestruturadopeladivisãodainformaçãoempedaçosinterligadosentresi.
Os“pedaços”de informaçãosãoobjetosbásicosdeumsistemahipertexto.Nãopossuem
tamanho pré‐determinado; a intenção é que estes armazenem idéias concisas. A
nomenclaturaparaestespedaçosdeinformaçãodiferedeacordocomametáforaadotada
pelosistemadeautoriaemquestão:nós,molduras,cartões,componentes,segmentos.Nós
25
esegmentossãoutilizadosdemodogeneralizado,representandocartõesoumoldurasde
acordo com o hipertexto. Componente é utilizado, em especial peloModelo de Dexter
[20],massereferindoaqualquercomponentedohipertexto,sendoumnóoulink.
Umnópodepossuirrelaçõescomváriosnós.Os linksrepresentamumaligaçãoentrenós
possuindo algum relacionamento lógico entre si: associação, explicação, especificação,
especialização, classificação, generalização, exemplificação, numeração; não existindo um
númerofixodelinksemumnó.
Um link possui uma locação de ativação definida e uma locação destino. O ponto de
ativação é a âncora do link. A âncora consiste de uma região do nó, podendo ser: uma
palavra destacada, um botão da interface, ou qualquer ícone. O destino de um link é
normalmenteumoutronó.
Oconjuntodenóselinksdeterminamarededenósdohipertexto.Aestruturadaredede
nós é a base do hipertexto, estabelece a semântica e determina as possibilidades de
navegaçãodohipertexto.
2.1.7 OsNósdeumHipertexto
A metáfora adotada para a definição do nó influencia no modo de manipulação —
armazenamento e acesso — do hipertexto. Para que esta influência seja entendida é
necessáriooconceitodegranularidadedenós.Agranularidadedeumnócorrespondeao
seu“tamanho”.Masjáquenãopodemosfalardeinformaçãogrande,otamanhodonóé
tratado em termos do refinamento. Assim, um hipertexto com granularidade fina possui
nós pequenos e por isso em maior volume. Do mesmo modo, a granularidade grossa
implicaemumpequenonúmerodegrandesnós.
26
Oscartõesnormalmentearmazenampequenaquantidadedeinformaçãotextualegráfica,
correspondendo à granularidade fina. A informação é dividida em nós menores,
aumentandoaquantidadedenósdohipertexto.
Considerando ametáfora demoldura, amesma informação pode ser dividida emblocos
maiores,poisnãohálimitaçãosobreoqueapresentaremumatela;agranularidadegrossa
é adotada. No entanto esta divisão da informação deve considerar a capacidade de
absorçãodainformaçãopeloleitor.Muitainformaçãoexibidadeumasóvezpodecausaro
queéchamadodeoverheadcognitivo[4].
Poroutro ladoagranularidademuitofinacomgrandequantidadedepequenosnóspode
gerarproblemasnamanutençãodarededenós.Oidealéadotarumaopçãobalanceada.
2.1.8 OsLinksdeumHipertexto
Umadasgrandespotencialidadesdohipertextoépermitiroestabelecimentoderelações
entre documentos diferentes e situados remotamente emmáquinas diferentes. Os links
implementadosemumhipertextosediferembasicamentepelolocalparaonde“apontam”.
Links intra‐documentos são links possuindo sua locação destino localmente, no mesmo
documento/hipertexto.Representamreferênciasapartescorrelatasdodocumento.
Linksentredocumentosapontamparaumalocaçãodestinoquenãonecessariamenteestá
presente localmente,podendoestaremalgumpontodeumarededecomunicaçãoentre
outros computadores. Exigem uma estrutura de suporte para este tipo de ligação. Links
entre documentos são muito utilizados na WWW. Esse tipo de link implica em uma
compatibilidade no formato de arquivos ou um suporte a diversos tipos. O sistema de
responsável pelo browsing do hipertexto deve ser capaz de entender os formatos dos
documentosarmazenadosremotamenteparapoderapresentá‐losaoleitor.
27
2.2 PorquêConverter:PapelxHipertexto
Háváriasrazõesque incentivamaconversãodedocumentosdoformato impressoparao
hipertexto. Essa seção analisa as dificuldadesdeutilizaçãodo texto impresso, analisando
emseguidaasvantagensdohipertexto.
2.2.1 DificuldadescomoTextoImpresso
O texto impresso tem algumas vantagens sobre o texto eletrônico. Determinadas
categorias de texto ainda são melhor lidas quando impressas, como por exemplo os
romances.OutropontoéqueaslimitaçõeseletrônicasdosCRTsoumonitoresfazemcom
quea leituraextensivaemumateladecomputadoraindasejaumpoucodesconfortável,
mesmoporqueoambienteemtornodeumcomputadornormalmentenãoestápreparado
para “convidar”ousuárioapermanecergrande tempo.Hágrandesavanços tecnológicos
nessaárea: aminiaturizaçãodosatuaisnotebooks, a evoluçãoda tecnologiadas telasde
cristallíquidocommatrizativaeoaumentodacapacidadederesistênciadosmecanismos
dearmazenamentoatravésdeDVDs.Essesavançospermitempreverumamaiorfacilidade,
no futuro, para a leitura ergonômica diretamente no computador. A tecnologia atual,
entretanto,aindanãopermiteissonamaioriadoscasos.
Asdificuldadescomotextoimpressoforamirrelevantesdurantemuitotempopelafaltade
alternativas,masaslimitaçõesdotextoimpressoquedevemserconsideradassão[11]:
1. Hádificuldadeem realizarprocuraentregrandes volumesdematerial impresso.Após
seguirumcertonúmerodereferênciascruzadas,seoleitornãoestiveranotandotudo
seconfundefacilmente;
2. Atabeladeconteúdoeoíndicesãoferramentasquefacilitamaprocuradetópicos,mas
onúmerodereferênciascruzadasémínimo;
28
3. Oíndiceimpressoélimitadopelotamanhoepelocritériodeseleçãodosautoresenem
sempre é direcionado para a informação relevante para o leitor. Dependendo do
domíniodeaplicação,coletâneassãolargamenteutilizadas.Masmesmoassim,editoras
esperamumcertointervaloparaapublicaçãodenovasedições;
4. A razão mais tocante, a informação não pode ser atualizada periodicamente. Em
determinados âmbitos de aplicação este é um fator crítico, senão essencial. Alguns
destes casos são: legislação,manuais de procedimentos de operação/instrução; estes
exigemqueainformaçãosendoconsultadaestejasempreatualizada.
2.2.2 VantagensdoFormatoHipertexto
Apesar de não ser mais necessário comprová‐las, é válido mencionar as vantagens do
formatohipertexto([32],[11]):
• O formato hipertexto suporta boas características de navegação: dinamismo na
seqüênciadas referências cruzadas eprocuraporpalavras‐chave.Mesmona ausência
depáginasdeíndices,existemváriosmecanismosdebuscadisponíveisnaWWW,além
do mecanismo básico oferecido pelos browsers. Alguns exemplos são: Yahoo12,
Altavista13,Cadê?14entremuitosoutros.
• O suporte digital do hipertexto fornece mecanismos para uma maior diversidade da
mídia utilizada na divulgação da informação. Além de texto, fotografia e imagens
gráficas,omeioeletrônicopodeforneceráudioevídeo.
• Amaioriadosusuáriosprocuranosdicionários,enciclopédiasemanuaisdetreinamento
informação para completar uma tarefamaior e é de grande utilidade poder gravar o
resultadodeumapesquisaparausofuturoematividadessimilares[3].
12Endereço:http://www.yahoo.com.13Endereço:http://www.altavista.digital.com.14Endereço:http://www.cade.com.br.
29
2.3 ComoConverter:ConversãoManualxAutomática
2.3.1 ConversãoManual
A primeira solução na conversão de texto para hipertexto seria fazer a conversão
manualmenteutilizandoumdosváriossoftwaresdeautoriadehipertextojádisponíveis15.
Algunsaspectossãointrínsecosaestetipodeconversãoesãoexaminadosaseguir[36]:
Interpretaçãoindividual:decisãosobreoquedeveconstituirumlink,ondeumlinkdeve
apontareoqueconstituiumnódohipertexto,estãosujeitasàinterpretaçãoepolítica
individualdoeditor.Issopodeserdesejávelouaceitávelemalgunscasosespecíficos,
mas não se aplica no geral. Informações importantes sobre outros aspectos podem
ficarsemrelaçõesestabelecidasporpassaremdespercebidospeloeditor,dificultando
oacessodoleitorediminuindoaqualidadedohipertexto.
ProcessoRepetitivo:oprocessodeconversãoéumatarefarepetitivaconsistindodetrês
passos:
1. determinaçãodainformaçãoquevaiconstituirumnó;
2. verificaçãoderelaçõesentreonóemquestãoeoutrosnósjáexistentes
3. estabelecimentodelinks,alterandoarededenós.
Considerandoumgrandevolumede informação,aconversãose tornamaissujeitaa
erroshumanos,principalmentecomrelaçãoàmanipulaçãodarededenós.
Aspecto Temporal: o processo de conversão pode se tornar um processo de longa
duração especialmente na conversão de textos extensos, inviabilizando a
disponibilizaçãodainformaçãorapidamente.
15AlgunsexemplossãooFrontPage®daMicrosoft,oHTMLEd®daW3InterneteoHotDog®daSausageSoftware.
30
Atualização da Informação: na inserção de novos dados toda a rede de nós deve ser
reconsiderada.Considerandoquea informaçãopodealcançar grande volumeeuma
rede de nós altamente interconectada, aumenta a dificuldade de atualização da
informaçãocontidanohipertextodemodocoerenteeamanteraintegridadedarede.
Essesaspectossãomenoscríticosquandoovolumedeinformaçãoépequeno.Noentanto,
no caso de um grande volume de informação que é atualizada periodicamente e com
grandenúmeroderelações,aconversãomanualsetornapraticamenteinviável.Naprática,
normalmente a maior parte das obras de consulta e referência pertence à segunda
categoria,degrandevolumedeinformação.
2.3.2 ConversãoAutomática
Aconversãoautomáticaapresentavantagenssobreaconversãomanualnamedidaemque
procurarminimizaroefeitodosaspectosmencionadosnaseçãoanterior:
• Executando as tarefas repetitivas automaticamente, principalmente a
segmentaçãodainformação;
• Estabelecendooslinksdeacordocomcritériosbemestabelecidos;
• Fornecendomeiosparaaatualizaçãodainformação;
• Executandoessastarefasnomenorintervalodetempopossível.
Considerando os problemas apresentados com a conversão manual, as vantagens da
conversãoautomáticaeacrescentedemandadedocumentosquenecessitamconversão,
vemapergunta:Porqueéquenãoexistemmuitossistemasdeconversãodehipertexto?A
primeira razão:elessãodifíceisde implementar,eoutra: são limitadosnoseuescopode
aplicação[13].Estetrabalhovemtentarreverterestasafirmações,propondoumprocesso
deconversãovoltadoparaageraçãodedocumentosparaaWWW.
31
2.4 AsEtapasdaConversãoAutomática
AsetapasenvolvidasnaconversãoautomáticajáforammencionadasnoCapítulo1eaqui
passamporumabreveanáliseantesdeoprocessodeconversãoeasetapassubseqüentes
seremabordadosdetalhadamentenoCapítulo3.
2.4.1 SeleçãodeDocumentos
Natentativadeestabelecerdiretivasparaaseleçãodetextosquemelhorseadeqüemao
processodeconversãoautomática,algumascaracterísticasdotextodevemserobservadas.
Nemtodosostiposdetextosseprestamigualmenteàconversãoautomática[16].Muitos
textos são escritos e concebidos para teremuma conotação linearmesmona leitura, no
sentido de que o próprio texto tem seu significado alterado se for transformado em
hipertexto.
Os melhores candidatos para a conversão automática são documentos que possuem
informação com grande volume de referências cruzadas, com uma estrutura complexa,
hierárquicaebemdefinida.Noentanto,mesmoquenãoemtãograndevolumecomouma
enciclopédia,amaioriadosdocumentosquesãoconsultados“aospoucos”ou“empassos”
seaplicamàconversãoautomática.Deacordocomalgumasregraschamadasde“Golden
RulesofHypertext”[38],umtextoéadequadoàconversãoautomáticase:
• Otextopossuigrandevolumedeinformaçãoorganizadaemfragmentos16;
• Osfragmentosserelacionamentresi17;
• Oleitoraqualquermomentonecessitasomentedepartepequenadainformação.
16Estesfragmentossãopartesdotextoquepossuemcertacoesãosemântica,exploramumdeterminadoassuntoepodemserconsultadosdemodoindependentedoresto.Porserumadefiniçãomuitoabstrata,estáintimamenteligadaaocontextonoqualainformaçãoéapresentada.Assim,umfragmentopodetantoser,numaenciclopédiaumadefiniçãodeumiteme,numlivroumcapítulo.17 Esta relação entre fragmentos pode ser tanto explícita – quando ocorre a citação literal de outro fragmento, quantoimplícitacaracterizadapelaafinidadedeassuntoentrefragmentos.
32
Durante o processo de seleção de texto estas características podem ser mais bem
explicitadasatravésdatentativaderesponderàsquestõespropostasporRiner[36]:
Ousodotextotendeaumhipertexto?
Existeumaestruturaimplícitaouexplícitanodocumento?
Otextotemumatabeladeconteúdoouestapodeserextraída?
Otextopossuiumíndice,glossário,etc.?
Otextopossuimuitasreferênciascruzadasinternaouexternamente?
Existemunidadesdefiníveisquepossamserrelacionadasumascomasoutras?
Édifícil afirmarque textosmaisbemadaptadosaestas condições resultamemmelhores
hipertextos, principalmente porque não há ummeio de se julgar se um hipertexto está
correto ou não. No entanto, pode‐se afirmar que textos com essas características irão
melhorseadequaraumprocessodeconversãoautomática.Umtextocaracteristicamente
monolíticoeseqüencialdificilmentevaidesfrutardasvantagensdetalprocesso.
Concluindo, a seleção de textos é uma etapa que depende totalmente da tomada de
decisãohumanaarbitrária.Casoestejainteressadoemempregarmecanismosdeconversão
automática,oeditordeveprivilegiartextoscujascaracterísticasseprestamàconversão.
2.4.2 AquisiçãodeDados
Apesardenãoserobjetivodestetrabalhoexploraremdetalhescomosedáoprocessode
aquisiçãodedados,éumapreocupaçãoestabelecerpadrõesparaaqualidadedosdadose
para o formato de entrada destes no processo proposto. Assim, algumas diretivas para
guiarestaetapasãosugeridas.Nesseescopo,osdadosaseremadquiridosestãorestritosa
texto.Assimaquisiçãodedadoseaquisiçãodetextosãoutilizadoscomosinônimos.
33
Aaquisiçãodetextopodeserfeitadeacordocomdiversosmétodos,variandoconformeas
condiçõesfísicasdosdocumentos,adisponibilidadedosmesmoseoacessoadispositivos
adequados.
Oenfoquedestaetapaestáemtrêsmétodosdistintosdeaquisiçãodetexto,cadaumdeles
baseadoemumtipodesuporte:manuscrito,impressooujánoformatodigital.
2.4.2.1 Método1–CópiaouDigitação
Métodoqueexigeadedicaçãointegraldepessoasduranteoprocesso.Trata‐sedométodo
mais demorado e mais trabalhoso. Tem a vantagem de eliminar alguns dos problemas
particulares dos métodos de digitalização descritos na seção seguinte. As desvantagens
destemétodosãobasicamenteduas:
1. Não elimina a necessidade de correção ortográfica para garantir a qualidade do
documentodeentrada.Errosdedigitaçãopodemocorreredevemsercorrigidos.
2. Ainda há necessidade de um processo de aquisição dos componentes considerados
“externos” ao texto, normalmente presentes nos anexos: figuras, tabelas, gráficos e
outrossimilares,quenãopodemserdigitados.
Estemétododeveseradotadoemcasosque,devidoàpresençadealgumfatorcrítico,a
utilização dos outros dois métodos descritos se tornar inadequada. Qualidade pobre do
texto impresso, texto impresso emmeio não adequado ao dispositivo de scanning, ou a
ausênciadestedispositivo,sãoalgunsdessesfatores.
2.4.2.2 Método2–Digitalização
Métodoqueexploraacriaçãodeumaimagemdigitaldotextoparadepoisserconvertida
em texto passível de ser lido e editado em um processador de textos, em uma etapa
34
subseqüente.Otextoimpressopassapordiversasetapasantesdeatingiropadrãoparaa
entrada[33],[36]:
1. Scanning: Apesar de ter evoluído consideravelmente, o processo de digitalização de
páginas impressasdetextoaindaéumprocessoquedemandatempoededicação.No
entanto,podeserumaopçãomaisrazoáveldoqueadigitaçãodotextoimpresso.
A evolução alcançada nos scanners permite que a presença humana seja dispensada
quandoodispositivopossuiorecursodealimentaçãoautomática,porexemplo.Mesmo
semaalimentaçãoautomática,oavanço tecnológicodosdispositivos resultouemum
considerável aumento de velocidade na varredura e no armazenamento das páginas.
Estaaindaéamelhoropçãoquandoafontedeinformaçãoéodocumentoimpresso.
2. OCR – Reconhecimento Óptico de Caracteres: Influenciamuito na qualidade do texto
que será utilizado nas etapas subseqüentes. Quanto melhor (mais acurado) for o
processodeOCR,menoraquantidadedeerrosnasetapasfuturase,porconseqüência,
menoroesforçoemcorrigi‐los.
DificuldadesaindasãoencontradaspeloOCRemreconhecertextoquandooscaracteres
são acentuados, estão muito próximos uns aos outros ou ainda na presença de
caracteres especiais. Para tentar solucionar alguns dos erros do OCR existem
abordagensdiferentesparacadatipodeproblema.
Paraa correçãodeerrosno reconhecimentodepalavras,averificaçãomais comumé
atravésdousodecorretoresortográficos,realizadanaetapasubseqüenteàpreparação
dotexto.Outrascorreçõespodemserfeitasatravésdediversasverificações.Emalguns
casos pode‐se utilizar de um recurso semi‐automático, abordado na Seção 2.4.3.2.
Outroscasosrequeremaleituracomparativadotexto,umatarefaexaustiva,abordada
naSeção2.4.3.3,página38.
35
Uma situação crítica ocorre, às vezes, quando o reconhecimento gera palavras que
apesardesintaticamentecorretas,sãodiferentesdasoriginalmenteutilizadasnotexto.
Este problema específico se não for detectado pode gerar confusões, devido à
possibilidade de mudança da semântica do texto. Outras características inerentes ao
texto impresso não reconhecidas pelo OCR devem ter tratamento especial e são
tratadasnopassoseguinte.
3. Preparação do texto: deve ser responsável por eliminar a inclusão de caracteres de
formataçãopelossoftwaresOCReautilizaçãodahifenização.
Oprimeirocasocaracteriza‐seprincipalmentepelainclusãodemarcasdeparágrafo“¶”
ao final de linhas [36] sem corresponder ao final do parágrafo propriamente dito. O
segundocaso,ahifenização, correspondeà separaçãode sílabas comumenteutilizada
nostextosimpressos.
Acorreçãonestescasospodeserexecutadamanualmenteutilizandoumprocessadorde
texto em um processo repetitivo de procura e troca de caracteres. Um outromeio é
através da aplicação de filtros, consistindo de processos automáticos para tal
tratamento.
2.4.2.3 Método3–TextonoFormatoDigital
Estemétododeaquisiçãoevitaanecessidadedeaquisiçãodainformação.Entretanto,este
sóépossíveldeserexecutadoquandootextojáestádisponíveldigitalmente,devidoauma
aquisiçãoanterior.
Apossibilidadedeainformaçãoserdisponibilizadajánoformatodigitaledeacordocomo
formato de entrada do processo de conversão seria a situação ideal para a aquisição de
dados. Elimina a necessidade da realização dos métodos anteriormente mencionados,
reduzindo assim, a duração desta etapa ao longo do tempo. Em contrapartida, exige do
36
profissionaloudaequipetrabalhandocoma informação,apesquisadaexistênciaounão
destesdocumentosnoformatodigital.Etambémdadisponibilidadedestes,principalmente
devidoaosdireitosautoraisedereproduçãodomaterial.
Apesar da vantagem temporal em relação aos outros métodos de aquisição de texto, o
textodigitalizadopodetambémapresentaralgumasdificuldades,dependendodoformato
no qual o texto está armazenado [33]. Exige muitas vezes, um filtro conversor para o
formatodeentradadoprocessodeconversão.
Oprocessode conversão ideal deveria eliminar anecessidadedaaplicaçãode tais filtros
aceitando diversos formatos de arquivo como entrada. No entanto, para isto seria
necessáriaaincorporaçãodediversosdessesconversoresdeformatosderepresentaçãode
texto.Fatosemelhanteocorreatualmentecomdiversospacotesdesoftware,emespecial
comosprocessadoresdetexto.Comosurgimentodeumamultiplicidadedeformatosde
representação, os processadores de texto passaram a incorporar tais conversores. A
inconveniência desta abordagem é que há uma multiplicidade de formatos para serem
incorporadosqueexigemtrabalhoextraeacabampor“engordar”osoftware.
Em virtude disso, no processo de conversão, tais conversores serão mantidos externos.
Assim,nocasodotextoeletrônicoestararmazenadoemumformatonãoreconhecidopelo
processodeconversão,énecessáriaaaplicaçãodeumdestesconversores.
Concluindo, para que o processo de conversão possa ser executado com sucesso é
necessário que a fasede aquisiçãodedados, principalmentenas etapasqueenvolvema
produçãodearquivosobtenharesultadosdealtaqualidade.Dificuldadesnestaetapasão
inevitáveis, independentemente do método selecionado. O processo de conversão será
beneficiadocommelhoriadastecnologiasenvolvidasnestaetapa.
37
2.4.3 PreparaçãodoTexto
A preparação do texto é um dos passos abordados na Seção 2.4.2.2. Aqui este tópico é
analisadomaisprofundamentedevidoàsuagrande influêncianaqualidadedosdadosde
entrada.
Apreparaçãodotextoéresponsávelportransformarotextodeentradanotextovalidado,
formatoadequadoparaaentradanasetapasdesegmentaçãoesubseqüentes.Consistede
váriasverificações,eexigeaparticipaçãodeumapessoanacoordenaçãodasetapasena
tomadadedecisão,jáquenemtodasasetapasprecisamsernecessariamenteexecutadas.
Adecisão,nestecaso,ficanadependênciadaqualidadedotextodeentrada.
2.4.3.1 VerificaçãoOrtográfica
Executadacomoauxíliodeumprocessadorde textos,omaior requisitoéapresençade
verificadoresdeortografiaparaa línguaportuguesadoBrasil.Entreosqueatendematal
quesito,estãooMicrosoftWordeoRedatordaItautec/Philco[42].Opapeldaverificação
ortográficaé corrigir errosprovenientesdaaquisiçãode texto. Éde importânciaespecial
quandoaaquisiçãoéfeitapordigitaçãodotexto.Nestecaso,averificaçãoortográficapode
atuaremparaleloàdigitaçãodo texto,marcandopalavras incorretase,emcertos casos,
corrigindo‐asdemodoautomático.
Vale mencionar que a presença de um verificador gramatical também pode auxiliar a
manteraqualidadedotexto.Talcaracterísticavemsendoincorporadaàsúltimasversões
dosprocessadoresdetexto.Umexemploéotrabalhopioneirodedesenvolvimentodeum
corretor gramatical para a língua portuguesa que está presente no Redator da
Itautec/Philco que emprega tecnologia desenvolvida no Departamento de Física e
Informática(DFI)enoInstitutodeCiênciasMatemáticasdeSãoCarlos(ICMSC)daUSP[42].
38
2.4.3.2 Verificação“Inteligente”
Algunserroscomunsdaaquisiçãodetexto,normalmentedecorrentesdadigitalização,nem
sempresãodetectadosatravésdaverificaçãoortográficapornãosetrataremdeerrosde
grafia de palavras. São erros ocorridos devido à incapacidade de reconhecer certos
símbolos. No entanto, por serem erros recorrentes podem ser corrigidos através da
observação e correção automática. Esta correção automática pode ser feita utilizando o
recursodeprocuraetrocadequalquereditordetextos.Emalgunsexemplosobservados
duranteaaquisiçãodenormas,apartirdaaplicaçãodométododedigitalização,ocorrea
trocadeseqüênciasdecaracterescomo18:
Apresençade“920”ou“92O”emde“§2º”;de“Art.lo”emde“Art.1º”;de“Art.
11”nolugarde“Art.11”;ede“~”nolugarde“§”.
2.4.3.3 VerificaçãoVisual
Averificaçãovisualéoúltimorecursoparaaverificaçãodotexto.Emse tratandodeum
grande conjunto de textos, e de volume crescente, nem sempre esta é possível. A
vantagem é que o texto não precisa ser lido com atenção. Às vezes, através de uma
observação crítica da diagramação do texto é possível identificar falhas que passaram
despercebidas nas verificações anteriores. Em casos extremos, a releitura do texto,
acompanhadadaedição,deveserfeitaparaqueotextoatinjaaqualidadedesejada.
2.4.4 AplicaçãodaConversãoAutomática
A aplicação da conversão automática é a etapa na qual o processo de conversão entra
finalmente em ação. Antes da realização desta etapa o texto ainda semantém como foi
concebido, em seu formato seqüencial, como um bloco monolítico. Ao se aplicar a
18Osexemplossãosomenteilustrativos,enãotêmnenhumarelaçãocomafreqüênciadeerrosnotexto.
39
conversão automática, o resultado será o documento segmentado, com as ligações
estabelecidas,jácomoumhipertexto.
Paraqueotextopossaserconvertidoautomaticamenteemhipertextoénecessárioqueo
processo de conversão identifique elementos básicos e explore as relações entre estes.
Algumasdessasrelaçõespodemseridentificadastendocomobaseaocorrênciadepalavras
chaves,aestruturaçãoimplícitadodocumentoeaformataçãodeparágrafos.Relaçõesque
devemserexploradassão:
• Relações Estruturais:Umavez identificadas, permitemverificar a estruturaçãodo
documento, sua hierarquia implícita. Por exemplo, em um documento com uma
estruturahierárquica,otextopodeestardivididoempartes,aspartesemseções,e
as seçõesemsub‐seções.As relaçõesestruturaismantêmas característicasdesta
estrutura também no hipertexto, fornecendo hiper‐elos entre os segmentos ou
nós.Estescasossãocaracterizadospelasrelaçõesentreatabeladeconteúdoeas
seções,eentreestaseseussubcomponentescomoparágrafoseitens.
• Relações Explícitas: Podem ser identificadas como relações inter‐textuais, ou
relações internas, caracterizadas por relações entre o texto e as referências
bibliográficasecitaçõesfeitasaoutraspartesdotexto,comoporexemplo,afrase
“vejaaseçãoX”;
• Relações Implícitas: Normalmente caracterizadas por relações determinadas de
acordocomoassuntodoqualo texto trata.Por se tratardeumaáreaquedeve
explorarosignificadodasexpressõesenvolvidas,édastrês,otipoderelaçãomais
complexodeserexplorado.
40
Estaetapaconsistebasicamentededuasetapasquefazem:asegmentaçãododocumento
eoutraquerealizaaassociaçãoentresegmentosouainferênciadelinks19.
Asegmentaçãododocumentoé feitaatravésda identificaçãodeelementossignificativos
dodocumento.Tipicamenteostextospossuemvárioselementoscomoparágrafos,seções,
subseções,capítulos,índices,listasetabelas.Desseselementos,osestruturaissãoaqueles
queformamaestruturabásicadotextoedefinemrelaçõesdepertinênciaentreosoutros
elementos. O reconhecimento destes elementos é de fundamental importância para a
realizaçãodaconversãoautomática.Suarealizaçãoestáfortementevinculadaàutilização
dasanálisesléxicaesintática.
Jáaetapadeinferênciade linksexigetécnicasespecíficas,voltadasparacadadomíniode
aplicação,analisandoaformacomoéestruturadaacitação.
2.4.5 CodificaçãoemLinguagemEspecífica
Esta etapa utiliza os resultados da aplicação da conversão automática para gerar uma
versão do hipertexto que possa ser utilizada pelos usuários finais. Para o processo de
conversão esta etapa realiza tarefa análoga aos exportadores para diferentes formatos
freqüentementepresentesempacotesdesoftware.Resumidamente,atarefadaetapade
codificação é interpretar a informação no formato interno ao processo de conversão e
gerarumasaídacodificadadeacordocomasregrasdalinguagemescolhida.
19Asassociaçõesserãoreferidasaolongodestetextocomolinks,utilizandoassim,apalavraoriginaleminglês.
41
2.5 TrabalhosRelacionados
Trêstrabalhosnaáreadeconversãoautomáticaemespecialpossuemestreitarelaçãocom
oprocessoaquiproposto.
OsistemaJustus[44]éumsistemaderecuperaçãodeinformaçãodehipertexto20quetem
enfoque para o uso de documentos legais em uma base de dados para hipertexto.
Complementa um sistema de hipertexto usado largamente na Inglaterra, chamado Lexis,
emváriosaspectos: forneceuma interfacegráficade fácil utilizaçãopelosusuáriosalvos,
que sãona suamaioria advogadose implementadiversasnovas relações entreosdados
nãoexploradasnosistemaLexispermitindoacessomaisfácilaosdados.Foiimplementado
utilizandoosistemadehipertextoGuidetendocomobaseoshiperdocumentosdosistema
Lexis.
OsistemaLexisarmazenaotextocompletodedocumentosconsideradosprimários:casose
estatutos. A recuperação da informação neste sistema é através do uso de pesquisa
booleanaportermos‐chaveemcamposespecíficos,sendoportanto,limitada.
Wilson[44]sugerequerelaçõesexplícitasnormalmentepossuemalgumtipode“marcador
semântico”,palavras‐chavequeajudamna identificaçãodestase confirmaanecessidade
deumprocessodeestabelecimentoautomáticodestas relações.Para tal, trabalhacomo
reconhecimentodepadrões.Quandopossuemomesmosignificadoumpadrãoémapeado
paraonóadequado.Trata‐sedeummecanismodisponívelnosistemaGuidechamadode
aliasing.
Um aspecto importante do sistema Justus é que as relações descobertas são marcadas
como “links potencialmente ativos”. Este conceito de “potencialmente ativo” foi criado
porquenão sepodegarantirqueodocumentoounó referidopelo linkestápresentena
20Traduçãodooriginal:hypertextinformationretrievalsystem.
42
basededadosdehiperdocumentos.Atravésdesteconceitoépossíveldefinirqueaçõeso
sistema deve tomar no caso de links potencialmente ativos não resultarem em links
efetivos,evitandoafrustraçãodousuárioaotentarsegui‐lo.
Bernstein propõe um sistema “aprendiz” que descobre links entre hipertextos [6] com
enfoque aos links de conteúdo – links que exploram as relações implícitas. O trabalho é
voltadoparatextosqueserãointencionalmentelidosenãoconsultados.Enfocahipertextos
queabordamumúnicoassunto,incluindomonografiaselivrostexto.O“aprendiz”procura
extrair links quenão sãodescobertosviamétodos tradicionaisdeanálise léxica,masnão
trata os links derivados de relações estruturais. O aprendiz é um sistema definido por
Bernsteincomo“umassistentecomputacionaltrabalhandosobreasupervisãoimediatade
um especialista em sistemas hipertexto, ao invés de um agente autônomo trabalhando
independentemente”.
James Allan [2] trabalha com processos automáticos para tentar determinar o tipo de
relações entre dois documentos ou trechos de um documento. Este trabalho lida com
coleçõesarbitráriasdedocumentoseautomaticamentedetectalinkssemaintervençãodo
usuário.Paraestabeleceroslinkséfeitaumaanálisedasimilaridadeentredocumentosou
trechos de documentos. Esta análise é baseada em um modelo chamado vector space
model [37]. Consultas e documentos são representados em termos de vetores, que são
pares de conceitos e pesos não‐negativos. A conversão para estes vetores permite a
comparação e a determinação de um nível de similaridade entre os documentos
comparados. Existe um nível mínimo para que os documentos sejam considerados
relacionados e, então, o link pode ser automaticamente estabelecido entre as partes.
Utilizadaáreadeanálisedediscursoparadeterminarquetiposde linkssãoúteisemum
hipertexto. Este trabalho é particularmente importante para determinar as chamadas
relações implícitasentrecoleçõesdedocumentos.Estabelece relaçõesentredocumentos
43
baseadas em suas afinidades por assunto. Trata‐se de um trabalho que vem a
complementaraatuaçãodesteprojeto.
44
3 OPROCESSODECONVERSÃOAUTOMÁTICA
Este capítulo explora o processo de conversão, que abrange as etapas de aplicação da
conversãoautomáticaecodificaçãoemlinguagemespecífica,conformeoespecificadono
Capítulo1.
Uma descrição geral do processo é apresentada na Seção 3.2. As fases de aquisição de
texto e de preparação do texto foram abordadas no Capítulo 2 e são consideradas as
preliminaresdoprocessodeconversão.Otextovalidadoresultantedestas fasesdeveser
colocadonoformatodeentradadoprocessodeconversãoparaquepossaserprocessado.
EsseformatoédiscutidonaSeção3.3.
Oprocessodeconversão,contribuiçãodesse trabalho, foidesenvolvidoparaseraplicado
emtextoscomestruturaçãohierárquica.EstesestãodefinidosnaSeção3.1aseguir.
45
3.1 TextosEstruturados
Oprocessode conversãoproposto se aplica a textos estruturados.A estrutura de textos
adotadae interpretadanesteprocessodeconversãoéaestruturahierárquicaemárvore,
conforme ilustra a Figura 3. Esta estrutura foi escolhida por ser muito comum em
documentostécnicos,normasemanuaisdeinstruçãoemgeral.Assim,odocumentopara
serconvertidoporesteprocessodeconversão,devepossuirestruturainternahierárquica
emárvore.
Figura3Estruturahierárquicaemárvore
Aestruturahierárquicaemárvoreconsideraquetododocumentopossuiumcabeçalhoou
títuloquemarcaseuinício.Ocabeçalhoéosegmentoinicial,tambémchamadoderaizdo
documento,éonível0.Éapartirdelequesegmentosdeoutrosníveissãoestruturados.
Outrasrestriçõesestruturaisaplicáveisatodosossegmentosdodocumentosão:
• umsegmentopossuisomenteumsegmentopai;
• umsegmentodenívelisópodecontersegmentosdenívelhierárquicomaiorquei.
Deacordocomoconjuntodedocumentosoutrasrestriçõespodemseraplicadas.
46
Oníveldehierarquiamáximonédeterminadodeacordocomcadatipodedocumentoede
acordocomoníveldegranularidadedesegmentaçãoquesedesejaatingir.Porexemplo,
emumconjuntodedocumentosnoqualagranularidadeatingeoníveldeblocosdetexto,
onívelmáximopodeserestabelecidocomon=4,onde:
Nível0 TítuloouCabeçalho
Nível1 Capítulo
Nível2 Seção
Nível3 Sub‐Seção
Nível4 BlocosdeTexto
AestruturahierárquicaparaesteexemploéilustradanaFigura4.
A escolha do nível de granularidademáximo tem implicações diretas na composição dos
níveis antecedentes. Continuando com o exemplo acima, e definindo a granularidade ao
nível de palavras, os níveis superiores também seriam segmentados em palavras e
definidoscomoumacomposiçãodestas.
47
Figura4Exemplodeumaestruturahierárquicadenível4
Devido a essas implicações é adequado procurar um nível de granularidade que evite a
segmentaçãoexcessivadodocumentoequenãogeresegmentosdegranularidademuito
grande.Segmentosmuitopequenoscorremoriscodeserinsignificantesdopontodevista
sintáticoesemântico,esegmentosmuitograndes limitamoacessoaestruturasmenores
internas.Agranularidadeadotadanasegmentaçãotambéminfluencianoreconhecimento
eestabelecimentodasrelaçõesexplícitasdodocumento.
Considerandoessasafirmações,oprocessodeconversãopropostoadotaagranularidade
no nível de parágrafos de texto. Isto porque parágrafos de texto normalmente contêm
sentenças sintaticamente corretas dentro da língua portuguesa e correspondem ao
segmento mínimo citável namaioria dos documentos estruturados. Ou seja, as citações
entre documentos normalmente citam segmentos do nível de parágrafos ou superior.
Dificilmenteseencontramcitaçõesmaisespecíficasquecheguemasereferir,porexemplo,
umconjuntodetermosoupalavrasisoladasdotexto.
48
3.2 DescriçãoGeraldoProcesso
Partindo do documento no formato de entrada, o processo de conversão consiste em
realizar uma etapa para a segmentação do documento, seguida de uma etapa para a
hierarquizaçãodossegmentos.
Nasegmentaçãoodocumentodeixadeserumblocodetextomonolíticoepassaaserum
conjuntodesegmentos.Essaetapafoielaboradaparasebasearemumadefiniçãoformal
dainformação.Apartirdestadefiniçãoformalsãoconstruídasregrasespecíficasdeanálise
dotextoqueaplicadasàinformaçãoidentificamosdiversossegmentos.
Nahierarquizaçãosãoexploradasasrelaçõesestruturaisentreossegmentos,recompondo
a estrutura na forma de relacionamentos entre os dados. Nessa etapa, um modelo de
dados para a informação deve ser utilizado para determinar a estrutura das tabelas e
fornecerarmazenamentoadequadodosdados.
Apósestasduasetapas,inicia‐seainferênciadelinks,queexploraasrelaçõesexplícitasou
ascitações presentesnos segmentos.A inferênciade links consistede três sub‐etapas: a
extraçãodascitações,a identificaçãoouendereçamentodascitaçõeseoestabelecimento
dos links, etapas a serem exploradas em detalhe nas Seções 3.6.1, 3.6.2 e 3.6.3. Para
realizarestastarefas,ainferênciade linksutilizaumadefiniçãoformaldascitaçõesparao
tipo de informação sendo convertida. A definição formal para as citações é utilizada na
criaçãodasregrasparaextraçãoeestabelecimentodelinks.
A etapa final do processo de conversão, a construção do hipertexto, é realizada fazendo
consultas aos dados gerados pelas etapas anteriores. Nesta etapa são explorados os
relacionamentos estruturais identificados durante a segmentação e hierarquização e
armazenadonobancodedados.
49
3.3 FormatodeEntradadoProcessodeConversão
Paraqueoprocessode conversãopossaprocessar osdocumentos e convertê‐los deum
modo confiável é necessário que todos os documentos estejamnummesmo formato de
entrada. No processo de conversão proposto neste trabalho o formato de entrada é
chamadodepadrãoSTDNORM.
O padrão STDNORM foi definido para incluir informações complementares aos dados a
serem submetidos ao processo de conversão. Esses dados complementares são
importantespararealizarestatísticaseparafornecerinformaçõesparaumbancodedados.
Informam ao processo de conversão por exemplo, a língua, o tipo e a organização
responsável.
Estaseoutras informações são fornecidasatravésdeuma sériedeetiquetasque têmos
seus valores preenchidos de acordo com dados do documento sendo submetido para a
conversão.
AlgumasregrasforamestabelecidasparaopadrãoSTDNORM,eestãoespecificadasabaixo:
• Suporte:otextoestádigitalizado,eoconjuntodecaracteressegueoespecificadopela
ISO8859‐1[23],tambémconhecidacomoISO‐Latin.
• Cabeçalho: O texto deve ser submetido para processamento antecedido por um
cabeçalhopadrão.AsetiquetasdocabeçalhoestãoespecificadasnaTabela1.Dentre
asetiquetasapresentadasaseguir,asexigidasemtododocumentosubmetidoparao
processodeconversãoestãomarcadascomum× naúltimacoluna.Outrasetiquetas
sãoopcionais.
50
Etiqueta Definição Escopo de Valores BEGIN:STDNORM Marca o início do arquivo de dados. – × NAME: Nome do documento atribuído por quem o
submete. Qualquer seqüência de caracteres.
VER: Versão dos documentos incluídos no formato X.X
De 1.0 a 9.9
VER;LOG: Observações sobre a versão do documento. Qualquer seqüência de caracteres.
VER;DATE: Data da geração da versão do documento. Qualquer data válida LANG: Língua padrão do documento com etiquetas
definidas pela RFC nº 1766 [34]. Para o processo de conversão este valor é fixo para o português do Brasil.
pt-BR ×
INCLUDE;DATE: Data da entrada do documento para processamento, gerada automaticamente pelo processo.
Qualquer data válida.
INCLUDE;RESP; VCARD/INLINE: Pessoa responsável pela submissão do documento. Esta etiqueta possui um modificador que especifica o tipo do valor: INCLUDE;RESP;VCARD ou INCLUDE;RESP;INLINE.
VCARD: cartão de visitas eletrônico especificado pelo padrão versão 2.1 [41] INLINE: nome do responsável por extenso
INCLUDE;SOURCE: Endereço na internet do documento fonte, caso este esteja disponível para download.
Qualquer endereço http ou ftp.
TYPE: Tipo do texto do documento. Somente esses 2 formatos são aceitos.
TXT: texto sem quebras de linha, formato Text-only. ETEXT: texto no padrão Gutenberg, "wrapped" com uma marca de parágrafo ao final de linhas e 2 marcas no final dos parágrafos.
×
ORG;FED;EST;MUN;INST: Organização responsável pela custódia dos documentos. A etiqueta deve ser composta por, no mínimo o modificador FED. Outros modificadores são acrescentados conforme o caso. Para uma instituição não-governamental estadual a etiqueta é: ORG;FED;EST;INST.
FED: sigla no formato INT, para o Brasil, sempre: BR; EST: sigla de um dos estados brasileiros; MUN: nome do município INST[-nomeExt]: sigla da instituição, com opcional para extenso.
×
STDNORM: 1.0 Versão do formato de entrada padrão utilizado no documento, por enquanto, este valor é sempre 1.0.
1.0
START: Marca o início do texto dos documentos. – × <texto do documento> – × END:STDNORM Marca fim do texto dos documentos e fim do
cabeçalho. – ×
Tabela1PadrãoSTDNORM:formatodeentradadedadosnoprocessodeconversão
• MúltiplosTextos:Váriostextosdediversosdocumentospodemsersubmetidostendo
um único cabeçalho. A única restrição conceitual é que todos os documentos
submetidosdevem“seguir”osdadoscontidosnasetiquetasdocabeçalhopadrão.Por
exemplo, esta restrição implica que ao submeter documentos onde a etiqueta
ORG;FED;INSTtemvalorBR;IBAMA,todosostextosincluídosentreasetiquetasSTART
eENDdevemserdecustódiadoIBAMA.
51
• Grafia das etiquetas: As etiquetas são sempre escritas em letras maiúsculas. A
terminaçãodas etiquetas é feita como caracter dedois pontos “:”. Este serve como
separador entre etiqueta/valor. As exceções desta regra são as etiquetas de início e
fim, respectivamenteBEGIN:STDNORM eEND:STDNORM, inspiradas nas etiquetas do
padrãovCard[41].Ocaracterpontoevírgula“;”éumseparadorentreetiquetaeseus
modificadores.
• Ordem das etiquetas: O padrão STDNORM é iniciado pela etiqueta inicial
BEGIN:STDNORM e termina com a etiqueta final END:STDNORM. A etiqueta START que
marcaoiníciodotextododocumentosendosubmetidoésempreapenúltimaetiqueta
dopadrão,sendoseguidasomentepelotextoepelaetiquetafinal.Asdemaisetiquetas
dopadrãonãopossuemrestriçõesdeordenação,podemapareceremordemaleatória.
As etiquetas apresentadas naTabela 1 acima foramdescritas na ordemque seguem
estasrestriçõesepodeserutilizadacomosugestãodeordenação.
A etiqueta INCLUDE;RESP; com o modificador VCARD (INCLUDE;RESP;VCARD) da
especificação do padrão STDNORM possibilita que um vCard seja incluído quando
referenciando dados pessoais. Esta característica foi incluída visando adaptação às
tendênciasemtrocadeinformação.
OQuadro1aseguirmostraumexemplodeumdocumentoparaentradanoprocessode
conversãoseguindoopadrãoSTDNORM.
52
BEGIN:STDNORM NAME: Decretos Federais LANG: pt-BR TYPE: ETEXT VER: 1.0 VER;DATE: 11/08/1997 INCLUDE;RESP;INLINE: Alessandra INCLUDE;DATE: 12/08/1997 ORG;FED: BR STDNORM: 1.0 OBS: Texto não passou por correção ortográfica. START: DECRETO N° 66, de 18 DE MARÇO DE 1991 Promulga a Convenção Para a Conservação das Focas Antárticas, concluída em Londres, a 1° de Junho de 1972. O Presidente da República, usando da atribuição que lhe confere o Artigo 84, inciso 4°, da Constituição e Considerando que a Convenção Para a Conservação das Focas Antárticas foi adotada em Londres, a 1° de Junho de 1972, sob a égide dos princípios estabelecidos no Tratado Sobre a Antártica, concluído em Washington, a 1° de dezembro de 1959; Considerando que o Congresso Nacional aprovou a Convenção, por meio do Decreto Legislativo 37, de 26 de Outubro de 1990; Considerando que a Carta de Adesão à Convenção ora promulgada, foi depositada em 11 de fevereiro de 1991; Considerando que a Convenção Para Conservação das Focas Antárticas entrará em vigor, para o Brasil, em 13 de Março de 1991, na forma de seu Artigo 13, Inciso 2; DECRETA: Artigo 1° - A Convenção para a Conservação das Forças Antárticas, apensa por cópia ao presente Decreto, será executada e cumprida tão inteiramente como nela se contém. Artigo 2° - Este Decreto entra em vigor na data de sua publicação. Brasília, 18 de Março de 1991; 170° da Independência e 103° da República. FERNANDO COLLOR Francisco Rezek. END:STDNORM
Quadro1DocumentodeacordocomopadrãoSTDNORM
O padrão STDNORM é uma contribuição deste trabalho que visa facilitar a troca de
informaçõesquandodasubmissãodedocumentosparaoprocessodeconversão.Pretende
também possibilitar contribuições remotas para uma base de documentos quando o
processo for implementado on‐line e com acesso remoto, via a WWW da Internet, por
exemplo.
53
3.4 Segmentação
A segmentação de um documento tem estreita ligação com a estruturação hierárquica
vinculada ao tipo de documento. É baseada em uma definição formal da estrutura do
documento para definir as regras de reconhecimento dos diversos tipos de segmentos.
Nessa etapa estas regras são aplicadas diretamente na fase de Análise de Parágrafos,
descritanaSeção3.4.2.
3.4.1 PreparaçãodosDocumentosSTDNORM
A fase de preparação dos documentos de entrada para o processo de conversão faz a
leitura dos dados a serem processados, a partir de um arquivo com dados no formato
STDNORM.Estapreparaçãoconsistedaaplicaçãodefiltrosdeacordocomotipodotexto
determinadopelaetiquetaTYPE.
No caso do tipo do documento ser TXT é aplicado um filtro específico para este tipo de
dado, o filtroTXT. Este filtro faz a leitura seqüencial de parágrafos do texto, aplicando o
seguintetratamentoaotexto:
• Eliminalinhasembranco
• Eliminaespaçosemarcasdetabulaçãodoinícioedofimdosparágrafos.
OsegundotipodedocumentoaceitopelopadrãoSTDNORMéchamadoaquidetextono
formatoETEXT,comoumareferênciaaoProjetoGutemberg21.Nesteformato,aslinhasdo
texto estão separadas pela presença de uma quebra de linha, e os parágrafos por duas
quebrasdelinha.Osdocumentosnesseformatopassamporumfiltroespecífico,chamado
filtroETEXT. Este filtro atua de modo similar ao filtroTXT e adicionalmente junta linhas
separadasporquebrasemumúnicoparágrafo.NasintaxedalinguagemCouPerl,elimina
21DuasreferênciassobreoProjetoGutembergsão:http://promo.net/pg/history.htmlehttp://www.etext.org/about.html.
54
aocorrênciadocaracterdefimdelinha(“\n”)dofinaldaslinhas,emantémsomenteum
caracterdefimdelinha,nofinaldoparágrafo.
Oalgoritmoparaessafasedaconversãoautomáticaéapresentadoaseguir.
sub preparacaoDoc ($arqEntrada) { @docEntrada = Leitura_padrao_STDNORM ($arqEntrada); for $documento (@docEntrada) { $tipo_do_documento = $documento{TYPE}; if ($tipo_do_documento eq "ETEXT") { $documento{TEXTO} = &filtroETEXT($documento{TEXTO}); } elsif ($tipo_do_documento eq "TXT") { # aplica o filtro TXT: só separa os parágrafos $documento{TEXTO} = &filtroTXT($documento{TEXTO}); } else { # este formato ainda não está tratado pelo sistema, ignorar print "Documento foi ignorado: formato não tratado pelo sistema"; } } return @docEntrada; }
Algoritmo1PreparaçãodedocumentopadrãoSTDNORM22
Comoresultadodapreparaçãodosdocumentosestáainformaçãoseparadaemparágrafos
prontaparaumaanáliseidentificandootipodecadaumdeles.
Noprocessodeconversãopropostoofatodeosegmentoseraunidadetextualparágrafo
facilitanestaprimeirasegmentação.Apartirdaaplicaçãodosfiltrosnestapreparaçãojáse
temainformaçãosegmentada,apesardeaindanãotipificada.
3.4.2 AnálisedeParágrafos
Énestafasequeadescriçãoformaldaestruturadodocumentopassaaseressencial.Estaé
utilizada na identificação do tipo do documento sendo convertido e na análise do
segmento.
Adefiniçãoformalparaaestruturaçãododocumentodeveconterpelomenosumaregra
inicial para identificar o cabeçalhoquemarcao iníciododocumentodentrodo conjunto
sendo analisado. Por exemplo, submetendo‐se um documento no padrão STDNORM,
55
contendoostextosdetrêsmanuaisdeoperação,estaregradeiníciododocumentofaza
identificaçãodo segmentoquemarcao iníciode cadadocumento, ou a raiz de cadaum
deles,conformeilustraaFigura5.
Figura5IdentificaçãodoiníciodedocumentosemumdocumentoSTDNORM
Opasso seguinteéa identificaçãodo tipododocumento.A tipificaçãodedocumentosé
inerenteaoconjuntoaoqualodocumentopertence.Porexemplo,dentrodoconjuntode
normasestatutáriasjurídicasosdocumentospodemsertipificadosemcategoriascomoLei,
Decreto e Portaria. A identificação do tipo do documento é feita quando é detectado o
iníciodeumnovodocumento.
Assimaetapadasegmentaçãoconsistedosseguintespassos:
1. FazerapreparaçãododocumentonopadrãoSTDNORM
2. Definiroreconhecimentodoiníciodedocumentosdentrodeumblocodetexto,a
partirdaregrainicialdadefiniçãoformaldaestruturadodocumento.
3. Determinarotipodecadadocumentoidentificadonopassoanterior,seoconjunto
dedocumentostivertipificação.
4. Analisarossegmentoscomponentesdodocumento.
OAlgoritmo2aseguirapresentaasegmentaçãodemodoestruturado.
22OsalgoritmosapresentadosnestecapítuloestãoescritosempseudocódigocomasintaxeutilizadanalinguagemPerl[43].
56
sub segmentacao ($arqSTDNORMS, $arqLog) { @docsSTDNORM = &preparacaoDoc($arqSTDNORMS); foreach $documento (@docsSTDNORM) { next if ($documento{TYPE} ne "TXT" or $documento{TYPE} ne "ETEXT"); # ignora outros tipos de documentos # análise de parágrafos foreach $paragrafo ($documento) { if ( &InicioDeDocumento($paragrafo) ){ # o parágrafo inicia um novo documento @dadosNovoDocumento = &identificaTipoDocumento ($paragrafo); &storeDados (@dadosNovoDocumento, @dadosSegmentados); } else { # o parágrafo é um segmento dentro do documento atual @dadosSegmento = &analisaSegmento ($paragrafo); &storeDados (@dadosSegmentos, @dadosSegmentados); } } } return @dadosSegmentados; }
Algoritmo2EtapadeSegmentaçãonoprocessodeconversão
Aanálisedesegmentoséumasub‐etapadasegmentaçãoparticularmenteimportantepara
documentos que possuem diversos tipos de segmentos. Baseada na definição formal da
estrutura,estaetapaéocernedasegmentação.Utilizaasregrasdadefiniçãoformalpara
construirinstruçõesdeidentificaçãodecadaumdostiposdesegmentos.
Por exemplo, parao conjuntodenormasestatutárias jurídicasbrasileiras alguns tiposde
segmentossão livro,capítulo,artigo, incisoealínea.Meiosdeidentificarestessegmentos
sãodeterminadospelasregrasdadefiniçãoformalesãobaseadosnapresençadeetiquetas
oudepalavrasquesãoconsideradascomochavequandoutilizadasemcontextoadequado.
Exemplificando,novamenteparaoconjuntodenormasestatutárias jurídicas,osegmento
artigoé identificadopelapresençadapalavra“Artigo”seguidadeumnumeralarábicoou
ordinal. Esta seqüência de vocábulos é a etiqueta para o segmento artigo. Quando esta
etiqueta é reconhecida no início de um parágrafo o segmento é reconhecido como tipo
artigo.
Alguns tipos de segmentos podem estar vinculados a uma análise mais elaborada do
contexto no qual estão inseridos. Esta análise é então retomada na hierarquização para
eliminarambigüidades.Noconjuntodenormasestatutáriasjurídicas,casosparticularessão
57
ossegmentosdotipoapelido,disposiçãoinicialeescoponormativo.Estessegmentosnão
possuemumaetiquetapadrãoedevemseridentificadosatravésdaanálisedeconteúdoe
do contexto. A análise de contexto é feita pela aplicação da regra que determina, por
exemplo,queumapelidoésempreantecedidopelocabeçalhodeumanorma.Nestaetapa
essestiposdesegmentossãomarcadoscomoparágrafosgenéricos.
Oresultadodaetapadesegmentaçãosãoossegmentoscomostipos identificados.Estes
dados devem ser armazenados de acordo comummodelo de dados para o conjunto de
documentossobreoqualaconversãoestásendoaplicada.
Não é propósito deste processo de conversão apresentar restrições com relação à
ferramenta utilizada na implementação. No entanto, sugere‐se que seja utilizada uma
linguagem de programação que dê suporte ao uso de expressões regulares. Estas são
particularmenteúteisnasanálisesexecutadasduranteoprocesso.Entreaslinguagensque
suportamestacaracterísticaestãoPerl[43]eawk[9].
3.5 Hierarquização
Os segmentos gerados na etapa de segmentação possuem seus tipos identificados, mas
estãotodosnummesmonível.Aetapadehierarquizaçãoatribuiníveisparacadatipode
segmento refletindo a estrutura hierárquica do documento. Depois desta atribuição de
níveisépossívelidentificar,paracadasegmento,seusegmentopai,easuaordemdentro
deumconjuntodesegmentosdomesmotipo.
Paraarealizaçãodestaetapaénecessárioquetodosossegmentostenhamseustiposbem
definidos.Paraisto,segmentosquenãoforamidentificadosnaetapaanteriorpassampor
umasegundaanálise,chamadadeverificaçãodetipo,antesdaetapadeatribuiçãodenível
edageraçãodahierarquia.OAlgoritmo3apresentaahierarquizaçãoesuasetapas.
58
sub hierarquizacao (@dadosSegmentados) { @dadosSegmentados = &verificaTipo (@dadosSegmentados); @dadosSegmentados = &atribuiNivel (@dadosSegmentados); @dadosHierarquizados = &geraHierarquia (@dadosSegmentados); return @dadosHierarquizados; }
Algoritmo3Ahierarquizaçãodesegmentosnoprocessodeconversãoautomática
Aetapadeatribuiçãodenívelutilizaumaescaladeníveisparaostiposdesegmentos.Esta
escala pode ser abstraída a partir da definição formal da estrutura do documento. No
exemploexibidonaFigura4,aescaladeníveisestábemdefinidadeacordocomostipos
desegmentos.
Apósaatribuiçãodenível,ageraçãodehierarquiaéfeitaincluindojuntocomosdadosde
cada segmento duas informações novas: a ordem do segmento dentro do conjunto de
segmentosdemesmoníveleopaidosegmento.Estasinformações,quandoarmazenadas
nobancodedados,funcionamcomoummapeamentodasrelaçõesentreossegmentos.
sub geraHierarquia (@dadosSegmentados) { # A Hierarquia entre os segmentos é determinada através de 2 dados: # a ordem dos segmentos dentro de um grupo de segmentos de um mesmo nível # e o pai do segmento foreach $segmento (@dadosSegmentados) { $segmento{ORDEM} = &achaOrdem ($segmento); } for $segmento (@dadosSegmentados) { $segmento{PAI} = &achaPai($segmento); } }
Algoritmo4Geraçãodehierarquia
Aodeterminaraordemdosegmentodentrodocontextoondeeleapareceépossívelsaber,
por exemplo, qual o n‐ésimo capítulo de um documento. Ou, por exemplo, qual é o 3º
artigodeumadeterminadanorma.
59
sub achaOrdem ($segmento) { # Acha a ordem do segmento dentro de um grupo de segmentos do mesmo tipo. # Esta ordem deve ser determina a partir da comparação do nível do segmento atual # com o nível dos segmentos que o antecedem. if ($segmento{NIVEL} == 0) { # é início de um novo documento return 0; # a ordem é reiniciada } # enquanto o nível do segmento atual for maior que o nível do segmento anterior # continua procurando segmentos anteriores while ($segmento{NIVEL} > $segmentoAnterior{NIVEL} ) { $segmentoAnterior--; } if ($segmento{NIVEL} < $segmentoAnterior{NIVEL}) { return 1; # segmento atual é o primeiro da lista } if ($segmento{NIVEL} == $segmentoAnterior{NIVEL}) { # segmento atual e o segmento anterior são do mesmo nível, continua a ordem anterior return $segmentoAnterior{ORDEM}+1; # acrescenta 1 na ordem } }
Algoritmo5Atribuiçãodaordemdosegmento
Éatravésdaidentificaçãodopaidosegmentoqueahierarquizaçãoéfinalmenterealizada.
sub achaPai ($segmento) { # Acha o segmento pai do segmento atual. # O pai do segmento é o primeiro segmento que o antecede # e que possui nível hierárquico maior que o nível do segmento if ( $segmento{NIVEL}==0 ) { # É início de um documento, ele é o seu próprio pai return $segmento; } while ($segmento{NIVEL} > $segmentoAnterior{NIVEL}) { # O nível do segmento é maior que o do anterior $segmentoAnterior--; # procura nos segmentos anteriores } if ($segmento{NIVEL} < $segmentoAnterior{NIVEL}) { # Se o segmento anterior é de nível maior, return $segmentoAnterior; # ele é o pai do segmento. } if ($segmento{NIVEL} == $segmentoAnterior{NIVEL}) # Se os segmentos são de mesmo nível, return $segmentoAnterior{PAI}; # eles tem o mesmo pai } }
Algoritmo6Atribuiçãodosegmentopai
3.6 InferênciadeLinks
Diferentemente das etapas de segmentação e hierarquização, a inferência de links não
trabalhacomossegmentos,mascomoconteúdodestes.Estaetapaéamais importante
para alcançar o objetivo final que é a geração do hipertexto. Sem esta etapa, os
documentos estariam segmentados, mas as relações não‐estruturais, ficariam sem
exploração.
60
Para que os links possam ser estabelecidos automaticamente algumas etapas devem ser
seguidas.Oprimeiropassoéfazeraextraçãodacitação,isolando‐adotextodosegmento.
Emseguidaénecessárioanalisaracitaçãoextraídaeidentificarosegmentosendocitado.
Uma vez identificado o segmento, é necessário verificar se o documento ao qual este
segmentopertencefoiconvertidoeseosegmentoestápresentenabasededados.Devido
aestanecessidadedeconsultardadosdesegmentospertencentesaváriosdocumentos,a
etapa de inferência de links é executada somente após a segmentação de todos os
documentosdesejados,econsultaosdadosdiretamentedabasededados.
3.6.1 ExtraçãodasCitações
Esta etapa é responsável por identificar as relações explícitas entre segmentos de um
mesmo documento ou de documentos diferentes. Conforme descrito no Capítulo 1, as
relaçõesexplícitassãocaracterizadasporreferenciaremoelementocitadodiretamente.
A função da etapa de extração de citações é delimitar a citação dentro do texto do
segmento, para que esta possa ser analisada nas fases subseqüentes. Para exemplificar,
algumas citaçõespresentesnaConstituição Federal estãomarcadasnaFigura6 a seguir,
ilustrandoafunçãodafasedeextraçãodascitações.
Figura6Afunçãodaextraçãodascitações
61
A extração das citações é baseada em um conjunto de tipos de citação que deve ser
determinadoparacadaconjuntodedocumentossobreoqualsedesejaaplicaraconversão
automática. Este conjunto de tipos de citação é determinado através da análise das
citações presentes nos documentos do conjunto e da definição de categorias para as
palavrassignificativaspresentesnascitações.
Aspalavras significativaspossuemestreita ligação como conjuntodedocumentos sendo
analisado.Devidoàdiversidadenagrafiadepalavraseaousodeabreviações,categoriasde
palavras são utilizadas para o reconhecimento das citações. Uma vez determinadas as
categorias, estas são expressas em tokens. Exemplificando, para as normas estatutárias
jurídicasbrasileiras,algumascategoriaseseustokenssãoapresentadasnaTabela223.
CATEGORIA GRAFIAS SINGULAR PLURAL TOKENcap.;capítulo ⊗ capS
CAPÍTULOcaps.;capítulos ⊗ capPart.;artigo ⊗ artS
ARTIGOarts.;artigos ⊗ artPParágrafo;par.;§ ⊗ parS
PARÁGRAFOParágrafos;pars.;§§ ⊗ parPInciso;item;número;nº ⊗ numS
INCISOIncisos;itens;nos,números ⊗ numP
Tabela2AlgumascategoriaspresentesnascitaçõesemNEJBs
Os tokens sãodeterminadosdeacordocomascategoriasesubstituemasocorrênciasde
palavras de acordo com a grafia estipulada. Para o processo de conversão proposto são
geradosdiferentestokensparaascategoriasquandoaparecemnosingulareplural.
Aoutilizaromecanismodetokens,consegue‐seumaabstraçãona identificaçãodostipos
dascitações.Assimépossívelescreverumtipodecitaçãoutilizandoumaabstração,sema
preocupaçãocomumagrafiaparticulardapalavra.Porexemplo,alguns tiposdecitações
paraasNEJBs,comumaformalizaçãosimplesusandotokens:
Formalização Tipodecitaçãoabrangida
23Ostokensutilizadosnestatabelasãosomenteilustrativos.
62
artSnumero,parSnumero artigo5º,§1ºnumS/parPnumerodesteartS incisoIIdesteartigo
§2ºdesteartigo
Tabela3Exemplodeformalizaçãodetiposdecitação
Naprática,os tiposde segmentosdevemserdefinidos formalmenteporumconjuntode
regrasdetalhadas.Noprocessodeconversãoproposto,asregrasparaostiposdecitação
sãodefinidasutilizando recursosdaáreadegramáticaspara linguagens formais [21]que
permitem generalizações. Esta formalização é abordada em detalhes noCapítulo 4, que
apresentaadefiniçãoformaldostiposdecitaçãoparaoconjuntodasNEJBs.
Definindooconjuntoderegras formaisparaos tiposdecitação,aextraçãodecitaçõesé
feita utilizandodiversas técnicasda áreade compiladores. Emumprimeiropassoé feito
um parse do texto do segmento trocando as ocorrências de palavras significativas por
tokens.Emseguida,é feitaumaanálise léxicadaseqüênciapresentenotexto (geradano
passoanterior)verificandoseestacorrespondeaalgumadas regras formais.Verificadaa
correspondência, significa que o texto possui uma citação de acordo com as regras
estipuladas. A citação reconhecida é então marcada para que possa ser analisada na
próximafasedainferênciadelinks.Asmarcasutilizadasnoprocessodeconversãoseguem
aestruturadeetiquetasHTMLesão:<cit>parao iníciodacitação,e</cit>marcandoo
fim. A fase seguinte vai procurar por estasmarcações quando for analisar as citações.O
Algoritmo7aseguirapresentaafasedeextraçãodascitaçõesdemodoestruturado.
sub extraiCitacao ( $segmento ) { @TiposCitacao = &InicializaTiposDeCitacao; foreach $tipoCitacao (@TiposCitacao) { # para cada tipo de citação existente $segmento{TOKENS} = &parseTokens($segmento); # faz a substituição por tokens # se encontrou, marca a citação com <cit>..</cit> $segmento{CIT} = &analiseLexica($segmento{TOKENS}, $tipoCitacao); } return $segmento{CIT}; # retorna o segmento com a citação marcada/extraída }
Algoritmo7Extraçãodascitaçõesnaetapadeinferênciadelinks
63
Como resultado desta fase de extração das citações, o texto dos segmentos é marcado
quandopossuicitaçõesconformedefinidaspelasregrasdetiposdecitação.
3.6.2 EndereçamentodasCitações
Do ponto de vista semântico, a citação é um “endereço”, e assim sendo designa onde
encontrardeterminadoobjeto.Nãosetratadeumendereçofísicoabsoluto,comoousode
termos como “linha” ou “página” designando posição física dentro da obra original. A
citaçãoéumendereçocomdoissignificados:
• Comoendereçorelativoquefazreferênciaaposiçõesdadaspelaestruturaçãodotexto,
taiscomo“item”,“parágrafo”,etc.
• Como um “endereço classificatório”, estabelecendo onde o item se localiza entre os
demais.
Nessetrabalhopropomosfazerumatraduçãodo“endereço”presentenacitaçãodemodo
informalparaumaformanormaldeendereçamento.Nestatraduçãooconceitodenívelde
segmentos émuito importante, porqueuma citação apesar de referenciar segmentosde
váriosníveis,éestruturadasemanticamenteparaindicarosegmentoaoqualserefereem
últimainstância,osegmentodemenornívelnahierarquia.Porexemplo,acitação“artigo
20,parágrafoúnico,daLein°4.771/65”extraídadoDecretonº1.282,serefereemúltima
instância ao parágrafo único, e menciona informações de outros segmentos para
possibilitaralocalizaçãodomesmo.
Assim,umacitaçãopodesereferiramaisdeumsegmentoenestecasoéconsideradauma
citaçãocomposta.Otratamentoparaascitaçõescompostasédividi‐laemváriascitações
unívocas.Aqui,quandosemencionacitação,éumareferênciadiretaàcitaçãounívoca,que
citasempreumúnicosegmento.
64
Idealmente, qualquer citação feita a um segmento de nível k pode ser traduzida, com
equivalênciadopontodevistasemântico,paraumendereçonanotaçãopropostanaseção
seguinte.
3.6.2.1 FormaNormalparaEndereçamentodeSegmentos
Aformanormalaquipropostaprocurarefletirahierarquiadeumsegmentodentrodeum
textoestruturado.ConsiderandoqueonívelKéoníveldosegmento,oseuendereçona
formanormalédefinidopeloconjuntodetuplas:
{CN,IDN;CN‐1,IDN‐1;…;CK+1,IDK+1;CK,IDK}
Onde:
• CKrepresentaotipoouacategoriadosegmentodenívelK;
• IDKéoidentificadordosegmentodenívelK;
• CK+1representaotipodosegmentoquehospedaCK;
• IDK+1éoidentificadordosegmentodenívelK+1;
• eassimsucessivamente
O limite superior é CN e designa o universo do conjunto em questão. Por exemplo,
“universo das normas brasileiras”, ou algomenos abrangente, por exemplo, “normas do
CONAMA”ouaindaconsiderandoumdocumento,Nserianível0naestruturahierárquica.
Aplicandoaformanormalparaascitações,umacitaçãoiniciaemCK,poisoseusignificado
remete a um módulo de granularidade k. Se fosse exigido, por exemplo, que a forma
normal iniciasse sempre por um valor fixo, diga‐se C1, a referência seria sempre feita a
detalhes, aomódulomínimo (módulos de granularidadeK=1), sem a possibilidade de se
referiraumsegmentodemaiornívelnahierarquia(módulosdegranularidadeK>1),oque
nãorepresentafielmenteasemânticadacitação.
65
A escolha dos valores para os limites inferior e superior (K e N) é que determina a
hierarquia implícita na citação. Entretanto, esta estrutura hierárquica adotada (as
correspondências para os valores de CK) e a escolha do limite superior da estrutura
hierárquica(ovalorparaCN)sãodecisõesquedevemsertomadasapriori.Aescolhadeve
ser direcionada para refletir a hierarquia existente no tipo de documento em questão e
assim, garantir a preservação da semântica da citação. Por exemplo, com relação ao
conjunto de NEJBs, poderia adotar‐se: K=4 para alíneas, K=3 para itens, K=2 para
parágrafos,K=1paraartigos,eassimpordiante.
As regras para a forma normal de endereçamento – valores para CN e CK – devem ser
selecionadasdemodoamelhorcumprirasconvençõesderedaçãooucomaestruturação
doconjuntodedocumentosemquestão.
NaaplicaçãodiretadaformanormaldeendereçamentoaTabela4mostraalgunsexemplos
deendereçamentodesegmentosedetraduçãodecitaçõesparaasNEJBs.
Hospedeiro Forma Normal Citação24 Forma Normal Escopo Normativo do Decreto nº 3.079
{D,3079;EN} “O PRESIDENTE DA REPÚBLICA, usando da atribuição que lhe confere o Artigo 74, Letra "a" da Constituição,”
{CF;T,4;C,1;S,9;A,74;AL,1}
Inciso VI, artigo 1º do Decreto nº 3.079
{D,3079;A,1; IR,6}
“Certidão dos documentos referidos na Letra "b", I.”
{D,3079;A,1;IR,1;AL,2}
Artigo 3º, §2º, do Decreto nº 1.752
{D,1752;C,3; A,3;P,2}
“Os especialistas referidos no inciso I serão indicados pelo …”
{D,1752;C,3;A,3;IR,1}
Tabela4Exemplosdeendereçosnaformanormaldeendereçamento
A forma normal de endereçamento é utilizada para gerar o endereço de cada segmento
reconhecido,independentementedeestesercitadoounão.Esteendereçoéútiltambém
na base de dados, funcionando como um campo de identificação‐chave único para cada
segmento.
24Acitaçãoestáemnegrito.Asvizinhançasforammantidasparaexemplificação.
66
3.6.3 EstabelecimentodeLinks
A etapa de estabelecimento de links vai utilizar os resultados da etapa de extração das
citações juntamente comoconceitodeendereçamentode segmentospara identificaros
segmentoscitadoseestabelecerolink.Estaetapapodeserestruturadaconformemostrao
Algoritmo8aseguir.
sub geraLinks { foreach $segmento ( @dados ) { # para cada segmento foreach $citacao ( &extraiCitacao($segmento) ) { $segmento{CIT} = &analisaLink($segmento, $citacao); $segmento{TEXTO} = &substituiTokens($segmento); # substitui os tokens pelo texto original } } }
Algoritmo8Processodegeraçãodelinks
Afasemaisimportantenestaetapaéaanálisedelinks.Partindodasmarcaçõesfeitaspela
extraçãode links, a fasedeanálisede links vaidecomporacitaçãoemumaestruturade
pares,abordadanaSeção3.6.3.1.Apartirdestaestrutura,estaetapageraoendereçoda
citaçãona formanormal,abordadonaSeção3.6.3.2.Emseuúltimopasso,pesquisapelo
segmentonabasededadoseestabeleceolink.OAlgoritmo9apresentaaanálisedelinks
estruturada.
sub analisaLink ( $segmento, $citacao ) { # Analisa a citacao, e se encontrou o segmento citado estabelece o link. # Caso contrário, estabelece link com uma mensagem. @pares = &compoePar($citacao); @enderecoCitacao = &FormaNormalEndereco(@pares); # gera endereco na Forma Normal &comparaFormaNormal (@enderecoSegmento, @enderecoCitacao); if ( &FindNorma(@enderecoCitacao) ) { # se o segmento citado está no banco de dados print "Estabelece LINK com o segmento citado"; # estabelece o link return &estabeleceLink($segmento, $citacao); } else { print "Estabelece link com mensagem"; $mensagem = "O segmento citado não está no Banco de Dados"; return &estabeleceLink($segmento, $mensagem); } }
Algoritmo9Análiseeestabelecimentodelinks
67
Casoo segmentoprocuradonãoestejapresentenabasededados, o linké estabelecido
comumamensagempadrão.
3.6.3.1 EstruturadePares
Aestruturadepares éumaestrutura intermediária entre a citaçãoe a formanormal de
endereçamento.Écompostaporparesformadospelotipodosegmentoeseuidentificador
quandopresente.Cadaníveldesegmentomencionadonacitaçãopossuiseupar.
Aestruturadeparessuportacasosnosquaisoidentificadorestáausenteouédeterminado
pela presença de algummodificador. No caso dasNEJBs, osmodificadoresmais comuns
são:deste(a),neste(a),este(a),anterior,único.Modificadorescomoestesserãoanalisados
na traduçãoparaoendereçona formanormale convertidospara identificadores.Alguns
exemplosparaaestruturadeparesestãonoquadroabaixo.
Hospedeiro: {D,1282;EN,2} 1.1 Citação: “Artigo 84, Inciso IV, da Constituição” Pares: [nivel 0] TIPO: Constituição ID: ausente [nivel 8] TIPO: Artigo ID: 84 [nivel 9] TIPO: Inciso ID: IV 1.2 Citação: “Lei n° 4.771, de 15 setembro de 1965” Par: [nivel 0]: TIPO: Lei ID: 4771 Hospedeiro: {L,3017;PT,2;L,4;T,3;C,8;A,1704} 2.1 Citação: “art. 1.679” Pares: [nivel 8] TIPO: Artigo ID: 1679 Hospedeiro: {D,1752;C,3;A,3;P,5} 3.1 Citação: “inciso IV deste artigo” Pares: [nivel 8] TIPO: Artigo ID: modificado-deste [nivel 9] TIPO: Inciso ID: IV Hospedeiro: {D,1282;C,2;A,8;P,2} 4.1 Citação: “parágrafo anterior” Pares: [nivel 9] TIPO: Parágrafo ID: modificado-anterior
Quadro2ExemplosdaestruturadeparesaplicadaàsNEJBs
Aestruturaemparesrespeitaonívelhierárquicodecadapartedacitaçãoeordena‐osde
modoa identificar facilmenteomenornívelnahierarquia (quecorrespondeaoelemento
citado). Esta estruturação é o primeiro passo na interpretação da composição livre das
citaçõesparaumformatoestruturado.
68
3.6.3.2 GeraçãodoEndereçonaFormaNormal
Conforme mostram os exemplos anteriores, a estrutura de pares incorpora somente os
segmentosexplicitamentepresentesna citação.A traduçãodaestruturadeparesparao
endereçonaformanormaltratadetrêscasosemespecial,abordadosaseguir.
Caso 1 – A citação refere‐se a um documento externo: Quando ocorre esta situação
sempreexisteonível0naestruturadepares,eosdadosdestenívelsãodiferentesdonível
0dohospedeiro.Nestecaso,aestruturadeparesnemsemprerefletetodaahierarquiade
níveisdodocumentocitado.
Por exemplo, a estrutura depares para citação 1.1 noQuadro2 acima contém somente
trêsníveis,correspondendoaosníveismencionados.Colocandoestaestruturadiretamente
naformanormal, tem‐se: {CF;A,84;IR,4}.Noentanto,oendereçonaformanormalparao
segmentomencionadoé{CF;T,4;C,2;S,2;A,84;IR,4}.
Paraatraduçãoparaaformanormalénecessárioprocurarosegmentonabasededados,a
partirdosdadosdisponíveis.Noexemploacima,seriafeitaumapesquisaporumsegmento
dotipo“A”deartigoecomidentificaçãoiguala84.Aoencontrarestesegmentoosdados
faltantesnaformanormalsãocompletadosgerandooendereçocorreto.
Caso 2 – A citação faz referência a um segmento domesmo documento: Nestes casos,
normalmente a referência ao nível 0 está ausente ou, estando presente, refere‐se ao
mesmo documento do hospedeiro. Isto ocorre porque a citação utiliza de seu contexto
abreviando o número de níveis citados. Esta noção de contexto é particularmente
importante.
Ocontextodacitaçãoéderivadodoendereçodosegmentonoqualacitaçãoseencontra.
Assim,onível0dacitaçãoéderivadodiretamentedosegmentoqueahospeda.Acitação
2.1 mostra esta situação. O endereço da citação traduzido diretamente para a forma
69
normal gera: {A,1674}. O contexto derivado do hospedeiro complementa o endereço
gerando:{L,3017;A,1674}.Oendereçoaindaprecisasercompletadocomosoutrosníveise
procede‐se do mesmomodo que o passo anterior. O artigo 1674 é procurado entre os
segmentos da Lei nº 3.017 e o endereço completo passa a ser:
{L,3017;PT,2;L,4;T,3;C,7;A,1679}.
Caso3–Acitaçãopossuimodificadores:Estecasoéumavariaçãodoanterior.Ocontexto
da citação também é referenciado, mas aparece modificado pela presença dos
modificadoresmencionados.Nestecaso,atraduçãoparaaformanormalexigeumcálculo
adicional sobre os dados do contexto para determinar os identificadores da citação. As
citações3.1e4.1mostramestasituação.
Nacitação3.1ocontextoé{D,1752;C,3;A,3},omodificador“deste”noníveldeartigofaz
com que todo o endereço até o nível de artigo seja herdado pela citação e, assim, o
endereçonaformanormalparaacitaçãopassaaser:{D,1752;C,3;A,3;IR,6}.
Nacitação4.1,ocontextoé{D,1282;C,2;A,8;P,2},omodificador“anterior”nonível9força
uma comparação com o mesmo nível do contexto {P,2}, resultando em {P,1} para o
anterior. A partir da aplicação da intersecção o endereço da citação passa a ser:
{D,1282;C,2;A,8;P,1}.
Oendereçodacitaçãonaformanormaléutilizadocomomecanismodebuscadosegmento
na base de dados. Uma vez encontrado, o link é estabelecido e as informações sobre o
segmentoreferenciadosãoarmazenadasnabasededadosdeacordocomomodeloparao
tipododocumento.
70
3.7 ConstruçãodoHipertexto
Para a construção do hipertexto são realizadas repetidas consultas nos dados para
recuperar segmentos e seus segmentos filhos. Uma vez recuperados, os dados são
codificadosemuma linguagemespecífica.A restriçãoéquea linguagemescolhida tenha
suporteparaoestabelecimentodelinksentreossegmentos.
Aescolhada linguagemparaacodificaçãodosdados tambémestávinculadaaomeiode
divulgação que se deseja utilizar. Para a divulgação de dados na WWW da Internet é
adequadoqueosdados sejamcodificadosemHTML. JáparaadistribuiçãoemCD‐ROMs
outras alternativas podem ser consideradas. A base de dados resultante do processo de
conversão pode ser utilizada para fornecer diversos tipos de consultas: por assunto, por
ordemcronológicaouportipodedocumento.
71
4 NORMAS:ANATUREZADAINFORMAÇÃOESEUSUSOS
O conceito de norma abrange um amplo conjunto de idéias. Este capítulo investiga as
normasestatutárias jurídicasbrasileiras,quesãoodomíniodeaplicaçãodo trabalho,em
suas diversas características: a natureza intrínseca a sua composição, seus usos atuais e
tendênciasparaestabelecerdefiniçõesprecisassobreasquaisatuar.Assim,estecapítulo
estádedicadoa:
• Estabelecerumaconceituaçãosobreestedomíniodeaplicação.
• Investigaraestruturaçãoesegmentaçãodeumanorma.
• Apresentar uma definição formal de normas e um modelo de dados para
normas,comoresultadodasinvestigações.
72
Essa investigação é necessária porque o conjunto que compõe as normas estatutárias
jurídicasbrasileiraséodomíniodeaplicaçãodaferramentaWebifyLawdesenvolvidanesse
trabalho.
4.1 ConceitodeNorma
Normaé“aquiloqueseestabelececomobaseoumedidaparaarealização
ou a avaliação de alguma coisa; princípio, preceito, regra, lei; Modelo,
padrão”25.
4.1.1 TiposdeNormas
Normas estatutárias jurídicas são um conjunto resultante da interseção de outros dois
conjuntos:odenormasestatutáriaseodenormas jurídicas.Normas jurídicas,noâmbito
destetrabalho,sãoresultantesdedecisõesdopoderLegislativoesãonormascujaagência
formuladora26 é o Estado, ou uma subdivisão deste. Além disto, uma norma jurídica
estabelece,implícitaouexplicitamenteumcontrato27entremembrosdacomunidade.
As normas que não estabelecem um contrato são consideradas normas não‐jurídicas.
Encaixam‐senestadefiniçãoasnormasformuladasporcomissõesnão‐governamentais,de
organizaçõespúblicasouprivadas,comoporexemploasnormastécnicasdeorganizações
comoaABNTnoBrasileaISOnomeiointernacional.
25DicionárioAurélio[15].26Aagênciaformuladoraéumaorganização,oupartedeuma,responsávelpeloregistrodosinteressesconsensuaisdeumadadacomunidade,grupo,organizaçãoouconsórciodeorganizaçõesqueadotaanorma.Étambémresponsávelpormanteracustódiadosdocumentosoriginaisdanorma.27Umcontratoéalegitimaçãodeumacordoentrepartes.Numanormajurídica,ocontratoéconhecidocomocontratosocial,ecorrespondeàsregrasquedevemsercumpridasparaaintegraçãonacomunidade.QuandotalcomunidadeenglobatodososmembrosdoEstado,estacomunidadecorrespondeàsociedade.Destemodo,aconstituiçãodeumanaçãoestabeleceasregras–direitosedeveres–dosmembrosdacomunidade,formadaportodososcidadãos.
73
Normas estatutárias são documentos previstos e determinados por um estatuto. Sua
funçãoé regulamentaro funcionamentodacomunidade regidapor talestatuto.Algumas
propriedadesgerais,queasdistinguemdasnormasnão‐estatutáriassão:
1. Odocumentoégeradocomafinalidadeprincipalderegistrarumanorma.
2. Possuiumaúnicaagênciaformuladoraqueaformulaeatualiza.
3. Sãodocumentos livres de acréscimos não‐relativos à norma.Odocumentona
íntegra consiste no texto da norma. Mesmo quando possui apêndices, estes
tambémsãopartesconstituintesdanorma.
Por fim, as normas estatutárias jurídicas – NEJs, pela aplicação da interseção, são
documentos pertencentes a um estatuto e, com valor de tal, formulados através de
agênciasestataisquedefinemregrasparaosmembrosdoEstadoousubdivisãodeste,de
acordo coma agência formuladora.Assim, umanorma formuladapor ummunicípio tem
comoagênciaformuladoraosórgãosLegislativoouExecutivodomunicípio.Eporprincípio,
se aplica aos membros de tal comunidade, que correspondem aos cidadãos do mesmo
município.
4.1.2 CaracterísticasdeNormas
AoprocurarestabelecercaracterísticasdasNEJBsfoifeitaumapesquisapormeta‐normas28
quedefinissema composiçãoe estruturaçãodenormasdeste conjunto.Noentanto, foi
verificado que essas meta‐normas nunca foram formalizadas. Buscava‐se uma norma
semelhante à NBR 6822 – “Preparo e Apresentação de Normas Brasileiras” – norma da
ABNTquedefineacomposiçãodenormastécnicas.Talnorma,mesmoapresentandocertas
definiçõeserestriçõesparticularesàsnormastécnicas,apresentaumarcabouçoaplicávela
normas gerais. Entretanto, na falta dessa formalização, as características particulares de
74
textos de normas foram estabelecidas a partir da consulta e observação dos textos de
normasedapesquisaemliteraturaespecializada.
Sobre a redação de normas, duas colocações extraídas da NBR 6822 são de grande
importância:
“Aredaçãodanormatemestilopróprio,lingüisticamentecorreto,sempreocupaçõesliteráriasetantoquantopossíveluniforme.Aqualidadeessencial
éaclarezadotexto,paraevitarinterpretaçõesdiferentes.”
[NBR6822,PrincípiosGerais,seção5.1.1]
“Asprescriçõesdeumanormadevemserredigidasdemaneiraimpessoalesemapreciaçõessubjetivas,…”
[NBR6822,Prescrições,seção5.2.1]
Destas afirmações podemos extrair características básicas para as normas estatutárias
jurídicas:
• Corretude Lingüística: O texto de uma norma passa por verificações lingüísticas e
revisõesantesdeseraprovadoepublicado.
• Uniformidade: Garante que todas as normas seguem as mesmas diretivas e
apresentam‐se uniformes com relação a forma e estilo. Apesar da ausência de
meta‐normas, a uniformidade é garantida pela forte influência que a tradição
representanaredaçãodenormasjurídicas.Estatradiçãofazcomqueaoescreverum
texto de normas procure‐se seguir amesma estruturação hierárquica utilizada nos
textosmaisantigos.
• Clareza: Visando atingir esta característica as frases do texto de uma norma são
preferencialmenteconstruídasemordemdiretaesãocurtas“parafacilitaroperfeito
entendimento”. São empregadas palavras de uso corrente, sentido preciso e
não‐ambíguo geralmente pertencente a um conjunto de vocábulos restrito. Essa
característicagarantequecadapalavrapossuisomenteumúnicosignificadodentro
28Tambémconhecidasnesteâmbitocomonormasdeformatação.
75
deumanorma.Quandoestaregranãoécumprida,háreferênciaexplícitaaestefato
noprópriotextodanorma29.
• Colocações Diretas: Esta característica reforça a clareza do texto, e facilita o
tratamentoautomatizadoporprocessamentodalinguagemnatural–PLN.
4.1.3 PrincípiosparaoTratamentodasNEJBs
Ascaracterísticasmencionadasna seçãoanteriorpermitem identificar trêsprincípiosque
indicam que o tratamento automatizado de normas é possível. Esses princípios são
discutidosaseguir.
Oconteúdodeumanormaésuficienteparaoentendimentoeinterpretaçãodamesma.
Outrasnormasquepodemestarcitadasduranteotextodeumanorma,assimsãocoma
intençãode fornecer informaçõesextras,cujaausêncianãocomprometeoentendimento
damesma.DeacordocomaNBR6822,omesmopodeseraplicadoàsnotas:
“Asnotasderodapésãodecaráterinformativo,sendoutilizadasparaprestaresclarecimentos,justificativas,deduções,demonstrações,explicações,chamar
atençãoparaalgumaparticularidade,fazerreferênciaaumaprescriçãodeoutraseçãooudeoutranorma,comtalconteúdoqueasuaeliminaçãonãotornea
normaincompleta.”
[NBR6822,Notas,seção4.3.5.1].
Normassãoredigidasemumalinguagemquediferedalinguagemnaturalporterumníveldeambigüidademenorecontrolado.
Umadasjustificativasparaistoéquealinguagemutilizadanaredaçãodenormastemum
estilo próprio, em oposição ao estilo livre ou a ausência de estilo que rege a linguagem
natural. O tratamento automatizado de normas jurídicas é, portanto, um problema de
complexidade computacional e lingüística muito menor que o tratamento de linguagem
natural.
29Porexemplo,noCódigodasÁguas,otermo‘corrente’éutilizadoemreferênciaacorrentesdeáguaeesteéosignificadoúnico,emboraovocábuloemsipossaassumiroutrossignificadosemdiferentescontextos.
76
Uma norma jurídica está inserida em um contexto de normas maior com relaçõesparticularesentresi.
Este contextomaior é referidona teoriadoDireito comoordenamento jurídico [Bobbio].
Umanormajurídicaapesardeterconteúdosuficienteparaoseuentendimento,nãoexiste
isoladamente. A análise das relações entre normas é importante para um entendimento
maiordatotalidadedesuaaçãodentrododomíniodoDireito.DeacordocomBobbio[7]:
“apalavra‘direito’,entreseusváriossentidos,temtambémode‘ordenamentojurídico’,porexemplonasexpressões‘Direitoromano’,‘Direitocanônico’”
[7],p.19
Outrascaracterísticasdenormassãoprovenientesdasuaestruturaçãoeserãoabordadas
napróximaseção.
4.2 EstruturaçãoeSegmentaçãodeumaNorma
Aprincipaljustificativaparaointeressenotratamentoautomatizadodenorma,entretanto,
não são as características apresentadas na Seção 4.1.3. O atrativo principal decorre da
constataçãodequehipertextossãoumaformanaturaleeficienteparaarepresentaçãoe
uso de normas. Essa constatação advém do fato que normas são textos altamente
estruturados. A exploração dessa estrutura permite a construção automatizada de
hipertexto.
Há quatro elementos básicos na estruturação de normas: sub‐divisão do texto, estrutura
hierárquica,correlaçãoentreasestruturassemânticaseexplícita,esegmentação.
O texto de uma norma pode ser sub‐dividido e apresenta uma segmentação internainerenteàsuacomposição.
Com relação a sua estruturação geral, os textos de normas “são em geral modulares,
explicitamentesegmentados” .DeacordocomaNBR6822,talpropriedadeé intrínsecaa
qualquer norma, e independentemente do seu tipo apresentam a estruturação geral a
seguir:
77
“Independentementedoseutipo,umanormacompreende,nasuaapresentaçãomaiscompleta,de:
a) identificação;b) elementospreliminares;c) textosubdivididoemcapítulos;d) elementoscomplementares.”
[NBR6822,EstruturadasNormas,seção4]
Estacitaçãovemreforçaroutroaspectonaestruturaçãodenormasqueéasegmentação
interna,particularmenteatravésdoitemc.Emboraaexperimentaçãomostrequediversas
normas empregam divisão em outras variantes além de simplesmente capítulos30, tal
constatação não torna seu propósito falso, mas em contrapartida, vem reforçá‐lo. Por
exemplo, no conjunto de normas estatutárias jurídicas é comum a presença de seções
comoparte,livro,títuloecapítulo.
Aestruturatípicadeumanormaestatutáriajurídicaéaestruturahierárquica.
Asubdivisãodotextomencionadaacimanãodefineumaestruturaespecífica,quepoderia
ter a forma de um grafo sem restrições ou assumir uma estruturamais formal, como a
estrutura na forma de árvore. A observação de textos de normas permite notar que os
mesmos são normalmente segmentados de modo a manter uma estrutura interna
hierárquica,conformedefineaNBR6822:
“Otextocontémasprescriçõesdanormaeapresenta‐sesubdividoemseçõeseeventualmente,alíneasesubalíneas,incluindotambém,figuras,tabelas,notase
anexos.”
[NBR6822,EstruturadoTexto,seção4.3]
Na composição de normas, para tentar atingir as características de significado claro e
não‐ambígüo, cada elemento explora um assunto único. Quando há necessidade de
mencionar outro assunto, outro elemento é criado com esta função. De acordo com as
relaçõesentreosassuntos,esteselementospassamaoupertenceraumamesmaclasse,
ouumpassaaestarsubordinadoaooutro.Porexemplo,oartigo1ºdoCódigodasÁguas,
Decretonº24.4643,diz:
30 No conjunto de NEJBs , notou‐se também a presença de seções nomeadas como “livro”, “titulo” e “seção”, além dotradicional“capítulo”.
78
“Aságuaspúblicaspodemserdeusocomumoudomiciliares.”
Estaafirmaçãonecessitadaespecificaçãodoquesãoconsideradaságuasdeusocomum.
Tal informação trata de um assunto derivado deste, e que por ter importância relativa,
passa a ser apresentada no próximo artigo, que vai especificar todos os tipos de águas
comuns.
Em outros casos, a informação complementar pode ser convertida em parágrafos para
aqueleartigooumesmoalíneas.Analogamente,estadivisãoocorretambémparaasseções
esuassub‐seçõesquandooassuntoémaisabrangente.
Porexemplo,ocódigocivilnaParteEspecial,LivroI,oTítuloIédedicadoaocasamentoe
assim intitulado: “Do Casamento”. Com relação a este assunto os vários tópicos estão
divididos em capítulos, nomeando‐os: “Das Formalidades Preliminares”, “Dos
Impedimentos”, “DaOposição dos Impedimentos”, “Da Celebração do Casamento”, “Das
ProvasdoCasamento”,“DoCasamentoNuloeAnulável”,e“DisposiçõesPenais”.Emoutros
casos,adivisãocontinuaaexistirnoscapítulosemseçõesesub‐seções.
Atravésdesteexemplo,ficaclaroqueaestruturaimplícitanotextodeumanormaéuma
estruturaquepartindodeumageneralidaderamifica‐seemváriostópicossobreoassunto
principal,naformadeumaestruturahierárquica.
Normas possuem uma relação direta entre a sua estrutura semântica e sua estruturaexplícita. Tal relação é proporcional à clareza semântica e à não‐ambigüidade de seuselementos.
Adotando‐se a posturadequeumanormapossui umaestruturahierárquica, e que cada
elementotratasomentedeumúnicoassunto,pode‐seconsideraro textodeumanorma
como composto por elementos hierarquizados com significados semânticos distintos.
Através de um mapeamento, é possível identificar uma estrutura que representa a
segmentação semântica do texto. Indo além, este mapeamento corresponde à
segmentação explícita do texto, a suas divisões entre seções, artigos, parágrafos, itens e
79
alíneas. Através do exemplo anterior, verifica‐se que a segmentação por assunto
correspondeàsegmentaçãohierárquica.
Otextodeumanormaestatutáriajurídicapodeserorganizadoemsegmentos.
A segmentação do texto de uma norma é um caso particular da modularização. Na
segmentação, é aplicado um único critério de modularização sobre todos os módulos
obtendo elementos com ummesmo nível de granularidade, chamados de segmentos. A
segmentação proposta considera a frase como o elemento mínimo de uma norma,
definindo‐ocomoumsegmentodeumanorma.Estadefiniçãoodeterminatambém,como
sendo o elemento mínimo citável31. Tendo como base a estrutura explícita da norma é
possívelsepará‐laemdiversossegmentos,comacertezadequeestespossuemsignificado
semânticoecoesãointerna.
Uma vez queumanormapossui umaestruturação explícita (essencial para a geraçãodo
hipertexto) e que sua segmentação pode realmente ser realizada do ponto de vista
semântico(semdanosparaseusignificado),pararealizartalsegmentaçãoesteprojetovai
seapoiaremumadefiniçãoformaldestaestrutura.Apartirdessadefinição,elementosde
umanormapodemser comparados comoselementosdadefiniçãoe identificados como
segmentos.Comadefiniçãodesegmentos,queéumapropostaoriginaldessetrabalho,é
possível realizar um tratamento formal das NEJBs. A Seção 4.3 a seguir detalha esse
tratamento.
31 O elementomínimo citável é uma definição importante para a identificação das citações presentes nos segmentos denormas, pois corresponde ao menor elemento que pode ser referenciado por uma citação. Essa definição impede, porexemplo,queumalinhaoupalavrasejamreferenciadasemumacitação.
80
4.3 DefiniçãoFormaldasNEJBs
Para suprir a ausência demeta‐normas para a composição e verificação do conjunto de
NEJBs foi estabelecida esta definição formal através da análise de diversos documentos
pertencentesaesteconjunto.
Adefiniçãoformalpropostautilizadoisrecursosparaespecificaraestruturaçãoexplícitae
asintáticadoconjuntodeNEJBs:
• UmaespecificaçãoderegrasdeproduçãoparaoconjuntodeNEJBs,apresentada
naSeção4.4.
• Umconjuntode regras de validação especificado através dedescrições informais
emlinguagemnaturalexplicitandoalgumasrestriçõesenvolvendoasemânticados
elementos,apresentadasnaSeção4.4.3.
4.3.1 FundamentaçãoTeóricaparaaDefiniçãoFormal
Gramáticas,especificações finitaspara linguagens, resultaramdoestudoparaestabelecer
meios de fornecer descrições estruturais das sentenças. Este estudo foi iniciado por
lingüístaseinicialmentevoltadoparaaslinguagensnaturais[21].Oconceitodegramáticaé
baseadonasseguintesdefinições:
• Símbolosnão‐terminais:Umsímboloquerepresentaumaconstruçãogramaticalque
pode ser expressa através de regras em termos de construções menores [12].
Originalmenterepresentadosentreossímbolos“<”e“>”,aquiestesforamabolidos
parafacilitaraleitura.
• Símbolos terminais: Palavras que pertencem à sentença final. Na definição aqui
adotada estão sempre representados entre aspas duplas “”, tendo seu significado
81
literal.Otextoéindiferenteparaletrasmaiúsculaseminúsculas32,amenosqueseja
explicitamentemencionadoocontrário.
• ProduçõesouRegrasdeprodução:Sãorelacionamentosexistentesentrevariáveise
símbolosterminais,indicandomeiosdederivarosdiversoscomponentes.
• Símboloinicial:Éosímboloquedáinícioàsregrasdeprodução.Nadefiniçãoformal
paraNEJBsestesímboloéNorma,especificadanaregra1,naSeção4.4.
UmagramáticaéformalmentedefinidacomoumatuplaG(VN,VT,P,S)onde:
• VNrepresentaoconjuntodossímbolosnão‐terminaisouvariáveis;
• VTrepresentaoconjuntodesímbolosterminais;
• Prepresentaasproduçõesouregrasdeprodução;
• Srepresentaosímboloinicial.
Asrestriçõesparaestesconjuntossão:
• OsconjuntosVNeVTnãopossuemelementosemcomum,assim:VN∩VT=∅;
• OconjuntoresultantedauniãodeVNeVTédenotadoporV,assimVN∪VT=V;
• OconjuntodeproduçõesPpossuiregrasdaforma:αβ.Ondeαéumsímbolode
V+eβéumsímbolodeV*.
• OsímboloSésempreumsímbolodeVN.
Aplicando‐se as regras definidas emG, teremos uma linguagem gerada por G, denotada
L(G). Assim, uma seqüência de símbolos pertence a L(G) se a seqüência possui somente
termosterminaisepodeserderivadaapartirdosímboloinicialS[21].
32Noinglês,otextoécaseinsensitive.
82
Entre os vários tipos de gramática, asGramáticas Livre de Contextooudo Tipo 2 são de
relevânciaparaestetrabalho.NestasgramáticastodaregradeproduçãoemPobedeceàs
seguintesrestrições:
α β ;ondeα éumaúnicavariáveleβ équalquerseqüênciadecaracteres,com
exceçãodaseqüênciavazia∈ .
Aβ ;ficasendoaregradeproduçãodasgramáticaslivredecontexto
Onome livrede contexto derivadestaúltima regradeproduçãoquepermitequeA seja
substituídaporβ independentementedocontextonoqualAaparece.
A forma normal de Chomsky para gramáticas livre de contexto determina que qualquer
linguagemlivredecontextopodesergeradaporumagramáticanaqualtodasasproduções
sãodaforma[21]:
ABCouAa;ondeA,BeCsãovariáveiseaéumtermoterminal.
OconjuntodasregrasdeproduçãoparaasNEJBsseguemestasdefinições.Noentanto,a
notação adotada aqui é a notaçãoBNF estendida, similar à utilizada na RFC nº 822 [35].
AlgumasconstruçõesdaBNFestendidafacilitamoentendimentodasregrasdeproduçãoe
são de grande relevância para este trabalho. Estas são reproduzidas a seguir com
acréscimosparaadequaçãoàsNEJBs.
RegradeComposiçãoderegrasdeprodução:
nomedefinição
Esta regra determina que toda ocorrência de nome é substituída pelos elementos
especificadosemdefinição,ondenomeéumúnicosímbolonão‐terminaledefiniçãopode
serumcompostodesímbolosnão‐terminaiseterminais.Estadefiniçãoestádeacordocom
asespecificaçõesdasregrasdeproduçãoparaumagramáticalivredecontexto[21].
Umexemploderegrasdeproduçãonesteformato:
83
DataAbrevDia”/”Mes”/”Ano
Dia0‐31
Mes1‐12
Ano1900‐1997
RegradeAlternativa:
regra1/regra2
Abarra“/”representaum“oulógico”,assim“primeiro”/“segundo”especificaquetanto
primeiroquantosegundosãoaceitos.
RegradeAgrupamento:
(regra3regra4)
Elementosemparêntesessãotratadoscomoumaseqüência,comopartesdeummesmo
grupo.Porexemplo:
(“ab”(“c”/”d”)“ef”) permiteasseqüências:“abcef”e“abdef”
RegradeRepetição:
<n>*<m>regra5
onde:
<n>éopcionalerepresentaonúmeromínimodeocorrênciasderegra5.
<m>tambéméopcional,representaonúmeromáximodeocorrênciasderegra5.
Naausênciade<n>e<m>,aregrapermite0ouinfinitasocorrênciasderegra5,permitindo
qualquernúmerodeiterações.
Porexemplo: 1*(“abc”) permiteseqüências:“abc”,“abcabc”,…
2*3(“abc”) permiteseqüências:“abcabc”e“abcabcabc”.
RegraOpcional:
[regra6]
Esta regra determina que o conteúdo entre chaves é opcional, podendo ocorrer ou não.
Trata‐sedeumarepresentaçãode:*1regra6,nomínimozeroenomáximo1ocorrência.
84
RegradeRepetiçãoEspecífica:
nregra7
Estaregraespecificaumnúmeroexatoderepetiçõesdaregra.Porexemplo:
2(“ab”)3(“c”) permitesomenteaseqüência:“ababccc”.
RegraComentário:
;comentário
Permitequecomentáriossejamcolocadossempreàdireitadeumaregradeprodução.Por
exemplo:
StartItem1/Item2 ;regrainicialdasproduções
4.3.2 AplicaçãoparaoConjuntodasNEJBs
AdefiniçãodeumagramáticaparaoconjuntodasNEJBsexigealgumasdefiniçõesrelação
aoalfabetoutilizadopelagramática.Oalfabetoouvocabulárioéoconjuntodevocábulos
definidospela línguaportuguesa.Esteconjunto,apesardepossuirumgrandenúmerode
elementos,éfinito.
As siglas e abreviaturas devem ser controladas de algum modo. Uma sugestão seria a
criaçãodeumbancodedadosoficial comagrafiacorretaeosignificadoadotado.Outra
solução seria a adoção de umaoumais definições comoumpadrão a ser seguido. Seria
necessária uma custódia de um órgão (governamental ou não) que se responsabilizasse
pelamanutençãoe atualizaçãodesta informação.Hoje, temos conhecimentodediversas
agências nacionais como: CONAMA, IBAMA, entre outras. A existência de um banco de
dadosoficialajudarianaidentificaçãodestasagências,deseusresponsáveiseinclusivedos
seusperíodosdeexistência.
Ossímbolosnão‐terminaisparaagramáticadeNEJBséumconjuntoextensoeestálistado
noglossárioqueencontra‐senoApêndiceA.
85
4.4 RegrasdeProduçãoparaasNEJBs
Comoumprimeiropassonoestabelecimentodadefiniçãoformalfoidefinidoumconjunto
deregrasqueseaplicamaqualquertextoescritoemportuguêsdoBrasil.NaSeção4.4.2
sãoapresentadasasregrasdeproduçãoparaoconjuntodasNEJBs.
4.4.1 RegrasdeProduçãoparaoPortuguêsdoBrasil
As regras apresentadas na Tabela 5 definem o conjunto de caracteres válidos quando
compondoouanalisandoumtextoemportuguês.Asregrasforambaseadasnovocabulário
definidonoFormulárioOrtográficoaprovadopelaAcademiaBrasileiradeLetrasem1943e
regulamentadopelaLeinº5.765.Acréscimosforamfeitosparaincluir:
• caracteresespeciaisutilizadosnoâmbitodasNEJBs,porexemploosímbolo“§”;
• termosespecíficosdoprocessamentodetexto,comoporexemploocarriagereturn
eolinefeed.
De acordo com a definição aqui adotada, equações, gráficos, tabelas e similares serão
tratados como elementos externos ao texto da norma, e assim sendo, não serão
processadosouverificadosdentrodoescopodestetrabalho.
REGRASDEPRODUÇÃO COMENTÁRIOS
Ctl <caracteresdecontroleASCII,maisoDEL>
Cr <“retornodecarro”doASCII,carriagereturn>
Lf <novalinhadoASCII,linefeed>
CarEsp <espaçodoASCII,space>
Tab <tabhorizontaldoASCII,horizontal‐tab>
Crlf CtlLf
Esp 1*(CarEsp/Tab) ;espaçogenericamente
EspLn EspCrlf ;Espcomnovalinha
Pt “.” ;caracterpontofinal
2p “:” ;caracterdoispontos
Vg “,” ;caractervírgula
Pv “;” ;caracterponto‐e‐vírgula
Hf “‐”/“–”
Br “\”/“/” ;todasasbarras
Figura,tabela, <externos> ;elementosforadoescopo
86
REGRASDEPRODUÇÃO COMENTÁRIOSequação,... destasregrassão
consideradosexternos
LminOrd “a”/“b”/“c”/“d”/“e”/“f”/“g”/“h”/“i”/“j”/“l”/“m”/“n”/“o”/“p”/“q”/“r”/“s”/“t”/“u”/“v”/“x”/“z”
;letraminúsculabrasileiraordinária,23letras.
LminEsp “ç”/“ü”/“à”/“ã”/“õ”
LminAcent “á”/“é”/“í”/“ó”/“ú”/“â”/“ê”/“î”/“ô”/“û”
LetraMin LminOrd/LminEsp/LminAcent
LmaiOrd “A”/“B”/“C”/“D”/“E”/“F”/“G”/“H”/“I”/“J”/“L”/“M”/“N”/“O”/“P”/“Q”/“R”/“S”/“T”/“U”/“V”/“X”/“Z”
;23letrasdoalfabeto,nãoconsideraacentuação.
LmaiEsp “Ç”/“Ü”/“À”/“Ô/“Õ”
LmaiAcent “Á”/“É”/“Í”/“Ó”/“Ú”/“”/“Ê”/“Ô”/“Ô/“Õ”
LetraMai LmaiOrd/LmaiEsp/LmaiAcent ;qualquerletramaiúscula
LetraEsp LminEsp/LmaiEsp ;qualquerletraespecial
LetraOrd LminOrd/LmaiOrd ;qualquerletraordinária
LetraAcent LminAcent/LmaiAcent ;qualquerletraacentuada
Letra LetraMai/LetraMin/LetraAcent ;qualquerletra
Separador “‐” ;hífen‐ASCII30
PontFinal “.”/“!”/“?”/“:”/“...” ;pontuaçãodefinaldefrase
PontGen “,”/“;”/“–”/PontFinal ;pontuaçãogenérica
PontItem “*”/“§”
Delimit <“>/“[“/“]”/“(“/“)”/“’” ;delimitadoresdetexto
DigArab “0”/“1”/“2”/“3”/“4”/“5”/“6”/“7”/“8”/“9”
DigRom “M”/“D”/“C”/“L”/“X”/“V”/“I” ;dígitosromanos
Número NumArab/NumRom/NumOrd
NumInt (NumInt[pt]3DigArab)/1*3DigArab
NumArab NumInt/NumFrac
NumRom [*M][CM/0*1CD/0*1D3*C][XC/0*1XL/0*1L3*X][IX/0*1IV/0*1V3*I]
NumOrd NumInt(“º“/“°”)
NumFrac NumInt“,”1*2DigArab ;noformato1.123,45
NomeOrd 1*(Letra[Separador/Esp]) ;nomescomcertosignificado
NomeEsp Sigla/1*(Letra[Separador/Esp]) ;nomecomsignificadoespecial
Nome NomeOrd/NomeEsp ;glossariadosounão
Abrev 1*Letra[pt]
Porcent NumArab[Esp]“%”[EspDescr] ;porcentagem
Sigla 1*(Letra/Número) ;qualquerSigla
Cifra Sigla“$”[Esp]NumArab
Palav 1*(Letra[Separador])
Vocab Palav/Nome/Número ;qualquervocábulo
Descr “(“1*Vocab“)” ;descriçãoentreparênteses
Expr (<”>/“’”)1*Vocab(<”>/“’”) ;expressãoentreaspas
Frase 1*(Vocab/Descr/Expr[esp])[PontGen]
ParagGen 1*FraseEspLn
Tabela5Regrasparaadefiniçãodetextobrasileiro,baseadonalínguaportuguesa
87
4.4.2 RegrasdeProduçãoparaoconjuntodasNEJBs
AsregrasdeproduçãoparaoconjuntodasNEJBssãoapresentadasnaTabela6aseguir.A
notaçãoadotadafoiaBNFqueéumanotaçãoquepermitegerarregrasqueestabelecema
sintática de cada elemento pertencente a um conjunto e além disso, permite definir
restriçõessobreahierarquiaentreesseselementos.
As regras de produção, parte da definição de uma gramática, foram descritas para o
conjuntodasNEJBscomaintençãodeservircomo:
• guianacriaçãoeescritadenovasnormas;
• baseparaaconstruçãodeumprocessodeanálisedasnormaspertencentesaoconjunto
dasNEJBs.
Apreocupaçãoconcentra‐senoaspectoestrutural,hierárquicoemorfológicodasnormas.
Osignificadodoselementosnãopodeserrepresentadoatravésdestadefiniçãoformal.
REGRASDEPRODUÇÃO COMENTÁRIOS
1. Norma (CabeçalhoCorpo) ;regrainicial
2. Vocab Palav/Nome/Número/Termo ;redefiniçãodaregraanterior
3. AbrevN “Nº”/“N.º”/“N.”/“N.°”/“N°.”/“N°” ;variaçõesdenº.
4. PrepDE “de” ;preposiçãoDE
5. DataExt DiaEspPrepDEEspMêsEspPrepDEEspAno ;dataporextenso
6. Dia 1*2DigArab<numeralarábicode1a31> ;nomínimo1DigArab
7. Mês “Janeiro”/“Fevereiro”/“Março”/“Abril”/“Maio”/“Junho”/“Julho”/“Agosto”/“Setembro”/“Outubro”/“Novembro”/“Dezembro”
;semdistinçãoentremaiúsculaseminúsculas
8. Ano 1DigArab[pt]3DigArab ;porex.:1.996ou1987
9. Única “Único”/“Única” ;ex.“CapítuloÚnico”
10. Cabeçalho NormaLabel[Apelido][DispInic][EscopoN] ;normasjurídicas
11. NormaLabel (TipoJurEspAbrevN[Esp]NormaID[Esp][hf/vg][Esp]PrepDEEspDataExtEspLn)/TipoConst
;verdadeiroparatodoscasosobservados.
12. TipoJur “Lei”/“LeiDelegada”/“Decreto”/“Decreto‐Lei”/“EmendaConstitucional”/“MedidaProvisória”/TipoConstGen/TipoJurEsp
;indiferenteparamaiúsculasouminúsculas.
13. TipoJurEsp ((“Portaria”/“Instrução”[“Normativa”])/“Resolução”/“OrdemdeServiço”)Instituição
;tipojurquerequerumainstituiçãoapósdescrição
14. TipoJurGen <quaisqueroutrostiposdenormasjurídicas> ;paraexpansãofutura
15. TipoConst “ConstituiçãodaRepúblicaFederativadoBrasil” ;nãorequernumeração.
16. TipoConstGen <quaisqueroutrostiposdenormasconstitucionais> ;paraexpansãofutura
17. Apelido Descr/FraseEspLn ;qualquertexto
88
REGRASDEPRODUÇÃO COMENTÁRIOS
18. DispInic Descr/(Frase[pt])EspLn ;disposiçõesiniciais
19. EscopoN Respons[EspLn]Frase[2p]EspLn ;textoereturn
20. Corpo 1*(Seção/Artigo)
21. Seção Livro/Título/Capítulo/SecaoC/SubSec
22. Livro “Livro”SeçãoLabel1*Título ;requernomínimo1Título
23. Título “Título”SeçãoLabel1*(Capítulo/OutraSec/Artigo) ;casocomumrequerCapítulo
24. Capítulo “Capítulo”SeçãoLabel1*(OutraSec/Artigo) ;casocomumpossuirArtigo
25. OutraSec (SeçãoC/SeçãoS)
26. SeçãoC “Seção”SeçãoLabel1*(SubSec/Artigo) ;seçãocomum
27. SubSec “Sub‐Seção”SeçãoLabel1*Artigo ;sub‐seção
28. SeçãoS [“Seção”]SeçãoLabel1*Artigo ;ocorreSeçãosemLabel
29. Componente 1*(Artigo/Parágrafo/ItensNum/ItensLetra/ItensCom/Anexo/DispFin)
30. Artigo ArtigoLabelCaput[Parags/ItensNum/ItensLetra/ItensCom/*Anexo]
31. Caput Frase[pt/2p]EspLn
32. Parags Parag*(EspLnParag)
33. ItensLetra ItemLetra*(pvEspLnItemLetra)pt
34. ItensNum ItemNum*(pvEspLnItemNum)pt
35. ItensCom ItemCom*(pvEspLnItemCom)pt
36. Anexo AnexoLabel<conteúdoexterno> ;referênciaaoarquivo
37. Parag ParagLabelParagGen[ItensNum/ItensLetra/ItensCom/*Anexo]
38. ItemNum ItemNumLabelParagGen[ItensLetra/ItensCom/*Anexo]
39. ItemLetra ItemLetraLabelParagGen[ItensCom/*Anexo]
40. ItemCom ItemComLabelParagGen*Anexo ;itemcomum
41. DispFin [NomeOrdvgDataExt[pv]ParagGen[pt]]*(NomeOrd[EspLn])
;disposiçõesfinais:dataenomes
42. SeçãoLabel [[Esp]SeçãoID[EspLn][hf]]SecTitEspLn
43. ParagLabel ((“§”[Esp]ParagID[“.”][“º”/”°”])/ParagUn)[Esp][hf][Esp]
;§X.ºouparágrafoúnico
44. ArtigoLabel (“Art.”EspArtigoID[.][“º”/”°”][Esp][hf][Esp]) ;apartirdeID10semº.
45. ItemLetraLabel ItemLetraID(“)”/pt) ;porexemplo:a)oua.
46. ItemNumLabel ItemNumID[Esp][hf][Esp]
47. ItemComLabel [1*DigArab] ;podeservazio
48. AnexoLabel [<ahref=>]“Anexo”[AnexoID][</a>] ;HTMLreference
49. NormaID [*3DigArab[pt]]3DigArab ;formato999.999
50. SeçãoID NumRom/Único ;umnúmeroromano
51. ArtigoID 1*DigArab/NumInt ;nomínimo1DigArab
52. ParagID 1*DigArab/NumInt ;semmáximo
53. ItemLetraID LetraMinOrd ;sóumaletra
54. ItemNumID 1*DigArab/NumInt/NumRom
55. AnexoID NumInt/NumRom
56. SecTit Frase ;títulodaseção
57. ParagUn “ParágrafoÚnico” ;diversasgrafias
58. Instituição Palavra*(br/hf/EspPalavra) ;nomínimo1palavra
89
REGRASDEPRODUÇÃO COMENTÁRIOS
59. Respons 1*(Frase/Instituição)[PontFinalEspLn] ;identificadoporpalavras‐chave
Tabela6Regrasparaadefiniçãoformaldenormasestatutáriasjurídicasbrasileiras33
A partir da definição formal dasNEJBs, esta passa a ser adotada como um mecanismo
formalizador e padronizador das normas deste conjunto. A ferramenta WebifyLaw,
discutidanoCapítulo5,adotaestadefiniçãocomobaseparaasuaimplementação.
Assim,alémdarestriçãoconceitualapresentadanaSeção4.1.1,normassãoconsideradas
parte do conjunto deNEJBs para o escopo deste projeto, se adicionalmente seguem as
regrasqueforamapresentadasnestaseçãoequeserãoapresentadasnaseçãoseguinte.
4.4.3 RegrasdeValidação
As regras de produção apresentadas na seção anterior especificam detalhes da
estruturaçãodecadacomponentedeumanorma.Noentanto,paraqueumanormapossa
servalidada,énecessárioquealgunselementostenhamseusconteúdosverificados.Estes
elementos correspondem àqueles que não possuem uma etiqueta padrão que é o caso
específicodeapelido,disposiçõesiniciaiseescoponormativo.
Estas regras de validação foram levantadas através da análise exaustiva de normas. O
conjunto de regras aqui apresentado tem a intenção de servir como um guia para estas
restrições.Trata‐sedeumconjuntoabertoparaquenovasocorrênciasobservadaspossam
seracrescentadas.Paraoescopodestetrabalhoasregrasdevalidaçãosãoasseguintes:
• Nacategoriadeapelidodefinidapelaregra17,afrasedeveseriniciadapelaspalavras:
“lei”ou“código”paraserreconhecidacomooapelidodanorma.Porexemplo:
- “LeidaIntrodução”
- “CódigoFlorestal”
33 Apesar de não fazer parte da especificação da notação utilizada, as regras foram numeradas para facilitar a futurareferênciaàsmesmas.
90
- “CódigoCivil”
• Para a categoria de disposições preliminares definida pela regra 18, o conjunto de
palavrasqueiniciamafraseécompostopor:
Acrescenta Cria Estabelece Limita RestabeleceAdota Dá Estatui Mantém RetificaAltera Declara Estende Modifica RevogaAprova Decreta Exclui Permite SimplificaAssegura Define Expede Promulga SuspendeAtribui Determina Extingue Reajusta TornaAutoriza Disciplina Faculta Reconhece TransfereBaixa Dispensa Fixa Regula VedaConcede Dispõe Institui RegulamentaConsolida Eleva Isenta Releva
• Oescoponormativodefinidopelaregra19éidentificadopelaocorrênciadasseguintes
seqüênciasdepalavrasnoiníciodafrase:
Aministra OconselhoApresidenta OdiretorConsiderando OministroDecreta: OpresidenteFaçosaber Ovice‐presidenteHavendo Resolve:Ochefe
Um segmento de uma norma só pode ser identificado como um dos três tipos de
segmentosacimamencionados–apelido,disposiçõespreliminareseescoponormativo–se
asrestriçõesapresentadasforemseguidas.
4.5 RegrasdeProduçãoparaasCitações
Asregrasdeproduçãoparaascitações têmumescopodiferentedas regrasdeprodução
paraNEJBspoisanalisamoconteúdodeumsegmentodenorma.Essasregrasdevemser
aplicadassomenteaossegmentosidentificadoscomodisposiçõesiniciais,escoponormativo
e componente, de acordo comas regras 18, 19 e 29 daTabela 6, respectivamente. Isto
porquesomenteestessegmentospossuemumtextoquepodeconterumacitação.
91
REGRASDEPRODUÇÃO COMENTÁRIOS
1. ag0 <agênciasnacionais,estaduais…> ;ex:CONAMA,IBGE,IBAMA,IBDF.
2. ag1 “Federal”/“Estadual” ;classedeagência
3. na NumInt<númeroarábicointeiro> ;mapeamentoparaaregranaTabela5.
4. nr NumRom<númeroromano> ;idemàregra3.
5. dm Mês<mêsnocalendáriogregoriano> ;idemàregra3.
6. lt LminOrd ;idemàregra3.
7. apelido “Cód”(“igo”/”.”)”Civil”/“Cód”(“igo”/”.”)“Florestal”/“Leid”(“e”/”a”)“Introdução”/“Cód”(“igo”/”.”)“deProcessoCivil”/“Cód”(“igo”/”.”)“Comercial”
;apelidosdasnormasregistrados(somenteosmaisutilizados).
8. ss0 “Constituição”[“Federal”] ;classe“ss”:substantivonosingular
9. ss1 Apelido/”Decreto”[‐]”Lei”/”Lei”[‐]”Delegada”/”Lei”/”DecretoLegislativo”/”Decreto”[ag1]/”Resolução”[[d(a/o)]ag0]/”Instrução”[”Normativa”]([““/”/”/(“d“(“a“/“o“)““)]ag0)/”Portaria”[”Normativa”]([““/”/”/(“d“(“a“/“o“))]ag0)/OrdemdeServiço([““/”/”/(“d“(“a“/“o“)““)]ag0)/MedidaProvisória
10. ss2 “Cap“(“ítulo“/“.“)/“Seção“/“Título“/“Livro“/“Parte“/“Disposições“
11. ss3 ”Artigo”[“único”]/”Art.”[“único”]
12. ss4 “Parágrafo”/”Par.”/”§”/”Item”/”Inciso”
13. ss5 “Alínea“/“Letra“
14. sp1 “Leis”/”Decretos”/”Portarias”
15. sp2 “Cap”(“ítulos”/”s.”)
;classe“sp”:substantivonoplural
16. sp3 “Art”(“igos”/”s.”) ;art.ouartigos
17. sp4 “Parágrafos“/“§§“/“Itens“/“Incisos“
18. sp5 “Alíneas”/“Letras”
19. sx “Anexo”
20. citação “Presente“ss1
21. citação [ss4““na/nr[“,”][“d(a/o)”]]ss3““na[,]““(“d“/“n“)(“e“/“a“/“o“)ss1(““/”/”)na”,de“na“de“dm“de“na
;iníciodasregrasdecitação
22. citação [ss4““(na/nr)[,][“d“(“a“/“o“)]]ss3““na[,]““(“d“/“n“)(“e“/“a“/“o“)““ss1(““/”/”)na“,de“dmdena
23. citação [ss4““(na/nr)[,][“d“(“a“/“o“)]]ss3na[,]““(“d“/“n“)(“e“/“a“/“o“)““ss1(““/”/”)na“,de“na
24. citação [ss4““(na/nr)[,][“d“(“a“/“o“)]]ss3na[,](“d“/“n“)(“e“/“a“/“o“)ss1(/”/”)na
25. citação [ss4““(na/nr)[,][“d“(“a“/“o“)“”]]ss3na[,](“d“/“n“)(“e“/“a“/“o“)“”(ss0/ss1)
26. citação ss4““(na/nr)[,][“d“(“a“/“o“)““]ss3““na
27. citação ss4““(na/nr)[“deste“ss3]
28. citação ss4[,]“d“(“a“/“o“)““ss3““na[,](“d“/“n“)(“a“/“o“)““ss1(/”/”)na“,de“na“de“dm“de“na
29. citação ss4[,]“d“(“a“/“o“)““ss3““na[,]““(“d“/“n“)(“a“/“o“)ss1(““/”/”)na“,de“dm“de“na
30. citação ss4[,]“d“(“a“/“o“)““ss3““na[,]““(“d“/“n“)(“a“/“o“)ss1(““/”/”)na[“,dena“]
31. citação ss4[,]“d“(“a“/“o“)““ss3““na[,](“d“/“n“)(“a“/“o“)““ss0/ss1
32. citação ss4“”(na/nr)[,]“d“(“a“/“o“)““ss3““na
33. citação ss4““(na/nr)[,][“d“(“a“/“o“)]““ss3“anterior“
34. citação ss4““(na/nr)[“deste“ss3]
35. citação [ss4na“,d“(“a“/“o“)““]ss3““na[,]““(n/d)est(e/a)““ss1[(“”/”/”)na[,]“de“na“de“dm“de“na]
36. citação [ss4““(na/nr)[,]“d“(“a“/“o“)]ss3““na[,]““(n/d)est(e/a)““ss1(““
92
REGRASDEPRODUÇÃO COMENTÁRIOSna[,]“de“na“de“dm“de“na)
37. citação ss1(““/”/”)na[,][“de“na]“de“dm“de“na[“eseu“sx““nr]
38. citação ss1(““/”/”)na[[,][“de“dm]“de“na]
39. citação sp3““na*(“,“na)“e“na[,]“d“(“a“/“o“)““ss1(““/”/”)na[[,][dena]dedmdena]
40. citação sp3““na*(,na)ena[,]d(a/o)ss1(/”/”)na
41. citação sp3““na*(,na)ena[,](“d“/“n“)“est“(“e“/“a“)““ss1
42. citação ss5““lt“,“[ss4““]nr
43. citação ss3““na,sp5lt*(,lt)eltd[oa]ss1na[,denadedmdena]
44. citação sp5““lt*(,lt)eltdoss3nadass1(/”/”)na[,denadedmdena]
45. citação sp5““lt“a“lt“do“ss3na
46. citação sp5““lt“a“lt“do“ss4“anterior“
47. citação sp5““lt*(“,“lt)“e“lt“do“ss4“anterior“
48. citação ss3““na[,]“domesmo“ss1
49. citação ss3““na[,]““ss5““lt“d“(“a“/“o“)““(ss0/ss1)[(““/”/”)na]
50. citação ss3““na“e“sp4
51. citação ss3““na,““nr
52. citação ss3““na“,“ss4““nr“,d“(“a“/“o“)ss1[(““/”/”)na[“,de“na“de“dm“de“na]]
53. citação ss3““na“,“ss4““(na/nr)[“,d“(“a“/“o“)““(ss0/ss1)]
54. citação ss3na[“;“/“,“]ss4único[,](ss5lt,)?d(a/o)ss1(/”/”)na,denadedmdena
55. citação ss3““na[“;“/“,“]““ss4“único[[,][ss5lt,]“d“(“a“/“o“)““ss1(““/”/”)na]
56. citação ss4“anterior,“sp5lt“a“lt
57. citação (ss3/ss4)“anterior“
58. citação ss4““na[,]“domesmo“ss3
59. citação sp4““na(,na)*“e“na“do“ss3““na(“n“/“d“)“est“(“a/e“)““ss1
60. citação sp4““na(,na)*“e“na“do“ss3““na“d“(“o“/“a“)““ss[01][(“”/”/”)na[“,de“na“de“dm“de“na]]
61. citação ss3““na[,]““sp4““(na/nr)*(“,“(na/nr))“e“(na/nr)[[,]“da“ss0]
62. citação sp4““n(a/r)*(“,“n(a/r))*“e“(na/nr)“dest“(“e“/“a“)““(ss3/ss4)
63. citação sp4““(na/nr)*(,na/nr)“e“(na/nr)d(a/o)s?ss2[doss1(na[,denadedmdena])]
64. citação sp4““(na/nr)*(“,“na/nr)“e“(na/nr)[“do“(ss3/ss4)“na“[“d“(“o“/“a“)““(ss0/ss1)]]
65. citação sp4““nr“a“nr“dest“(“e“/“a“)(ss3/ss4)
66. citação sp4““nr“a“nr[“do“(ss3/ss4)na[d[oa](ss0/ss1)]]
67. citação sp4“anteriores“
68. citação ss2/ss3““na
69. citação ss2““(na/nr)““(“n“/“d“)“est“(“e“/“a“)““(ss1/ss2)
70. citação [\“][Cc]aput[\“]“deste“ss3
71. citação [\“][Cc]aput[\“][“do“ss3““na]
72. citação sx““nr[“d“(“a“/“o“)““ss1(““/”/”)na[“,de“na]]
73. citação sx“aeste“ss1
74. citação [“n“/“d“](“e“/“E“)“st“(“e“/“a“)(ss1/ss2/ss3/ss4)
75. citação “referid”(“o“/“a“)““(ss1/ss2/ss3/ss4)
76. citação sp1““1*(na[,][“de“na“de“dm“de“na])[,]“e“na[“,de“na“de“dm“de“na]
77. citação sp1““na[[,]“de“na“de“dm“de“na][,]ena[,denadedmdena]
Tabela7RegrasdeProduçãoparaasCitaçõesemNEJBs
93
Os casos analisados para a composição das regras de produção para citações foram
escolhidosaleatoriamentedentreasocorrênciasdecitaçõesnostextosdasnormas.Nãoé
intenção propor um conjunto fechado para tais regras. A composição das citações ainda
assumeuma forma livreeonúmerodecasosdecitaçõesémuitogrande.Opropósitoé
queesteconjuntoderegrassemantenhaabertoparaainserçãodenovoscasosconforme
estessãoreconhecidos.
4.6 ModelodeDadosparaNEJBs
Omodelo de dados paraNEJBs foi definido para trabalhar em conjunto com a definição
formal apresentada na seção anterior. A definição formal especifica como identificar
segmentosdeumanormaeomodelodedadoséoresponsávelpeloarmazenamentodos
segmentos demodo a ser compatível com a definição formal. Omodelo de Dados para
NEJBsfoiespecificadoparaatingirosseguintesobjetivos:
• ServirdemodeloparaasaplicaçõesenvolvendoNEJBs;
• Servircomosuporteparaaaplicaçãodadefiniçãoformalespecificadanaseção
anterior,fornecendoamodelagemparaarmazenarossegmentosidentificados;
• Criar um modelo de alto‐nível estabelecendo as entidades relevantes para o
conjuntodeNEJBsedeterminandoosprincipaisrelacionamentosentreelas;
• Permitir a uniformização do armazenamento de normas pertencentes ao
conjuntoNEJBs,facilitandoointercâmbiodedados;
• Permitirarecuperaçãodeelementoscitadosoudeelementosespecíficos;
94
4.6.1 ModeloEntidadeRelacionamentoEstendido
Para a representação do modelo de dados para NEJBs foi utilizado o modelo
Entidade‐Relacionamento Estendido34 – mE‐Rx [14], largamente aplicado em SGBDs. O
mE‐Rx é um modelo conceitual que representa as informações em alto nível sem a
preocupação de implementação. Possui uma simbologia particular onde as principais
construçõessão:
CONSTRUÇÕES DEFINIÇÃO REPRESENTAÇÃO
ENTIDADE“Éumacoisadomundorealcomexistênciaindependente”[Elmasri,p.40].
ATRIBUTOS
Sãopropriedadesdasentidadesoudosrelacionamentos.
Podemsermapeadoscomo:1. atributos,2. atributos‐chave;ou3. multivalorados,
Apresentamumavariaçãonarepresentação,conformeexibidoaolado.
1.
2.
3.
RELACIONAMENTOS
Relacionamentossãocriadosparamapearasdiversasinteraçõesentreentidades.
Comrelaçãoaograu:grau2sãobinários,grau3ternárioseassimpordiante.
Suacardinalidadepodeser:1:1,1:noum:n
oquedeterminarelacionamentosde1para1,1paramuitosemuitosparamuitosrespectivamente.
Tabela8ConstruçõesutilizadasnomodeloEntidadeRelacionamentoEstendido35
4.6.2 EsquemaConceitualdoModelodeDadosparaNEJBs
O modelo de dados para NEJBs apresentado a seguir na Figura 8, está centralizado na
entidadeNormaEstatutáriaJurídica,ouabreviandoNEJ.Estaentidaderepresentademodo
generalizadoumanormacompletaedemodoespecializadoumsegmentodenorma.
34DooriginalEERModel–EnhancedEntity‐RelationshipModel[Elmasri].35Extraídode[Elmasri]p.57.
95
Deacordocomomodelo,aNEJBécompostadauniãode2outrasentidades:cabeçalhoe
corpo, como mostra em detalhe, a Figura 7. Na prática, uma norma será composta de
somenteumcabeçalhoediversosoutroselementosqueirãocomporocorpo.
Figura7ComposiçãodeumaNEJB
Aestruturaçãohierárquicadocorpodeumanormaestárepresentadanorelacionamento
possuiqueatravésdeseuatributoordemdeterminaaordementreosdiversossegmentos
quepossuemomesmopai.
Tendo o enfoque na generalização, aNEJ possui uma classificação em diversos tipos de
normas. A entidadeOutras foi representada para permitir a expansão futura no caso de
surgiremoutrostiposdenormas.
Partindoparaoenfoquenaespecialização,aentidadecorpo,seguindoadefiniçãoformal,é
classificadaemseção,componenteouanexo,cadaumdestesrepresentadosnasentidades
respectivas.
Nomodelodedados tambémestáprevistoocontrolesobreaemissãodasnormaspelos
órgãos formuladores de normas através da entidade Órgão Formulador e do
relacionamentoemite.
96
Váriasentidadesnãoforamdetalhadaspropositadamenteparanãoimporrestriçõesneste
modelo. Omodelo de dados deve ser detalhado de acordo com cada aplicação e então
mapeadoparatabelasdedadosdeacordocomoSGBDescolhido.
97
Figura8ModelodeDadosparaNEJBs
98
4.6.3 CitaçõesnoModelodeDadosparaNEJBs
Nestemodelo,ascitaçõesestãorepresentadascomorelacionamentosentreossegmentos
deumanorma.Inicialmentedefinidocomoumrelacionamentomuitosparamuitos(m:n),
estefoidetalhadonaFigura9pararefletiraseguintesituação:
• Umsegmentodenormacomumentecontémumaoumaiscitaçõescompostas.
Algunsexemplosdecitaçãocompostaencontram‐senaTabela9abaixo:
CITAÇÃOCOMPOSTA CITAÇÕESUNÍVOCAS
“noscasosdosarts.106e107”1. Leinº3017,Artigo1062. Leinº3017,Artigo107
“nocasodoart.219,I,IIeIII”1. Leinº3.017,Artigo219,itemI2. Leinº3.017,Artigo219,itemII3. Leinº3.017,Artigo219,itemIII
“dispostonosarts.148a150”1. Leinº5.869,Artigo1482. Leinº5.869,Artigo1493. Leinº5.869,Artigo150
Tabela9Exemplosdecitaçõescompostas
• As citações compostas devem ser separadas em várias citações unívocas
referenciandoumúnicosegmentodeumanorma,paraqueosrelacionamentos
possamserarmazenadosemumbancodedados.
99
Figura9Esquemaconceitualparaarepresentaçãodecitações
Aosepararcitaçõescompostasemdiversascitaçõesunívocaspode‐se identificartodosos
segmentos que uma dada citação referencia, estabelecendo as relações entre estes no
modelodedados.Orelacionamentoécitadaporpermite,porexemplo,dadoumsegmento
de norma, que se recupere todos os segmentos que fazem referência a ele. Este é um
relacionamento importante no conjunto de normas principalmente para poder levantar
normasqueforammodificadasourevogadaspornormasmaisnovas.
100
5 AFERRAMENTAWEBIFYLAW
A ferramentaWebifyLaw implementa o processo de conversão proposto no Capítulo 3,
aplicado ao conjunto de NEJBs definido no Capítulo 4. Do conjunto de NEJBs foram
selecionadas45normasparatestedentreasquaisencontram‐seaConstituiçãoFederalde
1988,oCódigoCivileoCódigodeProcessoCivil.
A ferramenta WebifyLaw, como resultado, gera automaticamente hiperdocumentos
codificados na linguagem HTML para serem disponibilizados facilmente na WWW da
Internet.Os hiperdocumentos são gerados a partir de documentos no padrão STDNORM
definidonaSeção3.3.Adicionalmente,aferramentaWebifyLawautomaticamenteproduz
dois índices para os hiperdocumentos gerados: um índice por categoria e um índice
cronológico.
101
Para o armazenamento de dados, a ferramentaWebifyLaw utiliza o modelo de dados
propostonaSeção4.6esimulaastabelasemarquivosdotipotexto.
5.1 Implementação
A ferramentaWebifyLaw foi implementada para comprovar que a conversão automática
pode ser efetivamente executada através do processo de conversão proposto neste
trabalho.Suaimplementaçãonãoprevêumainterfacegráficacomousuário.Aferramenta
foiimplementadaemmóduloscomváriasfunçõesquedevemserexecutadasdiretamente
apartirdalinhadecomando.
OpçõesdeconfiguraçãosãopassadasparaaferramentaWebifyLawatravésdainclusãode
um arquivo na linha de comando. A implementação prevê o uso de um arquivo de
configuração padrão, chamado default.cfg, e neste caso dispensa a inclusão na linha de
comando.Oarquivodeconfiguraçãodeterminaodiretórioraizeváriosdiretóriosauxiliares
onde a ferramenta WebifyLaw procura por informação ou armazena os resultados do
processamento. A Tabela 10 abaixo mostra as etiquetas padrão a serem utilizadas no
arquivodeconfiguração.
DEFINIÇÃO ETIQUETA DIRETÓRIO36Diretórioraiz,apartirdoqualsãocriadososoutrosdiretórios
DirRaiz d:\WebifyLaw\
Diretórioparaoshiperdocumentosgeradosautomaticamente.
DirHTxt hipertxt\
Diretórioparaastabelasdedados DirBD bdados\Diretóriodetrabalho,paraarmazenamentodearquivostemporários,seassimfornecessário.
DirTrab system\
Diretórioparaoutrasopçõesdeconfiguração DirCfg config\Diretórioparaoscomponentesexternosàsnormas. DirCExt compext\Diretórioparaalocalizaçãodosíndicesgeradosautomaticamente.
DirIndex index\
36Osdiretóriosaquiapresentadossãosomenteilustrativos.
102
DEFINIÇÃO ETIQUETA DIRETÓRIO36Diretórioparaasmensagensgeradasduranteaexecuçãodosmódulos.
DirMsg log\
Tabela10Opçõesdeconfiguração
O arquivo de configuração deve ser escrito mantendo‐se uma etiqueta em cada linha e
utilizandoocaracterdoispontos–“:”,paraaseparaçãoentreetiquetaevalor.
A ferramentaWebifyLaw, por possuir características de processamento em batchmode,
gera um arquivo com mensagens das ações executadas durante o processamento. Este
arquivo possui a extensão .log e é nomeado de acordo com a data da execução da
ferramenta.
5.1.1 LinguagemdeProgramação
ParaaimplementaçãodaferramentaWebifyLawfoiescolhidaalinguagemdeprogramação
Perl[43]pelasrazõesmencionadasabaixo:
• Facilidade de manipulação de textos, permite analisar e converter grande
volumedeinformaçãorapidamente.
• Suporteaousodeexpressõesregulares.
• Portabilidade.
• FacilidadedecriaçãodeprogramasparaaWeb.
• Distribuiçãogratuitaatravésdelicençaartística.
A ferramenta foi desenvolvida utilizando o compilador/interpretador Perl paraWindows
95® na sua versão 5.004_02. O código desenvolvido totalizou 2.674 linhas sem
comentários.
103
5.1.2 MóduloseBibliotecas
A ferramenta WebifyLaw é composta por três módulos: webifySegm, webifyLink e
webifyIndex que implementam, respectivamente, a segmentação e hierarquização, a
inferênciadelinkseageraçãodehiperdocumentoseageraçãodeíndices.
Asfunçõesestãodivididasentreseisbibliotecasdiferentes:
• libConfig: Biblioteca de configuração, inclui entre suas funções a leitura do
arquivo de configuração e mecanismos para determinar os caminhos para a
localizaçãodosarquivosdeentradaediretóriosdesaída.Fazaconfiguraçãode
variáveisglobaisutilizadasportodososmódulos.
• libStdIO: Biblioteca de funções de entrada e saída. Possui funções
implementandodiversosmecanismosdeimportareexportarainformação.Em
particular, implementa a função de leitura do padrão STDNORM, os filtros
filtroTXTe filtroETEXT,eas funçõesquesimulam importaçãoeexportaçãode
umabasededados.
• libNormas:Implementafunçõesparaasegmentaçãodenormaseidentificação
e análise de tipos de normas e segmentos. Inclui também funções para a
hierarquizaçãodesegmentos.
• libLink:Bibliotecade inferênciade links. Implementafunçõesparaaextração,
análise e estabelecimento de links entre os segmentos. Incorpora as funções
para o parse de tokens e análise léxica da citação, além das funções para
endereçamentonaformanormaldeendereçamentodesegmentos.
• libHTML:Bibliotecadegeraçãodehiperdocumentos.Implementafunçõespara
a geraçãode códigoem linguagemHTMLna criaçãodehiperdocumentos.As
104
funções nesta biblioteca geram automaticamente páginas HTML com
codificaçãodiferentedeacordocomotipodosegmento.
• libIndex: Biblioteca da criaçãode índices. Contém funções para a geraçãode
índicesporcategoriaecronológicoempáginascodificadasemHTML.
5.2 AGeraçãodeHiperdocumentos
Como resultados do processo de conversão, a ferramenta WebifyLaw gera
automaticamente a informação para o banco de dados e hiperdocumentos a partir dos
dadosdossegmentos.Osdadosdas45normasselecionadasparatesteresultaramemum
totalde10.660segmentos.
Nesta implementação, cada hiperdocumento gerado contém o texto completo de uma
norma.Assim, cadanormaéarmazenadaemumúnicoarquivoHTML.Estaéumaopção
particular desta implementação. Outra opção seria gerar um hiperdocumento para cada
seçãodeumanorma,porexemplo.
Para cadanormaarmazenadanobancodedados, a geraçãodehiperdocumentos realiza
consultaspararecuperartodosossegmentosquecompõemaquelanorma.Ossegmentos
são,então,codificados.OhiperdocumentoresultanteéarmazenadoemumarquivoHTML
denomenclaturacontrolada.
A etiqueta de nome do arquivo é resultante da combinação do tipo da norma e do seu
identificador.Otipodanormaérepresentadopornomáximoduasletrasdeacordocoma
Tabela11aseguir.
105
SIGLA TIPODANORMACF Constituição
FederalD DecretoDL Decreto‐LeiL LeiLD LeiDelegadaLM LeiMunicipalR ResoluçãoRN Resolução
NormativaP PortariaPN PortariaNormativaIN Instrução
Normativa
Tabela11Siglasparaostiposdenormas
O número identificador da norma segue a sigla sem a inclusão de espaços. Exemplos de
algumasetiquetasgeradassão:D1207.html,DL719.html,L3017.html,D1752.html.
No caso de a norma possuir uma instituição associada, a etiqueta compõe‐se,
adicionalmente,dasiglada instituiçãoededoisdígitos identificandooanodanorma,no
seguinteformato:
siglaTipoDaNorma_siglaInstituiçãoNúmeroIdentificador‐Ano
Exemplos de etiquetas para este caso são: R_CONAMA10-94.html, P_IBAMA29-96.html,
P_IBDF17-88.html.
Oshiperdocumentos foramcodificadosdemodocoerentecomseusignificadoestrutural,
utilizandoosrecursosdalinguagemHTMLparadiferenciarosdiversostiposdesegmentos.
OQuadro3aseguirmostraumexemplodeumhiperdocumentogeradoautomaticamente
pelaferramentaWebifyLaw.
106
DECRETONº1.207,DE1ºDEAGOSTODE1994.
Acrescentaincisoaoartigo14doDecretonº96.036,de12demaiode1988.
OPRESIDENTEDAREPÚBLICA,nousodaatribuçãoquelheconfereoartigo84,incisoIV,daConstituição,etendoemvistaodispostonaLeinº7.646,de18dedezembrode1987,DECRETA:
Artigo1º‐Ficaacrescidoaoartigo14doDecretonº96.036,de12demaiode1988,oincisoIV,comaseguinteredação:
“Art.14.......................................................................................................................................................................................................IV‐reconhecíveiscomoexclusivaouprincipalmentedestinadosàutilizaçãoemunidadesdigitaisdeprocessamentodaPosição8471.91.0100,daNomenclaturaBrasileiradeMercadorias‐NBM(microcomputadoreseestaçõesdetrabalho).”
Artigo2º‐EsteDecretoentraemvigornadatadesuapublicação.
ITAMARFRANCOJoséIsraelVargas_______________________________________________________________________________________
Informaçõesgeradasautomaticamenteem2deOutubrode1997emantidaspor:AlessandraDorante
Quadro3Exemplodehiperdocumentogeradoautomaticamente
NoshiperdocumentosgeradospelaferramentaWebifyLawfoimantidoumúnicoestilode
formataçãocoerenteparacadatipodesegmento.Estacaracterísticafacilitaaidentificação
visual dos tipos de segmentos. Exemplificando, os cabeçalhos de seções utilizam as
construções próprias para headings da linguagem HTML (<H1>..</H1>, <H2>…</H2>, e
assim sucessivamente), as etiquetas dos artigos são sempre grafadas utilizando o estilo
strong da linguagem HTML (<strong>…</strong>). Segmentos como escopo normativo,
disposiçõesiniciaisefinaissãosempregrafadosutilizandooestiloenfático(<em>…</em>).
Nos hiperdocumentos que possuem seções internas, a ferramentaWebifyLaw inclui um
índice interno para facilitar a navegação, como mostra o Quadro 4. Para possibilitar a
referenciação pelas citações cada segmento do documento tem seu endereço gerado na
formanormaldeendereçamentode segmentosapresentadanaSeção3.6.2.O resultado
doendereçamentoéutilizadonageraçãodasetiquetasparaâncorasemlinguagemHTML–
etiquetas<a name=”…”>…</a>.
107
PORTARIAIBAMAN°29,DE26DEABRILDE1996_______________________________________________________________________________________
Índice
CapítuloI‐DAREPOSIÇÃOFLORESTALOBRIGATÓRIA,DOPLANOINTEGRADOFLORESTALEDAASSOCIAÇÃOFLORESTAL
SeçãoI‐DAREPOSIÇÃOFLORESTALSeçãoII‐DOPLANOINTEGRADOFLORESTAL‐PIFSeçãoIII‐DAASSOCIAÇÃOFLORESTAL
CapítuloII‐DASVISTORIASELAUDOS
CapítuloIII‐DASPENALIDADES
CapítuloIV‐DASDISPOSIÇÕESGERAISETRANSITÓRIAS
_______________________________________________________________________________________
…
Quadro4Exemplodeumtrechodehiperdocumentocomíndiceinterno
OQuadro5mostraocódigofonteemlinguagemHTMLcomendereçamentodesegmentos
paraodocumentoapresentadonoQuadro3.
<html><head><title>DECRETO Nº 1.207, DE 1º DE AGOSTO DE 1994.</title></head><body> <h1>DECRETO Nº 1.207, DE 1º DE AGOSTO DE 1994.</h1> <hr> <p><em><a name="DI1"> Acrescenta inciso ao <a href="msg.html">artigo 14 do Decreto nº 96.036, de 12 de maio de 1988</a>. </a></em> <p><strong><a name="EN2"> O PRESIDENTE DA REPÚBLICA, no uso da atribuição que lhe confere o <a href="CF.html#T4C2S2A84IR6">artigo 84, incisos IV, da Constituição</a>, e tendo em vista o disposto na <a href="msg.html">Lei nº 7.646, de 18 de dezembro de 1987</a>,</a></strong> <p><strong><a name="EN3"> DECRETA: </a></strong> <p><strong><a name="A1">Artigo 1º</a></strong> - Fica acrescido ao <a href="msg.html">artigo 14 do Decreto nº 96.036, de 12 de maio de 1988</a>, o <a href="#A1IR4">inciso IV</a>, com a seguinte redação: <br><em><a name="A1CM1"> "Art. 14. ............................................................................................ .......................................................................................................... </a></em> <br><em><a name="A1CM2"> IV - reconhecíveis como exclusiva ou principalmente destinados à utilização em unidades digitais de processamento da Posição 8471.91.0100, da Nomenclatura Brasileira de Mercadorias - NBM (microcomputadores e estações de trabalho)." </a></em> <p><strong><a name="A2">Artigo 2º</a></strong> <a href="D1207.html">Este Decreto</a> entra em vigor na data de sua publicação. <p><em><a name="A2DF1">ITAMAR FRANCO</a></em> <p><em><a name="A2DF2">José Israel Vargas</a></em> <hr> <font size=-1>Informações geradas automaticamente em 26 de Outubro de 1997 e mantidas por: <blockquote><author><a href="mailto:[email protected]">Alessandra Dorante</a></author> </blockquote> </font> </body></html>
Quadro5CódigofontegeradoautomaticamenteemlinguagemHTML
108
5.3 UsodaFerramentaWebifyLaw
O processo de conversão automática é realizado com o uso da ferramentaWebifyLaw
seguindoospassosabaixo:
1. ParacadadocumentonopadrãoSTDNORMexecutaromódulowebifySegm,utilizando
aseguintelinhadecomando:
$> perl webifySegm.pl doc1STDNORM default.cfg
2. Executarainferênciadelinkssobreosdadosprocessadosnopassoanterioreageração
doshiperdocumentos,comaseguintelinhadecomando:
$> perl webifyLink.pl default.cfg
3. Gerarosíndices:
$> perl webifyIndex.pl default.cfg
Apósaexecuçãodestestrêspassosquefazemaconversãoautomáticaénecessáriofazera
disponibilizaçãodosresultados.Estapodeserfeitasimplesmenteatravésdomecanismode
cópia.Odiretórioescolhidocomodiretórioraizdosistemadevesercopiadoparaumweb
site.Os links foramgeradoscomendereçamento relativoparaevitara invalidaçãocoma
eventualmudançadalocalizaçãofísicadaspáginas.
5.4 Resultados
Osresultadosdaaplicaçãodoprocessodeconversãoautomática,utilizandoaferramenta
WebifyLaw, estãoorganizadosem trêsSeções:5.4.1,5.4.2 e5.4.3, que respectivamente,
analisam os resultados da extração das citações, da geração de links e apresentam os
resultadosdaconversãoemumsitenaWWW.
109
Finalmente,aSeção6.2abordasugestõesparatrabalhosfuturos.
5.4.1 ResultadosdaExtraçãodasCitações
Oresultadodaextraçãodascitaçõesémuitoimportanteparaoprocessodeinferênciade
links.Somentecitaçõesextraídassãopassíveisdeseremconvertidasemlinks.Paraavaliaro
resultado da extração das citações é necessário ter uma fonte de comparação. Para a
ferramentaWebifyLaw a avaliação da extração de links foi feita através da comparação
entrecitaçõesmarcadasmanualmenteecitaçõesextraídasautomaticamente.Noconjunto
de45normasforamprocessados1.565segmentosmarcados.Oresultadodaextraçãoestá
naTabela12:
Segmentoscomcitaçõescorretas: Iguaisàmarcaçãomanual 1.295 82.5%Segmentoscomcitaçõesextras: Nãomarcadasmanualmente 87 5.5%
Segmentoscomcitaçõesnãocoincidentes: Diferentesdamarcaçãomanual 183 12% 1.565
Tabela12Resultadosdaextraçãodascitaçõesporsegmento37
Nos183segmentosemqueamarcaçãonãocoincidiucomamarcação,existemdiferentes
casos,quesãoagrupadosem:
Citaçãonãoreconhecida CorrespondemanovoscasosaseremincorporadosnadefiniçãoformaldecitaçõeseinterpretadospelaferramentaWebifyLaw.
Usodeapelidodenorma Acitaçãoutilizaoapelidoparafazerreferênciaànorma.OusodeapelidosnãoésuportadopelaferramentaWebifyLawnestaversão.
Erronagrafiasintática Errosdegrafiasintáticanacitação,comoporexemploousotrocadodepluralesingularougrafiaincorretadepalavrasquedesempenhamfunçãochavenoreconhecimento.Aocorrênciadessescasospodeserfacilmenteeliminadapelousodecorretoresortográficos.
Marcaçãomanualnãocoincidente
Amarcaçãomanualnãofoiexecutadacorretamente:ouincorporaelementosquenãofazempartedacitação,ounãoabrangeacitaçãocompleta.Emamboscasosprovocaerronacomparação.
Tabela13Casosdeextraçãodecitaçãonãocoincidentes
110
Nesses 1.565 segmentos foram marcadas manualmente 1.428 citações, e foram
reconhecidas automaticamente 1.703 citações, numa diferença de 275 citações
“descobertas”pelaferramentaWebifyLaw.
Paraaextraçãodascitaçõesforamanalisados75tiposdiferentesdecitações,baseadosna
definiçãoformaldascitaçõesparaasNEJBs,apresentadanaSeção4.5.Atravésdaanálise
apresentadanoQuadro6,ficaclaroqueamaioriadascitaçõesvariapoucocomrelaçãoao
seutipo,concentrando‐senosdoistiposbásicosseguintes:
Tipo70:citaçõessãodotipo“artigo1º”,“artigo186”, queseguemaformageral
deartigoseguidodeidentificador.
Tipo 71: reconhece citações do tipo: “neste decreto”, “desta Constituição”, “este
artigo”,“nestaseção”,“desteparágrafo”.
Quadro6Estatísticasdaextraçãodecitaçõesportipodecitação
37Considere‐sequecadasegmentopodecontermaisdeumacitação.
111
5.4.2 ResultadosdaGeraçãodeLinks
Ageraçãoautomáticade links baseia‐senasmarcações feitaspela extraçãodas citações.
Analisa o conteúdo das citações entre asmarcações<cit>…</cit>. Como resultado desta
análise gera o endereço do segmento citado na forma normal de endereçamento de
segmentosapresentadanaSeção3.6.2.
Antes de gerar as âncoras em linguagem HTML referenciando o segmento, este é
procuradoentreossegmentospresentesnabasededados.Seosegmentoéencontradoa
etiquetaHTMLéestabelecidafazendoreferênciaaoendereçodosegmento.Casocontrário
aâncoraéestabelecidadirecionadaparaumarquivopadrãocontendoumamensagem.
Nocasodaexistênciadecitaçõescompostas,olinkfoigeradoparasomenteumsegmento,
queéosegmentodemenornívelnahierarquia,conformemostramosexemplosdecasoa
seguir.
Os resultados da geração dos links são analisados a partir dos casos encontrados no
conjuntodeNEJBsselecionados.Osexemplosdecasosabaixoprocuramrelataravariedade
de casos e sua complexidade. Para cada caso é sempre apresentado primeiro o texto
original conforme figurado na norma, seguido do trecho gerado automaticamente pela
ferramentaWebifyLaw,emlinguagemHTML.
Caso1–CitaçãocomReferênciasExplícitas
Neste caso, todos os segmentos da citação possuem menção explícita ao seu tipo e
identificação. É o caso que apresentoumaior volume de citações. Os exemplos a seguir
mostramalgumasdasvariaçõespossíveisdentrodessecaso.
112
“ V. improbidade administrativa, nos termos do art. 37, § 4º.” 38
Nesteexemploa citaçãonãomencionaoutranorma.A citação refere‐seaumsegmento
quepertenceàmesmanormadosegmentohospedeiro.Nestescasos,acitaçãoéchamada
“interna”. Apesar de ser uma citação interna, para identificar o segmento citado é
necessário“resolveroendereço”.Istodeveserfeitoparatodosostiposdecitação.Apartir
do “endereço abreviado” mencionado na citação é gerado o endereço completo do
segmentocitado.Aetiquetahrefabaixomostraoendereçocompleto.
“<li><a name="T2C4A15IR5"> improbidade administrativa, nos termos do <a href="#T3C7S1A37P4">art. 37, § 4º</a>.</a>”
“Artigo 270 - Este Código regula o processo de conhecimento (Livro I), de execução (Livro II), cautelar (Livro III) e os procedimentos especiais (Livro IV).”39
Este exemplo é similar à citação anterior, com a diferença que este trecho apresenta
diversas citações referenciando segmentos classificados como seções. No caso em
particular fazem referência à seção do tipo livro. Casos similares incluem referências a
títulosecapítulos.
“<strong><a name="L1T7C1A270">Artigo 270</a></strong> - <a href="L5869.html">Este Código</a> regula o processo de conhecimento (<a href="#L1">Livro I</a>), de execução (<a href="#L2">Livro II</a>), cautelar (<a href="#L3">Livro III</a>) e os procedimentos especiais (<a href="#L4">Livro IV</a>).”
“Artigo 1º - O inciso VI do art. 2º do Decreto nº 1.791, de 15 de janeiro de 1996, passa a …”40
Umavariaçãodacitaçãocomreferênciasexplícitasmencionandoumanorma“externa”.A
citação possui uma referência explícita a uma norma diferente da norma do segmento
hospedeiro.
“<strong><a name="A1">Artigo 1º</a></strong> - O <a href="D1791.html#A2IR6">inciso VI do art. 2º do Decreto nº 1.791, de 15 de janeiro de 1996</a>, passa a …”
38Artigo15,incisoVdaConstituição.39Leinº5.869,artigo270.40Decretonº1.965,artigo1º.
113
Caso2–CitaçãoComposta
A citação composta referencia mais de um segmento de menor nível na hierarquia da
citação.Aâncorageradaparaestetipodecitaçãorefere‐sesomenteaoprimeiroelemento
dalista.EstaéumaopçãodaimplementaçãoadotadanaferramentaWebifyLaw.Osoutros
elementos da lista podem ser obtidos pela proximidade com o elemento citado, sendo
exibidosparaousuárionamesmapágina.Oscasosdecitaçõescompostassãoabordados
nosexemplosabaixo.
“Artigo 10 - Ficam revogadas as disposições em contrário especialmente as alíneas "n" e "o" do artigo 2º da Resolução/CONAMA/004/85.”41
Oprimeirocasodecitaçãocompostaéacitaçãodemúltiplossegmentosquepertencema
ummesmo e único tipo. É chamada de citação do tipo lista. A lista contém um número
variáveldeelementos,semumlimitefixo.Oselementossãoseparadosporvírgulaquando
sãomaisdoquedois.
“<strong><a name="A10">Artigo 10</a></strong> - Ficam revogadas as dos posições em contrário especialmente as <a href="R_CONAMA4-85.html#A2AL13">alíneas "n" e "o" do artigo 2º da Resolução/CONAMA/004/85</a>.”
“Artigo 207 - É nulo e de nenhum efeito, quanto aos contraentes e aos filhos, o casamento contraído com infração de qualquer dos ns. I a VIII do art. 183.”42
Nestecasodecitaçãocomposta,ossegmentossãoapresentadosnaformadeumintervalo,
caracterizadopelapresençadoslimitesinferioresuperior.
“<strong><a name="PT2L1T1C6A207">Artigo 207</a></strong> - É nulo e de nenhum efeito, quanto aos contraentes e aos filhos, o casamento contraído com infração de qualquer dos <a href="#PT2L1T1C2A183IR1">ns. I a VIII do art. 183</a>.”
Caso3–CitaçãocomReferênciadeContexto
Nacitaçãocomreferênciadecontexto,oendereçodaâncoraédeterminadocombaseno
endereçodosegmentohospedeiro,utilizandoassimocontextoemqueacitaçãoaparece
paradeterminarseuendereço.Estetipodecitaçãoéchamadadecitaçãomodificadapela
41Artigo10,daResoluçãoCONAMAnº10,de1993.42Artigo207daLeinº3.017.
114
presençadeumvocábulo,chamadodemodificador.Omodificadoreocontextodacitação
sãoelementos‐chavenaidentificaçãodosegmentocitado.
“§3º A indicação de que trata o parágrafo anterior será feita no prazo de trinta dias…”43
Neste exemplo, é usado o modificador “anterior”. Outras variações deste modificador
podem ser “antecedente” e “precedente”.Na citação acima, o segmentomodificadoé o
segmentocitado.Seuendereçoédeterminadosubtraindo‐seumdonívelcorrespondente
doendereçodohospedeiro.
“<a name="C3A3P3">§3º</a> A indicação de que trata o <a href="#C3A3P2">parágrafo anterior</a> será feita no prazo de trinta dias …”.
“§5º O representante de que trata o inciso IV deste artigo será indicado pelo Ministro …”44
Omodificadornestacitaçãoéomodificadordesegmentoatual.Algumasvariaçõesdeste
tipo de modificador são: “deste“, “desta“, “neste“, “nesta“, “este”, “esta”, “esse”. Na
geraçãodoendereçodacitação,onívelmodificadoécopiadodosegmentohospedeiro.
“<a name="C3A3P5">§5º</a> O representante de que trata o <a href="#C3A3IR4">inciso IV deste artigo</a> será indicado pelo Ministro…”
“I. a afirmação do autor, ou a certidão do oficial, quanto às circunstâncias previstas nos nºs. I e II do artigo antecedente;”45
Estacitaçãoapresentaumasegundavariaçãodousodomodificadortipoanterior,naqual
osegmentomodificadonãoéosegmentocitadoemúltimainstância.
<li><a name="L1T5C4S3A232IR1">a afirmação do autor, ou a certidão do oficial, quanto às circunstâncias previstas nos <a href="#L1T5C4S3A231IR1">nºs. I e II do artigo antecedente</a>;</a>
Caso4–VáriosCasosdeCitação
Os diversos casos identificados anteriormente aparecem, muitas vezes, combinados em
umamesmacitação.Algunsdestescasossãoapresentadosaseguir.
43Artigo3º,§3º,Decretonº1.752.44Artigo3º,§5º,Decretonº1.752.45Artigo232,incisoIdaLeinº5.869.
115
“O VICE-PRESIDENTE DA REPÚBLICA, no exercício do cargo de Presidente da República, usando das atribuições que lhe confere o art. 84, incisos IV e VI, da Constituição, e tendo…”46
Esteéumcasoqueapresentacitaçãocompostacomreferênciaànormaexterna.
“O VICE-PRESIDENTE DA REPÚBLICA, no exercício do cargo de Presidente da República, usando das atribuições que lhe confere o <a href="CF.html#T4C2S2A84IR4">art. 84, incisos IV e VI, da Constituição</a>, e tendo…”
“§4º Nas causas de pequeno valor, … , atendidas as normas das alíneas "a", "b", e "c" do parágrafo anterior.”47
Nesteexemplo,acitaçãoéumacombinaçãodeumacitaçãocompostaedeumareferência
decontexto.
“<a name="L1T2C2S3A20P4">§4º</a> Nas causas de pequeno valor, … , atendidas as normas das <a href="#L1T2C2S3A20P3">alíneas "a", "b", e "c" do parágrafo anterior</a>.”
“§3º Os partidos políticos reger-se-ão pelo disposto, no que lhes for aplicável, nos arts. 17 a 22 deste Código e …”48
Estavariaçãoéumacombinaçãodousodomodificadorcomumalistadesegmentos.
“<a name="PT1L1T1C2S1A16P3">§3º</a> Os partidos políticos reger-se-ão pelo disposto, no que lhes for aplicável, nos <a href="#PT1L1T1C2S1A17">arts. 17 a 22 deste Código</a> e …”
Existemalgunscasoscomcertacomplexidadequeparaageraçãoautomáticaénecessário
adaptar o mecanismo de extração e estabelecimento de links. Estes casos não foram
tratadosaquipor representaremumapequenaporcentagemdo totaldas citações, como
mostraoQuadro6.Noentanto,otratamentodessescasosénecessárioparasealcançar
umacompletudenoreconhecimentodecitações.Algunsdessescasossão:
“estabelecido no art. 5º deste Decreto, conforme seu enquadramento nas condições especificadas no referido artigo, entre a documentação …”49
Acitaçãoacimaemnegritoéumcasodecitaçãoqueparainterpretaçãoénecessáriofazer
referênciaaoutracitação,normalmenteacitaçãoantecedente(apresentadaemitálico).A
identificaçãodestacitaçãosóépossívelcomoauxíliodainterpretaçãodaantecedente.
46Decretonº1.752.47Artigo20,§4ºdaLeinº5.869.48Leinº3.017,artigo16,§3º.49Artigo1º,Decretonº1.070.
116
“…ou de pacto antenupcial (arts. 178, Par. 9°, I, c, 274, 289, I, e 311)”50 “… contado o prazo do dia em tiverem ciência do casamento (arts. 180, III, 183, XI, 209 e 213).”51
As citações acima são complexas na sua estruturação. Apresentam identificadores de
segmentos de diversos níveis, sem a referência explícita dos tipos. Por exemplo os
segmentos I e c aparecem sem a identificação do tipo, que seria inciso e alínea
respectivamente.Estacaracterísticadificultasuaanáliseeidentificaçãoautomática.
Estes casos mais complexos para serem identificados corretamente necessitam de um
tratamentoespecial.
Osexemplosacimacaracterizamcomfidelidadeoestadoatualdatecnologiaempregadana
ferramentaWebifyLaw.
5.4.3 Site:ProjetoWebifyLaw
Os resultados da utilização da ferramentaWebifyLaw na conversão automática deNEJBs
podeservistosem:http://www.ifqsc.sc.usp.br/hpp/alessandra/webify/webify_result.html.
Aspáginasgeradasautomaticamentecontêmuma referência textualexplícita incluindoa
datadageração.
50Leinº3.017,Artigo233,incisoII.51Artigo178,§4º,incisoIIdaLeinº3.017.
117
6 CONCLUSÃO
Oprocessodeconversãopropostoneste trabalhoprovousereficientee confiávelparaa
conversãoautomáticadetextosestruturados.Alémdageraçãodoshiperdocumentos,uma
característica importante do processo é a geração automática de informação para
alimentarbancosdedados.Assim,oprincipal resultadodoprocessodeconversãosãoos
segmentos da informação. Outras ferramentas podem a vir utilizá‐los na geração de
diversos“produtos”,alémdoshiperdocumentos,comoporexemploconsultasdinâmicasa
segmentos isolados, selecionando aqueles que tratam de um determinado assunto, ou
cumprem um requisito específico; ou mesmo a inserção de anotações ou comentários
esclarecedoressobreainformação.
118
Definindo‐se o conjunto de documentos alvo, asmaiores dificuldades concentram‐se em
estabelecerasdefiniçõesformaisdaestruturaçãodosdocumentosedascitações.
No caso das citações, amaior dificuldade é gerar um conjunto de regras que identifique
todosospossíveiscasosdecitações.
À parte de alguns casos de citação, o processo de conversão proposto neste trabalho
mostrouqueaconversãoautomáticadetextosestruturadospodeserimplementadacomo
um processo que pouco requer da interferência do usuário com alta confiabilidade nos
resultados.
6.1 ContribuiçõesdoTrabalho
Ascontribuiçõesdestetrabalhopodemserseparadasnasáreasdeconversãoautomáticae
hipertexto, e na área de tratamento de documentos legais. Na área de conversão
automáticaehipertextoasprincipaiscontribuiçõesforam:
1. Especificação do formato para entrada de dados, o padrão STDNORM, visando
uniformizar a trocade informaçõesepermitir contribuiçõesexternasdedocumentos
aoprocessodeconversãodeautomática.
2. Aplicaçãoda teoria deGramáticas e Linguagens Formais no estabelecimento de uma
definição formal de textos estruturados, permitindo que futuras definições formais
sejamfeitasconformerealizadonestetrabalho.
3. Definição de um método para a segmentação de textos estruturados com base na
especificação formal. Contribuição importante para a geração de informação para
basesdedadoseparaconstituirhiperdocumentosautomaticamente.
4. Especificaçãodaformanormalparaoreconhecimentoearepresentaçãodecitações.
Contribuição muito importante para permitir que as relações explícitas entre
119
documentossejamreconhecidasautomaticamenteerepresentadasdemodouniforme
dentrodeumconjuntodehiperdocumentos.
5. Definiçãodométodopara a extraçãoe estabelecimento automáticode citações com
basenaformanormalparacitações,permitindoquerelaçõesexplícitaspresentesnos
documentossejaconvertidaemrelaçõesentresegmentosnabasededadoselinksnos
hiperdocumentos.
6. Umprocessodeconversãoautomáticadetextosestruturadosparahiperdocumentos,
através da utilização de técnicas, principalmente das áreas de Compiladores,
GramáticaseLinguagensFormais,semanecessidadedeinterferênciadousuáriooudo
usodeProcessamentodeLinguagemNatural.
Naáreadeanálisededocumentoslegais,asprincipaiscontribuiçõesforam:
1. Definiçãoformalparaaestruturaçãodenormasestatutárias jurídicasbrasileiras,uma
adaptação da teoria de Gramáticas e Linguagens Formais para o domínio de
documentoslegais.
2. Especificação um modelo de dados para normas estatutárias jurídicas brasileiras
utilizandoomodeloentidade‐relacionamentoestendidocomorepresentaçãoformal.O
modelo de dados proposto pode ser utilizado como base na estruturação de outros
aplicativosdentrododomíniolegal.
6.2 SugestõesparaTrabalhoFuturo
AferramentaWebifyLaw foiconcebidacomoummecanismodetesteparaoprocessode
conversão.Asugestãoparatrabalhofuturoéacriaçãodeumsistemadeconversão,tendo
a ferramentaWebifyLaw como núcleo de desenvolvimento. Neste sistema de conversão
algumascaracterísticasdesejáveissão:
120
• Interfacegráfica:Aexecuçãodosmódulosda ferramentaWebifyLaw via linhade
comandoéumasolução simplesmas,émaispropíciaaerrose forçaousuárioa
conhecer os parâmetros adequados. A implementação de uma interface gráfica
com mecanismos de ajuda viria a possibilitar que usuários leigos utilizassem o
sistema.
• Interação com o usuário confirmando inferências de links: A ferramenta
WebifyLaw faz a inferência dos links entre os segmentos de normas de modo
automático.Ousuárionãoéconsultadoduranteoprocesso.Noentanto,emalguns
casosseriabenéficaaconfirmaçãohumana,principalmentecasoscomplicadosde
citaçõesquenãosãoreconhecidospelaferramenta.
• Base de dados mais robusta: A ferramentaWebifyLaw simula a base de dados
utilizando arquivos texto, o que prejudica no desempenho da conversão,
principalmentequandoovolumededadoségrande.Asoluçãoparaesteproblema
érealizaroarmazenamentodedadosutilizandoumSGBD.AlinguagemPerlpossui
mecanismosdeinterfaceamentocombasesdedadosnopadrãoSQL,quefacilitam
naexecuçãodestatarefa.
• Mecanismodebuscaporassunto:Aprocuraporassuntoéummecanismomuito
utilizado. Apesar de este não estar presente na implementação da ferramenta, a
pesquisapodeserfeitautilizandoumadasferramentasdepesquisadisponíveisna
Internet (Altavista, Yahoo!, e similares). No entanto, as normas, em particular,
exigem ummecanismo de buscamais elaborado, com suporte para sinônimos e
antônimos. Esta é uma questão vinculada aos sistemas de informação, e é
largamenteabordadaemsistemasparaaconstruçãodethesaurus.Aincorporação
da construção de um thesaurus no sistema de conversão permitiria a realização
destatarefa.
121
• Hiperdocumentos dinâmicos: Os hiperdocumentos são gerados estaticamente a
partir dos dados na base de dados. Isto implica que a cada alteraçãona base de
dadososhiperdocumentosdevemsergeradosnovamenteedisponibilizadospara
uso.Esta limitaçãopodesereliminada incorporandofunçõesparafazerageração
dinâmicadoshiperdocumentosapartirdasconsultasremotasfeitaspelosusuários
viaWeb.
• ExecuçãoremotadosistemaviasitenaWeb:A incorporaçãodestacaracterística
vai permitir que a conversão automática seja executada independentemente da
localizaçãodosdadosedosprogramasfonte.Possibilitatambém,oatendimentoa
umgrandenúmerodeusuáriossemnecessidadedadistribuiçãodosistema.
Outrasugestãoéaaplicaçãodoprocessodeconversãopropostoemoutrosconjuntosde
textosestruturados.
122
REFERÊNCIASBIBLIOGRÁFICAS
[1] Aho,AlfredV.;Sethi,Ravi;Ullman,JeffreyD.;Compilers–Principles,Techniquesand
Tools.Addison‐WesleyPublishing,March1986.ISBN0‐201‐10088‐6.
[2] Allan,James;AutomaticHypertextConstruction.PhDThesis,CornellUniversity,
January1995.
[3] Balasubramaniam,V.;“StateofArtReviewonHypermediaIssuesandApplications”.
Disponívelem:http://www.csi.uottawa.ca/~duchier/misc/hypertext_review/
[4] Begoray,JohnA.;“Anintroductiontohypermediaissues,systemsandapplication
areas”.InternationalJournalofMan–MachineStudies.Vol.33,1990,pp.121‐147.
[5] Berners‐Lee,T.;Fielding,R.T.;Nielsen,H.Frystyk;“HypertextTransferProtocol–
HTTP/1.0”.Seção2.1“AugmentedBNF”,March12,1995.HTTPWorkingGroup,
INTERNET‐DRAFT.Disponívelem:
http://infturing.informatik.uni‐halle.de/www/http/HTTP1.0‐ID_10.html,download
em08deoutubrode1997.
123
[6] Bernstein,Mark.“AnApprenticeThatDiscoversHypertextLinks”.Hypertext:Concepts,
SystemsandApplications–ProceedingsoftheEuropeanConferenceonHypertext,
INRIA,France,November1990.Rizk,A.;Streitz,N.;André,J.(eds.);Cambridge
UniversityPress,NewYork,1990,pp.212‐223.ISBN0‐521‐40517‐3.
[7] Bobbio,Norberto;TeoriadoOrdenamentoJurídico.Edunb–EditoradaUniversidade
deBrasília.Brasília–DF,1994.ISBN85‐230‐0276‐6.
[8] Bush,Vannevar;“Aswemaythink”.AtlanticMonthly.July1945,pp.101‐108.
[9] Coffin,S.;UNIXSystemVRelease4:TheCompleteReference.McGraw‐Hill,Sydney,
p.292‐309.
[10] Conklin,Jeff;“Hypertext:AnIntroductionandSurvey”.IEEEComputer.
September1987,pp.17‐41.
[11] Cooke,Peter;“AnEncyclopediaPublisher'sPerspective”.InteractiveMultimedia,Apple
ComputerInc.,MicrosoftPress,1988.
[12] Donnelly,Charles;Stallman,Richard;“GlossaryforTheYACC‐compatibleParser
Generator”.November1995,BisonVersion1.25.Disponívelem
http://w4.lns.cornell.edu/public/COMP/info/bison/bison_14.html,downloadem08
deoutubrode1997.
[13] Drakos,Nikos;“FromTexttoHypertext:APost‐HocRationalizationofLaTeX2HTML”.
Disponívelem:http://cbl.leeds.ac.uk/nikos/doc/www94/www94.html.
[14] Elmasri,R.;Navathe,S.B.;FundamentalsofDatabaseSystems.Benjamin/Cummings
PublishingCo.Inc.,California1987.ISBN0‐8053‐0145‐3.
[15] Ferreira,AurélioBuarquedeHolanda;NovoDicionáriodaLínguaPortuguesa.Ed.Nova
Fronteira,RiodeJaneiro,1975.
[16] Furuta,Richard;Plaisant,Catherine;Shneiderman,Ben;“ASpectrumofAutomatic
HypertextConstructions”.Hypermedia.TaylorGraham,1989,v.01,n.02,
pp.179‐195.
[17] Goffinet,Luc;Noirhomme‐Fraiture,Monique;“AutomaticHypertextLinkGeneration
basedonSimilarityMeasuresbetweenDocuments”.Disponívelem
http://www.info.fundp.ac.be/~lgo/Hypertext/semantic_links.html.
124
[18] Gray,Matthew;“InternetStatisticsGrowthandUsageoftheWebandtheInternet”.
MIT,disponívelem:http://www.mit.edu/people/mkgray/net/index.html,visitado
em20deoutubrode1997.
[19] Halasz,FrankG.;“ReflectionsonNoteCards:SevenIssuesfortheNextGenerationof
HypermediaSystems”.CommunicationsoftheACM.July1988.
[20] Halasz,FrankG.;Schwartz,Mayer;“TheDexterHypertextReferenceModel”.
CommunicationsoftheACM.February1994,vol.37,n.02,pp.30‐39.
[21] Hopcroft,JohnE.;Ullman,JeffreyD.;FormalLanguagesandtheirRelationto
Automata.Addison‐WesleyPublishingCo.Massachussets,1969.
ISBN0‐201‐02893‐9.
[22] Horton,WilliamK.“WhatShouldandShouldNotGoOnline”.Designing&Writing
OnlineDocumentation.JohnWiley&Sons,NewYork,1990,pp.15‐30.
[23] ISO8859‐1,InformationProcessing–8‐Bitsingle‐bytecodedgraphiccharactersets–
Part1:LatinAlphabetNo.1.InternationalOrganizationforStandardization,
February,1987.
[24] Joyce,Michael;“NotesTowardanUnwrittenNon–LinearElectronicText,‘TheEndsof
PrintCulture’(aworkinprogress)”.PostmodernCulture.Vol.2(1),
September1991.
[25] Kahn,Paul;“LinkingTogetherBooks:ExperimentsinAdaptingPublishedMaterialinto
IntermediaDocuments”.Hypermedia.TaylorGraham,1989,v.01,n.02,
pp.111‐145.
[26] Lévy,Pierre;AsTecnologiasdaInteligência.Editora34LiteraturaS/CLtda.
RiodeJaneiro,1993.ISBN85‐85940‐15‐2.
[27] Martin,PeterW.;“DigitalLaw:SomeSpeculationsontheFutureofLegalInformation
Technology”.Maio,1995.Disponívelem:
http://www.law.cornell.edu/papers/fut95fnl.html,downloadem01deNovembro
de1996.
[28] Martin,PeterW.;“Pre‐DigitalLaw:HowPriorInformationTechnologiesHaveShaped
AccesstoandTheNatureofLaw”.Junho,1995.Disponívelem:
http://www.droit.umontreal.ca/CRDP/Conferences/DAC/MARTIN/MARTIN.html,
downloadem01deNovembrode1996.
125
[29] Naur,Peter(ed.);"RevisedReportontheAlgorithmicLanguageALGOL60."
CommunicationsoftheACM,Vol.3No.5,pp.299‐314,May1960.
[30] NetworkWizards;“InternetDomainSurvey”.Disponívelem
http://www.nw.com/zone/WWW/report.html,visitadoem20deoutubrode1997.
[31] Nielsen,Jacob;HypertextandHypermedia.AcademicPressInc.,1990.
ISBN0‐12‐518410‐7.
[32] Raymond,DarrellR.;TompaFrankWM.;“HypertextandtheOxfordEnglish
Dictionary”.CommunicationsoftheACM.July1988,vol.31,n.7,pp.871‐879.
[33] Rearick,ThomasC.;“AutomatingtheConversionofTextIntoHypertext”.
Hypertext/HypermediaHandbook.Berk,Emily;Devlin,Joseph;eds.Armadillo
Associates,Inc.NewYork,1991,pp.113‐142.
[34] RFCnº1766(RequestforComment),TagsfortheIdentificationofLanguages.
Disponívelem:http://ds.internic.net/rfc/rfc1766.txt.
[35] RFCnº822(RequestforComment),StandardforARPAInternetTextMessages.
Disponívelem:http://ds.internic.net/rfc/rfc822.txt.
[36] Riner,Robert;“AutomatedConversion”.Hypertext/HypermediaHandbook.Berk,
Emily;Devlin,Joseph;eds.ArmadilloAssociates,Inc.1991,pp.95‐111.
[37] Salton,Gerard;Allan,James;Buckley,Chris;“AutomaticStructuringandRetrievalof
LargeTextFiles”.CommunicationsoftheACM.February1994,vol.37,n.2,
pp.97‐108.
[38] Shneiderman,Ben;“ReflectionsonAuthoring,Editing,andManagingHypertext”.
TheSocietyofText.Barrett,Edward.ed.TheMITPress,1991,pp.115‐131.
[39] Tapper,C.;“Citationsasatoolforsearchinglawbycomputer”.InNiblett,B.(ed.);
ComputerScienceandLaw.1980.
[40] Tittel,Ed;Gaither,Mark;Hassinger,Sebastian;Erwin,Mike;WorldWideWebcom
HTML&CGI:BíbliadoProgramador.BerkeleyBrasilEditora,1996.
ISBN85‐7251‐417‐1.
[41] vCard:TheElectronicBusinessCard.AversitConsortiumSpecification.Version2.1,©
1996,InternetMailConsortium.Disponívelem:http://www.imc.org/pdi.
126
[42] VolpeNunes,M.G.;Hasegawa,R.;et.all;“DesenvolvimentodeumRevisorGramatical
paraoPortuguêsContemporâneo”.RelatóriodoConvênioICMSC/USP‐
ITAUTEC/PHILCO.VersãoJulhode1995.Documentodecirculaçãorestrita.
[43] Wall,Larry;Christiansen,Tom;Schwartz,RandalL.;ProgrammingPerl.O’Reilly
Associates,Inc,1996.ISBN1‐56592‐149‐6.
[44] Wilson,Eve;“LinksandStructuresinHypertextsDatabasesforLaw”.Hypertext:
Concepts,SystemsandApplications–ProceedingsoftheEuropeanConferenceon
Hypertext,INRIA,France,November1990.Rizk,A.;Streitz,N.;André,J.(eds.);
CambridgeUniversityPress,NewYork,1990,pp.195‐223.ISBN0‐521‐40517‐3.
[45] Yankelovich,Nicole;NormanMeyrowitz;vanDam,Andries;“ReadingandWritingthe
ElectronicBook”.HypermediaandLiteraryStudies.Delany,Paul;Landow,GeorgeP.
(eds.);MITPress,Massachusetts,1991;pp53‐79.
[46] Yankelovich,Nicole;SmithKarenE.;Garrett,L.NancyandMeyrowitz,Norman;“Issues
inDesigningaHypermediaDocumentSystem”.InteractiveMultimedia.Editors
SueannAmbronandKristinaHooper,MicrosoftPress,1988.
APENDICE
Ap endice A GLossARIO PARA AS REGRAS DE PRODUC;Ao
PARA0 CONJUNTO DASNEjBs
DEFlNI<;Ao
Uma entidade com identificac;;ao unica dentro do conjunto denormas estatutarias jurfdicas brasileiras, denominada somente normapor comodidade, composta necessariamente por um cabec;;alhoseguido de um corpo.
Diversos tipos de abreviac;;ao para "numero" observados nas normas.
Diversos tipos de grafia para a preposic;ao "de" observados nasnormas.
AbrevN
PrepDE
Formato para data por extenso, indicando a data daaprovac;;ao/divulgac;;ao da norma.
lERMO
Dia
MesAno
DEFINI<;:AO
Um dia de acordo com 0 calendario gregoriano, variando de 1 a 31.
Um mes do calendario gregoriano.
Formato especificando a representa<:;ao de um ana do calendariogregoriano.
Diversos tipos de grafia para a indica<:;ao de uma se<:;aoou paragrafounico.
NormaLabel
TipoJur
Se~aoLivro
Parte componente de uma norma que faz a identifica<:;ao da normaunicamente dentro do seu contexto, no caso 0 sistema de normas aque pertence e ao conjunto que engloba normas brasileiras em geral.Esta defini<:;ao de cabe<:;alho especifica a formata<:;ao atraves daidentifica<:;ao de seus sub-termos componentes, como a identifica<:;aodo tipo TipoJur, do seu numero NormalD e da sua data depublica<:;ao DataExt.
Parte do cabe~alho que consiste somente da identifica<:;ao da norma.
Estabelece determinados tipos de norma estatutarias jurfdicasbrasileiras.
Tipos de normas estatutarias jurfdicas considerados "especiais" porpossuirem uma institui<:;ao a eles associada.
Quaisquer outros tipos de normas estatutarias jurfdicas brasileiras quevenham a surgir, e que sejam nao-estatutarias saG especificamenteidentificadas nestas regras.
Tipos de normas estatutarias jurfdicas brasileiras especificamentepresentes na Constitui<:;ao Federal.
Quaisquer outros tipos de normas presentes na Constitui<:;ao Federal,que nao estao explicitamente identificadas na regra TipoConst.
Nome que se da em alternativa ao identificador oficial e comumentedado a uma norma para identificar, de modo geral em um escopoamplo, 0 assunto a que esta se refere. Por exemplo, 0 c6digo dasaguas, c6digo {forestal.
Paragrafo que segue a identifica<:;ao formal da norma e quenormalmente resume 0 assunto tratado. Tambem conhecidas comodisposi<;:6es preliminares.
Paragrafo que antecede 0 corpo da norma e que normalmenteespecifica quais as autoridades envolvidas na aprova<:;ao da norma, asautoridades envolvidas na execu<:;ao da norma e as leis que permitemtais atribui<:;6es.
Parte de uma norma que incorpora todo seu conteudo, podendo seruma ser;ao ou um componente.
Qualquer se<:;aode uma norma.
Um tipo de se<:;aode uma norma com caracteristicas especfficascomo a de possuir tftulos como subse<:;6es.
Um tipo de se<:;aode uma norma, normalmente caracterizado por setratar de um modo de organizar capftulos em temas generalizados.
TERMO
Capitulo
OutraSec
LivLabel
TitLabel
Cap Label
SecLabel
DEFINI<;:AO
Um tipo de se<:;aode uma norma.
Um outro tipo de se<:;a.oque nao se encaixa em nenhum dos tiposespecificados e tem como caracterfstica possuir a palavra "Se<:;ao"como identificadora do seu infcio ou possuir somente 0 tftulo dase<:;aosem nenhuma palavra-chave identificadora.
Qualquer componente de uma norma que nao seja uma sec;ao,identificada como uma unidade com significado semanticoestabelecido.
Artigo de uma norma que segue uma numera<:;ao constante a partirsempre do numero 1, independente da existencia de qualquer tipode sec;ao.
Texto inicial de um artigo, correspondente ao primeiro paragrafo domesmo. Normalmente terminado par ponto no caso de final de fraseou por dois pontos (":") no caso do artigo possuir itens subordinados.
Conjunto de paragrafos pertencente a um outro componente denorma, como por exemplo um artigo.
Conjunto de itens numerados por letras minusculas do alfabeto,tambem conhecidos no meio jurfdico como a/fneas.
Conjunto de itens numerados par numeros romanos ou arabicos quenormalmente estao subordinados a um outro componente, como porexemplo um artigo.
Conjunto de itens que possuem um simbolo, normal mente 0
asterisco ("*") ou 0 hffen ("-"), como elemento para itemizac;ao, aoinves de utilizar letras ou numeros como os itens anteriores.
Componente de uma norma, correspondente a tabelas, graficos,equa<:;6es e similares.
Um paragrafo de uma norma, identificado unicamente dentro docomponente de 0 contem (artigo ou corpo de norma).
Um item numerico pertencente a c1assedos ItensNum, que pode seridentificado unicamente dentro do conjunto.
Um item identificado por letras minusculas do alfabeto,correspondente a alfnea, que pode ser identificado unicamentedentro do conjunto dos ItensLetra ao qual pertence.
Um item unico dentro de um conjunto de ItensCom, identificadopela ordem de apresenta<:;ao.
Disposi<:;6es finais de uma norma, que normalmente contem 0 local edata de sua publica<:;ao e os nomes das pessoas responsaveis por ela.
Um r6tulo que define a identifica<:;ao de uma sec;a.odo tipo Livro.
Um r6tulo que define a identificac.;ao de uma sec;:aodo tipo Tftulo.
Um r6tulo que define a identificac.;a.o de uma se<:;a.odo tipo Capftulo.
Um r6tulo que define a identifica<:;a.o de uma se<:;a.osem tipifica<:;aoespecffica.
TERMO
Paraglabel
Artigolabel
Item letralabel
ItemNumlabel
Anexolabel
NormalD
Se~aolDArtigolD
ParaglD
ItemletralD
Tipoliv
TipoTit
TipoCap
TipoAnexo
Cita~ao
CitArtigo
SecTit
ParagUn
DEFlNI<;:;\O
Um r6tulo que identifica 0 infcio de um paragrafo.
Um r6tulo que identifica 0 inicio de um artigo.
Um r6tulo com formata<;:ao especifica que identifica um item letra.
Um r6tulo com formata<;:ao especifica que identifica um itemnumero.
Um r6tulo com formata<;:ao especifica que identifica um itemcomum.
Um r6tulo gue identifica 0 infcio de um anexo.
Identifica<;:ao numerica de uma norma.
Identifica<;:ao numerica de uma se<;:ao.
Identifica<;:ao numerica de um artigo.
Identifica<;:ao de um paragrafo.
Letra minuscula do alfabeto que identifica um item dentro de umconjunto.
Numero, normalmente em algarismos arabicos que identifica umitem dentro de um conjunto.
Palavras-chave que identificam 0 infcio de uma se<;:aodo tipoOutraSec.Palavras-chave que identificam 0 inicio de uma se<;:aodo tipo Livro.
Palavras-chave que identificam 0 inicio de uma se<;:aodo tipo Titulo.Palavras-chave que identificam 0 inicio de uma se<;:aodo tipoCapitulo.Palavras-chave gue identificam 0 inicio de um Anexo.
Uma cita<;:ao qualquer presente em uma norma, fundamental para aidentifica<;:ao de rela<;:6esentre diversas normas.
A cita<;:ao especifica de um outro c6digo ou sistema de normasdentro de uma norma. Esta cita<;:ao pode ser composta pelo nome doc6digo, identifica<;:ao da norma citada dentro do c6digo, do artigo,paragrafo, alinea e assim por diante.
Cita<;:ao de uma norma pertencente ao mesmo sistema de normas danorma que a cita. Pode possuir referencia a todos os componentesacima citados (artigo, paragrafo, alinea, etc.)
Cita<;:ao de unicamente um paragrafo dentro da mesma norma que 0
referencia.
Cita<;:ao de um artigo da mesma norma que 0 referencia.
Parte da identifica<;:ao de uma se<;:aoque representa seu titulo.
Diversos tipos de grafia para as palavras "paragrafo unico'! queidentificam um paragrafo de um determinado artigo dentro de umanorma.
Institui~ao Instituic;:ao vinculada ao estabelecimento de uma determinadanorma. Em se tratando de normas juridicas estatutarias brasileiras, talinstituic;:ao esta restrita a representar instituic;:6es governamentaiscomo 0 CONAMA, IBAMA, DIREN entre outras.
Respons Conjunto de termos que especifica 0 "responsavel" pela norma. Poderepresentar uma instituic;:ao, ou um cargo. Alguns exemplos SaG: "0Presidente da Republica", "0 Chefe de Coverno Provis6rio daRepublica", "0 Conselho Nacional do Meio Ambiente - CONAMA","0 Diretor de Recursos Naturais Renovaveis", "0 Presidente doInstituto". E identificado, principalmente, atraves do uso destaspalavras-chave.
Abrev Quaisquer abreviaC;:6es utilizadas na lingua portuguesa, como porexemplo: etc., ex., V.S.a., limo., Sr., Sra" Prof., Prof.a, Prof.a
. Trata-sede um conjunto limitado, especificando quais SaGas abreviac;:6esvalidas.
Tabela A Clossario dos termos definidos na Tabela 6.
IFSC-USp SEnv':";'7) PE fliBtlOTECA •; ;.\ F I) q t.; II C 1. 0