1 extração de informações carlos alberi dos santos melo ivan gesteira costa filho
TRANSCRIPT
![Page 1: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/1.jpg)
1
Extração de Informações
Carlos Alberi dos Santos MeloIvan Gesteira Costa Filho
![Page 2: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/2.jpg)
2
Crescente números de Crescente números de textostextos digitalizados: intranets, bibliotecas digitalizados: intranets, bibliotecas
digitais, CD-Rom, ...digitais, CD-Rom, ...
WEB
![Page 3: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/3.jpg)
3
• Trata o problema de extração de dados Trata o problema de extração de dados a partir de uma coleção de documentos.a partir de uma coleção de documentos.
• Apenas informações relevantesApenas informações relevantes
Extração de Informações
![Page 4: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/4.jpg)
4
IR x IE
• IR (Information Retrieval)– recuperação de páginas (documentos)– ex. nosso projeto
• IE (Information Extraction)– recuperar dados dentro de documentos– deadlines, locais e assuntos em páginas de
“call for papers”
![Page 5: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/5.jpg)
5
Contexto
Documentos
Dados
Classificação
Extração deInformação
![Page 6: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/6.jpg)
6
Histórico
• Linguistic String Project (60)• FRUMP - newswire (79)• DARPA - Grupos de Pesquisa (80)• MUC - Message Understanding
Conference (80)
![Page 7: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/7.jpg)
7
Tipos de Texto
• Estruturados– Ex. tabelas, listas, XML, ...
• Não estruturados– Ex. Fichas médicas, artigos, reportagens, ...
• Semi-estruturados– Ex. Referencias bibliográficas, anuncios, ...
![Page 8: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/8.jpg)
8
Texto Estruturados
<html><title> Some Country Codes </title><body><b>Some Country Codes</b><p><b>Congo</b><i>242</i><BR><b>Egypt</b><i>20</i><BR><b>Brazil</b><i>55</i><BR></body></html>
Some Country CodesCongo 242Egypt 20Brazil 55
![Page 9: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/9.jpg)
9
Texto Não Estruturados
• Evento– Pessoa Entrando: C. Vicent Protho– Pessoa Saindo: John W. Smith– Cargo: Presidente
C. Vicent Protho, diretor executivo do deste fabricante de chips, foi nomeado ao posto adicional de presidente , sucedendo John W. Smith, que renunciou o cargo em vista de outros interesses.
![Page 10: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/10.jpg)
10
Texto Semi-estruturados
VDO/TRC/ALG - Casa Pau Amarelo c/ 3 qts, 2sls, copa, coz, 3wcs, muro alto. Terreno medindo 936m2, area construída 248.69m2. R$50 mil.Fones: 436.1648
![Page 11: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/11.jpg)
11
XML
• Tags SGML• Semântica no texto.• Arquivo DTD
Será XML amplamente usado na WEB?
![Page 12: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/12.jpg)
12
XML
<!doctype CodigoTelefonico SYSTEM ”http:/www.di.ufpe.br/ias/codtel.dtt><pais>Congo</pais><codigo>242</codigo><pais>Egypt</pais><codigo>20</codigo><pais>Brazil</pais><codigo>55</codigo>
<!element CodigoTelefonico (Pais, Codigo)><!element Pais (#PCDATA)><!element Codigo (#PCDATA)>
Documento XML
DocumentoDTT
![Page 13: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/13.jpg)
13
Técnicas de IE
WrappersPLN
•Textos não-estruturados•Técnicas simplificadas de PLN
•Textos estruturados•Aplicações Web
•Ex. html, wml, xml, ..
![Page 14: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/14.jpg)
14
PLN
Análise Léxica /Morfológica
Análise Sintática/Semântica
Construção de Regras de Extração
Preenchimentode Templates
Análise deDiscurso
Tokenização
![Page 15: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/15.jpg)
15
PLN - Tokenização
Tokenização
Análise Léxica /Morfológica
Análise Sintática/Semântica
Construção de Regras de Extração
Análise deDiscurso
Preenchimentode Templates
•Segmentação das Palavras•Divisão em segmentos (estruturas)•Pre-processamento
– ignorar partes do texto
![Page 16: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/16.jpg)
16
PLN - Análise Léxica
Tokenização
Análise Léxica /Morfológica
Análise Sintática/Semântica
Construção de Regras de Extração
Análise deDiscurso
Preenchimentode Templates
•Classificação Morfológica (artigo, verbo, substantivo).•Reconhecimento de nomes próprios, empresas, datas, ...•Etiquetagem automática
![Page 17: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/17.jpg)
17
PLN - Análise Sintática
Tokenização
Análise Léxica /Morfológica
Análise Sintática/Semântica
Construção de Regras de Extração
Análise deDiscurso
Preenchimentode Templates
•Construção arvore sintática•Grupos Nominais•Grupos Verbais
•Análise sintática parcial
![Page 18: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/18.jpg)
18
PLN - Construção de Padrões
Tokenização
Análise Léxica /Morfológica
Análise Sintática/Semântica
Construção de Regras de Extração
Análise deDiscurso
Preenchimentode Templates
•Dicionário de padrões de Extração•Específico ao Domínio•Automática X Manual
•eficiência, portabilidade, treinamento, alterações ad hoc
![Page 19: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/19.jpg)
19
PLN - Construção de Padrões
•O parlamento foi bombardeado pela Guerrilha.•A guerrilha bombardeou o parlamento
ALVO - foi bombardeado pela - GRUPOgrupo-nominal(ALV,cabeca(alvo-fisico))grupo-nominal(GRP,cabeca(GRP))grupo- verbal(VG,tipo(passivo),cabeca(bombardeado)
sujeito(ALV,VG)objeto(GRP,VG)
-> EventoBonbardeamento(alvo(AVL),agente(GRUPO))
Exemplo:
Regras:
![Page 20: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/20.jpg)
20
PLN - Análise de Discurso
Tokenização
Análise Léxica /Morfológica
Análise Sintática/Semântica
Construção de Regras de Extração
Análise deDiscurso
Preenchimentode Templates
•Relações entre sentenças do texto.•Correferência•Ligações entre palavras.
![Page 21: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/21.jpg)
21
PLN - Preenchimento dos Templates
Tokenização
Análise Léxica /Morfológica
Análise Sintática/Semântica
Construção de Regras de Extração
Análise deDiscurso
Preenchimentode Templates
•Preenches os dados em templates especificados pela aplicação.•Objetos ou tabelas
![Page 22: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/22.jpg)
22
Avaliação do Sistema
• Corpus Etiquetado• Cobertura X Precisão• F-Measure
• Taxa Mínima de 90%
FMeasure = (2 * Cobertura * Precisão) (Cobertura + Precisão)
![Page 23: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/23.jpg)
23
Problemas - PLN
• Adequação de Teorias• Custo de Etiquetagem
– Técnicas automáticas
• Custo de Produção– Seis especialistas mês
![Page 24: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/24.jpg)
24
PLN X Homem
• Tipster– 38 paginas de regras– Artigos de 10 paginas
Homem MáquinaX
60% a 80% 50%
30 minutos20 horas
![Page 25: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/25.jpg)
25
Wrappers
• Ferramenta usada para extrair dados de textos estruturados ou com algum tipo de estrutura
• Usada para permitir acesso integrado a base de dados heterogêneas
• Não usa conhecimento lingüístico• Identifica padrões no documento
![Page 26: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/26.jpg)
26
Tarefas & Construção
• 3 Tarefas– Recuperar/ler documento– Extrair informações– Estruturar os dados (ex. BD)
• Construção– Depende do problema a ser resolvido
• Abordagem– Manual– Semi-automática– automática
![Page 27: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/27.jpg)
27
Construção Manual
• Regras escritas manualmente em uma linguagem de programação
![Page 28: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/28.jpg)
28
Construção Manual
• Prós– Maior precisão – Técnica simples
• Contra– Tempo e esforço de desenvolvimento– Habilidade para definição das regras– Mudança no código caso a estrutura dos
documentos seja alterada
![Page 29: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/29.jpg)
29
COIN (Context Interchange)
• Utiliza wrappers para permitir acesso integrado a fontes de dados heterogêneas
• A intenção é construir wrappers com interfaces genéricas
• Proporcionar facilidade de reuso de código
![Page 30: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/30.jpg)
30
Arquitetura
Interpretador
Projetista/Otimizador
Interpretador
Executor
Casamento de padrões
Acesso à rede
Especificações
Documentos Web
consultaResultados
![Page 31: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/31.jpg)
31
ProdExt
• Extração de dados sobre produção técnica.– Ex. Autor, Título, Local, Data, ...
• Textos semi-estruturados• Arquitetura Híbrida
![Page 32: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/32.jpg)
32
ProdExt - PLN
• Análise Léxica– Identificação de nomes de lugares, datas,
veículos, nomes próprios (desejável)
• Dicionários– Veiculo de publicação, editora
![Page 33: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/33.jpg)
33
ProdExt - Wrappers
• Regras com peso– Autor, Título, Veiculo de Produção, ...
• Ex. Regra para Título
Se cadeia tem sinal de hifem ou dois pontos:ENTÃO incrementa a chance de ser Título( 0.25)e incrementa a chance de ser Veículo( 0.2)e incrementa a chance de ser Local( 0.1)e incrementa a chance de ser Editora( 0.015)
![Page 34: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/34.jpg)
34
Construção semi-automática
• Uso de uma ferramenta no desenvolvimento
• Especificado de maneira interativa e com uso de exemplos
• O usuário delimita trechos que interessam
![Page 35: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/35.jpg)
35
Construção semi-automática
• Com base nos trechos selecionados, a ferramenta define um padrão sintático
• O resultado é um conjunto de dados estruturados de acordo com o modelo criado pela ferramenta
![Page 36: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/36.jpg)
36
Construção semi-automática
• Prós:– Torna mais rápido e fácil o desenvolvimento
• Contras:– Caso a estrutura do documento seja
modificado o wrapper tem que ser refeito
![Page 37: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/37.jpg)
37
NoDoSe
• Ferramenta para estruturar e extrair dados de forma semi-automática
• Tanto o processo de estruturação quanto o de extração ocorre interativamente
![Page 38: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/38.jpg)
38
O processo
• Especificar como os dados devem ser modelados:– A estrutura é constituída de um conjunto de nós– Cada nó é descrito por uma lista de atributos
onde cada atributo tem a forma: <nome, valor>
• Decompor o documento em regiões:– As regiões são mapeadas em nós
• Definir o formato de saída:– Relatórios, BD etc.
![Page 39: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/39.jpg)
39
Construção Automática
• Utiliza indução para encontrar padrões a partir de um conjunto de exemplos
• O processo de aprendizagem pode gerar várias hipóteses para um mesmo dado
• A solução é ajustar o algoritmo de aprendizagem para obedecer alguns critérios
![Page 40: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/40.jpg)
40
Construção Automática
• Três aspectos a considerar em relação ao processo de aprendizagem:– Aprendizagem o corre de maneira
incremental ou o corpus é definido antecipadamente
– Em que linguagem(ou formalismo) será descrito o corpus e as hipóteses
– O algoritmo terá abordagem top-down ou bottom-up
![Page 41: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/41.jpg)
41
Construção Automática
• Prós:– Não requer nenhum esforço humano
• Contras:– As regras dependem do dos exemplos de
treinamento– Caso a estrutura dos documentos seja
alterada torna-se necessário selecionar um novo corpus e repetir o processo de aprendizagem
![Page 42: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/42.jpg)
42
ShopBot
• Agente de compras para comércio eletrônico
• Realiza consultas em lojas on-line e extrai e resume informações de interesse
• Duas fases de atuação:– Aprendizado
• Analisa páginas utilizando técnicas de aprendizagem– Comparação
• Encontra o melhor preço de um produto específico
![Page 43: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/43.jpg)
43
Análise
• Procura-se padrões no código do documento HTML
• Cria uma seqüência de registros separadas por tags visualmente perceptíveis como:– <HR>, <P>, <BR>, <LI>
• Gera uma assinatura para cada registro através da remoção de tags HTML.
![Page 44: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/44.jpg)
44
Análise
• Página de entrada:
<html> <title>CD’s</title> <body> <B>Preços</B><P> <B>Pixies</B> <I>23,00</I><br> <B>The Cure</B> <I>22,00</I><br> <B>Suede</B> <I>22,00</I><br> </body> < /html>
![Page 45: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/45.jpg)
45
Análise
• Assinatura:<html> <title>texto</title> <body> <B>texto</B><P><B>texto</B> <I>texto</I><br><B>texto</B> <I>texto</I><br><B>texto</B> <I>texto</I><br></body> </html>
• A primeira e a última linha representam, cada uma, apenas 1/5 das assinaturas, enquanto as outras, idênticas, representam 3/5
• O shopBot descarta então, a primeira e a última linha
![Page 46: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/46.jpg)
46
Avaliação de Wrappers
• O modo de avaliação não é padrão• Podem ser usados:
– Tempo de processamento em relação ao volumes de dados;
– Taxa de erros;– Custo e eficácia no processo de
aprendizagem;– F-measure, etc.
![Page 47: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho](https://reader033.vdocuments.site/reader033/viewer/2022052321/552fc0f8497959413d8b5074/html5/thumbnails/47.jpg)
47
Bibliográfia
• Rodrigues Nunes C.C. ProdExt: Um Wrapper para Extração de Produção Técnica e Científica de Páginas Eletrônicas. Dissertação de Mestrado, UFPE, 2000.
• Cowie J., Lehnert W.. Information extraction. Comunications of the ACM, 39(1):80-91, January 1996.
• Maruyama H., Tamura K., Uramoto N. XML and Java.Addison-Wesle, 1998