qualidade dos dados na internet integração de dados e warehousing felype santiagomaio/2009
TRANSCRIPT
![Page 1: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/1.jpg)
Qualidade dos dados na InternetIntegração de Dados e Warehousing
Felype SantiagoMaio/2009
![Page 2: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/2.jpg)
Agenda
•Qualidade dos dados•Proveniência dos dados•Confiabilidade e segurança na Web•Privacidade na Web
![Page 3: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/3.jpg)
Qualidade dos dados
•Definições▫“A qualidade dos dados refere-se ao grau
de excelência apresentado pelo dado em relação ao retrato dos fenômenos atuais”
GIS Glossary
▫“O estado de completude, validade, consistência, atualidade e precisão que torna um dado apropriado para um uso específico”
Government of British Columbia
![Page 4: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/4.jpg)
Qualidade das informações publicadas
•Problemas reconhecidos com qualidade dos dados
•Checklists e frameworks propostos para avaliar a qualidade das informações publicadas na Internet
![Page 5: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/5.jpg)
Critérios de avaliação• Hawkins (1999)
▫ Atualização▫ Propósito▫ Autoria/Fonte▫ Escopo▫ Exatidão/Relevância▫ Desenho/Formatação▫ Autoridade▫ Unicidade/Estabilidade▫ Estrutura/Indexação▫ Revisão/Classificação▫ Qualidade de escrita▫ Qualidade dos dados▫ Critério de seleção▫ Links de/para outras
fontes
• Alexander e Tate (1999)– Autoridade – Precisão– Atualidade– Objetividade– Cobertura
![Page 6: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/6.jpg)
Dimensões da qualidade dos dados
•A qualidade dos dados é um conceito multidimensional
•Huh, Keller, Redman e Watkins (1990) definiram quatro dimensões da qualidade dos dados:▫Precisão▫Completude▫Consistência▫Atualidade
![Page 7: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/7.jpg)
Wand e Wang (1996)•Qualidade dos dados como uma tarefa
independente•Quatro dimensões intrínsecas:
▫Completude▫Falta de ambigüidade▫ Significância▫Corretude
![Page 8: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/8.jpg)
Observação empírica
•Zmud (1978), Madnick e Wang (1992)▫Qualidade da informação▫Relevância da informação▫Qualidade do formato▫Qualidade do significado
•Componentes da qualidade dos dados▫Completude, precisão, adequação e
consistência
![Page 9: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/9.jpg)
Proveniência dos dados
•Qual a origem dos dados?▫Cópias de cópias▫Edições de conteúdo
•O quão confiáveis e atuais eles são?▫Fontes não confiáveis▫Dados desatualizados
![Page 10: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/10.jpg)
Proveniência dos dados - Definição
A proveniência de um dado é a descrição das origens dele e do processo pelo qual ele foi produzido, o que auxilia a avaliação da qualidade, da validade e de quão recente é a informação
(BUNEMAN et al.,2001)
![Page 11: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/11.jpg)
Taxonomia das técnicas de proveniência
•Diferentes abordagens para domínios individuais
•Aplicações da proveniência dos dados:▫Qualidade dos dados▫Investigação do rastro▫Receitas de replicação ▫Atribuição
![Page 12: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/12.jpg)
Qualidade dos dados
•A proveniência dos dados permite avaliar a qualidade deles para uma aplicação
•Erros introduzidos por defeitos nos dados tendem a inflar quando propagados
•O nível de detalhe da proveniência determina com que grau a qualidade dos dados pode ser estimada
•Com um certificado do pedigree do dado, é possível avaliá-lo baseado nas métricas de qualidade
![Page 13: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/13.jpg)
Investigação do rastro
•A proveniência como um meio de realizar a auditoria dos dados e saber o processo pelo qual ele foi produzido
•Por meio de backtrack para localizar a fonte dos dados ou processar as causas de erros encontrados e aplicar correções relevantes
![Page 14: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/14.jpg)
Receitas de replicação
•Informações de proveniência incluem os passos utilizados para derivar um conjunto de dados e podem ser tidos como uma receita para criação desses dados
•Dados detalhados sobre operações, fontes de dados e parâmetros tornam possível repetir a derivação
![Page 15: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/15.jpg)
Atribuição
•O pedigree do dado pode ajudar a verificar a propriedade de uma fonte de dados
•Usuários podem procurar a árvore de variação para ver os criadores de uma fonte de dados
•Criadores podem ver na cadeia da linhagem quem está utilizando os dados criados
•Também pode ser utilizado como um meio de atribuição de responsabilidade em casos e erros
![Page 16: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/16.jpg)
Proveniência na Web
•A Internet mudou completamente a forma como os dados circulam▫Documentos em folhas de papel ->
Documentos online em bases de dados
![Page 17: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/17.jpg)
Transformação Papel -> Web
•Um documento em papel, em essência, é imodificável▫Documentos on-line podem ser (e
freqüentemente são) freqüentemente atualizados
•Documentos online freqüentemente estão em bases de dados, ou seja, têm uma estrutura explícita
•Documentos on-line tipicamente contêm dados extraídos de outros documentos/bases de dados
![Page 18: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/18.jpg)
Qualidade na Web
•Processos de revisão de conteúdo são freqüentemente ausentes
•Dados desatualizados e de baixa qualidade podem causar danos ao mundo dos negócios
•Riscos com a falta de qualidade das informações sobre saúde orientadas para o consumidor publicadas na Web
![Page 19: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/19.jpg)
Segurança
•A segurança de sistemas de informação se refere ao fato de que as metas de proteção são alcançadas mesmo com ataques inteligentes
•Informação são seguras se▫Não podem ser interceptadas▫Se interceptadas, não podem ser
entendidas▫Não podem ser alteradas ou falsificadas
![Page 20: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/20.jpg)
Segurança
•Alguns objetivos da proteção▫Confidencialidade▫Integridade▫Disponibilidade▫Responsabilidade
![Page 21: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/21.jpg)
Encriptação
•Os algoritmos de encriptação disponíveis hoje serão bons o suficiente por vários anos
•Porém, hashes fracos como o MD5 e chaves curtas devem ser evitados
•Embora pareça irreal hoje quebrar uma chave com facilidade, isso pode se tornar fácil em poucos anos
![Page 22: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/22.jpg)
Protocolos de criptografia
•TLS - Transport Layer Security •SSL - Secure Sockets Layer•Provêem comunicação segura para SMTP,
HTTP e outros tipos de transferência de dados
•Ambos são basicamente o mesmo•Pequenas diferenças no TLS – sucessor do
SSL
![Page 23: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/23.jpg)
Objetivos do TLS em ordem de prioridade
•Segurança com criptografia•Interoperabilidade•Extensibilidade•Eficiência relativa
![Page 24: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/24.jpg)
TLS - Transport Layer Security
•Finalidade: Garantir a privacidade e a integridade dos dados em uma comunicação entre duas aplicações
•Composto de duas camadas: ▫Protocolo de registro (TLS Record
Protocol) ▫Protocolos handshaking (TLS Handshaking
Protocols)
![Page 25: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/25.jpg)
Arquitetura do TLS
![Page 26: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/26.jpg)
Processo de estabelecimento de uma conexão TLS
![Page 27: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/27.jpg)
Resumo de uma sessão já negociada
![Page 28: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/28.jpg)
Confiabilidade
•Crença no comportamento de uma das partes envolvidas para algum propósito
•Está intimamente ligado a natureza humana
•Algo é confiável se▫Não pode ser identificado de forma
ambígua▫Opera exatamente como projetado ou
esperado▫Não faz nada que não foi projetado para
fazer▫Opera sem interrupção
![Page 29: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/29.jpg)
Segurança e confiabilidade na Web
•Crescimento rápido da popularidade do comércio eletrônico
•Uso online de informações de valor•Crescimento de ataques e exploração de
brechas em mecanismos de segurança•A falta de confiança no comércio
eletrônico ainda é o maior empecilho ao seu crescimento
![Page 30: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/30.jpg)
Mecanismos de segurança na Web
•O modelo de segurança utilizado hoje em browsers, dispositivos móveis etc., em essência, é o mesmo de 10 anos atrás
•Baseado em criptografia de chave pública e assinatura confiável e uma implementação dos protocolos SSL e TLS
![Page 31: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/31.jpg)
Privacidade dos dados - Definição
•É a relação entre a coleta e divulgação de dados, tecnologias e as questões jurídicas e políticas em torno deles
•Controle da disponibilidade de informações
![Page 32: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/32.jpg)
Privacidade dos dados
•A capacidade de controlar que informações podem ser reveladas sobre alguém na Internet, e de controlar quem pode acessar informações
•Data Privacy Day▫Estados Unidos, Canadá e 27 países
europeus•“Privacy is dead - get over it” Steve
Rambam (investigador particular especializado em casos de privacidade na Web
![Page 33: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/33.jpg)
Privacidade em redes sociais
•Facebook▫Bloquear participantes▫Bloquear conteúdo de profile▫Bloquear fotos e vídeos▫Escolher amigos
•Funcionalidades semelhantes no E-harmony, no MySpace, no Orkut etc.
![Page 34: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/34.jpg)
Privacidade na navegação
![Page 35: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/35.jpg)
Cookies (1/2)
•Dados trocados entre navegador e servidor, colocando em arquivos no computador do usuário dados criados no computador do visitante
•Mantém persistência entre sessões HTTP•Bastante utilizado por sites de comércio
eletrônico
![Page 36: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/36.jpg)
Cookies (2/2)•Pode conter informações confidenciais do
usuário•Somente o site que originalmente
distribuiu um cookie pode recuperá-lo, retornando apenas informações já cedidas ao site
•Na prática, programadores podem contornar isso
• Uso de cross-site scripting ou outras técnicas para roubar informações de um usuário
![Page 37: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/37.jpg)
Ameaças legais
•Utilização de tecnologias projetadas para rastrear e monitorar informações de internautas por agências do governo
•Medidas necessárias para manter a lei•Defensores da privacidade e civis
libertários X Agências do governo
![Page 38: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/38.jpg)
Exemplos específicos•União Européia adota plano que permite a
polícia acessar conteúdo pessoal sem um mandado (Janeiro/2009)
•FBI lança software (Magic Lantern), cavalo de tróia que registra todas as ações do usuário (Novembro/2001)
![Page 39: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/39.jpg)
Google: “You can trust us, really”
•Processos automatizados que não têm intervenção humana
•Apenas alguns Googlers têm acesso a informações confidenciais
![Page 40: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/40.jpg)
Conclusão
•Sem a proveniência de um dado, não é possível a avaliação de sua qualidade, validade e atualidade
•A Web oferece algumas ameaças ao usuário, porém já há métodos de proteção eficientes que podem aumentar a segurança do usuário
![Page 41: Qualidade dos dados na Internet Integração de Dados e Warehousing Felype SantiagoMaio/2009](https://reader036.vdocuments.site/reader036/viewer/2022062700/552fc12c497959413d8d225b/html5/thumbnails/41.jpg)
Referências• http://findarticles.com/p/articles/mi_qa5495/is_200210/ai_n21323493/?tag=content;col1
• http://news.cnet.com/8301-10784_3-9890847-7.html
• http://wiki.uni.lu/MsCS/Security+and+Trust.html
• http://www.csiro.au/resources/Security-And-Trust.html
• http://en.wikipedia.org/wiki/Data_quality
• http://en.wikipedia.org/wiki/Internet_privacy
• http://www.gta.ufrj.br/grad/06_1/ssl/func_tls.htm
• http://www.cin.ufpe.br/~fsf2/dw/