uso de uma base de conhecimento de senso comum em projetos de arquitetura da informação de web...
TRANSCRIPT
IPT - Instituto de Pesquisas
Tecnológicas do Estado de São Paulo
1
Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da
Informação de Web Sites
Wanderley S. [email protected]
Orientadora: Profª. Dra. Lucia Vilela L. Filgueiras
Abril/2009
I - Introdução II - Base teóricaIII - PropostaIV - Prova de ConceitoV - Análise dos ResultadosVI - Conclusões
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 2
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 4
De acordo com a literatura pesquisada, em sites onde se sentem mais familiarizados com o esquema de
organização os usuários encontram o que procuram com mais facilidade, o que torna sua visita uma experiência
melhor.
Objetivo de interesse para sites como o Portal da Família (www.portaldafamilia.org.br):
- artigos de orientação sobre o tema Família- mais de 1.400 itens de conteúdo - 15 grandes seções - mais de 8 mil visitas/dia.
Propõe um processo que relaciona os itens de conteúdo de um site aos conceitos que fazem parte do senso comum das pessoas, e aproveita-se desse relacionamento para gerar um esquema de organização que, em tese, é mais familiar para os usuários, denominado CSCOS – CommonSense Context Organization Scheme (“Esquema de Organização com
base no Contexto de Senso Comum”).
Investigar como o conhecimento de Senso Comum, coletado e armazenado no projeto Open Mind Common Sense no Brasil (OMCS-Br),
pode ser usado para auxiliar arquitetos de informação na tarefa de construir um sistema de organização de sites.
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
5
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 6
“Senso comum é um conceito abstrato que surgiu no final da década de 50, e se relaciona a fatos do nosso dia-a-dia, que usamos sem mesmo pensar sobre eles -conhecimento comum, ou, mais genericamente, conhecimento do mundo. Coisas simples tais como os fatos de algo cair para baixo, de em um casamento existir pelo menos um noivo e uma noiva e que um filho é mais jovem que seu pai.”
Profª. Dra. Junia Coutinho Anacleto
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo7
Conhecimento de Senso Comum
Organização com base no contexto de
Senso Comum
Maior facilidade para o usuário encontrar as informações procuradas
Arquitetura da Informação
Interação Humano-Computador (IHC)
=
Contribuição às áreas:
8
Organização com base
no contexto de senso comum
Processo de
geração
Prova de conceito
Análise dos resultados
Análise comparativa
dos esquemas de
organização: card sorting x senso comum
Conclusões
Pesquisa da Literatura
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo9
Arquitetura da Informação (AI)Interação Humano-Computador (IHC)
Conhecimento de Senso ComumMineração de Textos (Data Mining)
Recuperação da Informação (Information Retrieval)
ACM - Association for Computing Machinery - acm.org
IEEE Computer Society - www.computer.org
MIT - Massachusetts Institute of Technology
PARC - Palo Alto Research Center
Associações
UIE - User Interface Engineering
UPA - Usability Professionals' Association
USEIT - Nielsen Norman Group - www.useit.com
Journal of the American Society for Information Science
IAI - The Information Architecture Institute
Congressos
IA Information Architecture Summit Conference
CHI - Conference on Human Factors in Computing Systems
IUI - International Conference on Intelligent User Interfaces
Acompanhamento de Listas de Discussões
Grupo desinterac - Design de Interação
AIfIA-pt - Arquitetura de Informação em Português
Ihc-l - Lista SBC sobre Interação Humano-Computador
Artigos e Livros referenciados
Ano da publicação Quantidade
% dototal
< 2000 6 6%
>=2000 a 2002 14 15%
>=2003 a 2005 35 37%
>=2006 a 2008 39 41%
Total 94
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo10
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 12
Encontrabilidade(“Findability”):
Grau de facilidade com que uma determinada informação (ou objeto) é localizável.
Aplicável tanto à informação em si quanto ao web sitecomo um todo.
(Peter Morville, 2005)
The User Experience Honeycomb - Semantic Studios - 2004
Aspectos da qualidade de web sites
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo13
Conceitos da Teoria do Forragear Informação
Comportamento dos usuários ao procurar informação
Satisficing (“suficientemente satisfatório”) = "satisfy" + "suffice“Pessoas atuam sob “racionalidade limitada” (“bounded rationality”), onde há limites de tempo e de recursos para tomada de decisões.
Herbert Simon, prêmio Nobel de economia
Quando as pessoas pesquisam informações à procura de suas respostas elas exibem o mesmo comportamento que animais caçando suas presas (CHALMERS, 2000). As pessoas tornam-se “informívoros” (analogia à “carnívoros” e “herbívoros”) na caça por informação.
Forragear : “vasculhar, remexer, à procura de algo” ou “o ser vivo procurar alimento, lançando mão de estratégias especializadas, desenvolvidas no âmbito da espécie” (Dicionário Houaiss, 2001).
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo14
Cheiro da Informação
Cheiro da Informação (“Scent of Information”): produzido por sinais associados aos links, que os usuários usam de forma subjetiva para prever a possível utilidade do conteúdo distante em relação ao seu objetivo.
CHI et al., 2001; SPOOL, PERFETTI e BRITTAN (2004)
Rótulos, texto ao redor, URL, imagens, símbolos
Sinais (ex: palavras-gatilho, perfume) funcionam de acordo com um processo de propagação de ativação de idéias (“spreading activation models”).
Um sinal ativa uma idéia dormente no cérebro, e essa idéia ativa outra, sucessivamente.
PIROLLI (2007)
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 15
Organização hierárquica do tipo ambíguaExemplos de técnicas usadas
Escolhas do projetista(MORVILLE e ROSENFELD, 2006)
Card Sorting(REIS, 2007)
Classificação social(MORVILLE, 2005)
Entrevistas com usuários e envolvidos / Análise de concorrentes
Dependência da capacidade depercepção do projetista
Participação dos usuários / Análise pelo título e breve descrição
Classificação compartimentada / pode ser inadequada para pesquisa exploratória.
(MAURER e WARFEL, 2004)
Folcsonomia / categorização aberta e colaborativa
Não estruturada / sem relacionamento formal Taxonomia colaborativa é desafio /
Realizada a posteriori(NOY, CHUGH e ALANI, 2008)
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo16
Conceitos da Teoria do Forragear Informação
Nível do cheiro da informação das páginas antes de o usuário abandonar o site.
PIROLLI (2007)
A web é formada por inúmeras “regiões ou campos de informação” (web sites, lista de resultados de uma busca, ou mesmo áreas dentro de um site, relacionadas a um tipo específico de conteúdo ou de atividades) .
CARD et al. (2001)
Modelo da Dieta da Informação
NIELSEN (2003)
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo17
Um dos tipos de atividades que os usuários realizam na web:Pesquisa exploratória
Pesquisa exploratória: ocorre quando o usuário não sabeexatamente o que procura, mas precisa coletar múltiplospedaços de informação para entendimento de um assunto outomada de decisões, como, por exemplo, aprender sobre osdiversos tipos de planos de aposentadoria.
Das tarefas que as pessoas consideraram como importantesfeitas na web:• 71% envolve a coleta de múltiplos pedaços de informação.• 25% refere-se a pesquisar informações específicas (como porexemplo, achar um determinado fato ou documento).
(PIROLLI, 2007)
Poderá haver problemas se as informações que o usuário procura estão fragmentadas em diversas regiões do site (navegação transversal).
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo18
Bases de dados de Conhecimento de Senso Comum
The Open Mind Common Sense Project - MIT MediaLab
Open Mind Common Sense no Brasil (OMCS-Br)LIA - Laboratório de Interação Avançada Depto. Ciência da Computação - UFSCar
www.sensocomum.ufscar.br Aplicações
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo19
Temas e Atividades do projeto OMCS-Br
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 20
Rede de Conceitos - ConceptNetBr
Adaptado de CARVALHO (2007)Conceitos são inter-relacionados segundo os 20 tipos de relações definidos com base na teoria de Minsky sobre como funciona a mente humana. (Ex.: LocationOf, PropertyOf, IsA, UsedFor)
IsA “fruta”:Maçã
LaranjaPêra
...
LocationOf“fruta”:
FruteiraMercado
Pomar...
Hipótese: é possível usar esse conhecimento armazenado para criar uma organização de senso comum?
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 22
Organização de sites com base na similaridade de Contexto de Senso Comum
Similaridade de Contexto
Identificar e agrupar itens de conteúdo que tratam de um mesmo
contexto
Definido por especialistas no
assunto
Ou definido por pessoas comuns > muitas pessoas > senso comum
Os termos em um documento ajudam a definir um contexto (CHEN et al., 1997).
Crianças e diversão ≈ Filhos e passeios
Diferente da similaridade
léxica (expansão via Tesauros)
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo23
CSCOS – Common Sense ContextOrganization Scheme
Identificação automatizada da similaridade de contextoGraduar o nível de similaridade entre 2 itensAgrupar os itens mais similares entre si
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo24
Documentação do processo de geração do CSCOS
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 26
Prova de Conceito do processo de geração do CSCOS
81 artigos representativos da seção Pais do sitePortal da Família(40% da seção)
Análise e comparação com a organização gerada através de card sorting.
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 27
Experimento de Card Sorting OnLine
Técnica recomendada por diversos autores (TULLIS e WOOD, 2005).Fornece uma aproximação do que seria uma organização consensual para a maioria dos usuários• 27 participantes• Título de cada artigo como única informação perceptível sobre cada item a classificar
Assuntos compartimentados: livros, virtudes...
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
28
Etapas do processo de geração do CSCOS
FerramentasCSCOSGenerator
Módulos:- Extrator
- Captador- Assinador
- CalcSim
statistiXL
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
29
Extrator – Extração das palavras-chave de cada item de conteúdo
Palavras-chave distintas por artigo:Média: 164Mínimo: 53Máximo: 791
Assinatura léxica: 40 palavras-chave para caracterizar cada artigo (25% da média)
Trecho de Assinatura Léxica
Detalhes:•Lista de stop-words: conjunções, artigos, preposições, numerais.•Normalização: termos no singular, grau normal, verbos no infinitivo (dicionário DELAF_PB, usado na ConceptNetBr)•Consolidação das palavras-chave (cálculo da frequência)
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
30
Captador – Capta o contexto na ConceptNetBr
Consultadas 3.929 palavras-chave dos textos do acervo.72% das palavras-chave contempladas na ConceptNetBr.133.518 conceitos retornados da ConceptNetBr.Diversos tipos de relação para cada conceito.
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo31
Assinador - Geração da assinatura léxico-contextual de cada item de conteúdo
Id do Artigo Palavra-chave Frequência
1 televisão 39
1 filho 25
1 programa 19
1 pai 19
1 família 11
1 criança 10
1 familiar 8
1 valor 7
1 educação 7
1 critério 6
1 direito 6
1 infantil 5
1 vida 5
1 qualidade 4
1 conteúdo 4
1 ensinar 3
Trecho da Assinatura Léxica Exemplo de resultados da ConceptNetBr
Termo pesquisado Tipo de Relação Conceito Relacionado
televisão UsedFor entreter
televisão LocationOf hotel
filho ThematicKLine nascimento
filho SuperThematicKLine alimentar filho
filho CapableOf jogar bola
filho PropertyOf doente
pai ThematicKLine homem
pai CapableOf educar
programa LocationOf computador
programa LocationOf tv
família IsA lar
família PartOf bebê
família ThematicKLine saudade
criança PropertyOf pequeno
criança LocationOf creche
criança CapableOf dormir
direito ThematicKLine reclamar
infantil PropertyOf coelho da páscoa
vida LocationOf pessoa
conteúdo ThematicKLine ensinamento
qualidade ThematicKLine filme
ensinar CapableOf avó
ensinar DefinedAs dar aula
conhecimento LocationOf enciclopédia
horário ThematicKLine remédio
Cada assinatura léxica (40 palavras-chave) recuperou, em média, 3.915 termos de contexto do senso comum da ConceptNetBr, sem repetição (mínimo de 1437, máximo de 7.332).
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo32
Assinador – Normalização do peso de cada termo
Trecho de Assinatura Léxico-Contextual
Técnica usada:TF-IDF (“Term Frequency – Inverse Document Frequency”) - muito usada em algoritmos de recuperação da informação (McNEE et al., 2006).
Relevância de um termo (peso) atribuído conforme o número de ocorrências desse termo no documento (TF) e em razão inversa de sua importância no conjunto de documentos da coleção (IDF).
Id Artigo Termo TFIDF
1 Televisão 0,265638754
1 Doente 0,175029441
1 Programa 0,091001447
1 Lixo 0,041299613
1 Assistir 0,038084476
1 Critério 0,030750382
1 Direito 0,027035262
1 Valor 0,024597993
1 Conveniente 0,024260403
1 Programação 0,024260403
1 Seleção 0,024260403
1 Televisivo 0,024260403
1 Familiar 0,020591696
1 Conteúdo 0,020500254
1 Qualidade 0,020500254
1 Sala 0,019507044
80 termos:40 mais frequentes do léxico40 mais frequentes do contexto
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo33
CalcSim - Matriz de similaridade por Contexto de Senso Comum
Técnica usada: Medida de Similaridade por Cosseno, para cálculo da similaridade entre documentos (BAYARDO et al., 2007).
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 34
Análise de agrupamento - Dendogramagerado no processo CSCOS
Técnica de clustering hierárquico com método “Group Average”. Ferramenta statistiXL .
Variações de agrupamento ocorrem conforme composição e tamanho das assinaturas léxico-contextuais.
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 36
Detalhes de agrupamentos da prova de conceito
Itens do tipo “livro”: distribuídos entre os agrupamentos.
Há coerência?
Resumo esquemático
37
Comparação: CSCOS x Classificação por Card Sorting
Similaridade de Contexto
de Senso Comum
Card SortingSimilaridade
do léxico
Exemplo de semelhança:Artigos nº. 31 ("Dicas de passeios e lazer com a família”) e nº. 48 ("Jogos e brincadeiras de salão”): 3 termos em comum nos textos: “criança”, “jogo”, “sala” ( 7,5% da assinatura léxica). Agrupados no card sorting. 23 termos em comum nas assinaturas léxico-contextuais (28,7% de um total de 80 termos) => maior ênfase no agrupamento!
Exemplo de diferenças:Livros: agrupados no card sorting, separados no CSCOS.
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 38
Análise Comparativa
(i) a classificação resultante do experimento de card sorting fornece, em tese, uma aproximação do que seria uma organização consensual para a maioria dos usuários, e foi obtida a partir das sugestões dadas pelos usuários (participantes do experimento) que tiveram o título de cada artigo como única informação perceptível sobre cada item a classificar;
(ii) a classificação obtida através da similaridade contextual fornece uma organização com base na similaridade de contexto de cada item, contexto esse que foi obtido, em tese, a partir do senso comum das pessoas, expresso através de relações entre conceitos armazenadas em uma base de conhecimento de senso comum (OMCS-Br) e o conteúdo (texto) dos itens analisados.
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 39
Análise qualitativa de agrupamentos - Exemplo
Grupos gerados via CSCOS
Por quê não agrupar “Meu filho é um irresponsável” e “Meu filho é desobediente” ? (site atual e Card Sorting)
Motivo matemático: quantidade de termos de contexto em comum
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 40
Análise qualitativa de agrupamentos - Exemplo
Caso: Detecção automática de similaridade, condizente com teorias educacionais (David Isaacs)
Grupos gerados via CSCOS
Por quê não agrupar “Meu filho é um irresponsável” e “Meu filho é desobediente” ? (site atual e Card Sorting)
David Isaacs, autoridade mundial em educação e autor do livro "A educação das virtudes humanas“:
A obediência é uma virtude a ser trabalhada pelos pais principalmente em crianças de 0 a 7 anos, tendo em conta os traços estruturais das idades e a natureza das virtudes, visto que 1) se não se desenvolve desde pequenos, é muito mais difícil depois; 2) é uma virtude necessária para permitir uma convivência feliz; 3) tranquiliza às mães de família.
A virtude da responsabilidade é tratada com maior ênfase desde os 8 até os 12 anos (idade escolar da criança) visto que necessita de maior uso da vontade “para suportar incômodos, esforçar-se continuamente, alcançar o decidido e resistir a influências nocivas".
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 41
Rótulos?
Não há “sugestões de rótulos”. Maior dificuldade para criar rótulos curtos para representar o contexto determinado por alguns grupos de itens.
Namoro entre adolescentes. Puberdade e Descobrimento do outro sexo. Conflito de
gerações. Educação da Compreensão. Quem ama,
educa.
Cada agrupamento torna-se um campo de informações úteis ao usuário se o usuário considerá-las “saborosas” (NIELSEN, 2003).
Como evidenciar o “cheiro da informação” e diferenciar os grupos existentes nos links de navegação?
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 42
Alguns casos de incertezas no ClusteringHierárquico
Lista classificada dos itens mais similares a um dado item inicial: o item nº. 1 não formou grupo com seus três itens mais similares
Ocorre no CSCOS, Card Sorting...
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 43
Sub-produtos do processo
Recomendação de leitura a artigos similares acrescido de uma “textcloud”.
Condizente com a abordagem de foco no conteúdo ao invés de foco na estrutura.
HALLAND e HALLAND (2007) e SPOOL, PERFETTI e BRITTAN (2004)
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo44
Questões em aberto no processo CSCOS
Definição da quantidade de termos por item
Assinatura léxica
mín.: 53 / máx.: 791 / média 164
Assinatura contextual média 3.915 termos de
senso comum
Assinatura léxico-
contextual: 40 termos do léxico, 40 de contexto
Diferentes quantidades: Impacto na formação de pares de itens mais similares, e na formação e hierarquização dos grupos.
Aumentar a quantidade de termos do contexto: implica em maior dependência da “qualidade” do contexto recuperado da ConceptNetBr. Melhora com o aumento de colaboradores sobre o tema.
Como testar? Close card sort não é adequado. Necessário bons rótulos e técnicas para aumentar o “cheiro da informação” nos links de navegação.
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 45
Questões em aberto no processo CSCOS
Nem todas as palavras-chave dos textos encontraram conceitos correspondentes na base de senso comum.
Existência de ambiguidades (ex.: “camisinha” / “camisa” / “preservativo”).
Possíveis mudanças na organização proposta conforme:
- Coleta de senso comum sobre temas mais próximos ao do site em estudo:
- Aumento do volume do conhecimento de senso comum armazenado ;
- Mudanças culturais .
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 47
Conclusões
Comprovação da possibilidade de se associar um contexto, obtido através de uma base de conhecimento de senso comum, a cada item
de conteúdo do site estudado.
Comprovação da viabilidade de se obter um esquema de organização com base na similaridade de contexto de senso comum dos itens de conteúdo da coleção (CSCOS – Common Sense Context Organization
Scheme).
Coerência nos agrupamentos propostos conforme o CSCOS (na lógica
do processo e avaliações qualitativas deste autor).
Tempo de processamento relativamente pequeno.
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo48
Conclusões
OMCS-Br : potencialidade para abranger conhecimento de senso comum sobre diversos
temas (exemplos: terceira idade, família, educação, folclore, lazer, assuntos do cotidiano).
CSCOS: técnica alternativa ou complementar ao card sorting, para auxiliar o arquiteto da
informação durante a fase de projeto do sistema de organização de um site.
CSCOS: artefatos adicionais úteis para projetos que adotem uma abordagem com foco no
conteúdo.
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 49
Adequação ao uso do conhecimento de Senso Comum em projetos de Arquitetura da Informação
Nem todo tipo de conhecimento pode ser considerado como sendo de senso comum.
Pode não adequado a projetos com conteúdo técnico-científicos ou público-alvo especializado (pessoas vs usuários).
Senso comum... de uma comunidade específica?
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 50
Trabalhos futuros
Uso da base de conhecimento de Senso Comum para identificação automática de contexto de forma facetada, possibilitando uma classificação facetada, ou um sistema de busca com base nessas facetas.
feto
bebê (0-1 ano)
criança (1-3 anos)
criança (4-7 anos)
puberdade (8-12
anos)
adolescência
jovem
adulto
meia-idade
idoso
educação
saúde
direito
esportes
trabalho
família
lazer
sociedade
moda & beleza
gravidez
gestação
nascimento
batizado
aniversário
vestibular
formatura
estudos
namoro
noivado
casamento
bodas
falecimento
festas
cotidiano
casal
homem
mulher
jovem
sogra
avós
primos
tios
irmãos
amigos
colegas
Brasil
Portugal
Outros países
casa
hospital
escola
empresa
ruas
IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo51
Trabalhos futuros
Uso de sintagmas nominais dos textos nas pesquisas na ConceptNetBr: maior precisão na recuperação do contexto.
Exemplo: “posto de gasolina”
IHC 2008 - VIII Simpósio Brasileiro de Fatores Humanos em Sistemas ComputacionaisPorto Alegre - RS - Outubro de 2008Workshop de Aspectos da Interação Humano-Computador na Web SocialArtigo: Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da Informação de WebSites