two supervised learning approaches for name disambiguation in author citations

Click here to load reader

Upload: avidan

Post on 15-Feb-2016

29 views

Category:

Documents


0 download

DESCRIPTION

Two Supervised Learning Approaches for Name Disambiguation in Author Citations. Hui Han, Lee Giles, Hongyuan Zha , Cheng Li, Kostas Tsioutsiouliklis. ACM/IEEE-CS Joint Conference on Digital libraries - 184 Citações. INTRODUÇÃO. Abordagem Supervisionada. Mixed Citation . - PowerPoint PPT Presentation

TRANSCRIPT

Incremental Unsupervised Name Disambiguation in Cleaned Digital Libraries

Hui Han, Lee Giles, Hongyuan Zha, Cheng Li, Kostas TsioutsiouliklisTwo Supervised Learning Approaches for Name Disambiguation in Author CitationsACM/IEEE-CS Joint Conference on Digital libraries - 184 CitaesINTRODUOAbordagem Supervisionada.Mixed Citation.D. Pereira may refer to Denilson Pereira or David Pereira, two different people.Split Citation .Denilson Alves Pereira may appear under different name abbreviations, such as Denilson Pereira, D. Pereira, or D. A. Pereira.INTRODUOConverso dos nomes para um formato cannico; Ex. Luciano Vilas Boas Espiridio: L. EspiridioTrabalhos similares: Citation Mathching e Name Authority;Mtodos baseados em similaridade funcionam melhor com strings do que tokens;Usa apenas informao de coautoria, titulo e veculo de publicao.ABORDAGENSNaive Bayes Model (NB) - Generative ModelUtiliza apenas exemplos s positivos para treino;Modelo Probabilstico;Permite a combinao de modelos diferentes;Facilmente extensvel;

Support Vector Machine (SVM) - Discriminative ModelUtiliza exemplos positivos e negativos para treinamento;Baseado em alguma funes de distncia;Necessrios ajustar pesos diferentes para diferente atributos;EM MAIS DETALHESNBEstima a probabilidade de um dado autor ter produzido a nova citao C;Para uma nova citao o desambiguador procura na base de dados uma entrada cannica com probabilidade mxima de produzir o a citao;SVNNessa abordagem cada autor uma classe e a nova citao classificada para a classe mais prxima conforme algum critrio de distncia;As features que compem o espao de caractersticas so os coautores, titulo e veculo de publicaoProblema de Monty HallOproblema de Monty Hall, tambm conhecido porparadoxo de Monty Hallouproblema do Silvio Santos um problema matemtico eparadoxoque surgiu a partir de um concurso televisivo dosEstados UnidoschamadoLets Make a Deal, exibido nadcada de 1970.

O jogo consiste no seguinte:Monty Hall(o apresentador) apresentava 3 portas aos concorrentes, sabendo que atrs de uma delas est um carro (prmio bom) e que as outras tm prmios de pouco valor.

Na 1 etapa o concorrente escolhe uma porta (que ainda no aberta);De seguida Monty abre uma das outras duas portas que o concorrente no escolheu, sabendo partida que o carro no se encontra a;Agora com duas portas apenas para escolher pois uma delas j se viu, na 2 etapa, que no tinha o prmio e sabendo que o carro est atrs de uma delas, o concorrente tem que se decidir se permanece com a porta que escolheu no incio do jogo e abre-a ou se muda para a outra porta que ainda est fechada para ento a abrir.

Problema de Monty HallNB

Viso geral dos Modelosj [1, 3] and k [0,K(j)]K(j) is the total number of elements in attribute Aj

SVMViso geral dos ModelosSVMViso geral dos Modelos

EXPERIMENTOS15 J. ANDERSON11 J. SMITH

DBLP

EXPERIMENTOSPara cada abordagem (NB e SVM) foram realizados 10 experimentos com os conjuntos aleatoriamente divididos para cada experimento.As abordagens utilizam atributos isolados e combinao destes.Hybrid I Para NB igual combinao de probabilidades. Para SVM usa o mesmo espao de caracterstica para os atributos.Hybrid II Apenas para o modelo NB. Coautoria apenas quando uma relao de coautoria existe entre um co-autor na citao de teste e uma entrada de nome candidata no banco de dados de citao.

EXPERIMENTOSResultados e DiscussesPrimeira Base de testesDiferentes atributos apresentam diferentes contribuies para desambiguaoNB captura melhor padres de coautoriaHybrid II possui melhor performance mdia;SVM supera ligeiramente NB

Resultados e DiscussesSegunda Base de testesAs duas abordagens alcanam desempenho pior devido principalmente menor qualidade dos dados desses conjuntos de dados DBLP. A abordagem de NB supera significativamente a abordagem SVM ao usar informaes de coautoria sozinho e os dois regimes hbridos.Usando as informaes coautoria apenas o desempenho significativamente melhor do que usar ttulo/veculo e palavras-chave apenas.O "Hybrid II" tem um desempenho melhor (73,3% de preciso, mdia) do que o "Hybrid I" (69,1% de preciso mdia).Resultados e DiscussesSegunda Base de testes

Resultados e DiscussesTamanho da base de Treino

CONCLUSESEstuda e compara 2 abordagem para o problema;Tanto NB quanto SVM apresentam vantagens;A preciso pode chegar a 90% usando um modelo HibridoO Modelo NB pode facilmente ser extentido para incorporar mais atributosO Modelo SVM pode ser melhorado atuando sobre a funo de distncia e os pesos dos atributos

QUESTIONS???

CreditosApresentao realizada na disciplina: Reconhecimento de Padres em 23/10/2012

Professor: David Menotti

Estudante: Luciano Vilas Boas EspiridioMestrando em Cincia da ComputaoDepartamento de Computao DECOMInstituto de Cincias Exatas e Biolgicas ICEBUniversidade Federal de Ouro Preto UFOP