unsupervised outlier detection in time series data zakia ferdousi e akira maeda apresentação:...
TRANSCRIPT
![Page 1: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/1.jpg)
Unsupervised Outlier Detection in Time Series Data
Zakia Ferdousi e Akira Maeda
Apresentação: Adriana Jouris
![Page 2: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/2.jpg)
Roteiro
• Introdução• Outliers• Análise do mercado de ações• Objetivo• Peer Group Analysis • Experimentos e Resultados• Conclusões e Trabalhos Futuros
2
![Page 3: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/3.jpg)
Introdução
• A detecção de Outlier é fundamental na questão de mineração de dados, especificamente em detecção de fraudes.
• Detectar fraudes significa identificar as transferências fraudulentas suspeitas, ordens e outras atividades ilegais contra a empresa.
3
![Page 4: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/4.jpg)
Outliers
• Outliers tenham sido definidas informalmente como observações em um conjunto de dados que parecem ser inconsistentes com o restante daquele conjunto de dados, ou que se afastem tanto de outras observações, a ponto de despertar suspeitas de que foram geradas por um mecanismo diferente.
4
![Page 5: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/5.jpg)
Outliers
• A identificação de outliers pode levar à descoberta de conhecimentos úteis e tem uma quantidade de aplicações práticas em áreas tais como:
- a detecção de fraude com cartão de crédito;- análise de desempenho de atletas; - análise de irregularidades em votações;- previsão meteorológica (mau tempo), etc.
5
![Page 6: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/6.jpg)
Análise do mercado de ações
• Fraude no mercado de ações & manipuladores• Fraude no mercado de ações normalmente ocorre
quando corretores tentam manipular os seus clientes para negociar ações sem respeitar os interesses reais dos seus próprios clientes
6
![Page 7: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/7.jpg)
Análise do mercado de ações
• Por que a detecção de fraude no mercado de ações é necessária?• Vários métodos de detecção de fraudes estão
disponíveis nos campos como o cartão de crédito, telecomunicações, detecções intrusão na rede, etc. Mas área de detecção de fraudes no mercado de ações ainda está atrasada.
7
![Page 8: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/8.jpg)
Objetivo
• Identificar IDs do vendedor cuja quantidade de venda aumenta subitamente.
• Identificar IDs do vendedor cuja quantidade cai repentinamente.
8
![Page 9: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/9.jpg)
Peer Group Analysis - PGA
• PGA é um método não-supervisionado para monitoramento do comportamento ao longo do tempo na mineração de dados.
• PGA foi proposta para a detecção de fraude em cartões de crédito pela Bolton & Hand, em 2001.
9
![Page 10: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/10.jpg)
Peer Group Analysis - PGA
Figura1 – Fluxo de Processo PGA 10
![Page 11: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/11.jpg)
Peer Group Analysis - PGA
• PGA encontra as tendências anômalas nos dados, é razoável caracterizar tais dados de uma forma equilibrada através da colocação de dados nos períodos de tempo fixo.
11
![Page 12: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/12.jpg)
Peer Group Analysis - PGA
• Após a modelagem de dados adequada torna-se necessário algumas análises estatísticas.
• Em seguida, a tarefa mais importante do método PGA consiste na identificação de “peer group” para todas as observações meta/alvo.
12
![Page 13: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/13.jpg)
Peer Group Analysis - PGA
• Peer grups são resumidas em cada ponto de tempo subseqüente e o objeto meta é então comparada com seus resumos dos peer groups.
• As contas desviam de seus peer groups são substancialmente mais sinalizado como outliers para uma investigação mais aprofundada.
13
![Page 14: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/14.jpg)
Peer Group Analysis - PGA
• Estes processos de repetição da identificação do peer group para sinalização da conta, desde que recebido tenha sido bom resultado.
14
![Page 15: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/15.jpg)
Peer Group Analysis - PGA
• Significado:• A abordagem da PGA é diferente na medida em
que um perfil é formado com base no comportamento de vários usuários similares, ao passo que as atuais técnicas de detecção “outlier”, ao longo do tempo incluem perfis de usuário único.
15
![Page 16: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/16.jpg)
Peer Group Analysis - PGA
• Definição• Vamos supor que temos observações em N objetos,
onde cada observação é uma seqüência de valores d, representado por um vetor, X i, de comprimento d. O valor de jth da observação ith, X ij, ocorre em um ponto fixo tempo T j. Deixe PG i (T j) = {Alguns subconjunto de observações (≠X i) que mostram comportamento semelhante ao do Xi em tempo Tj}. Depois GP i (T j) é o peer group do objeto i, em tempo j.
16
![Page 17: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/17.jpg)
Peer Group Analysis - PGA
• O parâmetro npeer descreve o número de objetos no peer group e controla efetivamente a sensibilidade da PGA.
• O problema de encontrar um bom número de peers é a fim de encontrar o número correto de vizinhos em uma análise com a vizinhança mais próxima.
17
![Page 18: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/18.jpg)
Peer Group Analysis - PGA
• Estatísticas Peer Group• Deixe S ij ser uma estatística resumindo o
comportamento das observações ith (i-ésimo) em um tempo j. Uma vez que temos encontrado o peer group metas/alvos pelas observações X i podemos calcular estatísticas peer group, P ij.
• Essas serão, geralmente, resumos a partir de valores de S ij para os membros do grupo.
•
18
![Page 19: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/19.jpg)
Peer Group Analysis - PGA• O princípio aqui é que o grupo inicialmente fornece um
modelo local, P i1, para S i1, assim caracterizando o comportamento local de X i no momento t 1, e posteriormente irá fornecer modelos, P ij, para S ij, em vez T j, j > 1. Se a nossa observação meta/alvo, S ik, diverge "significativamente" do seu modelo peer group P ik em tempo T k, então nós concluímos que a nossa meta/alvo não estava mais se comportando como seus peers em vez t k. Se o desvio for suficiente grande, então a observação meta/alvo será sinalizada como merecendo investigação.
19
![Page 20: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/20.jpg)
Peer Group Analysis - PGA
• Para medir o desvio, da observação peer group nós calculamos a sua distância padronizada a partir do modelo peer group, o exemplo que usamos aqui é uma distância padronizada do centróide do peer group baseada em uma estatística-t. O valor do centróide do peer group é dado pela equação:
20
![Page 21: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/21.jpg)
Peer Group Analysis - PGA
21
![Page 22: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/22.jpg)
Experimentos
Tabela 1: parâmetros utilizados na configuração experimental
22
![Page 23: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/23.jpg)
Dados experimentais
• Conjunto de dados consiste de 3 meses a partir de dados reais 01/06/2005 a 31/08/2005 para a quantidade diariamente de ações vendida para cada um dos 143 corretores, que foram recolhidas da bolsa de valores de Bangladesh (Dhaca). O número total transação é de 340.234.
Aqui nós estabelecemos, d = 14 semanas, N = 143. O comprimento de tempo, w = 5, mas variado npeer para assumir valores npeer = 13 e npeer = 26.
23
![Page 24: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/24.jpg)
Dados experimentais
Tabela 2: Transação no mercado de ações
24
![Page 25: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/25.jpg)
Resultados experimentais
• Para fins de comparação, nos simulamos PGA sobre transações de ações muitas vezes, alterando o número de peers.
• Os seguintes gráficos ilustram o poder da PGA para detectar anomalias locais nos dados.
25
![Page 26: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/26.jpg)
PGA sobre transações de ações, conta # 132
npeer = 13 npeer = 26
26
![Page 27: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/27.jpg)
PGA sobre transações de ações, conta # 68
npeer = 13 npeer = 26
27
![Page 28: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/28.jpg)
Resultados experimentais
• Nós também calculamos o desvio da observação meta do seu peer group. Se o desvio for suficientemente grande, então a meta observação será sinalizado como merecedor de uma investigação. Os seguintes resultados mostrados aqui são as distâncias entre o centróide padronizada do peer group baseado em uma estatística-t.
28
![Page 29: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/29.jpg)
Resultados experimentais
Tabela 3 - Desvio de Contas Alguns Corretores
29
![Page 30: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/30.jpg)
Conclusões e Trabalhos Futuros• Identificar IDs comprador cuja quantidade
comprada aumenta subitamente. • Identificar IDS vendedor / comprador que de
repente começa um grande volume de negócio. • Identificar IDs ações se o volume negociado ou
quantidade negociada e preço aumenta de uma forma suspeita.
30
![Page 31: Unsupervised Outlier Detection in Time Series Data Zakia Ferdousi e Akira Maeda Apresentação: Adriana Jouris](https://reader033.vdocuments.site/reader033/viewer/2022042814/552fc10b497959413d8c2940/html5/thumbnails/31.jpg)
FIM
31