universidade federal de sergipe centro de … · universidade federal de sergipe centro de...
TRANSCRIPT
UNIVERSIDADE FEDERAL DE SERGIPE
CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA
COMPUTAÇÃO
Pré-Processamento dos Intervalos de Tempos Observados
na Dinâmica de Digitação (KeyStroke) de Senhas Curtas
Murilo Alves Bezerra Júnior
SÃO CRISTÓVÃO/ SE
2013
UNIVERSIDADE FEDERAL DE SERGIPE
CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA
COMPUTAÇÃO
Murilo Alves Bezerra Júnior
Pré-Processamento dos Intervalos de Tempos Observados
na Dinâmica de Digitação (KeyStroke) de Senhas Curtas
Dissertação apresentada ao Programa de Pós-
Graduação em Ciência da Computação (PROCC) da
Universidade Federal de Sergipe (UFS) como parte de
requisito para obtenção do título de Mestre em Ciên-
cia da Computação.
Orientador: Prof. Dr. Jugurta Rosa Montalvão Filho
Co-Orientador: Prof. Dr. Eduardo Oliveira Freire
SÃO CRISTÓVÃO/ SE
2013
!
!
!
!
!
!
!
!
!
!
!!!
!
!
!
!
!!!!!!!!!FICHA!CATALOGRÁFICA!ELABORADA!PELA!BIBLIOTECA!CENTRAL!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!UNIVERSIDADE!FEDERAL!DE!SERGIPE!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Bezerra Junior, Murilo Alves
B574p Pré-processamento dos intervalos de tempos observados na dinâmica de digitação (KeyStroke) de senha curtas / Murilo Alves Bezerra Junior ; orientador Jugurta Rosa Montalvão Filho. – São Cristóvão, 2013. 75 f. : il. Dissertação (mestrado em Ciência da Computação) - Universidade Federal de Sergipe, 2013.
O 1. Ciência da computação. 2. Dinâmica da digitação. 3.
Equalização de intervalos de tempo. 4. Biometria. I. Montalvão Filho, Jugurta Rosa, orient. II. Título
CDU: 004.89
!
!
!
Murilo Alves Bezerra Júnior
Pré-Processamento dos Intervalos de Tempos Observados
na Dinâmica de Digitação (KeyStroke) de Senhas Curtas
Dissertação apresentada ao Programa de Pós-
Graduação em Ciência da Computação (PROCC) da
Universidade Federal de Sergipe (UFS) como parte de
requisito para obtenção do título de Mestre em Ciên-
cia da Computação.
BANCA EXAMINADORA
Prof. Dr. Jugurta Rosa Montalvão Filho, Orientador
Universidade Federal de Sergipe (UFS)
Prof. Dr. Eduardo Oliveira Freire, Co-Orientador
Universidade Federal de Sergipe (UFS)
Prof. Dr. Edward David Moreno Ordonez,
Universidade Federal de Sergipe (UFS)
Prof. Dr. Evandro Ottoni Teatini Salles,
Universidade Federal do Espírito Santo (UFES)
Pré-Processamento dos Intervalos de Tempos Observados
na Dinâmica de Digitação (KeyStroke) de Senhas Curtas
Este exemplar corresponde à redação final da
Dissertação de Mestrado, de Murilo Alves Be-
zerra Júnior para ser aprovado pela Banca exa-
minadora.
São Cristóvão - SE, 27 de Setembro de 2013
______________________________________
Prof. Dr. Jugurta Rosa Montalvão Filho
Orientador
______________________________________
Prof. Dr. Eduardo Oliveira Freire
Co-Orientador
______________________________________
Prof. Dr. Edward David Moreno Ordonez
______________________________________
Prof. Dr. Evandro Ottoni Teatini Salles
Resumo
Em 2006, um método foi proposto sobre o uso da equalização de intervalos de tem-
pos, como forma de melhorar o desempenho de alguns métodos biométricos baseados em
dinâmica de digitação (keystroke). Naquele artigo, pequenas bases de dados, com textos es-
táticos e livres, foram usadas para mostrar, em termos de taxas de erros, os ganhos quando
a equalização era aplicada antes do uso de métodos clássicos. Em 2009, lançou-se uma
base pública grande, correspondente a uma única senha hipotética curta, digitada por 51 vo-
luntários, usada pelos autores do trabalho e, posteriormente, disponibilizada, publicamente,
para novos experimentos. Nesta dissertação utilizou-se essa grande base pública, para a qual
adapta-se a equalização de intervalos. Utilizando os mesmos métodos usados pelos pro-
prietários da base experimental, obtém-se resultados que mostram, claramente, um notável
ganho de desempenho para todos os métodos testados quando a equalização de intervalos é
usada no pré-processamento dos dados. É observado também o desempenho no tocante ao
tamanho da senha, e analisa-se a estabilização do padrão de digitação. Por fim, foi realizada
a montagem de uma nova base, a partir da qual foi possível verificar e analisar o efeito pro-
duzido no ritmo de digitação do usuário devido à troca de caracteres da senha, bem como a
influência do seu modo de digitação.
Palavras-chave: Dinâmica da digitação; Equalização de intervalos de tempo; Biome-
tria.
i
Abstract
In 2006, a method was proposed concerning the use of time interval equalization to im-
prove performances of some biometric methods based on typing dynamics (or keystroke).
In the paper where that method was first proposed, relatively small databases were used for
showing, in terms of error rates, the effect of time equalization applied as a preprocessing
step before the use of classical methods. In 2009, a much larger large database for keystroke
research was made publicly available, through the Internet. This database is based on a single
hypothetical password, typed by 51 volunteers through 8 sessions (50 samples per session).
In this dissertation, the preprocessing method is adapted to this large public database of short
typing patterns. Thus, by using the same biometric detectors already used by the owners of
the database, we obtain new experimental results which clearly show an outstanding per-
formance gain when the equalization interval (preprocessing) is applied. It is also studied
the performance gain as a function of the password length (in number of symbols), and the
stability of typing pattern against changes in the order of typed symbol pairs. Finally, the
last study was carried to a new database we acquired with both direct and inverted sequence
of symbols, allows for the analysis of keyboard layout changes on biometric performances.
Keywords: Dynamic of typing; Equalization time intervals; Biometrics.
ii
"A vida é, é uma coisa, que é mais fácil compreender a morte que compreender a vida, porque o rio
vai pro mar, depois ele se transforma em chuva, depois ele volta ao rio. Os pais deixam os filhos, os
filhos depois passam também a serem pais, e esse processo de crescer, nascer e morrer e voltar é a
coisa mais bonita que a própria vida tem".
Participação de João Nogueira no programa "Ensaio" da TV Cultura no ano de 1992.
iii
Lista de Figuras
2.1 Ilustração da aquisição dos intervalos do tipo Down-Down (DD) durante a
digitação da senha hipotética “.tie5Roanl”. . . . . . . . . . . . . . . . . . . 11
2.2 Ilustração do significado dos tempos de retenção de tecla, tempos entre acio-
namentos consecutivos e entre liberação e acionamentos consecutivos. . . . 12
4.1 Ilustração da distribuição do intervalo do tipo Down-Down (DD) entre a di-
gitação dos caracteres “t” e “i” da senha hipotética “.tie5Roanl”. . . . . . . 27
4.2 Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digi-
tação dos caracteres “t” e “i” da senha hipotética “.tie5Roanl” de um dado
usuário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digi-
tação dos caracteres “5” e “R” da senha hipotética “.tie5Roanl” de um dado
usuário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4 Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digi-
tação dos caracteres “a” e “n” da senha hipotética “.tie5Roanl” de um dado
usuário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.5 Ilustração do aprendizado individual de cada característica da senha hipoté-
tica “.tie5”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.6 Ilustração do aprendizado individual de cada característica da senha hipoté-
tica “Roanl”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.7 Desempenho em termo de EER - (Killourhy e Maxion, 2009) - Intervalos H,
DD, UD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.8 Desempenho em termo de EER - (Killourhy e Maxion, 2009) - Intervalos H,
DD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
iv
4.9 Desempenho em termo de EER - (Montalvão e Freire, 2006) - Intervalos H,
DD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.10 Desempenho em termo de EER - com Equalização - Intervalos H, DD . . . 36
5.1 Ilustração - Coleta dos dados da senha hipotética . . . . . . . . . . . . . . 39
5.2 Ilustração - Coleta dos dados da senha hipotética invertida . . . . . . . . . 40
5.3 Layout do teclado do equipamento utilizado - formato ABNT2 . . . . . . . 40
5.4 Média dos logaritmos dos intervalos de tempos DD do segmento de senha
“.tie”, para senha hipotética normal e invertida do usuário 1 . . . . . . . . . 43
5.5 Média dos logaritmos dos intervalos de tempos DD do segmento de senha
“.tie”, para senha hipotética normal e invertida do usuário 2 . . . . . . . . . 44
5.6 Média dos logaritmos dos intervalos de tempos DD do segmento de senha
“.tie”, para senha hipotética normal (digitação normal x digitação com 2 dedos) 47
5.7 Média dos logaritmos dos intervalos de tempos DD do segmento de senha
“.tie”, para senha hipotética invertida (digitação normal x digitação com 2
dedos) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
v
Lista de Tabelas
1.1 Comparação das várias tecnologias biométricas . . . . . . . . . . . . . . . 4
3.1 Resultados da abordagem de (Killourhy e Maxion, 2009) . . . . . . . . . . 17
4.1 Resultados com intervalos H, DD e UD, sem equalização . . . . . . . . . . 20
4.2 Resultados com intervalos H e DD, sem equalização . . . . . . . . . . . . 20
4.3 Resultados com intervalos H e DD, com mesma equalização para todos os
intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.4 Resultados com intervalos H e DD, com equalização . . . . . . . . . . . . 22
4.5 Resultados com intervalos H e DD, sem equalização, com 100 amostras para
geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.6 Resultados com intervalos H e DD, com mesma equalização para todos os
intervalos, utilizando 100 amostras para geração dos templates . . . . . . . 23
4.7 Resultados com intervalos H e DD, com equalização, utilizando 100 amos-
tras para geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . 23
4.8 Resultados com intervalos H e DD, sem equalização, com 50 amostras para
geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.9 Resultados com intervalos H e DD, com mesma equalização para todos os
intervalos, utilizando 50 amostras para geração dos templates . . . . . . . . 24
4.10 Resultados com intervalos H e DD, com equalização, utilizando 50 amostras
para geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.11 Resultados com intervalos H e DD, sem equalização, com 10 amostras para
geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.12 Resultados com intervalos H e DD, com mesma equalização para todos os
intervalos, utilizando 10 amostras para geração dos templates . . . . . . . . 25
vi
4.13 Resultados com intervalos H e DD, aplicado ao pré-processamento proposto,
utilizando 10 amostras para geração dos templates . . . . . . . . . . . . . . 25
4.14 Resultados com intervalos H e DD, sem equalização . . . . . . . . . . . . 26
4.15 Resultados com intervalos H e DD, com mesma equalização para todos os
intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.16 Resultados com intervalos H e DD, com equalização . . . . . . . . . . . . 26
4.17 Resultados dos EER dos intervalos H, DD e UD - sem equalização . . . . . 33
4.18 Resultados dos EER dos intervalos H e DD - sem equalização . . . . . . . 34
4.19 Resultados dos EER dos intervalos H e DD - com mesma equalização para
todos os intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.20 Resultados dos EER dos intervalos H e DD - com equalização . . . . . . . 36
5.1 Resultados com intervalos H, DD, sem equalização – base (Killourhy e Ma-
xion, 2009) – “.tie5Roanl” . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 Resultados com intervalos H, DD, sem equalização – nova base – “.tie5Roanl” 42
5.3 Resultados do segmento de senha “.tie” na senha normal e invertida - usuário 1 42
5.4 Resultados do segmento de senha “.tie” na senha normal e invertida - usuário 2 43
5.5 Resultados do segmento de senha “.tie” com senha normal, modo de digita-
ção normal e com 2 dedos . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.6 Resultados do segmento de senha “.tie” com senha invertida, modo de digi-
tação normal e com 2 dedos . . . . . . . . . . . . . . . . . . . . . . . . . . 46
vii
Lista de Siglas
FAR - False Acceptance Rate
FRR - False Reject Rate
EER - Equal Error Rate
H - Hold
DD - Down-Down
UD - Up-Down
viii
Sumário
1 Introdução 1
1.1 Problemática e Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Objetivos da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Organização da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Dinâmica da Digitação em Senhas Alfa-Numéricas Curtas 8
2.1 A Base de Dados utilizada . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Como a coleta foi realizada . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Protocolo de Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Pré-Processamento Adaptado à Senha Curta 15
3.1 A Abordagem de (Killourhy e Maxion, 2009) . . . . . . . . . . . . . . . . 17
3.2 A Abordagem de (Montalvão e Freire, 2006) . . . . . . . . . . . . . . . . 18
4 Resultados a partir da base “.tie5Roanl” 19
4.1 Validação do Pré-Processamento Proposto . . . . . . . . . . . . . . . . . . 20
4.2 Influência do Número de Amostras de Treinamento . . . . . . . . . . . . . 22
4.3 Influência do Uso dos Tempos: {H} e {DD} . . . . . . . . . . . . . . . . 25
4.4 Teste de Aderência da Log-Normalidade . . . . . . . . . . . . . . . . . . . 27
4.5 Influência do Caractere na Senha . . . . . . . . . . . . . . . . . . . . . . . 30
4.6 Influência do Comprimento da Senha no EER . . . . . . . . . . . . . . . . 32
5 Resultados a partir de novas bases de dados 38
5.1 Ferramenta desenvolvida para coleta das novas bases de dados . . . . . . . 38
5.2 Novas Bases de Dados e seus Protocolos . . . . . . . . . . . . . . . . . . . 39
ix
5.3 Influência da Troca da Posição dos Caracteres . . . . . . . . . . . . . . . . 41
5.4 Influência do Modo de Digitação . . . . . . . . . . . . . . . . . . . . . . . 45
6 Conclusões e Trabalhos Futuros 49
Referências 51
A Artigo Submetido 55
x
Capítulo 1
Introdução
A segurança dos Sistemas de Informação tem, em sua essência, um problema em estabelecer
uma associação entre um indivíduo e uma identidade, o qual pode ser dividido em duas
grandes áreas: autenticação e identificação. A identificação é a forma com que o usuário
fornece sua identidade única ao sistema, enquanto que a autenticação é o processo pelo qual
o usuário estabelece a validação de sua identidade (Bosworth, Hoyt e Hutt, 2002), ou seja, a
autenticação é a prova da identificação.
Os processos de autenticação, conforme observado em Computer Security Handbook e
(Bosworth, Hoyt e Hutt, 2002), assumem três formas básicas que podem ser fusionadas para
aumentar a confiabilidade no processo de autenticação:
• Autenticação por propriedade: algo que o usuário possua como uma chave ou cartão
magnético;
• Autenticação por conhecimento: algo que o usuário saiba, como por exemplo, uma
senha;
• Autenticação por característica: alguma característica comportamental ou fisiológica
do usuário.
De acordo com o Biometrics Journal of The International Biometrics Society, os termos
biométrico e biometria têm sido utilizados, desde o início do século XX, para identificar
o campo de desenvolvimento de métodos matemáticos e estatísticos aplicáveis à análise de
problemas das ciências biológicas.
1
2
O termo biometria tem sido utilizado, também, para identificar a área em que a tecnologia
é utilizada para identificar indivíduos, a partir das características biológicas.
Embora já seja tema de trabalhos científicos, há mais de um século, a biometria é uma
área que está despertando grande atenção da comunidade científica atualmente. Trata-se da
identificação de indivíduos a partir das suas características biológicas, ou seja, por partes
de seu corpo e/ou por padrões comportamentais. Tal identificação pode ser realizada por
vários aspectos distintos, tais como a impressão digital (um dos meios de identificação mais
antigos), a análise da íris, da retina, a geometria da mão, o reconhecimento facial, da voz,
pela caligrafia, pela dinâmica da digitação, etc.
Numa rápida abordagem dos meios de identificação, têm-se:
• Impressão Digital: Os sistemas biométricos que utilizam a identificação digital anali-
sam pequenas marcas na imagem do dedo, que são as terminações e bifurcações dos
sulcos, conhecidas por minutiae (minúcias). A imagem de impressão digital é obtida
por um dispositivo específico. Alguns sistemas utilizam também a distância entre os
sulcos ou os poros nos dedos. A qualidade da imagem pode ser afetada por sujeira,
ressecamento da pele, idade, sexo, raça ou até pela forma com que a pessoa interage
com o equipamento.
• Íris: A identificação através da íris corresponde à análise do anel colorido que circunda
a pupila do olho, uma vez que a estrutura ocular de cada indivíduo é única.
• Retina: A identificação através do scanning de retina é baseada no padrão de vasos
sanguíneos existentes no interior do glóbulo ocular. Algumas pessoas possuem re-
sistência a esse tipo de identificação, pois é necessário que um feixe de luz incida
diretamente no fundo do olho.
• Geometria da mão: A partir da imagem digitalizada da mão do indivíduo, são men-
suradas formas e proporções métricas entre dedos e palma. O seu leitor pode ser um
scanner (digitalizador) convencional de escritório.
• Face: A identificação pela face envolve captura de fotos do rosto. Em seguida, técnicas
de visão computacional podem ser usadas para sobrepor e comparar diversos marcos
da face, como por exemplo, a posição dos olhos, do nariz e/ou da boca. Outras técnicas
3
mais custosas (do ponto de vista computacional) também são propostas na literatura,
tais como aquelas baseadas em Eigenfaces. Ainda sistemas sofisticados de detecção
facial podem utilizar o calor produzido pelo fluxo de sangue sob a face.
• Voz: Neste caso, o sinal de voz é digitalizado e processado. O processamento deve
enfatizar o timbre da voz, que é usado como parâmetro individual. O ambiente de
operação do sistema pode influir significativamente no resultado da identificação.
• Caligrafia: Os sistemas biométricos que utilizam a escrita analisam a grafia da pessoa,
levando em consideração aspectos como a velocidade da escrita e a pressão sobre o
papel (sensor).
• Dinâmica da Digitação: Os sistemas biométricos que estudam o padrão comporta-
mental da dinâmica como as teclas são pressionadas. O termo é originário do inglês
“KeyStroke Dynamics”.
Uma característica humana qualquer pode ser utilizada em termos dos seguintes parâme-
tros (Jain, Ross e Prabhakar, 2004):
1. Universalidade - UNIV: cada pessoa tem sua característica.
2. Singularidade - SING: distinção que separa os pontos biométricos individualmente a
partir de outro.
3. Permanência - PERM: mede quanto o equipamento biométrico resiste ao envelheci-
mento.
4. Colectabilidade - COLEC: facilidade de aquisição para a medição.
5. Desempenho - DESEMP: precisão, velocidade e robustez da tecnologia utilizada.
6. Grau de aceitabilidade - ACEITA: aprovação de uma tecnologia.
7. Evasão - EVA: facilidade de uso de um substituto.
A tabela 1.1, mostra uma comparação entre os meios biométricos existentes em termos
desses parâmetros, (Jain, Ross e Prabhakar, 2004):
4
Tabela 1.1: Comparação das várias tecnologias biométricas
Comparação das várias tecnologias biométricas (A = Alta, M = Média, B = Baixa)
Biometria: UNIV SING PERM COLEC DESEMP ACEITA EVA
Face A B M A B A B
Impressão Digital M A A M A M A
Geometria da mão M M M A M M M
Íris A A A A A B A
Retina A A A B A B A
Caligrafia B B B A B A B
Voz M B B M B A B
Dinâmica da Digitação M B B A B A M
Analisando o contexto, observa-se claramente na dinâmica da digitação, classificada na
literatura como sendo parte da “biometria comportamental”, a existência de um problema
para o qual a modelagem estatística é apropriada, em que cada sinal biométrico, coletado
e/ou medido, pode ser visto como uma amostra de uma variável aleatória (Albuquerque,
Fortes e Finamore, 2008).
O keystroke é uma modalidade da biometria comportamental, através da qual um in-
divíduo pode ser identificado ou ter sua identidade verificada pelo seu padrão rítmico de
utilização de um teclado.
Sabendo que existem sistemas que são capazes de verificar se a senha que o usuário digita
é ou não correta, há também sistemas que são capazes de verificar se quem está digitando
a senha deseja fraudar o sistema. Por mais que o impostor conheça a senha, o ritmo de sua
digitação não será o mesmo do usuário verdadeiro e, desta forma, o impostor não conseguirá
fraudar o sistema de autenticação (Monrose et al., 2000).
Basicamente existem duas maneiras principais de trabalhar com a dinâmica da digitação
em relação à informação alvo. A primeira utiliza uma senha fixa para todos os usuários do
sistema e a segunda usa senhas diferentes por pessoa, ou seja, na primeira abordagem (senha
fixa), existe uma senha única, ou um texto único, para todos os usuários do sistema, e já na
segunda abordagem (senhas diferentes), cada usuário pode escolher uma senha para obter
acesso ao sistema.
1.1 Problemática e Hipótese 5
A nossa opção pelo uso da dinâmica da digitação foi motivada pela publicação relativa-
mente recente de uma base pública (Killourhy e Maxion, 2009), que usa senha fixa, composta
por amostras de 51 voluntários, sendo utilizada pelos autores do trabalho e, posteriormente,
disponibilizada publicamente para novos experimentos.
Uma variante da abordagem (Montalvão e Freire, 2006) é o foco principal desta disserta-
ção, na qual é observado, também, o desempenho quanto ao tamanho da senha, analisando-se
o tempo que uma pessoa leva para se acostumar com a senha, ou seja, o tempo para estabi-
lização do seu padrão de digitação. Por fim, em decorrência do aprofundamento do estudo
e da criação de uma nova base, foi possível verificar e analisar o efeito produzido no ritmo
de digitação do usuário devido a troca de caracteres da senha, bem como a influência do seu
modo de digitação.
1.1 Problemática e Hipótese
Dentro do contexto do grupo de trabalho intitulado BioChaves — Integração de Sinais Bio-
métricos na Identificação de Indivíduos — é estudada a modelagem probabilística dos inter-
valos de tempos observados na dinâmica da digitação (KeyStroke) aplicados a senhas curtas,
como uma contribuição para o melhoramento das taxas de autenticação/verificação, sem a
necessidade do uso de longos textos digitados como condição para o uso da biometria.
Para identificação e verificação, através da dinâmica da digitação, muitos métodos utili-
zam os dados brutos coletados. Existem várias bases públicas para testes e comparativos de
desempenho. Um mapeamento dessas bases está descrito em (Giot, El-Abed e Rosenberger,
2011).
Dentro deste escopo, tem-se, por hipótese, que o uso de uma estratégia de equalização
de intervalos de tempos está em plena sintonia com o padrão comportamental existente nos
intervalos do padrão de digitação, levando a melhorias notáveis de desempenho dos sistemas
biométricos em termos de autenticação/verificação. Esta afirmação baseia-se na observa-
ção recorrente de que as distribuições de probabilidade muito desequilibradas das variáveis
aleatórias que modelam tais intervalos reduzem o desempenho da maioria dos algoritmos
ingênuos (ingênuos no sentido de que eles não incorporam qualquer tipo de compensação
explícita ou implícita desse viés de distribuição), logo a equalização de intervalos de tem-
1.2 Objetivos da Dissertação 6
pos proposta pode ser um bloco de construção útil, e praticamente sem custo em sistemas
biométricos baseados keystroke, devido à sua simplicidade.
1.2 Objetivos da Dissertação
O objetivo desta dissertação é realizar um estudo comportamental, probabilístico, dos inter-
valos de tempos observados em digitação de senhas curtas (texto fixo composto por até 10
caracteres). Tal estudo tem por finalidade a identificação de qual modelo representa melhor o
padrão existente na digitação de uma senha curta e/ou texto fixo. Adicionalmente, o impacto
dessa modelagem sobre a verificação biométrica de identidade é estudado empiricamente.
1.3 Organização da Dissertação
Esta dissertação está organizada em 6 capítulos e suas respectivas seções, os quais estão
distribuídos da seguinte forma:
• O capítulo 1 apresenta uma introdução sobre biometria e o foco deste trabalho, é com-
posto pelas seguintes seções: problemática e hipótese, objetivos e organização desta
dissertação;
• o capítulo 2 apresenta uma contextualização sobre a dinâmica da digitação em senhas
alfa-numéricas curtas, e é composto pelas seguintes seções: a base de dados utilizada;
como a coleta da base de dados foi obtida e o protocolo de experimento aplicado para
coleta da base pública;
• o capítulo 3: pré-processamento adaptado a senhas curtas, foco desta dissertação, é
composto pelas seguintes seções: a abordagem de (Killourhy e Maxion, 2009); a abor-
dagem de (Montalvão e Freire, 2006);
• o capítulo 4 apresenta os resultados a partir da base “.tie5Roanl”, e é composto pelas
seguintes seções: validação do pré-processamento proposto, influência do número de
amostras de treinamento, influência do uso dos tempos: H, DD e UD, teste de aderên-
cia da log-normalidade, influência dos caracteres na senha, influência do comprimento
da senha no EER;
1.3 Organização da Dissertação 7
• o capítulo 5 apresenta os resultados a partir de novas bases de dados, e é composto
pelas seguintes seções: ferramenta desenvolvida para coleta das novas bases de dados;
novas bases de dados e seus protocolos; influência da troca da posição dos caracteres;
influência do modo de digitação;
• o capítulo 6 apresenta as conclusões e os possíveis trabalhos futuros;
• o capítulo 7 é apresentada uma lista de Referências Bibliográficas cuidadosamente
selecionada, contendo todo o material que foi consultado ao longo desta dissertação.
• e, finalmente, no apêndice A é elencado a submissão gerada durante a concepção desse
trabalho, bem como a cópia do artigo.
Capítulo 2
Dinâmica da Digitação em Senhas
Alfa-Numéricas Curtas
A biometria computacional é o ramo da ciência da computação que estuda as medidas físicas
dos seres vivos, no intuito de identificar ou autenticar indivíduos, através dos traços físicos
característicos e únicos (Vigliazzi, 2003) ou, alternativamente, através de comportamentos
ou reflexos que também possuam traços individuais e estáveis (behavioural biometrics). Em
síntese, os métodos biométricos são mecanismos automatizados de reconhecimento e/ou ve-
rificação da identidade de uma pessoa, com base em alguma característica fisiológica, com-
portamental ou física do indivíduo.
A maioria dos sistemas de segurança baseados em sinais biométricos exigem hardwares
de aquisição de dados específicos. No entanto, há algumas exceções a esta regra, como a
dinâmica de digitação, ou keystroke. Nesta forma específica de biometria comportamental,
os métodos de reconhecimento buscam extrair características estáveis da forma como uma
pessoa digita ou pressiona as teclas de um teclado. A tecnologia original remonta aos tempos
em que telegrafistas experientes conseguiam identificar o remetente de uma mensagem, co-
dificada em Morse, apenas pelo ritmo de chaveamento telegráfico desse remetente (Peacock,
Ke e Wilkerson, 2004).
Desde 1980, pesquisadores como (Gaines et al., 1980), (Umphress e Williams, 1985),
(Bleha, 1988) e (Bleha, Slivinsky e Hussien, 1990) têm estudado o uso de padrões de digita-
ção na identificação e na autenticação biométrica, e os resultados destes trabalhos mostraram
que os padrões dinâmicos são suficientemente estáveis e discriminantes, ao ponto de permitir
8
9
seu uso em aplicações cotidianas de biometria computacional.
As principais características utilizadas em autenticação/identificação de usuários, com
base em sua dinâmica de digitação são:
• a latência entre a liberação de uma tecla e o acionamento da próxima, consecutiva-
mente, também referenciado com a sigla UD, do inglês: Up-Down;
• a latência entre dois acionamentos de teclas consecutivos, também referenciado com a
sigla DD, do inglês: Down-Down;
• tempo de retenção de cada tecla, cuja sigla usual é H, do inglês: Hold, duração do
keystroke (tempo de espera).
Muitos métodos adotados atualmente se distinguem, principalmente, no tratamento que
dão a esses sinais brutos (adquiridos como séries de intervalos em segundos). Assim, as
estratégias apresentadas nesses métodos concorrentes vão desde o simples uso da média
(Urtiga e Moreno, 2011) e da covariância desses intervalos de tempos (Araújo et al., 2005),
até o uso das transformações não-lineares de espaços vetoriais providas pelas redes neurais
artificiais (Obaidat e Sadoun, 1997).
Em (Giot, El-Abed e Rosenberger, 2009), são propostos vários experimentos (GREYC),
incluindo uma base de dados pública e algoritmos para testes comparativos entre estratégias
de autenticação biométrica pela dinâmica de digitação. Essa base pública foi recentemente
usada em experimentos na antecipação rápida de desempenho de sistemas biométricos (Giot,
Ninassi e Rosenberger, 2012).
Uma revisão bastante detalhada (recomendável) da aplicação do keystroke na detecção de
intrusões é apresentada em (Pisani e Lorena, 2011). Outros resultados recentes ainda podem
ser vistos em (Balagani et al., 2011) e (Zhong, Deng e Jain, 2012).
Um estudo detalhado da análise dos fatores envolvidos no processo de aquisição
encontra-se em (Giot, Ninassi e Rosenberger, 2012) e uma reflexão criteriosa sobre os pou-
cos trabalhos a nível global, que utilizam inferências estatísticas como comparativos da sua
eficiência, pode ser vista em (Killourhy e Maxion, 2011).
Em (Montalvão e Freire, 2006), um estudo detalhado da natureza aleatória dos intervalos
de tempos observados em dinâmica da digitação conduziu a um método de pré-processa-
mento que, quando aplicado em conjunto com métodos de reconhecimento propostos por
2.1 A Base de Dados utilizada 10
outros autores, melhorou significativamente seus respectivos desempenhos. Esse pré-pro-
cessamento, nomeado como time interval equalization, ou equalização de intervalos de tem-
pos (análogo à equalização de histogramas de níveis em imagens representadas por bitmaps
(Gonzalez e Wood, 2002)), foi apresentado de forma geral para ser aplicado tanto a textos
digitados livremente (ex: em mensagens de email), como a textos fixos, isto é, sentença fixa
composta por algumas palavras.
Nesta dissertação, esse método é adaptado a uma única sequência curta de símbolos,
como senhas e/ou texto fixo, e o seu desempenho é avaliado através de evidências empí-
ricas extraídas de experimentos com a base pública de dados (Killourhy e Maxion, 2009),
sendo esta composta por 400 entradas de cada um dos 51 digitadores voluntários, totalizando
20.400 amostras de dinâmicas de digitação da mesma senha hipotética curta. A exemplo do
que foi feito em (Montalvão e Freire, 2006), aqui também usam-se os mesmos métodos de
reconhecimento biométrico previamente utilizados em (Killourhy e Maxion, 2009). Assim,
através de experimentos com e sem time interval equalization, são evidenciados os ganhos
associados a esse pré-processamento proposto. Por fim, um programa foi desenvolvido e
uma pequena base de dados montada para análises adicionais, bem como relata-se um es-
tudo sobre a dependência / independência das variáveis aleatórias atreladas a cada caractere.
2.1 A Base de Dados utilizada
Considere um cenário no qual a senha de um usuário de longa data vem sendo comprometida
por um impostor. O usuário genuíno assume ser o único a conhecer, utilizar e digitar sua
senha, enquanto que um impostor faz uso desta.
Em uma situação típica de autenticação via senha alfa-numérica, o ritmo de digitação
pode ser usado para dificultar a fraude. Isto é, mesmo conhecendo a senha, um impostor
pode ser detectado por um desvio acima do normal na dinâmica de digitação dessa senha.
Com base nesse cenário possível de aplicação da biometria baseada em keystroke (Killourhy
e Maxion, 2009), foi coletada uma base de amostras fornecidas por 51 voluntários, usada
pelos autores do trabalho e, posteriormente, disponibilizada publicamente para novos expe-
rimentos. A senha hipotética dessa base pública é “.tie5Roanl”, e a base tem as seguintes
características:
2.1 A Base de Dados utilizada 11
• composta por amostras de 51 usuários distintos, sendo 30 do sexo masculino e 21 do
sexo feminino;
• cada usuário digitou a referida senha 400 vezes, em 8 grupos (ou seções biométricas)
de 50 cada;
• registraram-se os intervalos de tempos de retenção de tecla, H - (Hold), os intervalos
de tempos entre acionamentos consecutivos, DD - (Down-Down), e os intervalos de
tempos entre liberação e acionamento consecutivos, UD - (Up-Down).
Ilustra-se, na Figura 2.1, como é o processo de aquisição dos intervalos de tempos do
tipo DD. Ilustrações análogas poderiam ser usadas para as aquisições dos intervalos H e UD,
de tal forma que cada instância de digitação da senha provê, simultaneamente, três séries de
intervalos.
Figura 2.1: Ilustração da aquisição dos intervalos do tipo Down-Down (DD) durante a digi-
tação da senha hipotética “.tie5Roanl”.
Em outras palavras, pode-se ver o gesto da digitação como a combinação paralela de três
fontes aleatórias de intervalos de tempos, como ilustrado na Figura 2.2, que indica como os
tempos dos tipos H, UD e DD são capturados ao longo da linha de tempo.
2.2 Como a coleta foi realizada 12
Figura 2.2: Ilustração do significado dos tempos de retenção de tecla, tempos entre aciona-
mentos consecutivos e entre liberação e acionamentos consecutivos.
Ressalta-se apenas que a digitação do caractere “R” da senha “.tie5Roanl” é compreen-
dido pelo apertar das teclas <shift> e o caractere <R>, sendo os tempos do tipo H, UD e DD,
a junção das respectivas teclas.
2.2 Como a coleta foi realizada
Para se obter detalhes da metodologia de coleta de dados, vide (Killourhy e Maxion, 2009).
Segue aqui um breve resumo da metodologia. Foi construído um aparelho de coleta de dados
KeyStroke que consiste em:
1. um computador convencional laptop com o sistema operacional Windows XP;
2. aplicação em software para coleta das latências dos tempos mensuradas (H, DD e UD);
3. um temporizador externo de referência para as teclas associadas à senha hipotética.
O software desenvolvido apresenta a senha hipotética a ser digitada. Conforme o usuário
digita a senha sugerida, o software verifica quanto à corretividade da mesma, ou seja, caso o
2.3 Protocolo de Experimentos 13
usuário cometa um erro de digitação, o aplicativo solicita a digitação novamente desta senha.
Desta forma, gravaram-se 50 digitações desta mesma senha, digitadas corretamente, em cada
sessão. O software registrou os eventos (keydown e keyup), sendo, assim, possível adquirir
os tempos H, DD e UD. Um relógio de referência externo foi utilizado para gerar marcas de
tempo de alta precisão. O relógio de referência tem uma precisão de até 200 microssegundos
(usando um gerador de função para simular teclas pressionadas em intervalos fixos).
Foram recrutados 51 indivíduos (digitadores) de dentro de uma comunidade universitária.
Todos os indivíduos digitaram a mesma senha e cada pessoa digitou-a 400 vezes ao longo de
8 seções (50 repetições em cada sessão). Eles esperaram pelo menos um dia entre as sessões,
para capturar algumas das variações do dia-a-dia de digitação.
A senha “.tie5Roanl” foi escolhida para ser representante de uma senha de 10 caracteres
fortes, ou seja, uma senha forte tem pelo menos oito caracteres, não contém um nome real ou
de empresa, nem forma uma palavra completa, e é constituída por caracteres de, pelo menos,
três destas quatro categorias: letras maiúsculas, minúsculas, números e símbolos do teclado.
2.3 Protocolo de Experimentos
O protocolo de (Killourhy e Maxion, 2009) foi reproduzido fielmente. Isto é:
1. um dos 51 indivíduos da base é escolhido por experimento como o indivíduo alvo (ou
autêntico possuidor da senha), e os demais são tomados como impostores que também
conhecem (indevidamente) essa senha;
2. na fase de treinamento, o algoritmo utiliza, como base, as primeiras 200 repetições do
indivíduo alvo, sendo este parte de um público masculino e feminino, das mais diversas
idades. Constrói-se, então, um modelo – ou um template 1 – de comportamento desse
indivíduo;
3. na fase de teste, são utilizadas as outras 200 repetições restantes do indivíduo alvo
como tentativas genuínas de autenticação;1Template é a representação das informações extraídas das amostras biométricas fornecidas pelo indivíduo
no seu processo de cadastramento (Oliveira, 2011)
2.3 Protocolo de Experimentos 14
4. finalmente, como tentativas de autenticação dos impostores, são utilizadas as primeiras
5 repetições de cada um dos 50 demais indivíduos.
Embora 200 repetições sejam uma quantidade excessiva de dados, do ponto de vista
prático de treinamento de uma aplicação real (preocupação que foi mencionada e justificada
pelos autores (Killourhy e Maxion, 2009)), foi mantido esse mesmo protocolo por duas
razões:
• inicialmente porque o objetivo, a priori, no primeiro conjunto de experimentos, é mos-
trar, comparativamente, o ganho proporcionado pela equalização dos intervalos, e esse
número exagerado de amostras de treinamento favorece esse feito, por fornecer medi-
das de erros relativamente estáveis.
• além disso, a reprodução rigorosa do protocolo usado (Killourhy e Maxion, 2009) foi
mantida para permitir a conferência dos resultados esperados (no caso sem o pré-pro-
cessamento).
Capítulo 3
Pré-Processamento Adaptado à Senha
Curta
Numa adaptação da notação usada em (Montalvão e Freire, 2006), cada amostra de dinâ-
mica de digitação é representada como um vetor, xS = [xS(1) xS(2) · · · xS(NS)], com
NS intervalos de tempos positivos, em segundos, e o índice S representa a fonte aleatória
desses intervalos. Nesta adaptação de modelo, assume-se a existência de 2 fontes, a saber:
S ∈ {H,DD}, relativas aos tempos de retenção de tecla e tempos entre acionamentos con-
secutivos, respectivamente. Vale notar que descartaram-se os intervalos {UD}, que podem
assumir valores negativos e, por consequência, não podem ser modelados com distribuições
Log-Normais, ou seja, não sendo possível realizar a equalização conforme observa-se no
decorrer deste capítulo.
Assumindo que os intervalos são instâncias de duas variáveis aleatórias contínuas, XH
e XDD, com distribuições aproximadamente log-normais (hipótese a ser testada novamente
nesta dissertação, no contexto de senhas curtas e/ou textos fixos), temos, por consequência,
que
YS = loge(XS) (3.1)
possui distribuição aproximadamente normal, para cada uma das duas fontes. Assim, usando
a mesma aproximação usada em (Montalvão e Freire, 2006) para a integral definida da gaus-
siana, tem-se uma primeira possível equalização de tempos obtida como:
15
16
g(xS) =1
1 + exp(−1,7(loge(xS)−µy,S)σy,S
)(3.2)
Em (Montalvão e Freire, 2006), onde apenas intervalos DD foram considerados, em
bases de textos livres e fixos, os valores médios estimados para os parâmetros de média e
desvio padrão foram µy,DD = −1, 56 e σy,DD = 0, 65, sem levar em conta quais eram as
teclas consecutivas cujos acionamentos geravam o intervalo de tempo. Claramente, essa foi
uma opção de simplificação do modelo, em (Montalvão e Freire, 2006), que descartou a
dependência entre teclas acionadas e intervalos medidos.
Até então, duas importantes alterações na modelagem proposta em (Montalvão e Freire,
2006) são:
• além dos intervalos de tempos do tipo DD (Down-Down), foram incluídos os intervalos
de tempos de retenção H (Hold);
• no sentido de tirar o máximo de proveito dos poucos intervalos de tempos fornecidos
por uma senha curta e/ou um texto fixo, a dependência entre teclas acionadas e interva-
los correspondentes não foi descartada. Isto é, sendo a senha (texto fixo) “.tie5Roanl”
composta por 10 caracteres, sendo um deles maiúsculo, cada digitação desta senha
gera 10 intervalos DD (contando com o SHIFT) e 11 intervalos H, numa sequência
cuja ordem importa. Em outras palavras, as sequências de 21 intervalos DD e H, assim
obtidos, são modeladas como processo estocástico, não mais como variáveis indepen-
dentes.
Do ponto de vista de implementação, esta última alteração significa que cada par de
teclas consecutivas – e.g. ‘.t’ ou ‘ti’ – deve ter seus próprios parâmetros µy,S,k e σy,S,k,
que devem ser estimados separadamente, onde k representa o par de letras e/ou a letra
do intervalo de tempo na senha e/ou no texto fixo. Logo, k ∈ {′.t′,′ ti′,′ ie′ . . . ,′ ni′} para
S = DD e k ∈ {′.′,′ t′,′ i′ . . . ,′ n′,′ i′} para S = H .
O pré-processamento proposto está sustentado basicamente em duas abordagens: a abor-
dagem de (Killourhy e Maxion, 2009) e a abordagem de (Montalvão e Freire, 2006). Nas
seções a seguir observa-se um detalhamento sucinto dessas duas abordagens:
3.1 A Abordagem de (Killourhy e Maxion, 2009) 17
3.1 A Abordagem de (Killourhy e Maxion, 2009)
O objetivo principal da abordagem de (Killourhy e Maxion, 2009) foi a coleta dos dados
(conforme observou-se nas seções: 2.2 e 2.3, ou seja, a coleta das batidas das teclas - dinâ-
mica do conjunto de dados), com o objetivo de desenvolver um processo de avaliação e a
possibilidade de medição do desempenho de uma série de medidas de modo que os resul-
tados possam ser comparados profundamente. Foram coletados dados de 51 indivíduos e
cada um dos indivíduos repetiu a digitação 400 vezes. Há também nesta abordagem a imple-
mentação de 14 medidas de desempenho, todas da literatura de reconhecimento de padrões.
Observa-se na tabela 3.1 os resultados obtidos para cada uma das 14 medidas de desempenho
(distância).
Tabela 3.1: Resultados da abordagem de (Killourhy e Maxion, 2009)
Distância EER
Manhattan (scaled) 0,096
Nearest Neighbor (Mahalanobis) 0,100
Outlier Count (z-score) 0,102
SVM (one-class) 0,102
Mahalanobis 0,110
Mahalanobis (normed) 0,110
Manhattan (filter) 0,136
Manhattan 0,153
Neural Network (auto-assoc) 0,161
Euclideana 0,171
Euclideana (normed) 0,215
Fuzzy Logic 0,221
K Means 0,372
Neural Network (standard) 0,828
Nesta dissertação utilizou-se as três métricas destacadas, ou seja, a distância Euclideana,
Manhattan e a distância de Mahalanobis.
3.2 A Abordagem de (Montalvão e Freire, 2006) 18
3.2 A Abordagem de (Montalvão e Freire, 2006)
Já na abordagem de (Montalvão e Freire, 2006), foi analisada uma equalização paramétrica
de histogramas (intervalos de tempos DD) sobre o desempenho de algoritmos de verificação
de usuário baseados em teclas. Três experimentos foram utilizados ao longo dessa análise:
um clássico para os textos estáticos, um segundo, também proposto na literatura, tanto para
textos estáticos como para textos arbitrários, e um para verificação baseado em texto arbitrá-
rio.
As performances foram relatadas antes e depois das equalizações e os resultados corro-
boraram com a hipótese feita, de que a equalização dos intervalos de tempo, sem memória e
não-linear, melhora o desempenho em termos de EER, apesar da sua simplicidade. Assim,
foi proposto que a equalização atuasse como um bloco de construção útil e praticamente sem
custo computacional relevante em sistemas biométricos baseados em keystroke.
A equalização corresponde simplesmente a realizar uma transformação de cada intervalo
de tempo Down-Down (DD) usando a Fórmula 3.2 e, para a abordagem de (Montalvão e
Freire, 2006), com uma mesma média e uma mesma variância para toda a matriz de caracte-
rísticas (todos os intervalos de tempos DD).
Capítulo 4
Resultados a partir da base “.tie5Roanl”
Assim como em (Killourhy e Maxion, 2009), empregaram-se três métodos “clássicos”, ou
seja, os métodos de autenticação baseados nas distâncias Euclidiana, de Manhattan e de
Mahalanobis (Duda, Hart e Stork, 2001), entre os vetores contendo os intervalos de tempo
de uma tentativa de autenticação (genuína ou impostora) e o vetor template, obtido durante
a fase de treino ou ajuste. No caso da distância de Mahalanobis, na fase de treino, também
foi gerada a matriz de covariância associada ao template.
Cada experimento realizado, independentemente, fornece uma grande quantidade de dis-
tâncias medidas entre amostra e template do indivíduo (ou usuário) alvo. Assim, dado um
limiar de decisão, λ, pode-se computar erros de dois tipos, são eles:
• erro de falso alarme, ou falsa rejeição: quando o usuário alvo digita a senha, mas a
distância medida entre a amostra fornecida e o seu template é maior que λ.
• erro de falsa aceitação: quando um impostor digita a senha e a distância medida entre
sua amostra de tempo e o template do usuário alvo é menor que λ.
Sendo assim, as frequências relativas de ocorrência desses dois erros são funções de λ,
de tal forma que quando uma cresce a outra decresce. No ponto de operação em que as duas
se igualam encontra-se o que é chamado de taxa de erros iguais, ou Equal Error Rate (EER),
que é uma medida comumente usada na avaliação de sistemas biométricos.
19
4.1 Validação do Pré-Processamento Proposto 20
4.1 Validação do Pré-Processamento Proposto
Nesta dissertação, os desempenhos de cada método são comparados através do EER. Repro-
duzindo os experimentos realizados (Killourhy e Maxion, 2009), com intervalos de tempos
em segundos, obtém-se os resultados indicados na Tabela 4.1, que também apresenta o inter-
valo de 95% de confiança para esses EER médios, medidos ao longo dos experimentos com
os 51 indivíduos. Vale observar que, apenas nestes experimentos de referência, utilizam-se
os 3 tipos de intervalos: H, DD e UD.
Tabela 4.1: Resultados com intervalos H, DD e UD, sem equalização
Distância EER Intervalo de confiança (95 %)
Euclideana 0,170 ± 0,026
Manhattan 0,153 ± 0,025
Mahalanobis 0,110 ± 0,018
O segundo conjunto de experimentos consistiu na remoção dos intervalos do tipo UD,
como forma de estabelecer uma referência de desempenho sem equalização de intervalos,
mas com, apenas, os intervalos H e DD. Os desempenhos obtidos são apresentados na Tabela
4.2.
Tabela 4.2: Resultados com intervalos H e DD, sem equalização
Distância EER Intervalo de confiança (95 %)
Euclideana 0,167 ± 0,026
Manhattan 0,138 ± 0,023
Mahalanobis 0,110 ± 0,018
Embora a intenção deste experimento fosse estabelecer uma referência para comparação,
nota-se, com surpresa, que a simples remoção dos intervalos UD parece promover um leve
ganho de desempenho para as distâncias Euclideana e de Manhattan. No entanto, esse ganho
não deve ser aceito como evidência suficiente contra o uso dos intervalos UD, levando-se
em conta os intervalos de confiança dessas medidas. Em todo caso, o mínimo que se pode
concluir é que os intervalos do tipo UD também não contribuem, nesses experimentos, para
diminuir o EER, ou seja, mesmo no caso da distância de Mahalanobis, em que o EER não
4.1 Validação do Pré-Processamento Proposto 21
sofreu alteração com a retirada dos intervalos UD, esta não influenciou na estimação dos
parâmetros da matriz de covariância.
No terceiro conjunto de experimentos, o pré-processamento (equalização) é feito sem
levar em consideração a dependência entre teclas acionadas e intervalos. Em outras palavras,
a mesma média µY = −2, 05 e o mesmo desvio-padrão, σY = 0, 66, recalculados a partir da
matriz de características do experimento em questão, foram aplicados à equalização de todos
os intervalos DD e H. Com exceção da inclusão dos intervalos do tipo H, isto corresponde
ao tratamento proposto em (Montalvão e Freire, 2006), para textos livres ou compostos por
várias palavras (não-curtos). Os resultados obtidos são apresentados na Tabela 4.3.
Tabela 4.3: Resultados com intervalos H e DD, com mesma equalização para todos os inter-
valosDistância EER Intervalo de confiança (95 %)
Euclideana 0,132 ± 0,013
Manhattan 0,109 ± 0,013
Mahalanobis 0,119 ± 0,014
Nota-se que, embora esse não seja o tratamento mais adequado às sequências curtas
(como as senhas), houve, ainda assim, um ganho significativo de desempenho em termos de
EER, quando são usadas as distâncias Euclideana e de Manhattan.
O quarto conjunto de experimentos corresponde ao foco principal desta dissertação.
Nele, foram estimados os parâmetros µy,S,k e σy,S,k para cada par de teclas acionadas, no
caso dos intervalos DD, e para cada tecla, no caso dos intervalos H. Em seguida, os inter-
valos em segundos foram transformados, usando a equação 3.2, em medidas adimensionais
Y , com distribuições quase uniformes entre 0 e 1. Essas medidas Y , substituíram então os
tempos em segundos X , nas tabelas de dados. A essa substituição de X por Y , nas tabelas
de dados experimentais, chamamos de pré-processamento dos intervalos de tempos.
Após o pré-processamento, usamos os métodos de treinamento e comparação precisa-
mente como em (Killourhy e Maxion, 2009), sem nenhuma alteração. Assim, os resultados
apresentados na Tabela 4.4 refletem apenas o impacto do pré-processamento proposto, isto
é, da equalização dos intervalos conforme descrito no capítulo 3.
4.2 Influência do Número de Amostras de Treinamento 22
Tabela 4.4: Resultados com intervalos H e DD, com equalização
Distância EER Intervalo de confiança (95 %) % de melhora em relação aos
resultados sem equalização
Euclideana 0,073 ± 0,018 56,28%
Manhattan 0,074 ± 0,020 46,37%
Mahalanobis 0,073 ± 0,017 33,63%
4.2 Influência do Número de Amostras de Treinamento
Após os resultados promissores observados, surgem perguntas do tipo: “Como seriam os
resultados caso o vetor dos templates, obtido na fase de treino ou ajuste, fosse gerado com
menos amostras”?
Para buscar respostas a essa pergunta, foram realizados experimentos com o intuito de
observar os resultados alcançados por cada abordagem estudada até então, ou seja, experi-
mentos realizados em (Killourhy e Maxion, 2009), o tratamento proposto em (Montalvão e
Freire, 2006) onde uma única média µY e um único desvio padrão σY são calculados, e o
pré-processamento proposto nesta dissertação, onde os parâmetros µy,S,k e σy,S,k são esti-
mados para cada par de símbolos (caracteres) consecutivos, intervalos DD e para cada tecla,
intervalos H. Ressaltando-se apenas que nos experimentos contidos nesta seção, não serão
contempladas as taxas referentes à distância de Mahalanobis, visto que a mensuração da
mesma será distorcida (fato este decorrente do número de amostras, na fase de treino, ser in-
suficiente para o cálculo da matriz de covariância, ou seja, o fato da dimensão do espaço ser
21 x 21 e o fato destes experimentos ter o número de amostras inferior a 100, torna inviável
uma estimação adequada dos parâmetros da matriz de covariância). Têm-se na sequência os
resultados obtidos utilizando apenas 100 amostras para geração do template, fase de treina-
mento, contra as 200 utilizadas anteriormente.
Reavaliando o desempenho original, visto em (Killourhy e Maxion, 2009), alterando
apenas a base dos templates, na fase de treino, observam-se os resultados na Tabela 4.5.
Continuando os experimentos de geração de um novo template com apenas 100 amostras,
os intervalos de tempos foram processados seguindo as abordagens apresentadas em (Mon-
talvão e Freire, 2006), onde é realizado um pré-processamento, com equalização “fixa”,
4.2 Influência do Número de Amostras de Treinamento 23
Tabela 4.5: Resultados com intervalos H e DD, sem equalização, com 100 amostras para
geração dos templates
Distância EER Intervalo de confiança (95 %)
Euclideana 0,208 ± 0,028
Manhattan 0,192 ± 0,026
mesma µY e um mesmo σY , e esta obteve os resultados apresentados na Tabela 4.6.
Tabela 4.6: Resultados com intervalos H e DD, com mesma equalização para todos os inter-
valos, utilizando 100 amostras para geração dos templates
Distância EER Intervalo de confiança (95 %)
Euclideana 0,172 ± 0,033
Manhattan 0,147 ± 0,031
A mesma parametrização para geração dos templates foi utilizada seguindo a abordagem
foco desta dissertação, onde, nesta, há um pré-processamento com µy,S,k e σy,S,k variáveis,
obtendo os resultados indicados na Tabela 4.7.
Tabela 4.7: Resultados com intervalos H e DD, com equalização, utilizando 100 amostras
para geração dos templates
Distância EER Intervalo de confiança (95 %) % de melhora em relação aos
resultados sem equalização
Euclideana 0,097 ± 0,021 53,36%
Manhattan 0,101 ± 0,023 47,39%
Numa rápida análise, concernente aos resultados obtidos neste conjunto de experimentos,
observa-se que, com uma redução de 50% nas amostras usadas para a geração dos templa-
tes, há uma degradação no desempenho de todos os métodos, porém, o pré-processamento
proposto mantém um desempenho relativamente melhor em termos de EER.
Realizando um novo conjunto de experimentos, utilizando apenas 50 amostras para ge-
ração dos templates, contra as 100 utilizadas anteriormente, observam-se os resultados se-
guindo a proposta apresentada em (Killourhy e Maxion, 2009), na Tabela 4.8.
4.2 Influência do Número de Amostras de Treinamento 24
Tabela 4.8: Resultados com intervalos H e DD, sem equalização, com 50 amostras para
geração dos templates
Distância EER Intervalo de confiança (95 %)
Euclideana 0,252 ± 0,028
Manhattan 0,238 ± 0,027
Reavaliando o desempenho do pré-processamento, proposto em (Montalvão e Freire,
2006), para apenas 50 amostras na geração dos templates, obtiveram-se os resultados indica-
dos na tabela 4.9.
Tabela 4.9: Resultados com intervalos H e DD, com mesma equalização para todos os inter-
valos, utilizando 50 amostras para geração dos templates
Distância EER Intervalo de confiança (95 %)
Euclideana 0,216 ± 0,039
Manhattan 0,191 ± 0,038
Aplicando o pré-processamento proposto, observam-se os resultados na Tabela 4.10, com
os templates sendo gerados com apenas 50 amostras. Constata-se um resultado melhor em
termos de EER, quando comparado com os resultados obtidos em (Killourhy e Maxion,
2009) e (Montalvão e Freire, 2006).
Tabela 4.10: Resultados com intervalos H e DD, com equalização, utilizando 50 amostras
para geração dos templates
Distância EER Intervalo de confiança (95 %) % de melhora em relação aos
resultados sem equalização
Euclideana 0,137 ± 0,030 45,63%
Manhattan 0,139 ± 0,031 41,59%
Portanto, o pré-processamento proposto tem um melhor desempenho em termos de EER,
quando aplicados a tempos observados em digitação de senhas curtas.
Com o intuito de demostrar a eficiência com poucas amostras, foram aplicados os três
métodos discutidos, utilizando apenas 10 amostras, ou seja, 5% das amostras utilizadas na
4.3 Influência do Uso dos Tempos: {H} e {DD} 25
fase de treino em relação ao primeiro teste, vistos na seção 4.1, e os resultados desse experi-
mento são apresentados nas Tabelas: 4.11, 4.12 e 4.13.
Tabela 4.11: Resultados com intervalos H e DD, sem equalização, com 10 amostras para
geração dos templates
Distância EER Intervalo de confiança (95 %)
Euclideana 0,399 ± 0,035
Manhattan 0,390 ± 0,036
Tabela 4.12: Resultados com intervalos H e DD, com mesma equalização para todos os
intervalos, utilizando 10 amostras para geração dos templates
Distância EER Intervalo de confiança (95 %)
Euclideana 0,369 ± 0,055
Manhattan 0,341 ± 0,053
Tabela 4.13: Resultados com intervalos H e DD, aplicado ao pré-processamento proposto,
utilizando 10 amostras para geração dos templates
Distância EER Intervalo de confiança (95 %) % de melhora em relação aos
resultados sem equalização
Euclideana 0,296 ± 0,048 25,81%
Manhattan 0,290 ± 0,047 25,64%
Reavaliando todas as abordagens, observa-se que todas as distâncias tiveram uma piora
nas taxas de EER, fato este decorrente da geração dos templates bem mais frágeis.
4.3 Influência do Uso dos Tempos: {H} e {DD}
Outra possível pergunta seria: “Qual dos intervalos utilizados possui um melhor desempe-
nho, uma melhor contribuição nos resultados obtidos até então, intervalos H ou os intervalos
DD”? Ressalta-se que o desempenho dos intervalos UD foram descartados, por serem ca-
pazes de assumir valores negativos e, por consequência, não poderem ser modelados com
distribuições Log-Normais.
4.3 Influência do Uso dos Tempos: {H} e {DD} 26
Na Tabela 4.14, observam-se os resultados obtidos para os intervalos separadamente, H
e DD, segundo método utilizado em (Killourhy e Maxion, 2009).
Tabela 4.14: Resultados com intervalos H e DD, sem equalização
Intervalos H Intervalos DD
Distância EER Intervalo de confiança (95 %) EER Intervalo de confiança (95 %)
Euclideana 0,170 ± 0,031 0,174 ± 0,047
Manhattan 0,160 ± 0,029 0,172 ± 0,026
Mahalanobis 0,161 ± 0,027 0,153 ± 0,018
Na Tabela 4.15, pode-se observar o resultado obtido em (Montalvão e Freire, 2006), ou
seja, mesma média e o mesmo desvio-padrão para os intervalos H e DD.
Aplicando o pré-processamento proposto, constatam-se, na Tabela 4.16, os resultados
obtidos para os intervalos H e DD respectivamente.
Tabela 4.15: Resultados com intervalos H e DD, com mesma equalização para todos os
intervalosIntervalos H Intervalos DD
Distância EER Intervalo de confiança (95 %) EER Intervalo de confiança (95 %)
Euclideana 0,159 ± 0,030 0,208 ± 0,027
Manhattan 0,153 ± 0,029 0,190 ± 0,027
Mahalanobis 0,152 ± 0,103 0,233 ± 0,035
Tabela 4.16: Resultados com intervalos H e DD, com equalização
Intervalos H Intervalos DD
Distância EER Intervalo de confiança (95 %) EER Intervalo de confiança (95 %)
Euclideana 0,147 ± 0,029 0,131 ± 0,021
Manhattan 0,144 ± 0,029 0,135 ± 0,023
Mahalanobis 0,137 ± 0,028 0,125 ± 0,017
Nota-se que o uso de intervalos H leva a desempenhos superiores, quando comparados
aos obtidos usando os intervalos DD, quando uma equalização única para todos os intervalos
4.4 Teste de Aderência da Log-Normalidade 27
de tempo é aplicada (ver Tabela 4.15). Isso pode ser justificado pelo fato da média µy estar
favorecendo a equalização dos tempos de retenção, H, em detrimento da equalização dos
tempos DD.
Em todo caso, ressalta-se que a agregação desses dois intervalos leva a um desempenho
superior, conforme verificou-se nas Tabelas: 4.2, 4.3 e 4.4.
4.4 Teste de Aderência da Log-Normalidade
Em análise estatística é comum se estimar parâmetros de uma determinada distribuição (mé-
dia, variância, mediana, etc.) a partir de amostras aleatórias. Este tipo de procedimento
inferencial é muito usado no teste de hipóteses relativas a distribuições. Um teste de hipóte-
ses é um método para verificar se os dados são compatíveis com alguma hipótese, podendo,
muitas vezes, sugerir a não-validade desta.
Figura 4.1: Ilustração da distribuição do intervalo do tipo Down-Down (DD) entre a digitação
dos caracteres “t” e “i” da senha hipotética “.tie5Roanl”.
Esses testes podem ser feitos segundo duas metodologias:
• Testes Paramétricos: são os testes conduzidos em situações onde se sabe ou se assume
modelo particular de distribuição para representar os dados, definido por parâmetros.
4.4 Teste de Aderência da Log-Normalidade 28
• Testes Não Paramétricos: são conduzidos sem assumir qualquer forma particular para
modelo hipotético que explica a distribuição dos dados.
Como o pré-processamento proposto é baseado na log-normalidade dos dados, pode-
se observar, na Figura 4.1, um gráfico real do logaritmo do intervalo DD - caracteres “ti”,
onde, no eixo horizontal, representa-se o logaritmo dos tempos brutos em segundos, e o eixo
vertical, a frequência. Verifica-se que a distribuição assemelha-se a uma gaussiana.
No sentido de se comparar à distribuição de intervalos associada aos caracteres e pares
de caracteres (dados), com uma função ideal (log-normal), objetivando validar a sua log-
normalidade, optou-se pelo uso do teste de Kolmogorov-Smirnov, dentre vários possíveis,
onde este é usado para determinar se duas distribuições de probabilidade diferem uma da
outra ou se uma das distribuições de probabilidade difere da distribuição em hipótese, neste
caso, log-normal, com base em amostras finitas.
O nome do teste é uma referência aos matemáticos russos Andrey Kolmogorov e Vladimir
Ivanovich Smirnov. O teste baseia-se na comparação da curva da frequência cumulativa dos
dados com a função de distribuição teórica em hipótese. A estatística do teste é calculada
através da máxima diferença entre ambas. A magnitude da diferença estabelece-se, proba-
bilisticamente, segundo a lei de probabilidade dessa estatística. Se os dados experimentais
afastam-se significativamente do que é esperado, segundo a distribuição em hipótese, então,
as curvas obtidas devem encontrar-se igualmente afastadas, e por um raciocínio análogo, se
a aderência ao modelo hipotético é admissível, as curvas devem ter um afastamento máximo
pequeno.
Utilizando o histograma apresentado na Figura 4.1, nos dados DD, com o intuito de testar
a distribuição através do teste de aderência de Kolmogorov-Smirnov, tem-se: assumindo que
o histograma na Figura 4.1, do logaritmo dos intervalos DD, é similar a uma curva gaussiana,
ou normal, conclui-se que a distribuição dos intervalos DD é log-normal.
Pode-se observar, na Figura 4.2, que a linha tracejada, correspondente à probabilidade
acumulada de uma variável aleatória normal idealizada, é similar à linha cheia, correspon-
dente à probabilidade acumulada da variável aleatória que representa o logaritmo dos tem-
pos.
Para as distribuições presentes na Figura 4.2, a estatística de Kolmogorov-Smirnov indi-
cou uma aderência de 0, 0904, sendo o intervalo de confiança (95%) igual a 0, 0960.
4.4 Teste de Aderência da Log-Normalidade 29
Figura 4.2: Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digitação
dos caracteres “t” e “i” da senha hipotética “.tie5Roanl” de um dado usuário.
Para as distribuições presentes na Figura 4.3, a estatística de Kolmogorov-Smirnov indi-
cou uma aderência de 0, 1161, sendo o intervalo de confiança (95%) igual a 0, 0960.
Para as distribuições presentes na Figura 4.4, a estatística de Kolmogorov-Smirnov indi-
cou uma aderência de 0, 1350, sendo o intervalo de confiança (95%) igual a 0, 0960.
Se considerarmos a estatística usada no teste de Kolmogorov-Smirnov, a probabilidade
acumulada relativa aos caracteres (distribuição a ser testada – linha cheia) é similar à pro-
babilidade acumulada idealizada (distribuição ideal – linha tracejada), na Figura 4.2. No
entanto, nas Figuras 4.3 e 4.4, não observa-se o mesmo. Aplicando o teste de Kolmogorov-
Smirnov, verifica-se que a distribuição do logaritmo de cada intervalo associado aos caracte-
res da senha hipotética, “.tie5Roanl”, individualmente testado com todas as 400 amostras de
cada indivíduo, não adere, no intervalo de confiança de 95%, a uma distribuição gaussiana,
ou seja, os intervalos brutos de tempos não aderem à “log-normalidade”.
Tais resultados são vistos com estranheza, uma vez que o pré-processamento proposto
parte da premissa da log-normalidade, e os resultados vistos até aqui demonstram um de-
sempenho superior, em termos de EER.
4.5 Influência do Caractere na Senha 30
Figura 4.3: Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digitação
dos caracteres “5” e “R” da senha hipotética “.tie5Roanl” de um dado usuário.
4.5 Influência do Caractere na Senha
O aprendizado individual de cada caractere da senha hipotética “.tie5Roanl” é estudado de
forma a identificar a relação existente entre as teclas e os intervalos de tempo corresponden-
tes.
Conforme cada usuário, dos 51 que compõem a base de dados em questão, vai digitando
as 400 amostras, ao longo de 8 seções, visto no capítulo 2.1, este vai se acostumando com a
senha, ou seja, vai memorizando-a. Tal fato pode ser entendido como um “aprendizado”.
Os gráficos a seguir exibem as “estatísticas de Kolmogorov-Smirnov” individualmente
medidas para cada par de letras (intervalos DD), Figuras 4.5 e 4.6, ao longo das 8 seções.
Verifica-se, nas Figuras 4.5 e 4.6, um processo estocástico contínuo de parâmetro con-
tínuo, ou seja, conforme cada indivíduo digita a senha sucessivas vezes, vai “aprendendo”
e, durante as 8 seções de 50 digitações, o usuário adquire um “aprendizado”, um grau de
estacionariedade.
Os gráficos assemelham-se fortemente a uma curva de aprendizagem, em que tais indi-
víduos que executam tarefas repetitivas, como esta em questão, adquirem uma melhoria no
4.5 Influência do Caractere na Senha 31
Figura 4.4: Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digitação
dos caracteres “a” e “n” da senha hipotética “.tie5Roanl” de um dado usuário.
Figura 4.5: Ilustração do aprendizado individual de cada característica da senha hipotética
“.tie5”.
4.6 Influência do Comprimento da Senha no EER 32
Figura 4.6: Ilustração do aprendizado individual de cada característica da senha hipotética
“Roanl”.
desempenho da repetição da tarefa, em termos de tempo e número de repetições (Sousa et
al., 2012).
Conclui-se que as características individualmente testadas, ou seja, todos os caracteres
da senha hipotética “.tie5Roanl”, após 400 repetições de cada usuário, vão se consolidando
em um padrão de digitação, ou seja, tal consolidação pode ser entendida como sendo um
“aprendizado”, para o intervalo de confiança de 95%, pelo teste de Kolmogorov-Smirnov.
Tal consolidação pode explicar o motivo dos bons resultados obtidos pelo pré-processamen-
to proposto.
4.6 Influência do Comprimento da Senha no EER
No sentido de verificação do EER, no tocante à estabilização do “aprendizado”, ou seja,
acomodação da curva, foi calculado o EER de cada ponto da senha hipotética “.tie5Roanl”,
ou seja, um EER para a “pseudo” senha “.”, outro EER para a “pseudo” senha “.t”, outro EER
para “.ti” e assim sucessivamente, até a composição total da senha hipotética, totalizando
assim 10 EER’s calculados, para evidenciar a acomodação de cada modelo testado, Figuras:
4.7, 4.8, 4.9, 4.10, sendo mensuradas as 3 distâncias de cada modelo (Euclideana, Manhattan
4.6 Influência do Comprimento da Senha no EER 33
e a Mahalanobis).
Observa-se, na Tabela 4.17 e respectiva Figura 4.7, os EER para cada uma das 3 distân-
cias da senha hipotética, calculados com base na média dos intervalos H, DD e UD.
Tabela 4.17: Resultados dos EER dos intervalos H, DD e UD - sem equalização
EER Euclideana Manhattan Mahalanobis
. 0,343 0,337 0,254
.t 0,277 0,256 0,179
.ti 0,258 0,239 0,160
.tie 0,234 0,211 0,145
.tie5 0,211 0,203 0,140
.tie5R 0,202 0,192 0,126
.tie5Ro 0,196 0,181 0,125
.tie5Roa 0,192 0,175 0,118
.tie5Roan 0,184 0,166 0,115
.tie5Roanl 0,171 0,155 0,109
.tie5Roanl<enter> 0,171 0,153 0,110
Figura 4.7: Desempenho em termo de EER - (Killourhy e Maxion, 2009) - Intervalos H, DD,
UD
Já na Tabela 4.18 e respectiva Figura 4.8, os EER para cada uma das 3 distâncias da senha
hipotética, calculados com base na média dos intervalos H e DD.
4.6 Influência do Comprimento da Senha no EER 34
Tabela 4.18: Resultados dos EER dos intervalos H e DD - sem equalização
EER Euclideana Manhattan Mahalanobis
. 0,345 0,324 0,254
.t 0,269 0,235 0,179
.ti 0,247 0,214 0,160
.tie 0,231 0,193 0,145
.tie5 0,210 0,189 0,140
.tie5R 0,197 0,173 0,126
.tie5Ro 0,192 0,164 0,125
.tie5Roa 0,187 0,156 0,118
.tie5Roan 0,181 0,151 0,115
.tie5Roanl 0,168 0,140 0,109
.tie5Roanl<enter> 0,167 0,139 0,110
Figura 4.8: Desempenho em termo de EER - (Killourhy e Maxion, 2009) - Intervalos H, DD
Na Tabela 4.19 e respectiva Figura 4.9, são utilizadas as 3 distâncias e mensurados os
EER, com base nos intervalos H e DD. Verifica-se uma oscilação entre os EER, caracteres 2,
3 e 4, porém, este não demonstra, visivelmente, uma acomodação.
Finalmente, na proposta atual, Tabela 4.20 e respectiva Figura 4.10, observa-se uma forte
4.6 Influência do Comprimento da Senha no EER 35
Tabela 4.19: Resultados dos EER dos intervalos H e DD - com mesma equalização para
todos os intervalosEER Euclideana Manhattan Mahalanobis
. 0,305 0,303 0,299
.t 0,206 0,194 0,181
.ti 0,192 0,174 0,158
.tie 0,201 0,182 0,185
.tie5 0,197 0,174 0,186
.tie5R 0,170 0,146 0,159
.tie5Ro 0,160 0,135 0,150
.tie5Roa 0,149 0,125 0,139
.tie5Roan 0,140 0,117 0,130
.tie5Roanl 0,135 0,113 0,122
.tie5Roanl<enter> 0,133 0,109 0,119
Figura 4.9: Desempenho em termo de EER - (Montalvão e Freire, 2006) - Intervalos H, DD
aproximação entre as distâncias utilizadas, assim como se nota, também, que os índices não
demostram indícios de acomodação, levando a crer que o desempenho do pré-processamento
proposto é eficaz para senhas curtas e medianas, e, supostamente, tende a melhorar para
4.6 Influência do Comprimento da Senha no EER 36
senhas mais longas que a utilizada.
Tabela 4.20: Resultados dos EER dos intervalos H e DD - com equalização
EER Euclideana Manhattan Mahalanobis
. 0,250 0,255 0,237
.t 0,162 0,161 0,149
.ti 0,146 0,148 0,133
.tie 0,128 0,130 0,125
.tie5 0,115 0,113 0,115
.tie5R 0,098 0,097 0,098
.tie5Ro 0,095 0,094 0,093
.tie5Roa 0,087 0,088 0,090
.tie5Roan 0,081 0,082 0,081
.tie5Roanl 0,074 0,077 0,074
.tie5Roanl<enter> 0,073 0,074 0,073
Figura 4.10: Desempenho em termo de EER - com Equalização - Intervalos H, DD
Conclui-se que os resultados obtidos na Tabela 4.20 e respectiva Figura 4.10, apresentam
uma similaridade entre as três distâncias, sendo estas muito próximas em termos de EER,
o que permite optar pelo uso da distância com menor custo computacional, a de Mahattan,
4.6 Influência do Comprimento da Senha no EER 37
por exemplo. É sabido, entretanto, que tal similaridade só ocorre quando os dados estão
alinhados ao longo dos eixos ortogonais do espaço de representação das características, fato
este duplamente favorável.
Capítulo 5
Resultados a partir de novas bases de
dados
Após todo o estudo realizado, visto até então, podem surgir perguntas do tipo: “A posição dos
caracteres que compõem a senha influencia no resultado”? – “O layout do teclado influencia
no resultado”? – “O fato do usuário utilizar um, dois ou mais dedos na digitação da senha
hipotética, influenciará no resultado”? No sentido de buscar responder a estas perguntas,
novas bases de dados foram elaboradas.
5.1 Ferramenta desenvolvida para coleta das novas bases
de dados
Foi construído um aparelho de coleta de dados KeyStroke que consiste em:
1. um computador convencional laptop com o sistema operacional Windows XP;
2. aplicação em software para coleta dos tempos mensurado (H, DD e UD);
O software desenvolvido apresenta a senha hipotética a ser digitada. Assim que cada
digitação da senha é realizada, o software verifica quanto à sua corretividade, ou seja, caso
o usuário cometa um erro de digitação, o software não registra os tempos, descartando-os,
e solicitando uma nova digitação em seguida. Desta forma, gravaram-se 50 digitações desta
mesma senha, digitadas corretamente em cada sessão, totalizando 100 amostras em 2 seções.
38
5.2 Novas Bases de Dados e seus Protocolos 39
O desenvolvimento do software foi realizado utilizando o Microsoft Visual C# 2010 Ex-
press, assim como a coleta dos tempos H, UD e DD, foram realizadas através do uso da
própria biblioteca C#.
Na Figura 5.1 pode-se observar a interface onde são coletadas as amostras da senha
hipotética, “.tie5Roanl”.
Figura 5.1: Ilustração - Coleta dos dados da senha hipotética
Já na Figura 5.2 pode-se observar a interface onde são coletadas as amostras da senha
hipotética invertida, “Roanl5.tie”.
Tem-se na Figura 5.3 o layout do teclado do equipamento utilizado para coleta, o formato
deste é o ABNT2.
A coleta da senha “.tie5Roanl” foi realizada para se manter uma analogia com os resulta-
dos vistos no capítulo 4.1. Já a realização da coleta da senha invertida “Roanl5.tie” foi para
tornar-se possível a análise comportamental com relação à posição dos caracteres para um
determinado usuário.
5.2 Novas Bases de Dados e seus Protocolos
Várias pequenas bases de dados foram montadas, todas nos mesmos moldes da base utilizada
até então, (Killourhy e Maxion, 2009).
5.2 Novas Bases de Dados e seus Protocolos 40
Figura 5.2: Ilustração - Coleta dos dados da senha hipotética invertida
Figura 5.3: Layout do teclado do equipamento utilizado - formato ABNT2
As bases possuem as seguintes características:
• Cada usuário digitou a referida senha 100 vezes, em 2 grupos (ou sessões biométricas)
de 50 cada;
• Registraram-se os seguintes intervalos de tempos: H , DD e UD.
As novas bases de dados possuem as seguintes características:
• Base com 4 usuários, composta pela senha hipotética “.tie5Roanl”;
• Base com 4 usuários, composta pela senha hipotética invertida “Roanl5.tie”;
• Base com apenas 1 usuário da senha hipotética “.tie5Roanl”, sendo utilizados apenas
dois dedos na dinâmica da digitação;
5.3 Influência da Troca da Posição dos Caracteres 41
• Base com apenas 1 usuário da senha hipotética invertida “Roanl5.tie”, sendo utiliza-
dos apenas dois dedos na dinâmica da digitação.
Ressalta-se que as coletas das bases em questão foram realizadas de forma livre, no co-
tidiano de cada usuário, em diversos lugares, fato este bem distinto do protocolo realizado
pelo (Killourhy e Maxion, 2009), visto no capítulo 2.3. Pode-se questionar o fato de tais
bases serem pouco representativas, visto que são compostas por poucos usuários, com pou-
cos templates associados, porém tais bases serão utilizadas para responder questionamentos
pontuais e/ou apenas indicar um determinado resultado/análise.
5.3 Influência da Troca da Posição dos Caracteres
No sentido de comparar os resultados observados até então, confrontando dados da base de
(Killourhy e Maxion, 2009) e os novos usuários (nova bases de dados), foi realizada a se-
guinte alteração na base de (Killourhy e Maxion, 2009): foram considerados somente os
primeiros quatro usuários, com apenas 100 amostras (correspondendo a duas seções de co-
leta). A alteração foi realizada para se manter uma relação entre a base antiga (Killourhy e
Maxion, 2009), e a nova base montada. Ressaltando-se apenas que nos experimentos con-
tidos nesta seção, não serão contempladas as taxas referentes à distância de Mahalanobis,
visto que a mensuração da mesma será distorcida (fato este decorrente do número de amos-
tras, na fase de treino, ser insuficiente para o cálculo da matriz de covariância), de modo
similar ao que foi reportado na seção 4.2.
Na Tabela 5.1, pode-se observar os resultados obtidos, segundo abordagem de (Killourhy
e Maxion, 2009) na base antiga, porém com dimensão reduzida.
Tabela 5.1: Resultados com intervalos H, DD, sem equalização – base (Killourhy e Maxion,
2009) – “.tie5Roanl”Distância EER Intervalo de confiança (95 %)
Euclideana 0,218 ± 0,122
Manhattan 0,183 ± 0,098
Com a montagem da nova base, conforme observou-se na seção 5.2, os resultados se-
gundo a abordagem de (Killourhy e Maxion, 2009), podem ser observados na Tabela 5.2:
5.3 Influência da Troca da Posição dos Caracteres 42
Tabela 5.2: Resultados com intervalos H, DD, sem equalização – nova base – “.tie5Roanl”
Distância EER Intervalo de confiança (95 %)
Euclideana 0,230 ± 0,219
Manhattan 0,165 ± 0,154
Nota-se, segundo os resultados da abordagem de (Killourhy e Maxion, 2009), que na
nova base, as taxas, em termos de EER, se alteram, porém são similares, se levado em
consideração o intervalo de confiança (95%), dando assim validade à nova base.
Analisou-se a influência do segmento de senha “.tie”, na senha hipotética normal,
“.tie5Roanl” e na senha hipotética invertida, “Roanl5.tie”. Para tal, foi analisado o padrão
das 10 últimas digitações, da sessão 2 (consideradas mais estáveis), sendo analisados 2 usuá-
rios.
A hipótese que se deseja verificar é se a média dos logaritmos dos intervalos de tempos
entre acionamentos consecutivos, DD, do segmento de senha “.tie”, para a senha hipotética
normal, “.tie5Roanl” e para a senha hipotética invertida, “Roanl5.tie” são similares.
Observa-se na Tabela 5.3 e respectiva Figura 5.4, a média dos logaritmos dos intervalos
de tempos entre acionamentos consecutivos, DD, do segmento de senha “.tie”, para a senha
hipotética normal, “.tie5Roanl” e para a senha hipotética invertida, “Roanl5.tie” coletados
do usuário 1. Ressalta-se que as linhas contínuas, azul e vermelha, correspondem à média
dos logaritmos dos intervalos de tempo DD do segmento de senha, e as respectivas linhas
pontilhadas, as margens superior e inferior, referem-se ao intervalo de confiança de 95%. Já
na Tabela 5.4 e respectiva Figura 5.5, observam-se os resultados equivalentes para o usuário
2.
Tabela 5.3: Resultados do segmento de senha “.tie” na senha normal e invertida - usuário 1
“.tie” – senha normal “.tie” – senha invertida
k (par) µy,DD,k Intervalo de confiança (95%) µy,DD,k Intervalo de confiança (95%)
.t -0,6566 ± 0,186 -0,8610 ± 0,093
ti -1,4862 ± 0,084 -1,4477 ± 0,079
ie -1,6730 ± 0,175 -1,7604 ± 0,140
5.3 Influência da Troca da Posição dos Caracteres 43
Figura 5.4: Média dos logaritmos dos intervalos de tempos DD do segmento de senha “.tie”,
para senha hipotética normal e invertida do usuário 1
Tabela 5.4: Resultados do segmento de senha “.tie” na senha normal e invertida - usuário 2
“.tie” – senha normal “.tie” – senha invertida
k (par) µy,DD,k Intervalo de confiança (95%) µy,DD,k Intervalo de confiança (95%)
.t -0,9273 ± 0,203 -1,5180 ± 0,202
ti -1,4126 ± 0,294 -1,3828 ± 0,081
ie -1,8132 ± 0,209 -1,5529 ± 0,475
Conforme os dados apresentados, pode-se verificar, na Tabela 5.3 e respectiva Figura 5.4,
que a alteração da posição relativa dos pares de caracteres não alterou significativamente os
intervalos DD, para “ti” e “ie”, mas provocou uma alteração além do intervalo de confiança
de 95% para o valor médio decorrente do par “.t”. Já na Tabela 5.4 e respectiva Figura 5.5,
observam-se valores médios distintos para os pares de caracteres “ti” e “ie”, e valores médios
dentro do intervalo de confiança de 95% para o par “.t”.
5.3 Influência da Troca da Posição dos Caracteres 44
Figura 5.5: Média dos logaritmos dos intervalos de tempos DD do segmento de senha “.tie”,
para senha hipotética normal e invertida do usuário 2
Conclui-se que as duas observações contrastam com a crença comum de que é o afas-
tamento entre as teclas que determina os intervalos de tempo, em keystroke. Isto é, mesmo
no caso do primeiro usuário, onde apenas um dos intervalos foi significativamente alterado,
interpreta-se isso como uma evidência suficiente de que a mudança da posição relativa dos
pares de caracteres – que claramente não altera as distâncias entre teclas – tem por efeito
alterar significativamente os intervalos de tempo. Caso os intervalos DD fossem completa-
mente determinados pela distância entre teclas, e dado que o usuário é mantido quando os
pares de teclas têm suas posições alteradas ao longo da senha, então se deveria esperar que
nenhum dos intervalos DD se alterasse significativamente.
5.4 Influência do Modo de Digitação 45
5.4 Influência do Modo de Digitação
Em uma tentativa de se evidenciar a influência do layout do teclado, ou seja, da distância
entre as teclas, foram coletadas quatro bases, com a dinâmica da digitação realizada com a
digitação normal, e com os dois dedos indicadores (aumentando assim o tempo de vôo1 entre
as teclas). As bases utilizadas nos próximos experimentos são as seguintes:
• 100 amostras para a senha hipotética “.tie5Roanl”, digitadas normalmente;
• 100 amostras para a senha hipotética “.tie5Roanl”, digitadas apenas com 2 dedos;
• 100 amostras para a senha hipotética invertida “Roanl5.tie”, digitadas normalmente;
• 100 amostras para a senha hipotética invertida “Roanl5.tie”, digitadas apenas com 2
dedos.
Para todas as bases foram mensuradas as médias dos logaritmos dos intervalos de tempos
entre acionamentos consecutivos, DD.
A hipótese que se deseja verificar é se a digitação, sob restrição do uso de apenas dois
dedos indicadores, exagera (amplifica) o efeito do tempo de vôo da mão do usuário, o que
deve aumentar os tempos dos intervalos DD. Caso positivo, deve-se esperar que os valores
médios existentes entre a digitação normal e a digitação com apenas 2 dedos sejam discre-
pantes, com médias maiores para o caso da digitação com restrição.
Observa-se, na Tabela 5.5 e respectiva Figura 5.6, as médias dos logaritmos dos intervalos
de tempos entre acionamentos consecutivos, DD, do segmento “.tie”, da senha hipotética
normal, “.tie5Roanl”, modo de digitação normal e com 2 dedos coletados do usuário 1.
Ressalta-se que as linhas contínuas, azul e vermelho, correspondem às médias encontradas,
e as respectivas linhas pontilhadas, às margens superior e inferior do intervalo de confiança
de 95%. Já a Tabela 5.6 e respectiva Figura 5.7 apresentam os resultados respectivos para a
senha hipotética invertida.
Nota-se que o aumento dos intervalos DD não é sempre observado, como seria de se
esperar. Há ainda uma alteração significativa apenas do intervalo DD associado ao par
“.t”, para a senha hipotética normal, tabela 5.5 e respectiva figura 5.6, e os intervalos DD
1É o tempo de duração entre liberar uma tecla e pressionar a tecla seguinte
5.4 Influência do Modo de Digitação 46
associados a “.t” e a “ie”, para a senha hipotética invertida, tabela 5.6 e respectiva figura 5.7.
Assim como também é observado, para senha hipotética normal, figura 5.6, valores médios,
com a digitação com 2 dedos, em termos gerais, inferior.
Esses resultados permitem concluir que o modo de digitação influencia no padrão de
digitação. No entanto, nota-se, com surpresa, o fato dos intervalos DD, que se esperava que
fossem maiores para a digitação restrita a 2 dedos indicadores, serem equivalentes para a
digitação da senha invertida, figura 5.7, nos intervalos entre os caracteres “ti”, se considerado
o intervalo de confiança de 95%.
Mais surpreendentes ainda são os resultados obtidos para a digitação da senha normal,
figura 5.6, onde os intervalos DD, associados aos caracteres “.t”, foram significativamente
menores para a digitação com restrição de apenas 2 dedos, além de não apresentar diferenças
significativas para os demais intervalos estudados.
Tabela 5.5: Resultados do segmento de senha “.tie” com senha normal, modo de digitação
normal e com 2 dedos“.tie” – digitação normal “.tie” – digitação com 2 dedos
k (par) µy,DD,k Intervalo de confiança (95%) µy,DD,k Intervalo de confiança (95%)
.t -0,6566 ± 0,186 -0,8338 ± 0,141
ti -1,4862 ± 0,084 -1,5697 ± 0,124
ie -1,6730 ± 0,175 -1,7731 ± 0,168
Tabela 5.6: Resultados do segmento de senha “.tie” com senha invertida, modo de digitação
normal e com 2 dedos“.tie” – digitação normal “.tie” – digitação com 2 dedos
k (par) µy,DD,k Intervalo de confiança (95%) µy,DD,k Intervalo de confiança (95%)
.t -0,8571 ± 0,097 -0,6258 ± 0,156
ti -0,7627 ± 0,100 -0,7062 ± 0,286
ie -1,3545 ± 0,156 -1,3936 ± 0,198
5.4 Influência do Modo de Digitação 47
Figura 5.6: Média dos logaritmos dos intervalos de tempos DD do segmento de senha “.tie”,
para senha hipotética normal (digitação normal x digitação com 2 dedos)
5.4 Influência do Modo de Digitação 48
Figura 5.7: Média dos logaritmos dos intervalos de tempos DD do segmento de senha “.tie”,
para senha hipotética invertida (digitação normal x digitação com 2 dedos)
Capítulo 6
Conclusões e Trabalhos Futuros
Relatou-se que uma série de experimentos corroboram o resultado previamente publicado
em (Montalvão e Freire, 2006), apontando que um simples mapeamento não linear e sem
memória de intervalos de tempos pode melhorar, significativamente, o desempenho de veri-
ficação/identificação de algoritmos baseados na dinâmica de digitação.
Acrescentaram-se alterações à modelagem dos intervalos de tempos, para o caso espe-
cífico de sequências curtas e estáticas de digitação, como as senhas alfanuméricas. Essas
alterações podem ser vistas como uma substituição da modelagem das teclas acionadas por
variáveis aleatórias, por processos estocásticos, onde cada par de teclas (ou tecla, para os
tempos de retenção) é associado a uma variável aleatória desse processo estocástico.
Assim, através de experimentos com uma base de dados pública, e reproduzindo expe-
rimentos de referência, de acordo com protocolos estabelecidos em (Killourhy e Maxion,
2009) (que também foram os responsáveis pela publicação da base usada), conclui-se que o
pré-processamento de equalização dos intervalos reduz aproximadamente para a metade as
taxas de EER.
Experimentalmente, também nota-se que a inclusão dos intervalos de tempo do tipo Up-
Down (UD) não melhora o desempenho em termos de EER.
Evidencia-se que, mesmo utilizando 10 amostras apenas na fase de treino, o
pré-processamento proposto demonstra uma maior eficiência, no tocante à autentica-
ção/verificação.
No que diz respeito à eficiência das características H ou DD, é observado que agregá-las
leva a melhores resultados.
49
50
Demonstrou-se, experimentalmente, que as características individualmente testadas, ou
seja, todos os caracteres da senha hipotética “.tie5Roanl”, após 400 repetições de cada usuá-
rio, vão se consolidando em um padrão de digitação, e que tal consolidação pode ser en-
tendida como sendo um “aprendizado”, para o intervalo de confiança de 95%, pelo teste de
Kolmogorov-Smirnov. Tal consolidação pode explicar o motivo dos bons resultados obtidos
pelo pré-processamento proposto.
No sentido de verificação quanto à estabilização do “aprendizado”, conclui-se, experi-
mentalmente, que no pré-processamento proposto nesta dissertação, tabela 4.20 e respectiva
figura 4.10, é observada uma forte aproximação entre as distâncias utilizadas, assim como
se nota, também, que o mesmo não demostra indícios de acomodação, levando a crer que
o desempenho do pré-processamento proposto é eficaz para senhas curtas e medianas, e,
supostamente, tende a melhorar para senhas mais longas que a utilizada.
Foi desenvolvido um programa para coleta dos dados e a montagem de diversas novas
bases. Através destas, foi possível verificar vários fatores relevantes, no tocante à influência
da troca de posições dos caracteres na senha e ao modo de digitação.
Com relação à troca de posição dos caracteres na senha, visto na seção 5.3, verificou-se,
estatisticamente, que há um contraste com a crença comum de que é o afastamento entre
as teclas que determina os intervalos de tempo em keystroke. Isto é, no caso do primeiro
usuário, figura 5.4, apenas um par de caractere foi significativamente alterado. Já no caso do
segundo usuário, figura 5.5, observou-se alteração significativa em dois pares de caracteres.
Interpretam-se os resultados como uma evidência suficiente de que a mudança da posição
relativa dos pares de caracteres – que claramente não altera as distâncias entre teclas – tem
por efeito alterar significativamente os intervalos de tempo. Caso os intervalos DD fossem
completamente determinados pela distância entre teclas, e dado que o usuário é mantido
quando os pares de teclas têm suas posições alteradas ao longo da senha, então se deveria
esperar que nenhum dos intervalos DD se alterasse significativamente.
Por fim, com relação ao modo de digitação, foi constatado que o modo de digitação in-
fluencia no padrão de digitação. No entanto, notou-se, com surpresa, o fato dos intervalos
DD, que deveriam ser maiores para a digitação restrita a 2 dedos indicadores, serem equiva-
lentes para a digitação da senha invertida, figura 5.7, nos intervalos entre os caracteres “ti”.
Mais surpreendentes ainda foram os resultados obtidos para a digitação da senha normal,
51
figura 5.6, onde os intervalos DD, associados aos caracteres “.t”, foram significativamente
menores para a digitação com restrição de apenas 2 dedos, além de não apresentar diferenças
significativas para os demais intervalos estudados.
Uma consequência natural dos conhecimentos produzidos a partir desta dissertação é
que os mesmos representam o ponto de partida para análises e avaliações futuras, dentro
do contexto do grupo de trabalho intitulado BioChaves (Integração de Sinais Biométricos
na Identificação de Indivíduos). Por exemplo, uma análise mais aprofundada, no tocante ao
ritmo particular de cada indivíduo, pode ser realizada.
Outros possíveis trabalhos decorrentes desta dissertação referem-se a:
• Uma análise com relação à acomodação, conforme a seção 4.6, podendo assim de-
terminar o comprimento mínimo que a senha deve possuir para alcançar um bom de-
sempenho, em termos de EER, ampliando assim esse estudo às senhas medianas e/ou
longas;
• Um estudo da natureza dos caracteres utilizados, ou seja, faz-se necessário um melhor
entendimento sobre a relação existente entre ordenação dos caracteres e as taxas de
erro de detecção biométrica.
Referências
ALBUQUERQUE, J. P. de A. de; FORTES, J. M. P.; FINAMORE, W. A. Probabilidade,
Variáveis Aleatórias e Processos Estocásticos. 1 edition. ed. [S.l.]: Editora Interciência:
PUC Rio - Rio de Janeiro, 2008.
ARAÚJO et al. User authentication through typing biometrics features. IEEE Transactions
on Signal Processing, v. 53 (2), p. 851–855, 2005.
BALAGANI, K. S. et al. On the discriminability of keystroke feature vectors used in fixed
text keystroke authentication. Pattern Recognition Letters - Elsevier, v. 32, p. 1070–1080,
February 2011.
BLEHA, S. Recognition systems based on keystroke dynamics. Ph.D. thesis, Univ.
Missouri, Columbia, 1988.
BLEHA, S.; SLIVINSKY, C.; HUSSIEN, B. Computer-access security systems using
keystroke dynamics. IEEE Transactions on Pattern Analiysis and Machine Intelligence,
v. 12, p. 1217–1222, 1990.
BOSWORTH, S.; HOYT, D. B.; HUTT, A. E. Computer Security Handbook. 4. ed. [S.l.]:
Wiley-Interscience, New York, 2002.
DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. 2 edition. ed. [S.l.]:
Wiley-Interscience, New York, 2001.
GAINES, R. et al. Authentication by keystroke timing: some preliminary results. Tech rep,
Rand 473 Corporation, p. 52, 1980.
52
REFERÊNCIAS 53
GIOT, R.; EL-ABED, M.; ROSENBERGER, C. Greyc keystroke: a benchmark for
keystroke dynamics biometric systems. IEEE International Conference on Biometrics:
Theory, Applications and Systems (BTAS 2009), p. 6, 2009.
GIOT, R.; EL-ABED, M.; ROSENBERGER, C. Keystroke Dynamics Overview, Biometrics.
[S.l.]: InTech, Available from: http://www.intechopen.com/books/biometrics/keystroke-
dynamics-overview, 2011. 157-182 p.
GIOT, R.; NINASSI, A.; ROSENBERGER, C. Analysis of the acquisition process for
keystroke dynamics. BIOSIG - Proceedings of the International Conference of the, p. 1–6,
Setember 2012.
GONZALEZ; WOOD. Digital Image Processing. [S.l.]: Prentice Hall, 2002.
JAIN, A. K.; ROSS, A.; PRABHAKAR, S. An introduction to biometric recognition. IEEE
Transactions on Circuits and Systems for Video Technology, v. 14, p. 4–20, 2004.
KILLOURHY, K. S.; MAXION, R. A. Comparing anomaly - detection algorithms for
keystroke dynamics. IEEE/IFIP International Conference on Dependable Systems and
Networks (DSN-2009), p. 125–134, June 2009.
KILLOURHY, K. S.; MAXION, R. A. Should security researchers experiment more and
draw more inferences?’. 4th Workshop on Cyber Security Experimentation and Test, p. 8,
2011.
MONROSE et al. Keystroke dynamics as a biometric for authentication. Future Generation
Computer Systems, Elsevier, v. 16, n. 4, p. 351–359, 2000.
MONTALVÃO, J.; FREIRE, E. O. Equalization of keystroke timing histograms for
improved identification performance. International Telecommunications Symposium, p.
560–565, September 2006.
OBAIDAT, M. S.; SADOUN, B. Verification of computer users using keystroke dynamics.
IEEE Transsactions on Systems, Man, and Cybernetics 27 (2), v. 27, n. 2, p. 261–269, 1997.
REFERÊNCIAS 54
OLIVEIRA, A. E. de. API de segurança e armazenamento de uma arquitetura
multibiométrica para controle de acesso com autenticação contínua. [S.l.]: Dissertação de
Mestrado - Universidade Federal da Paraiba, UFPB, 2011. 129 p.
PEACOCK, A.; KE, X.; WILKERSON, M. Typing patterns: A key to user identification.
IEEE Security Privacy, v. 2, n. 5, p. 1540–7993, October 2004.
PISANI, P. H.; LORENA, A. C. Detecção de Intrusões com Dinâmica da Digitação: uma
Revisão Sistemática. [S.l.], 2011. v. 6.
SOUSA, B. de et al. Palavras no cérebro: o léxico mental. Letrônica: Revista Digital do
PPGL, v. 5, n. 3, p. 3–20, 2012.
UMPHRESS, D.; WILLIAMS, G. Identity verification through keyboard characteristics.
International Journal of Man-Machine Studies, v. 23, n. 3, p. 263–273, September 1985.
URTIGA, E. V. C.; MORENO, E. D. Keystroke-based biometric authentication in mobile
devices. IEEE Latin America Transactions, v. 9, n. 3, p. 368–375, June 2011.
VIGLIAZZI, D. Biometria - Medidas de Segurança. 1. ed. [S.l.]: Visual Books, 2003.
ZHONG, Y.; DENG, Y.; JAIN, A. K. Keystroke dynamics for user authentication. p.
117–123, May 2012.
Apêndice A
Artigo Submetido
Aqui é elencada a publicação realizada durante a concepção deste trabalho, bem como a sua
referida cópia.
1. “Equalização de Intervalos Adaptada à Dinâmica de Digitação (Keystroke) de Se-
nhas Curtas” , Bezerra, M. A., Montalvão, J. R., Freire, E. O., Congresso Brasileiro
de Automática (CBA2012), Setembro, Campina Grande, Paraíba, Brasil, 2012.
55
3164
Anais do XIX Congresso Brasileiro de Automática, CBA 2012.
ISBN: 978-85-8001-069-5
EQUALIZACAO DE INTERVALOS ADAPTADA A DINAMICA DA DIGITACAO(KEYSTROKE) DE SENHAS CURTAS
Murilo Alves Bezerra Junior∗, Jugurta Montalvao∗, Eduardo Oliveira Freire∗
∗Universidade Federal de Sergipe (UFS)Sao Cristovao, Sergipe, Brazil
Emails: [email protected], [email protected], [email protected]
Abstract— In 2006, a method was proposed concerning the use of time-interval equalization to improveperformances of most keystroke based biometric methods. There, small databases of static and free text wereused to show, in terms of error rates, the resulting gains associated to a handful set of methods. In this paper,we use a much bigger publicly available database, corresponding to a single hypothetical short password, typedby 51 subjects, and we adapt our time-interval equalization strategy to this single-word based biometric task.Experimental results with and without time-interval equalization, done with the very same methods alreadyused by the database owners, clearly show a sounding improvement of performance, with all methods, whentime-equalization is used as as pre-processing step.
Keywords— Keystroke, Time interval equalization, Biometrics.
Resumo— Em 2006, um metodo foi proposto sobre o uso da equalizacao de intervalos de tempos como forma demelhorar o desempenho de alguns metodos biometricos baseados em dinamica de digitacao (keystroke). Naqueleartigo, pequenas bases de dados com textos estaticos e livres foram usados para mostrar, em termos de taxas deerros, os ganhos quando a equalizacao era aplicada antes do uso de metodos classicos. Neste trabalho, nos usamosuma base publica muito maior, correspondente a uma unica senha hipotetica curta, digitada por 51 voluntarios,para a qual nos adaptamos a equalizacao de intervalos. Os resultados experimentais que sao apresentados, comos mesmos metodos ja usados pelos proprietarios da base Experimental, mostram claamente um notavel ganho dedesempenho, para todos os metodos testados, quando a equalizacao de intervalos e usada no pre-processamentodos dados.
Palavras-chave— Dinamica de digitacao, Equalizacao de intervalos de tempo, Biometria.
1 Introducao
A seguranca dos Sistemas de Informacao tem emsua essencia basica um problema em estabeleceruma associacao entre um indivıduo e uma identi-dade, o qual pode ser dividido em duas grandesareas: autenticacao e identificacao. A identifi-cacao e a forma com que o usuario fornece suaidentidade unica ao sistema, enquanto que a au-tenticacao e o processo pelo qual o usuario esta-belece a validacao de sua identidade (Bosworthet al., 2002), ou seja, a autenticacao e a prova daidentificacao.
Os processos de autenticacao, segundo a oticaobservada em Computer Security Handbook e(Bosworth et al., 2002), assumem tres formas ba-sicas, que podem ser fusionadas para aumentar aconfiabilidade no processo de autenticacao:
• Autenticacao por propriedade: algo que ousuario possua como uma chave ou cartaomagnetico;
• Autenticacao por conhecimento: algo que ousuario saiba como, por exemplo, uma senha;
• Autenticacao por caracterıstica: alguma ca-racterıstica comportamental ou fisiologica dousuario.
Nesse contexto, a biometria computacional eo ramo da ciencia da computacao que estuda as
medidas fısicas dos seres vivos no intuito de iden-tificar ou autenticar indivıduos atraves dos tracosfısicos caracterısticos e unicos (Vigliazzi, 2003) ou,alternativamente, atraves de comportamentos oureflexos que tambem possuam tracos individuais eestaveis (behavioural biometrics). Em sıntese, osmetodos biometricos sao mecanismos automatiza-dos de reconhecimento e/ou verificacao da identi-dade de uma pessoa “viva”, com base em algumacaracterıstica fisiologica, comportamental ou fısicado indivıduo.
A maioria dos sistemas de seguranca basea-dos em sinais biometricos exigem hardwares deaquisicao de dados especıficos. No entanto, haalgumas excecoes a esta regra, como a dinamicade digitacao, ou keystroke. Nesta forma especı-fica de biometria comportamental, os metodos dereconhecimento buscam extrair caracterısticas es-taveis da forma como uma pessoa digita ou em-purra as teclas de um teclado. A tecnologia origi-nal remonta aos tempos em que telegrafistas ex-perientes conseguiam identificar o remetente deuma mensagem, codificada em Morse, apenas peloritmo de chaveamento telegrafico desse remetente(Peacock, 2004).
Desde 1980, pesquisadores como (Gaines,1980), (D. Umphress, 1985), (Bleha, 1988) e(Bleha, 1990) tem estudado o uso de padroes dedigitacao na identificacao e na autenticacao bi-ometrica, e os resultados destes trabalhos temmostrado que os padroes dinamicos sao suficiente-
3165
Anais do XIX Congresso Brasileiro de Automática, CBA 2012.
ISBN: 978-85-8001-069-5
mente estaveis e discriminantes, ao ponto de per-mitir seu uso em aplicacoes cotidianas de biome-tria computacional. As principais caracterısticasutilizadas em autenticacao/ identificacao de usua-rios com base em sua dinamica de digitacao sao:
• A latencia entre uma liberacao de tecla e umacionamento consecutivos,
• A latencia entre dois acionamentos teclas con-secutivos,
• Duracao do keystroke (tempo de espera),
e muitos metodos concorrentes se distinguem prin-cipalmente no tratamento que dao a esses sinaisbrutos (adquiridos como series de intervalos em se-gundos). Assim, as estrategias apresentadas nes-ses metodos concorrentes vao desde o simples usoda media (Urtiga and Moreno, 2011) e da covari-ancia desses intervalos de tempo (Araujo, 2005),ate o uso das transformacoes nao-lineares de espa-cos vetoriais providas pelas redes neurais artificiais(Obaidat, 1997).
Em (R. Gio and Rosenberger, 2009), e pro-posto um pacote experimental (GREYC) in-cluindo uma base de dados publica e algoritmospara testes comparativos entre estrategias de au-tenticacao biometrica pela dinamica de digitacao.Essa base publica foi recentemente usada em ex-perimentos na antecipacao rapida de desempenhode sistemas biometricos (R. Giot, 2012).
Uma revisao bastante detalhada (recomen-davel) da aplicacao do keystroke na deteccaode intrusoes e apresentada em (Pisani and Lo-rena, 2011). Outros resultados recentes aindapodem ser vistos em (K. S. Balagani, 2011) e(Yu Zhong and Jain, 2012).
Em (J. Montalvao and Freire, 2006), um es-tudo detalhado da natureza aleatoria dos inter-valos de tempo observados em dinamica de di-gitacao foi conduzido, levando a um metodo depre-processamento que, quando aplicado em con-junto com metodos de reconhecimento propos-tos por outros autores, melhorou significativa-mente seus desempenhos respectivos. Esse pre-processamento, nomeado como time interval equa-lization, ou equalizacao de intervalos (analogo aequalizacao de histogramas de nıveis em imagensrepresentadas por bitmaps (Gonzalez, 2002)), foiapresentado de forma geral, para ser aplicadotanto a textos digitados livremente – como emmensagens de email –, como a textos fixos - i.e.sentenca fixa composta por algumas palavras.
Neste artigo, esse metodo e adaptado a umaunica sequencia curta de sımbolos, como senhas, eo seu desempenho e avaliado atraves de evidenciasempıricas extraıdas de experimentos com a basepublica de dados utilizada em (Killourhy and Ma-xion, 2009), sendo esta composta por 400 entradasde cada um dos 51 digitadores voluntarios, totali-zando 20400 amostras de dinamicas de digitacao
da mesma senha hipotetica curta. A exemplo doque foi feito em (J. Montalvao and Freire, 2006),aqui tambem usamos os mesmos metodos de re-conhecimento biometrico previamente usados em(Killourhy and Maxion, 2009). Assim, atraves deexperimentos com e sem time interval equaliza-tion, sao evidenciados os ganhos associados a essepre-processamento proposto.
Este artigo esta organizado da seguinte forma:primeiro, explica-se como esta composto o bancode dados utilizado, na Secao 2. Em seguida, na se-cao 3, e oferecida uma analise estatıstica dos inter-valos de tempo, a partir da qual, e realizada umaestrategia de equalizacao dos dados. Nas Secoes 4e 5, respectivamente, os resultados praticos das ex-periencias estaticas sao apresentados. Finalmente,os resultados sao discutidos e apresentam-se algu-mas conclusoes e perspectivas na Secao 6.
2 Base de dados
Considere um cenario no qual a senha de um usua-rio, com uma senha de longa data tem sido com-prometida por um impostor. O usuario genuıno,assume ser o unico a conhecer, utilizar e digitarsua senha, enquanto que um impostor, faz usodesta.
Em uma situacao tıpica de autenticacao viasenha alfa-numerica, o ritmo de digitacao podeser usado para dificultar a fraude. Isto e, mesmoconhecendo a senha, um impostor pode ser detec-tado por um desvio acima do normal na dinamicade digitacao dessa senha. Com base nesse cena-rio possıvel de aplicacao da biometria baseada emkeystroke, em (Killourhy and Maxion, 2009), umabase de amostras relativas a dinamica de digita-cao de uma unica senha hipotetica, por 51 vo-luntarios, foi montada, usada e, posteriormente,disponibilizada publicamente para novos experi-mentos. A senha hipotetica dessa base publica e“.tie5Roani”, e a base tem as seguintes caracte-rısticas:
• E composta por 51 usuarios distintos, sendo30 do sexo masculino e 21 do sexo feminino.
• Cada usuario digitou a referida senha 400 ve-zes, em 8 grupos de 50 cada.
• Foram registrados os intervalos de tempo deretencao de tecla, H - Hold, os intervalos detempo entre acionamentos consecutivos, DD- Down-Down, e os intervalos de tempo entreliberacao e acionamento consecutivos, UD -Up-Down.
Ilustra-se na figura 1 como e o processo deaquisicao dos intervalos de tempo do tipo DD.Ilustracoes analogas poderiam ser usadas para asaquisicoes dos intervalos H e UD, de tal forma quecada instancia de digitacao da senha prove, simul-taneamente, tres series de intervalos.
3166
Anais do XIX Congresso Brasileiro de Automática, CBA 2012.
ISBN: 978-85-8001-069-5
Figura 1: Ilustracao da aquisicao dos intervalosdo tipo Down-Down (DD) durante a digutacao dasenha hipotetica ’.tie5Roani’.
Em outras palavras, podemos ver o gesto dadigitacao como a combinacao paralela de tres fon-tes aleatorias de intervalos de tempo, como ilus-trado na figura 2, que indica como os tempos dostipos H, UD e DD sao capturados ao longo dalinha de tempo.
Figura 2: Ilustracao do significado dos tempos deretencao de tecla, tempos entre acionamentos con-secutivos e tempos entre liberacao e acionamentoconsecutivos
3 Protocolo de experimentos
Neste trabalho, reproduzimos fielmente o proto-colo usado em (Killourhy and Maxion, 2009). Istoe
1. Um dos 51 indivıduos da base e escolhido,por experimento, como o indivıduo alvo (ouautentico possuidor da senha), e os demaissao tomados como impostores que tambemconhecem (indevidamente) essa senha.
2. Na fase de treinamento, o algoritmo utiliza
como base as primeiras 200 repeticoes doindivıduo-alvo. E construıdo, entao, um mo-delo – ou um template – de comportamentodesse indivıduo.
3. Na fase de teste sao utilizados as outras 200repeticoes restantes do indivıduo alvo comotentativas genuınas de autenticacao.
4. Finalmente, como tentativas de autenticacaodos impostores, sao utilizadas as primeiras 5repeticoes de cada um dos 50 demais indivı-duos.
Embora 200 repeticoes seja uma quantidadeexageradamente grande de dados de treinamento,preocupacao que foi mencionada e justificada pe-los autores de (Killourhy and Maxion, 2009), nosmantemos esse mesmo protocolo por duas razoes:
• Primeiramente porque nosso objetivo e mos-trar, comparativamente, o ganho proporcio-nado pela equalizacao dos intervalos, e essenumero exagerado de amostras de treina-mento favorece isso, por fornecer medidas deerros relativamente estaveis.
• Alem disso, a reproducao rigorosa do proto-colo usado em (Killourhy and Maxion, 2009)nos permite conferir resultados esperados (nocaso sem o pre-processamento).
4 Equalizacao (pre-processamento)adaptado a senha curta
Numa adaptacao da notacao usada em (J. Mon-talvao and Freire, 2006), cada amostra de dina-mica de digitacao e representada como um vetor,xS = [xS(1)xS(2) · · ·xS(NS)], com NS interva-los de tempos positivos, em segundos, e o ındiceS representa a fonte aleatoria desses intervalos.Nesta adaptacao de modelo, assumimos a existen-cia de 2 fontes, a saber: S ∈ {H,DD}, relativasaos tempos de retencao de tecla e tempos entreacionamentos consecutivos, respectivamente. As-sumido que os intervalos sao instancias respectivasde 2 variaveis aleatorias contınuas, XH e XDD,com distribuicoes aproximadamente log-normais,temos, por consequencia, que
YS = loge(XS) (1)
possui distribuicao aproximadamente normal,para cada uma das 2 fontes. Assim, usando amesma aproximacao usada em (J. Montalvao andFreire, 2006) para a integral definida da gaussiana,G(yS), dada por:
G(yS) =1
1 + exp(− 1,7(yS−µy,S)σy,S
)(2)
3167
Anais do XIX Congresso Brasileiro de Automática, CBA 2012.
ISBN: 978-85-8001-069-5
uma primeira possıvel equalizacao de tempos podeser obtida como:
g(xS) =1
1 + exp(− 1,7(loge(xS)−µy,S)σy,S
)(3)
Em (J. Montalvao and Freire, 2006), ondeapenas intervalos DD foram considerados, em ba-ses de textos livres e fixos, os valores medios esti-mados para os parametros de media e desvio pa-drao foram µy,DD = −1, 56 e σy,DD = 0, 65, semlevar em conta as teclas consecutivas cujos aci-onamentos geravam o intervalo de tempo. Cla-ramente, essa foi uma opcao de simplificacao domodelo, em (J. Montalvao and Freire, 2006), quedescartou a dependencia entre teclas acionadas eintervalos medidos.
Neste artigo, duas importantes alteracoes namodelagem proposta em (J. Montalvao and Freire,2006) sao:
• Alem dos intervalos de tempo do tipo DD(Down-Down), incluımos os intervalos detempo de retencao (Hold). Vale notar quedescartamos os intervalos UD, que podem as-sumir valores negativos e, por consequencia,nao podem ser modelados com distribuicoesLog-Normais.
• No sentido de tirar o maximo de proveitodos poucos intervalos de tempo fornecidos poruma senha curta, a dependencia entre teclasacionadas e intervalos correspondentes nao foidescartada. Isto e, sendo a senha ’.tie5Roani’composta por 10 caracteres, sendo um delesmaiusculo, cada digitacao desta senha gera10 intervalos DD (contando com o SHIFT) e11 intervalos H, numa serie cuja ordem im-porta. Em outras palavras, as sequencias de21 intervalos DD e H assim obtidos sao mo-deladas como processo estocastico, nao maiscomo variaveis independentes.
Do ponto de vista de implementacao, estaultima alteracao significa que cada par de te-clas consecutivas – e.g. ’.t ou ’ti’ – deve terseus proprios parametros µy,S,k e σy,S,k, que de-vem ser estimados separadamente, onde k repre-senta a posicao do intervalo de tempo na senha.Logo, k ∈ {′.t′,′ ti′,′ ie′ . . . ,′ ni′} para S = DD ek ∈ {′.′,′ t′,′ i′ . . . ,′ n′,′ i′} para S = H .
5 Resultados Experimentais
Assim como em (Killourhy and Maxion, 2009), fo-ram implementados tres metodos “classicos”, ouseja, os metodos de autenticacao baseados nas dis-tancias Euclidiana, de Manhattan e de Mahalano-bis (R. O. Duda and Stork, 2001) entre os vetorescontendo os intervalos de tempo de uma tentativade autenticacao (genuına ou impostora) e o vetortemplate obtido durante a fase de treino ou ajuste.
No caso da distancia de Mahalanobis, na fase detreino, tambem foi gerada a matriz de covarianciaassociada ao template.
Cada experimento realizado independente-mente fornece uma grande quantidade de distan-cias medidas entre amostra e template do indivı-duo (ou usuario) alvo. Assim, dado um limiar dedecisao, λ, podemos computar erros de dois tipos,a saber:
• Erro de falso alarme, ou falsa rejeicao:quando o usuario alvo digita a senha mas adistancia medida entre a amostra fornecida eo seu template e maior que λ.
• Erro de falsa aceitacao: quando um impostordigita a senha e a distancia medida entre suaamostra de tempos e o template do usuarioalvo e menor que λ.
Claramente, as frequencias relativas de ocor-rencia desses dois erros sao funcoes de λ, de talforma que quando uma cresce, a outra decresce.No ponto de operacao em que as duas se igualamencontramos o que e chamado de taxa de errosiguais, ou Equal Error Rate (EER), que e umamedida comumente usada na avaliacao de siste-mas biometricos. Neste trabalho, compararemosos desempenhos de cada metodo atraves do EER.
Reproduzindo os experimentos realizados em(Killourhy and Maxion, 2009), com intervalos detempo em segundos, obtivemos os resultados in-dicados na tabela 1, que tambem apresenta o in-tervalo de 95 % de confianca para esses EER me-dios, medidos ao longo dos experimentos com os51 indivıduos. Vale observar que apenas nestesexperimentos de referencia utilizamos os 3 tiposde intervalos: H, DD e UD.
Tabela 1: Resultados com intervalos H, DD e UD,sem equalizacaoDistancia EER Intervalo de confianca
(95 %)Euclideana 0,170 ± 0,026Manhattan 0,153 ± 0,025Mahalanobis 0,110 ± 0,018
O segundo conjunto de experimentos consis-tiu apenas na remocao dos intervalos do tipo UD,como forma de estabelecer uma referencia de de-sempenho sem equalizacao de intervalos, mas comapenas os intervalos H e DD. Os desempenhos ob-tidos sao apresentados na tabela 2.
Embora a intencao por tras deste experimentofosse apenas estabelecer uma referencia para com-paracao, notamos, com surpresa, que a simplesremocao dos intervalos UD parece promover umleve ganho de desempenho. No entanto, esse ga-nho nao deve ser aceito como evidencia suficientecontra o uso dos intervalos UD, se levarmos emconta os intervalos de confianca dessas medidas.
3168
Anais do XIX Congresso Brasileiro de Automática, CBA 2012.
ISBN: 978-85-8001-069-5
Tabela 2: Resultados com intervalos H e DD, semequalizacaoDistancia EER Intervalo de confianca
(95 %)Euclideana 0,167 ± 0,026Manhattan 0,138 ± 0,023Mahalanobis 0,110 ± 0,018
Em todo caso, o mınimo que podemos concluir eque os intervalos do tipo UD tambem nao contri-buem, nesses experimentos, para diminuir o EER.
No terceiro conjunto de experimentos, o pre-processamento (equalizacao) e feito sem levar emconsideracao a dependencia entre teclas aciona-das e intervalos foi aplicado. Em outras palavras,a mesma media µY = −2, 05 e o mesmo desvio-padrao, σY = 0, 66, foram aplicados a equliza-cao de todos os intervalos DD e H. Com excecaoda inclusao dos intervalos do tipo H, isto corres-ponde ao tratamento proposto em (J. Montalvaoand Freire, 2006), para textos livres ou compostospor varias palavras (nao-curtos). Os resultadosobtidos sao apresentados na tabela 3.
Tabela 3: Resultados com intervalos H e DD, commesma equalizacao para todos os intervalosDistancia EER Intervalo de confianca
(95 %)Euclideana 0,132 ± 0,013Manhattan 0,109 ± 0,013Mahalanobis 0,119 ± 0,014
Nota-se que, embora esse nao seja o trata-mento mais adequado as sequencias curtas (comoas senhas), houve ainda assim um ganho significa-tivo de desempenho, em termos de EER, quandosao usadas as distancias euclideana e de Manhat-tan.
O quarto conjunto de experimentos corres-ponde ao foco principal deste trabalho. Nele, fo-ram estimados os parametros µy,S,k e σy,S,k paracada par de teclas acionadas, no caso dos inter-valos DD, e para cada tecla, no caso dos inter-valos H. Em seguida, os intervalos, em segundos,foram transformados, usando a equacao 3, em me-didas adimensionais, Y , com distribuicoes quasi-uniformes entre 0 e 1. Essas medidas, Y , substi-tuiram entao os tempos em segundos, X , nas ta-belas de dados. A essa substituicao de X por Y ,nas tabelas de dados experimentais, chamamos depre-processamento dos intervalos de tempos.
Apos o pre-processamento, usamos os meto-dos de treinamento e comparacao precisamentecomo em (Killourhy and Maxion, 2009), sem ne-nhuma alteracao. Assim, os resultados apresen-tados na tabela 4 refletem apenas o impacto dopre-processamento proposto, isto e, da equaliza-cao dos intervalos, conforme descrito na secao 4.
Tabela 4: Resultados com intervalos H e DD, comequalizacaoDistancia EER Intervalo de confianca
(95 %)Euclideana 0,073 ± 0,018Manhattan 0,074 ± 0,020Mahalanobis 0,073 ± 0,017
6 Discussao e Conclusoes
Neste artigo, uma serie de experimentos cor-roboram o resultado previamente publicado em(J. Montalvao and Freire, 2006), apontando queum simples mapeamento nao linear e sem memo-ria de intervalos de tempo pode melhorar signifi-cativamente o desempenho de verificacao / iden-tificacao de algoritmos baseados na dinamica dedigitacao. Esta afirmacao baseia-se na hipotese deque as distribuicoes de probabilidade muito dese-quilibradas das variaveis aleatorias que modelamtais intervalos reduzem o desempenho da maioriados algoritmos ingenuos (ingenuos no sentido deque eles nao incorporam qualquer tipo de com-pensacao explıcita ou implıcita desse vies de dis-tribuicao).
Neste trabalho, acrescentamos alteracoes amodelagem dos intervalos de tempos para o casoespecıfico de sequencias curtas e estaticas de digi-tacao, como as senhas alfanumericas. Essas alte-racoes podem ser vistas como uma simples substi-tuicao de variaveis aleatorias independentes (dasteclas acionadas) por processos estocasticos, ondecada par de teclas (ou tecla, para os tempos de re-tencao) e associada a uma variavel aleatoria desseprocesso estocastico.
Assim, atraves de experimentos com uma basede dados publica, e reproduzindo experimentosde referencia de acordo com protocolos estabele-cidos em (Killourhy and Maxion, 2009) (que tam-bem foram os responsaveis pela publicacao da baseusada), colhemos evidencias experimentais clarasde que o pre-processamento de equalizacao dos in-tervalos reduziu aproximadamente para a metadeas taxas de EER.
Experimentalmente, tambem notamos que,para os dados da base usada, a inclusao os inter-valos de tempo do tipo Up-Down (UD) nao me-lhoram o desempenho, em termos de EER.
Agradecimentos
Este trabalho contou com o apoio financeiro par-cial do CNPq.
3169
Anais do XIX Congresso Brasileiro de Automática, CBA 2012.
ISBN: 978-85-8001-069-5
Referencias
Araujo, L.C.F., J. L. L. M. L. L. Y.-U. J. (2005).User authentication through typing biome-trics features, IEEE Trans Signal Process. 53(2) .
Bleha, S. (1988). Recognition systems based onkeystroke dynamics, Ph.D. thesis, Univ. Mis-souri, Columbia .
Bleha, S., S. C. H. B. (1990). Computer-accesssecurity systems using keystroke dynamics,IEEE Trans Pattern Anal. Machine Intell. 12(12) .
Bosworth, S., Hoyt, D. B. and Hutt, A. E. (2002).Computer Security Handbook, 4 edn, Wiley-Interscience, New York.
D. Umphress, G. W. (1985). Identity verificationthrough keyboard characteristics, Internati-onal Journal of Man-Machine Studies .
Gaines, R., L. W. P. S. S. N. (1980). Authentica-tion by keystroke timing: some preliminaryresults, Tech rep, Rand 473 Corporation .
Gonzalez (2002). Wood, Digital Image Processing,Prentice Hall.
J. Montalvao, C. A. S. A. and Freire, E. O. (2006).Equalization of keystroke timing histogramsfor improved identification performance, In-ternational Telecommunications Symposium .
K. S. Balagani, V. V. Phoha, A. R. S. P. (2011).On the discriminability of keystroke featurevectors used in fixed text keystroke authenti-cation, Pattern Recognition Letters - Elsevier.
Killourhy, K. S. and Maxion, R. A. (2009). Com-paring anomaly - detection algorithms forkeystroke dynamics, IEEE/IFIP Internatio-nal Conference on Dependable Systems andNetworks (DSN-2009) .
Obaidat, M., S. B. (1997). Verification of com-puter users using keystroke dynamics, IEEETrans Systems, Man, Cybernetics 27 (2) .
Peacock, A., K. X. W. M. (2004). Typing pat-terns: A key to user 489 identification, IEEESecurity Privacy 2 (5) .
Pisani, P. H. and Lorena, A. C. (2011). Deteccaode intrusoes com dinamica da digitacao: umarevisao sistematica, Technical report.
R. Gio, M. E.-A. and Rosenberger, C. (2009).Greyc keystroke: a benchmark for keystrokedynamics biometric systems, IEEE Internati-onal Conference on Biometrics: Theory, Ap-plications and Systems (BTAS 2009) .
R. Giot, M. El-Abed, C. R. (2012). Fast compu-tation of the performance evaluation of bio-metric systems: Application to multibiome-trics, Future Generation Computer Systems(FGCS) .
R. O. Duda, P. E. H. and Stork, D. G. (2001).Pattern Classification, second edition edn,Wiley-Interscience, New York.
Urtiga, E. V. C. and Moreno, E. D. (2011).Keystroke-based biometric authentication inmobile devices, IEEE Latin America Tran-sactions .
Vigliazzi, D. (2003). Biometria - Medidas de Se-guranca, 1 edn, Visual Books.
Yu Zhong, Y. D. and Jain, A. K. (2012). Keys-troke dynamics for user authentication, Bio-metric WorkShop .