universidade federal de sergipe centro de … · universidade federal de sergipe centro de...

UNIVERSIDADE FEDERAL DE SERGIPE

CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS

PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA

COMPUTAÇÃO

Pré-Processamento dos Intervalos de Tempos Observados

na Dinâmica de Digitação (KeyStroke) de Senhas Curtas

Murilo Alves Bezerra Júnior

SÃO CRISTÓVÃO/ SE

2013

UNIVERSIDADE FEDERAL DE SERGIPE

CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS

PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA

COMPUTAÇÃO




Dissertação apresentada ao Programa de Pós-

Graduação em Ciência da Computação (PROCC) da

Universidade Federal de Sergipe (UFS) como parte de

requisito para obtenção do título de Mestre em Ciên-

cia da Computação.

Orientador: Prof. Dr. Jugurta Rosa Montalvão Filho

Co-Orientador: Prof. Dr. Eduardo Oliveira Freire

SÃO CRISTÓVÃO/ SE

2013

!

!

!

!

!

!

!

!

!

!

!!!

!

!

!

!

!!!!!!!!!FICHA!CATALOGRÁFICA!ELABORADA!PELA!BIBLIOTECA!CENTRAL!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!UNIVERSIDADE!FEDERAL!DE!SERGIPE!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

Bezerra Junior, Murilo Alves

B574p Pré-processamento dos intervalos de tempos observados na dinâmica de digitação (KeyStroke) de senha curtas / Murilo Alves Bezerra Junior ; orientador Jugurta Rosa Montalvão Filho. – São Cristóvão, 2013. 75 f. : il. Dissertação (mestrado em Ciência da Computação) - Universidade Federal de Sergipe, 2013.

O 1. Ciência da computação. 2. Dinâmica da digitação. 3.

Equalização de intervalos de tempo. 4. Biometria. I. Montalvão Filho, Jugurta Rosa, orient. II. Título

CDU: 004.89

!

!

!




Dissertação apresentada ao Programa de Pós-

Graduação em Ciência da Computação (PROCC) da

Universidade Federal de Sergipe (UFS) como parte de

requisito para obtenção do título de Mestre em Ciên-

cia da Computação.

BANCA EXAMINADORA

Prof. Dr. Jugurta Rosa Montalvão Filho, Orientador

Universidade Federal de Sergipe (UFS)

Prof. Dr. Eduardo Oliveira Freire, Co-Orientador


Prof. Dr. Edward David Moreno Ordonez,


Prof. Dr. Evandro Ottoni Teatini Salles,

Universidade Federal do Espírito Santo (UFES)



Este exemplar corresponde à redação final da

Dissertação de Mestrado, de Murilo Alves Be-

zerra Júnior para ser aprovado pela Banca exa-

minadora.

São Cristóvão - SE, 27 de Setembro de 2013

______________________________________

Prof. Dr. Jugurta Rosa Montalvão Filho

Orientador

______________________________________

Prof. Dr. Eduardo Oliveira Freire

Co-Orientador

______________________________________

Prof. Dr. Edward David Moreno Ordonez

______________________________________

Prof. Dr. Evandro Ottoni Teatini Salles

Resumo

Em 2006, um método foi proposto sobre o uso da equalização de intervalos de tem-

pos, como forma de melhorar o desempenho de alguns métodos biométricos baseados em

dinâmica de digitação (keystroke). Naquele artigo, pequenas bases de dados, com textos es-

táticos e livres, foram usadas para mostrar, em termos de taxas de erros, os ganhos quando

a equalização era aplicada antes do uso de métodos clássicos. Em 2009, lançou-se uma

base pública grande, correspondente a uma única senha hipotética curta, digitada por 51 vo-

luntários, usada pelos autores do trabalho e, posteriormente, disponibilizada, publicamente,

para novos experimentos. Nesta dissertação utilizou-se essa grande base pública, para a qual

adapta-se a equalização de intervalos. Utilizando os mesmos métodos usados pelos pro-

prietários da base experimental, obtém-se resultados que mostram, claramente, um notável

ganho de desempenho para todos os métodos testados quando a equalização de intervalos é

usada no pré-processamento dos dados. É observado também o desempenho no tocante ao

tamanho da senha, e analisa-se a estabilização do padrão de digitação. Por fim, foi realizada

a montagem de uma nova base, a partir da qual foi possível verificar e analisar o efeito pro-

duzido no ritmo de digitação do usuário devido à troca de caracteres da senha, bem como a

influência do seu modo de digitação.

Palavras-chave: Dinâmica da digitação; Equalização de intervalos de tempo; Biome-

tria.

i

Abstract

In 2006, a method was proposed concerning the use of time interval equalization to im-

prove performances of some biometric methods based on typing dynamics (or keystroke).

In the paper where that method was first proposed, relatively small databases were used for

showing, in terms of error rates, the effect of time equalization applied as a preprocessing

step before the use of classical methods. In 2009, a much larger large database for keystroke

research was made publicly available, through the Internet. This database is based on a single

hypothetical password, typed by 51 volunteers through 8 sessions (50 samples per session).

In this dissertation, the preprocessing method is adapted to this large public database of short

typing patterns. Thus, by using the same biometric detectors already used by the owners of

the database, we obtain new experimental results which clearly show an outstanding per-

formance gain when the equalization interval (preprocessing) is applied. It is also studied

the performance gain as a function of the password length (in number of symbols), and the

stability of typing pattern against changes in the order of typed symbol pairs. Finally, the

last study was carried to a new database we acquired with both direct and inverted sequence

of symbols, allows for the analysis of keyboard layout changes on biometric performances.

Keywords: Dynamic of typing; Equalization time intervals; Biometrics.

ii

"A vida é, é uma coisa, que é mais fácil compreender a morte que compreender a vida, porque o rio

vai pro mar, depois ele se transforma em chuva, depois ele volta ao rio. Os pais deixam os filhos, os

filhos depois passam também a serem pais, e esse processo de crescer, nascer e morrer e voltar é a

coisa mais bonita que a própria vida tem".

Participação de João Nogueira no programa "Ensaio" da TV Cultura no ano de 1992.

iii

Lista de Figuras

2.1 Ilustração da aquisição dos intervalos do tipo Down-Down (DD) durante a

digitação da senha hipotética “.tie5Roanl”. . . . . . . . . . . . . . . . . . . 11

2.2 Ilustração do significado dos tempos de retenção de tecla, tempos entre acio-

namentos consecutivos e entre liberação e acionamentos consecutivos. . . . 12

4.1 Ilustração da distribuição do intervalo do tipo Down-Down (DD) entre a di-

gitação dos caracteres “t” e “i” da senha hipotética “.tie5Roanl”. . . . . . . 27

4.2 Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digi-

tação dos caracteres “t” e “i” da senha hipotética “.tie5Roanl” de um dado

usuário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29


tação dos caracteres “5” e “R” da senha hipotética “.tie5Roanl” de um dado

usuário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30


tação dos caracteres “a” e “n” da senha hipotética “.tie5Roanl” de um dado

usuário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.5 Ilustração do aprendizado individual de cada característica da senha hipoté-

tica “.tie5”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.6 Ilustração do aprendizado individual de cada característica da senha hipoté-

tica “Roanl”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.7 Desempenho em termo de EER - (Killourhy e Maxion, 2009) - Intervalos H,

DD, UD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.8 Desempenho em termo de EER - (Killourhy e Maxion, 2009) - Intervalos H,

DD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

iv

4.9 Desempenho em termo de EER - (Montalvão e Freire, 2006) - Intervalos H,

DD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.10 Desempenho em termo de EER - com Equalização - Intervalos H, DD . . . 36

5.1 Ilustração - Coleta dos dados da senha hipotética . . . . . . . . . . . . . . 39

5.2 Ilustração - Coleta dos dados da senha hipotética invertida . . . . . . . . . 40

5.3 Layout do teclado do equipamento utilizado - formato ABNT2 . . . . . . . 40

5.4 Média dos logaritmos dos intervalos de tempos DD do segmento de senha

“.tie”, para senha hipotética normal e invertida do usuário 1 . . . . . . . . . 43


“.tie”, para senha hipotética normal e invertida do usuário 2 . . . . . . . . . 44


“.tie”, para senha hipotética normal (digitação normal x digitação com 2 dedos) 47


“.tie”, para senha hipotética invertida (digitação normal x digitação com 2

dedos) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

v

Lista de Tabelas

1.1 Comparação das várias tecnologias biométricas . . . . . . . . . . . . . . . 4

3.1 Resultados da abordagem de (Killourhy e Maxion, 2009) . . . . . . . . . . 17

4.1 Resultados com intervalos H, DD e UD, sem equalização . . . . . . . . . . 20

4.2 Resultados com intervalos H e DD, sem equalização . . . . . . . . . . . . 20

4.3 Resultados com intervalos H e DD, com mesma equalização para todos os

intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.4 Resultados com intervalos H e DD, com equalização . . . . . . . . . . . . 22

4.5 Resultados com intervalos H e DD, sem equalização, com 100 amostras para

geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23


intervalos, utilizando 100 amostras para geração dos templates . . . . . . . 23

4.7 Resultados com intervalos H e DD, com equalização, utilizando 100 amos-

tras para geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . 23




intervalos, utilizando 50 amostras para geração dos templates . . . . . . . . 24

4.10 Resultados com intervalos H e DD, com equalização, utilizando 50 amostras

para geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . . . 24




intervalos, utilizando 10 amostras para geração dos templates . . . . . . . . 25

vi

4.13 Resultados com intervalos H e DD, aplicado ao pré-processamento proposto,

utilizando 10 amostras para geração dos templates . . . . . . . . . . . . . . 25

4.14 Resultados com intervalos H e DD, sem equalização . . . . . . . . . . . . 26


intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.16 Resultados com intervalos H e DD, com equalização . . . . . . . . . . . . 26

4.17 Resultados dos EER dos intervalos H, DD e UD - sem equalização . . . . . 33

4.18 Resultados dos EER dos intervalos H e DD - sem equalização . . . . . . . 34

4.19 Resultados dos EER dos intervalos H e DD - com mesma equalização para

todos os intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.20 Resultados dos EER dos intervalos H e DD - com equalização . . . . . . . 36

5.1 Resultados com intervalos H, DD, sem equalização – base (Killourhy e Ma-

xion, 2009) – “.tie5Roanl” . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.2 Resultados com intervalos H, DD, sem equalização – nova base – “.tie5Roanl” 42

5.3 Resultados do segmento de senha “.tie” na senha normal e invertida - usuário 1 42

5.4 Resultados do segmento de senha “.tie” na senha normal e invertida - usuário 2 43

5.5 Resultados do segmento de senha “.tie” com senha normal, modo de digita-

ção normal e com 2 dedos . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.6 Resultados do segmento de senha “.tie” com senha invertida, modo de digi-

tação normal e com 2 dedos . . . . . . . . . . . . . . . . . . . . . . . . . . 46

vii

Lista de Siglas

FAR - False Acceptance Rate

FRR - False Reject Rate

EER - Equal Error Rate

H - Hold

DD - Down-Down

UD - Up-Down

viii

Sumário

1 Introdução 1

1.1 Problemática e Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Objetivos da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Organização da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Dinâmica da Digitação em Senhas Alfa-Numéricas Curtas 8

2.1 A Base de Dados utilizada . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Como a coleta foi realizada . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3 Protocolo de Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Pré-Processamento Adaptado à Senha Curta 15

3.1 A Abordagem de (Killourhy e Maxion, 2009) . . . . . . . . . . . . . . . . 17

3.2 A Abordagem de (Montalvão e Freire, 2006) . . . . . . . . . . . . . . . . 18

4 Resultados a partir da base “.tie5Roanl” 19

4.1 Validação do Pré-Processamento Proposto . . . . . . . . . . . . . . . . . . 20

4.2 Influência do Número de Amostras de Treinamento . . . . . . . . . . . . . 22

4.3 Influência do Uso dos Tempos: {H} e {DD} . . . . . . . . . . . . . . . . 25

4.4 Teste de Aderência da Log-Normalidade . . . . . . . . . . . . . . . . . . . 27

4.5 Influência do Caractere na Senha . . . . . . . . . . . . . . . . . . . . . . . 30

4.6 Influência do Comprimento da Senha no EER . . . . . . . . . . . . . . . . 32

5 Resultados a partir de novas bases de dados 38

5.1 Ferramenta desenvolvida para coleta das novas bases de dados . . . . . . . 38

5.2 Novas Bases de Dados e seus Protocolos . . . . . . . . . . . . . . . . . . . 39

ix

5.3 Influência da Troca da Posição dos Caracteres . . . . . . . . . . . . . . . . 41

5.4 Influência do Modo de Digitação . . . . . . . . . . . . . . . . . . . . . . . 45

6 Conclusões e Trabalhos Futuros 49

Referências 51

A Artigo Submetido 55

x

Capítulo 1

Introdução

A segurança dos Sistemas de Informação tem, em sua essência, um problema em estabelecer

uma associação entre um indivíduo e uma identidade, o qual pode ser dividido em duas

grandes áreas: autenticação e identificação. A identificação é a forma com que o usuário

fornece sua identidade única ao sistema, enquanto que a autenticação é o processo pelo qual

o usuário estabelece a validação de sua identidade (Bosworth, Hoyt e Hutt, 2002), ou seja, a

autenticação é a prova da identificação.

Os processos de autenticação, conforme observado em Computer Security Handbook e

(Bosworth, Hoyt e Hutt, 2002), assumem três formas básicas que podem ser fusionadas para

aumentar a confiabilidade no processo de autenticação:

• Autenticação por propriedade: algo que o usuário possua como uma chave ou cartão

magnético;

• Autenticação por conhecimento: algo que o usuário saiba, como por exemplo, uma

senha;

• Autenticação por característica: alguma característica comportamental ou fisiológica

do usuário.

De acordo com o Biometrics Journal of The International Biometrics Society, os termos

biométrico e biometria têm sido utilizados, desde o início do século XX, para identificar

o campo de desenvolvimento de métodos matemáticos e estatísticos aplicáveis à análise de

problemas das ciências biológicas.

1

2

O termo biometria tem sido utilizado, também, para identificar a área em que a tecnologia

é utilizada para identificar indivíduos, a partir das características biológicas.

Embora já seja tema de trabalhos científicos, há mais de um século, a biometria é uma

área que está despertando grande atenção da comunidade científica atualmente. Trata-se da

identificação de indivíduos a partir das suas características biológicas, ou seja, por partes

de seu corpo e/ou por padrões comportamentais. Tal identificação pode ser realizada por

vários aspectos distintos, tais como a impressão digital (um dos meios de identificação mais

antigos), a análise da íris, da retina, a geometria da mão, o reconhecimento facial, da voz,

pela caligrafia, pela dinâmica da digitação, etc.

Numa rápida abordagem dos meios de identificação, têm-se:

• Impressão Digital: Os sistemas biométricos que utilizam a identificação digital anali-

sam pequenas marcas na imagem do dedo, que são as terminações e bifurcações dos

sulcos, conhecidas por minutiae (minúcias). A imagem de impressão digital é obtida

por um dispositivo específico. Alguns sistemas utilizam também a distância entre os

sulcos ou os poros nos dedos. A qualidade da imagem pode ser afetada por sujeira,

ressecamento da pele, idade, sexo, raça ou até pela forma com que a pessoa interage

com o equipamento.

• Íris: A identificação através da íris corresponde à análise do anel colorido que circunda

a pupila do olho, uma vez que a estrutura ocular de cada indivíduo é única.

• Retina: A identificação através do scanning de retina é baseada no padrão de vasos

sanguíneos existentes no interior do glóbulo ocular. Algumas pessoas possuem re-

sistência a esse tipo de identificação, pois é necessário que um feixe de luz incida

diretamente no fundo do olho.

• Geometria da mão: A partir da imagem digitalizada da mão do indivíduo, são men-

suradas formas e proporções métricas entre dedos e palma. O seu leitor pode ser um

scanner (digitalizador) convencional de escritório.

• Face: A identificação pela face envolve captura de fotos do rosto. Em seguida, técnicas

de visão computacional podem ser usadas para sobrepor e comparar diversos marcos

da face, como por exemplo, a posição dos olhos, do nariz e/ou da boca. Outras técnicas

3

mais custosas (do ponto de vista computacional) também são propostas na literatura,

tais como aquelas baseadas em Eigenfaces. Ainda sistemas sofisticados de detecção

facial podem utilizar o calor produzido pelo fluxo de sangue sob a face.

• Voz: Neste caso, o sinal de voz é digitalizado e processado. O processamento deve

enfatizar o timbre da voz, que é usado como parâmetro individual. O ambiente de

operação do sistema pode influir significativamente no resultado da identificação.

• Caligrafia: Os sistemas biométricos que utilizam a escrita analisam a grafia da pessoa,

levando em consideração aspectos como a velocidade da escrita e a pressão sobre o

papel (sensor).

• Dinâmica da Digitação: Os sistemas biométricos que estudam o padrão comporta-

mental da dinâmica como as teclas são pressionadas. O termo é originário do inglês

“KeyStroke Dynamics”.

Uma característica humana qualquer pode ser utilizada em termos dos seguintes parâme-

tros (Jain, Ross e Prabhakar, 2004):

1. Universalidade - UNIV: cada pessoa tem sua característica.

2. Singularidade - SING: distinção que separa os pontos biométricos individualmente a

partir de outro.

3. Permanência - PERM: mede quanto o equipamento biométrico resiste ao envelheci-

mento.

4. Colectabilidade - COLEC: facilidade de aquisição para a medição.

5. Desempenho - DESEMP: precisão, velocidade e robustez da tecnologia utilizada.

6. Grau de aceitabilidade - ACEITA: aprovação de uma tecnologia.

7. Evasão - EVA: facilidade de uso de um substituto.

A tabela 1.1, mostra uma comparação entre os meios biométricos existentes em termos

desses parâmetros, (Jain, Ross e Prabhakar, 2004):

4

Tabela 1.1: Comparação das várias tecnologias biométricas

Comparação das várias tecnologias biométricas (A = Alta, M = Média, B = Baixa)

Biometria: UNIV SING PERM COLEC DESEMP ACEITA EVA

Face A B M A B A B

Impressão Digital M A A M A M A

Geometria da mão M M M A M M M

Íris A A A A A B A

Retina A A A B A B A

Caligrafia B B B A B A B

Voz M B B M B A B

Dinâmica da Digitação M B B A B A M

Analisando o contexto, observa-se claramente na dinâmica da digitação, classificada na

literatura como sendo parte da “biometria comportamental”, a existência de um problema

para o qual a modelagem estatística é apropriada, em que cada sinal biométrico, coletado

e/ou medido, pode ser visto como uma amostra de uma variável aleatória (Albuquerque,

Fortes e Finamore, 2008).

O keystroke é uma modalidade da biometria comportamental, através da qual um in-

divíduo pode ser identificado ou ter sua identidade verificada pelo seu padrão rítmico de

utilização de um teclado.

Sabendo que existem sistemas que são capazes de verificar se a senha que o usuário digita

é ou não correta, há também sistemas que são capazes de verificar se quem está digitando

a senha deseja fraudar o sistema. Por mais que o impostor conheça a senha, o ritmo de sua

digitação não será o mesmo do usuário verdadeiro e, desta forma, o impostor não conseguirá

fraudar o sistema de autenticação (Monrose et al., 2000).

Basicamente existem duas maneiras principais de trabalhar com a dinâmica da digitação

em relação à informação alvo. A primeira utiliza uma senha fixa para todos os usuários do

sistema e a segunda usa senhas diferentes por pessoa, ou seja, na primeira abordagem (senha

fixa), existe uma senha única, ou um texto único, para todos os usuários do sistema, e já na

segunda abordagem (senhas diferentes), cada usuário pode escolher uma senha para obter

acesso ao sistema.

1.1 Problemática e Hipótese 5

A nossa opção pelo uso da dinâmica da digitação foi motivada pela publicação relativa-

mente recente de uma base pública (Killourhy e Maxion, 2009), que usa senha fixa, composta

por amostras de 51 voluntários, sendo utilizada pelos autores do trabalho e, posteriormente,

disponibilizada publicamente para novos experimentos.

Uma variante da abordagem (Montalvão e Freire, 2006) é o foco principal desta disserta-

ção, na qual é observado, também, o desempenho quanto ao tamanho da senha, analisando-se

o tempo que uma pessoa leva para se acostumar com a senha, ou seja, o tempo para estabi-

lização do seu padrão de digitação. Por fim, em decorrência do aprofundamento do estudo

e da criação de uma nova base, foi possível verificar e analisar o efeito produzido no ritmo

de digitação do usuário devido a troca de caracteres da senha, bem como a influência do seu

modo de digitação.

1.1 Problemática e Hipótese

Dentro do contexto do grupo de trabalho intitulado BioChaves — Integração de Sinais Bio-

métricos na Identificação de Indivíduos — é estudada a modelagem probabilística dos inter-

valos de tempos observados na dinâmica da digitação (KeyStroke) aplicados a senhas curtas,

como uma contribuição para o melhoramento das taxas de autenticação/verificação, sem a

necessidade do uso de longos textos digitados como condição para o uso da biometria.

Para identificação e verificação, através da dinâmica da digitação, muitos métodos utili-

zam os dados brutos coletados. Existem várias bases públicas para testes e comparativos de

desempenho. Um mapeamento dessas bases está descrito em (Giot, El-Abed e Rosenberger,

2011).

Dentro deste escopo, tem-se, por hipótese, que o uso de uma estratégia de equalização

de intervalos de tempos está em plena sintonia com o padrão comportamental existente nos

intervalos do padrão de digitação, levando a melhorias notáveis de desempenho dos sistemas

biométricos em termos de autenticação/verificação. Esta afirmação baseia-se na observa-

ção recorrente de que as distribuições de probabilidade muito desequilibradas das variáveis

aleatórias que modelam tais intervalos reduzem o desempenho da maioria dos algoritmos

ingênuos (ingênuos no sentido de que eles não incorporam qualquer tipo de compensação

explícita ou implícita desse viés de distribuição), logo a equalização de intervalos de tem-

1.2 Objetivos da Dissertação 6

pos proposta pode ser um bloco de construção útil, e praticamente sem custo em sistemas

biométricos baseados keystroke, devido à sua simplicidade.

1.2 Objetivos da Dissertação

O objetivo desta dissertação é realizar um estudo comportamental, probabilístico, dos inter-

valos de tempos observados em digitação de senhas curtas (texto fixo composto por até 10

caracteres). Tal estudo tem por finalidade a identificação de qual modelo representa melhor o

padrão existente na digitação de uma senha curta e/ou texto fixo. Adicionalmente, o impacto

dessa modelagem sobre a verificação biométrica de identidade é estudado empiricamente.

1.3 Organização da Dissertação

Esta dissertação está organizada em 6 capítulos e suas respectivas seções, os quais estão

distribuídos da seguinte forma:

• O capítulo 1 apresenta uma introdução sobre biometria e o foco deste trabalho, é com-

posto pelas seguintes seções: problemática e hipótese, objetivos e organização desta

dissertação;

• o capítulo 2 apresenta uma contextualização sobre a dinâmica da digitação em senhas

alfa-numéricas curtas, e é composto pelas seguintes seções: a base de dados utilizada;

como a coleta da base de dados foi obtida e o protocolo de experimento aplicado para

coleta da base pública;

• o capítulo 3: pré-processamento adaptado a senhas curtas, foco desta dissertação, é

composto pelas seguintes seções: a abordagem de (Killourhy e Maxion, 2009); a abor-

dagem de (Montalvão e Freire, 2006);

• o capítulo 4 apresenta os resultados a partir da base “.tie5Roanl”, e é composto pelas

seguintes seções: validação do pré-processamento proposto, influência do número de

amostras de treinamento, influência do uso dos tempos: H, DD e UD, teste de aderên-

cia da log-normalidade, influência dos caracteres na senha, influência do comprimento

da senha no EER;

1.3 Organização da Dissertação 7

• o capítulo 5 apresenta os resultados a partir de novas bases de dados, e é composto

pelas seguintes seções: ferramenta desenvolvida para coleta das novas bases de dados;

novas bases de dados e seus protocolos; influência da troca da posição dos caracteres;

influência do modo de digitação;

• o capítulo 6 apresenta as conclusões e os possíveis trabalhos futuros;

• o capítulo 7 é apresentada uma lista de Referências Bibliográficas cuidadosamente

selecionada, contendo todo o material que foi consultado ao longo desta dissertação.

• e, finalmente, no apêndice A é elencado a submissão gerada durante a concepção desse

trabalho, bem como a cópia do artigo.

Capítulo 2

Dinâmica da Digitação em Senhas

Alfa-Numéricas Curtas

A biometria computacional é o ramo da ciência da computação que estuda as medidas físicas

dos seres vivos, no intuito de identificar ou autenticar indivíduos, através dos traços físicos

característicos e únicos (Vigliazzi, 2003) ou, alternativamente, através de comportamentos

ou reflexos que também possuam traços individuais e estáveis (behavioural biometrics). Em

síntese, os métodos biométricos são mecanismos automatizados de reconhecimento e/ou ve-

rificação da identidade de uma pessoa, com base em alguma característica fisiológica, com-

portamental ou física do indivíduo.

A maioria dos sistemas de segurança baseados em sinais biométricos exigem hardwares

de aquisição de dados específicos. No entanto, há algumas exceções a esta regra, como a

dinâmica de digitação, ou keystroke. Nesta forma específica de biometria comportamental,

os métodos de reconhecimento buscam extrair características estáveis da forma como uma

pessoa digita ou pressiona as teclas de um teclado. A tecnologia original remonta aos tempos

em que telegrafistas experientes conseguiam identificar o remetente de uma mensagem, co-

dificada em Morse, apenas pelo ritmo de chaveamento telegráfico desse remetente (Peacock,

Ke e Wilkerson, 2004).

Desde 1980, pesquisadores como (Gaines et al., 1980), (Umphress e Williams, 1985),

(Bleha, 1988) e (Bleha, Slivinsky e Hussien, 1990) têm estudado o uso de padrões de digita-

ção na identificação e na autenticação biométrica, e os resultados destes trabalhos mostraram

que os padrões dinâmicos são suficientemente estáveis e discriminantes, ao ponto de permitir

8

9

seu uso em aplicações cotidianas de biometria computacional.

As principais características utilizadas em autenticação/identificação de usuários, com

base em sua dinâmica de digitação são:

• a latência entre a liberação de uma tecla e o acionamento da próxima, consecutiva-

mente, também referenciado com a sigla UD, do inglês: Up-Down;

• a latência entre dois acionamentos de teclas consecutivos, também referenciado com a

sigla DD, do inglês: Down-Down;

• tempo de retenção de cada tecla, cuja sigla usual é H, do inglês: Hold, duração do

keystroke (tempo de espera).

Muitos métodos adotados atualmente se distinguem, principalmente, no tratamento que

dão a esses sinais brutos (adquiridos como séries de intervalos em segundos). Assim, as

estratégias apresentadas nesses métodos concorrentes vão desde o simples uso da média

(Urtiga e Moreno, 2011) e da covariância desses intervalos de tempos (Araújo et al., 2005),

até o uso das transformações não-lineares de espaços vetoriais providas pelas redes neurais

artificiais (Obaidat e Sadoun, 1997).

Em (Giot, El-Abed e Rosenberger, 2009), são propostos vários experimentos (GREYC),

incluindo uma base de dados pública e algoritmos para testes comparativos entre estratégias

de autenticação biométrica pela dinâmica de digitação. Essa base pública foi recentemente

usada em experimentos na antecipação rápida de desempenho de sistemas biométricos (Giot,

Ninassi e Rosenberger, 2012).

Uma revisão bastante detalhada (recomendável) da aplicação do keystroke na detecção de

intrusões é apresentada em (Pisani e Lorena, 2011). Outros resultados recentes ainda podem

ser vistos em (Balagani et al., 2011) e (Zhong, Deng e Jain, 2012).

Um estudo detalhado da análise dos fatores envolvidos no processo de aquisição

encontra-se em (Giot, Ninassi e Rosenberger, 2012) e uma reflexão criteriosa sobre os pou-

cos trabalhos a nível global, que utilizam inferências estatísticas como comparativos da sua

eficiência, pode ser vista em (Killourhy e Maxion, 2011).

Em (Montalvão e Freire, 2006), um estudo detalhado da natureza aleatória dos intervalos

de tempos observados em dinâmica da digitação conduziu a um método de pré-processa-

mento que, quando aplicado em conjunto com métodos de reconhecimento propostos por

2.1 A Base de Dados utilizada 10

outros autores, melhorou significativamente seus respectivos desempenhos. Esse pré-pro-

cessamento, nomeado como time interval equalization, ou equalização de intervalos de tem-

pos (análogo à equalização de histogramas de níveis em imagens representadas por bitmaps

(Gonzalez e Wood, 2002)), foi apresentado de forma geral para ser aplicado tanto a textos

digitados livremente (ex: em mensagens de email), como a textos fixos, isto é, sentença fixa

composta por algumas palavras.

Nesta dissertação, esse método é adaptado a uma única sequência curta de símbolos,

como senhas e/ou texto fixo, e o seu desempenho é avaliado através de evidências empí-

ricas extraídas de experimentos com a base pública de dados (Killourhy e Maxion, 2009),

sendo esta composta por 400 entradas de cada um dos 51 digitadores voluntários, totalizando

20.400 amostras de dinâmicas de digitação da mesma senha hipotética curta. A exemplo do

que foi feito em (Montalvão e Freire, 2006), aqui também usam-se os mesmos métodos de

reconhecimento biométrico previamente utilizados em (Killourhy e Maxion, 2009). Assim,

através de experimentos com e sem time interval equalization, são evidenciados os ganhos

associados a esse pré-processamento proposto. Por fim, um programa foi desenvolvido e

uma pequena base de dados montada para análises adicionais, bem como relata-se um es-

tudo sobre a dependência / independência das variáveis aleatórias atreladas a cada caractere.

2.1 A Base de Dados utilizada

Considere um cenário no qual a senha de um usuário de longa data vem sendo comprometida

por um impostor. O usuário genuíno assume ser o único a conhecer, utilizar e digitar sua

senha, enquanto que um impostor faz uso desta.

Em uma situação típica de autenticação via senha alfa-numérica, o ritmo de digitação

pode ser usado para dificultar a fraude. Isto é, mesmo conhecendo a senha, um impostor

pode ser detectado por um desvio acima do normal na dinâmica de digitação dessa senha.

Com base nesse cenário possível de aplicação da biometria baseada em keystroke (Killourhy

e Maxion, 2009), foi coletada uma base de amostras fornecidas por 51 voluntários, usada

pelos autores do trabalho e, posteriormente, disponibilizada publicamente para novos expe-

rimentos. A senha hipotética dessa base pública é “.tie5Roanl”, e a base tem as seguintes

características:

2.1 A Base de Dados utilizada 11

• composta por amostras de 51 usuários distintos, sendo 30 do sexo masculino e 21 do

sexo feminino;

• cada usuário digitou a referida senha 400 vezes, em 8 grupos (ou seções biométricas)

de 50 cada;

• registraram-se os intervalos de tempos de retenção de tecla, H - (Hold), os intervalos

de tempos entre acionamentos consecutivos, DD - (Down-Down), e os intervalos de

tempos entre liberação e acionamento consecutivos, UD - (Up-Down).

Ilustra-se, na Figura 2.1, como é o processo de aquisição dos intervalos de tempos do

tipo DD. Ilustrações análogas poderiam ser usadas para as aquisições dos intervalos H e UD,

de tal forma que cada instância de digitação da senha provê, simultaneamente, três séries de

intervalos.

Figura 2.1: Ilustração da aquisição dos intervalos do tipo Down-Down (DD) durante a digi-

tação da senha hipotética “.tie5Roanl”.

Em outras palavras, pode-se ver o gesto da digitação como a combinação paralela de três

fontes aleatórias de intervalos de tempos, como ilustrado na Figura 2.2, que indica como os

tempos dos tipos H, UD e DD são capturados ao longo da linha de tempo.

2.2 Como a coleta foi realizada 12

Figura 2.2: Ilustração do significado dos tempos de retenção de tecla, tempos entre aciona-

mentos consecutivos e entre liberação e acionamentos consecutivos.

Ressalta-se apenas que a digitação do caractere “R” da senha “.tie5Roanl” é compreen-

dido pelo apertar das teclas <shift> e o caractere <R>, sendo os tempos do tipo H, UD e DD,

a junção das respectivas teclas.

2.2 Como a coleta foi realizada

Para se obter detalhes da metodologia de coleta de dados, vide (Killourhy e Maxion, 2009).

Segue aqui um breve resumo da metodologia. Foi construído um aparelho de coleta de dados

KeyStroke que consiste em:

1. um computador convencional laptop com o sistema operacional Windows XP;

2. aplicação em software para coleta das latências dos tempos mensuradas (H, DD e UD);

3. um temporizador externo de referência para as teclas associadas à senha hipotética.

O software desenvolvido apresenta a senha hipotética a ser digitada. Conforme o usuário

digita a senha sugerida, o software verifica quanto à corretividade da mesma, ou seja, caso o

2.3 Protocolo de Experimentos 13

usuário cometa um erro de digitação, o aplicativo solicita a digitação novamente desta senha.

Desta forma, gravaram-se 50 digitações desta mesma senha, digitadas corretamente, em cada

sessão. O software registrou os eventos (keydown e keyup), sendo, assim, possível adquirir

os tempos H, DD e UD. Um relógio de referência externo foi utilizado para gerar marcas de

tempo de alta precisão. O relógio de referência tem uma precisão de até 200 microssegundos

(usando um gerador de função para simular teclas pressionadas em intervalos fixos).

Foram recrutados 51 indivíduos (digitadores) de dentro de uma comunidade universitária.

Todos os indivíduos digitaram a mesma senha e cada pessoa digitou-a 400 vezes ao longo de

8 seções (50 repetições em cada sessão). Eles esperaram pelo menos um dia entre as sessões,

para capturar algumas das variações do dia-a-dia de digitação.

A senha “.tie5Roanl” foi escolhida para ser representante de uma senha de 10 caracteres

fortes, ou seja, uma senha forte tem pelo menos oito caracteres, não contém um nome real ou

de empresa, nem forma uma palavra completa, e é constituída por caracteres de, pelo menos,

três destas quatro categorias: letras maiúsculas, minúsculas, números e símbolos do teclado.

2.3 Protocolo de Experimentos

O protocolo de (Killourhy e Maxion, 2009) foi reproduzido fielmente. Isto é:

1. um dos 51 indivíduos da base é escolhido por experimento como o indivíduo alvo (ou

autêntico possuidor da senha), e os demais são tomados como impostores que também

conhecem (indevidamente) essa senha;

2. na fase de treinamento, o algoritmo utiliza, como base, as primeiras 200 repetições do

indivíduo alvo, sendo este parte de um público masculino e feminino, das mais diversas

idades. Constrói-se, então, um modelo – ou um template 1 – de comportamento desse

indivíduo;

3. na fase de teste, são utilizadas as outras 200 repetições restantes do indivíduo alvo

como tentativas genuínas de autenticação;1Template é a representação das informações extraídas das amostras biométricas fornecidas pelo indivíduo

no seu processo de cadastramento (Oliveira, 2011)

2.3 Protocolo de Experimentos 14

4. finalmente, como tentativas de autenticação dos impostores, são utilizadas as primeiras

5 repetições de cada um dos 50 demais indivíduos.

Embora 200 repetições sejam uma quantidade excessiva de dados, do ponto de vista

prático de treinamento de uma aplicação real (preocupação que foi mencionada e justificada

pelos autores (Killourhy e Maxion, 2009)), foi mantido esse mesmo protocolo por duas

razões:

• inicialmente porque o objetivo, a priori, no primeiro conjunto de experimentos, é mos-

trar, comparativamente, o ganho proporcionado pela equalização dos intervalos, e esse

número exagerado de amostras de treinamento favorece esse feito, por fornecer medi-

das de erros relativamente estáveis.

• além disso, a reprodução rigorosa do protocolo usado (Killourhy e Maxion, 2009) foi

mantida para permitir a conferência dos resultados esperados (no caso sem o pré-pro-

cessamento).

Capítulo 3

Pré-Processamento Adaptado à Senha

Curta

Numa adaptação da notação usada em (Montalvão e Freire, 2006), cada amostra de dinâ-

mica de digitação é representada como um vetor, xS = [xS(1) xS(2) · · · xS(NS)], com

NS intervalos de tempos positivos, em segundos, e o índice S representa a fonte aleatória

desses intervalos. Nesta adaptação de modelo, assume-se a existência de 2 fontes, a saber:

S ∈ {H,DD}, relativas aos tempos de retenção de tecla e tempos entre acionamentos con-

secutivos, respectivamente. Vale notar que descartaram-se os intervalos {UD}, que podem

assumir valores negativos e, por consequência, não podem ser modelados com distribuições

Log-Normais, ou seja, não sendo possível realizar a equalização conforme observa-se no

decorrer deste capítulo.

Assumindo que os intervalos são instâncias de duas variáveis aleatórias contínuas, XH

e XDD, com distribuições aproximadamente log-normais (hipótese a ser testada novamente

nesta dissertação, no contexto de senhas curtas e/ou textos fixos), temos, por consequência,

que

YS = loge(XS) (3.1)

possui distribuição aproximadamente normal, para cada uma das duas fontes. Assim, usando

a mesma aproximação usada em (Montalvão e Freire, 2006) para a integral definida da gaus-

siana, tem-se uma primeira possível equalização de tempos obtida como:

15

16

g(xS) =1

1 + exp(−1,7(loge(xS)−µy,S)σy,S

)(3.2)

Em (Montalvão e Freire, 2006), onde apenas intervalos DD foram considerados, em

bases de textos livres e fixos, os valores médios estimados para os parâmetros de média e

desvio padrão foram µy,DD = −1, 56 e σy,DD = 0, 65, sem levar em conta quais eram as

teclas consecutivas cujos acionamentos geravam o intervalo de tempo. Claramente, essa foi

uma opção de simplificação do modelo, em (Montalvão e Freire, 2006), que descartou a

dependência entre teclas acionadas e intervalos medidos.

Até então, duas importantes alterações na modelagem proposta em (Montalvão e Freire,

2006) são:

• além dos intervalos de tempos do tipo DD (Down-Down), foram incluídos os intervalos

de tempos de retenção H (Hold);

• no sentido de tirar o máximo de proveito dos poucos intervalos de tempos fornecidos

por uma senha curta e/ou um texto fixo, a dependência entre teclas acionadas e interva-

los correspondentes não foi descartada. Isto é, sendo a senha (texto fixo) “.tie5Roanl”

composta por 10 caracteres, sendo um deles maiúsculo, cada digitação desta senha

gera 10 intervalos DD (contando com o SHIFT) e 11 intervalos H, numa sequência

cuja ordem importa. Em outras palavras, as sequências de 21 intervalos DD e H, assim

obtidos, são modeladas como processo estocástico, não mais como variáveis indepen-

dentes.

Do ponto de vista de implementação, esta última alteração significa que cada par de

teclas consecutivas – e.g. ‘.t’ ou ‘ti’ – deve ter seus próprios parâmetros µy,S,k e σy,S,k,

que devem ser estimados separadamente, onde k representa o par de letras e/ou a letra

do intervalo de tempo na senha e/ou no texto fixo. Logo, k ∈ {′.t′,′ ti′,′ ie′ . . . ,′ ni′} para

S = DD e k ∈ {′.′,′ t′,′ i′ . . . ,′ n′,′ i′} para S = H .

O pré-processamento proposto está sustentado basicamente em duas abordagens: a abor-

dagem de (Killourhy e Maxion, 2009) e a abordagem de (Montalvão e Freire, 2006). Nas

seções a seguir observa-se um detalhamento sucinto dessas duas abordagens:

3.1 A Abordagem de (Killourhy e Maxion, 2009) 17

3.1 A Abordagem de (Killourhy e Maxion, 2009)

O objetivo principal da abordagem de (Killourhy e Maxion, 2009) foi a coleta dos dados

(conforme observou-se nas seções: 2.2 e 2.3, ou seja, a coleta das batidas das teclas - dinâ-

mica do conjunto de dados), com o objetivo de desenvolver um processo de avaliação e a

possibilidade de medição do desempenho de uma série de medidas de modo que os resul-

tados possam ser comparados profundamente. Foram coletados dados de 51 indivíduos e

cada um dos indivíduos repetiu a digitação 400 vezes. Há também nesta abordagem a imple-

mentação de 14 medidas de desempenho, todas da literatura de reconhecimento de padrões.

Observa-se na tabela 3.1 os resultados obtidos para cada uma das 14 medidas de desempenho

(distância).

Tabela 3.1: Resultados da abordagem de (Killourhy e Maxion, 2009)

Distância EER

Manhattan (scaled) 0,096

Nearest Neighbor (Mahalanobis) 0,100

Outlier Count (z-score) 0,102

SVM (one-class) 0,102

Mahalanobis 0,110

Mahalanobis (normed) 0,110

Manhattan (filter) 0,136

Manhattan 0,153

Neural Network (auto-assoc) 0,161

Euclideana 0,171

Euclideana (normed) 0,215

Fuzzy Logic 0,221

K Means 0,372

Neural Network (standard) 0,828

Nesta dissertação utilizou-se as três métricas destacadas, ou seja, a distância Euclideana,

Manhattan e a distância de Mahalanobis.

3.2 A Abordagem de (Montalvão e Freire, 2006) 18

3.2 A Abordagem de (Montalvão e Freire, 2006)

Já na abordagem de (Montalvão e Freire, 2006), foi analisada uma equalização paramétrica

de histogramas (intervalos de tempos DD) sobre o desempenho de algoritmos de verificação

de usuário baseados em teclas. Três experimentos foram utilizados ao longo dessa análise:

um clássico para os textos estáticos, um segundo, também proposto na literatura, tanto para

textos estáticos como para textos arbitrários, e um para verificação baseado em texto arbitrá-

rio.

As performances foram relatadas antes e depois das equalizações e os resultados corro-

boraram com a hipótese feita, de que a equalização dos intervalos de tempo, sem memória e

não-linear, melhora o desempenho em termos de EER, apesar da sua simplicidade. Assim,

foi proposto que a equalização atuasse como um bloco de construção útil e praticamente sem

custo computacional relevante em sistemas biométricos baseados em keystroke.

A equalização corresponde simplesmente a realizar uma transformação de cada intervalo

de tempo Down-Down (DD) usando a Fórmula 3.2 e, para a abordagem de (Montalvão e

Freire, 2006), com uma mesma média e uma mesma variância para toda a matriz de caracte-

rísticas (todos os intervalos de tempos DD).

Capítulo 4

Resultados a partir da base “.tie5Roanl”

Assim como em (Killourhy e Maxion, 2009), empregaram-se três métodos “clássicos”, ou

seja, os métodos de autenticação baseados nas distâncias Euclidiana, de Manhattan e de

Mahalanobis (Duda, Hart e Stork, 2001), entre os vetores contendo os intervalos de tempo

de uma tentativa de autenticação (genuína ou impostora) e o vetor template, obtido durante

a fase de treino ou ajuste. No caso da distância de Mahalanobis, na fase de treino, também

foi gerada a matriz de covariância associada ao template.

Cada experimento realizado, independentemente, fornece uma grande quantidade de dis-

tâncias medidas entre amostra e template do indivíduo (ou usuário) alvo. Assim, dado um

limiar de decisão, λ, pode-se computar erros de dois tipos, são eles:

• erro de falso alarme, ou falsa rejeição: quando o usuário alvo digita a senha, mas a

distância medida entre a amostra fornecida e o seu template é maior que λ.

• erro de falsa aceitação: quando um impostor digita a senha e a distância medida entre

sua amostra de tempo e o template do usuário alvo é menor que λ.

Sendo assim, as frequências relativas de ocorrência desses dois erros são funções de λ,

de tal forma que quando uma cresce a outra decresce. No ponto de operação em que as duas

se igualam encontra-se o que é chamado de taxa de erros iguais, ou Equal Error Rate (EER),

que é uma medida comumente usada na avaliação de sistemas biométricos.

19

4.1 Validação do Pré-Processamento Proposto 20

4.1 Validação do Pré-Processamento Proposto

Nesta dissertação, os desempenhos de cada método são comparados através do EER. Repro-

duzindo os experimentos realizados (Killourhy e Maxion, 2009), com intervalos de tempos

em segundos, obtém-se os resultados indicados na Tabela 4.1, que também apresenta o inter-

valo de 95% de confiança para esses EER médios, medidos ao longo dos experimentos com

os 51 indivíduos. Vale observar que, apenas nestes experimentos de referência, utilizam-se

os 3 tipos de intervalos: H, DD e UD.

Tabela 4.1: Resultados com intervalos H, DD e UD, sem equalização

Distância EER Intervalo de confiança (95 %)

Euclideana 0,170 ± 0,026

Manhattan 0,153 ± 0,025

Mahalanobis 0,110 ± 0,018

O segundo conjunto de experimentos consistiu na remoção dos intervalos do tipo UD,

como forma de estabelecer uma referência de desempenho sem equalização de intervalos,

mas com, apenas, os intervalos H e DD. Os desempenhos obtidos são apresentados na Tabela

4.2.

Tabela 4.2: Resultados com intervalos H e DD, sem equalização



Manhattan 0,138 ± 0,023


Embora a intenção deste experimento fosse estabelecer uma referência para comparação,

nota-se, com surpresa, que a simples remoção dos intervalos UD parece promover um leve

ganho de desempenho para as distâncias Euclideana e de Manhattan. No entanto, esse ganho

não deve ser aceito como evidência suficiente contra o uso dos intervalos UD, levando-se

em conta os intervalos de confiança dessas medidas. Em todo caso, o mínimo que se pode

concluir é que os intervalos do tipo UD também não contribuem, nesses experimentos, para

diminuir o EER, ou seja, mesmo no caso da distância de Mahalanobis, em que o EER não

4.1 Validação do Pré-Processamento Proposto 21

sofreu alteração com a retirada dos intervalos UD, esta não influenciou na estimação dos

parâmetros da matriz de covariância.

No terceiro conjunto de experimentos, o pré-processamento (equalização) é feito sem

levar em consideração a dependência entre teclas acionadas e intervalos. Em outras palavras,

a mesma média µY = −2, 05 e o mesmo desvio-padrão, σY = 0, 66, recalculados a partir da

matriz de características do experimento em questão, foram aplicados à equalização de todos

os intervalos DD e H. Com exceção da inclusão dos intervalos do tipo H, isto corresponde

ao tratamento proposto em (Montalvão e Freire, 2006), para textos livres ou compostos por

várias palavras (não-curtos). Os resultados obtidos são apresentados na Tabela 4.3.

Tabela 4.3: Resultados com intervalos H e DD, com mesma equalização para todos os inter-

valosDistância EER Intervalo de confiança (95 %)


Manhattan 0,109 ± 0,013


Nota-se que, embora esse não seja o tratamento mais adequado às sequências curtas

(como as senhas), houve, ainda assim, um ganho significativo de desempenho em termos de

EER, quando são usadas as distâncias Euclideana e de Manhattan.

O quarto conjunto de experimentos corresponde ao foco principal desta dissertação.

Nele, foram estimados os parâmetros µy,S,k e σy,S,k para cada par de teclas acionadas, no

caso dos intervalos DD, e para cada tecla, no caso dos intervalos H. Em seguida, os inter-

valos em segundos foram transformados, usando a equação 3.2, em medidas adimensionais

Y , com distribuições quase uniformes entre 0 e 1. Essas medidas Y , substituíram então os

tempos em segundos X , nas tabelas de dados. A essa substituição de X por Y , nas tabelas

de dados experimentais, chamamos de pré-processamento dos intervalos de tempos.

Após o pré-processamento, usamos os métodos de treinamento e comparação precisa-

mente como em (Killourhy e Maxion, 2009), sem nenhuma alteração. Assim, os resultados

apresentados na Tabela 4.4 refletem apenas o impacto do pré-processamento proposto, isto

é, da equalização dos intervalos conforme descrito no capítulo 3.

4.2 Influência do Número de Amostras de Treinamento 22

Tabela 4.4: Resultados com intervalos H e DD, com equalização

Distância EER Intervalo de confiança (95 %) % de melhora em relação aos

resultados sem equalização

Euclideana 0,073 ± 0,018 56,28%

Manhattan 0,074 ± 0,020 46,37%

Mahalanobis 0,073 ± 0,017 33,63%

4.2 Influência do Número de Amostras de Treinamento

Após os resultados promissores observados, surgem perguntas do tipo: “Como seriam os

resultados caso o vetor dos templates, obtido na fase de treino ou ajuste, fosse gerado com

menos amostras”?

Para buscar respostas a essa pergunta, foram realizados experimentos com o intuito de

observar os resultados alcançados por cada abordagem estudada até então, ou seja, experi-

mentos realizados em (Killourhy e Maxion, 2009), o tratamento proposto em (Montalvão e

Freire, 2006) onde uma única média µY e um único desvio padrão σY são calculados, e o

pré-processamento proposto nesta dissertação, onde os parâmetros µy,S,k e σy,S,k são esti-

mados para cada par de símbolos (caracteres) consecutivos, intervalos DD e para cada tecla,

intervalos H. Ressaltando-se apenas que nos experimentos contidos nesta seção, não serão

contempladas as taxas referentes à distância de Mahalanobis, visto que a mensuração da

mesma será distorcida (fato este decorrente do número de amostras, na fase de treino, ser in-

suficiente para o cálculo da matriz de covariância, ou seja, o fato da dimensão do espaço ser

21 x 21 e o fato destes experimentos ter o número de amostras inferior a 100, torna inviável

uma estimação adequada dos parâmetros da matriz de covariância). Têm-se na sequência os

resultados obtidos utilizando apenas 100 amostras para geração do template, fase de treina-

mento, contra as 200 utilizadas anteriormente.

Reavaliando o desempenho original, visto em (Killourhy e Maxion, 2009), alterando

apenas a base dos templates, na fase de treino, observam-se os resultados na Tabela 4.5.

Continuando os experimentos de geração de um novo template com apenas 100 amostras,

os intervalos de tempos foram processados seguindo as abordagens apresentadas em (Mon-

talvão e Freire, 2006), onde é realizado um pré-processamento, com equalização “fixa”,


Tabela 4.5: Resultados com intervalos H e DD, sem equalização, com 100 amostras para

geração dos templates



Manhattan 0,192 ± 0,026

mesma µY e um mesmo σY , e esta obteve os resultados apresentados na Tabela 4.6.


valos, utilizando 100 amostras para geração dos templates



Manhattan 0,147 ± 0,031

A mesma parametrização para geração dos templates foi utilizada seguindo a abordagem

foco desta dissertação, onde, nesta, há um pré-processamento com µy,S,k e σy,S,k variáveis,

obtendo os resultados indicados na Tabela 4.7.

Tabela 4.7: Resultados com intervalos H e DD, com equalização, utilizando 100 amostras

para geração dos templates



Euclideana 0,097 ± 0,021 53,36%

Manhattan 0,101 ± 0,023 47,39%

Numa rápida análise, concernente aos resultados obtidos neste conjunto de experimentos,

observa-se que, com uma redução de 50% nas amostras usadas para a geração dos templa-

tes, há uma degradação no desempenho de todos os métodos, porém, o pré-processamento

proposto mantém um desempenho relativamente melhor em termos de EER.

Realizando um novo conjunto de experimentos, utilizando apenas 50 amostras para ge-

ração dos templates, contra as 100 utilizadas anteriormente, observam-se os resultados se-

guindo a proposta apresentada em (Killourhy e Maxion, 2009), na Tabela 4.8.






Manhattan 0,238 ± 0,027

Reavaliando o desempenho do pré-processamento, proposto em (Montalvão e Freire,

2006), para apenas 50 amostras na geração dos templates, obtiveram-se os resultados indica-

dos na tabela 4.9.


valos, utilizando 50 amostras para geração dos templates



Manhattan 0,191 ± 0,038

Aplicando o pré-processamento proposto, observam-se os resultados na Tabela 4.10, com

os templates sendo gerados com apenas 50 amostras. Constata-se um resultado melhor em

termos de EER, quando comparado com os resultados obtidos em (Killourhy e Maxion,

2009) e (Montalvão e Freire, 2006).

Tabela 4.10: Resultados com intervalos H e DD, com equalização, utilizando 50 amostras

para geração dos templates



Euclideana 0,137 ± 0,030 45,63%

Manhattan 0,139 ± 0,031 41,59%

Portanto, o pré-processamento proposto tem um melhor desempenho em termos de EER,

quando aplicados a tempos observados em digitação de senhas curtas.

Com o intuito de demostrar a eficiência com poucas amostras, foram aplicados os três

métodos discutidos, utilizando apenas 10 amostras, ou seja, 5% das amostras utilizadas na

4.3 Influência do Uso dos Tempos: {H} e {DD} 25

fase de treino em relação ao primeiro teste, vistos na seção 4.1, e os resultados desse experi-

mento são apresentados nas Tabelas: 4.11, 4.12 e 4.13.





Manhattan 0,390 ± 0,036

Tabela 4.12: Resultados com intervalos H e DD, com mesma equalização para todos os

intervalos, utilizando 10 amostras para geração dos templates



Manhattan 0,341 ± 0,053

Tabela 4.13: Resultados com intervalos H e DD, aplicado ao pré-processamento proposto,

utilizando 10 amostras para geração dos templates



Euclideana 0,296 ± 0,048 25,81%

Manhattan 0,290 ± 0,047 25,64%

Reavaliando todas as abordagens, observa-se que todas as distâncias tiveram uma piora

nas taxas de EER, fato este decorrente da geração dos templates bem mais frágeis.

4.3 Influência do Uso dos Tempos: {H} e {DD}

Outra possível pergunta seria: “Qual dos intervalos utilizados possui um melhor desempe-

nho, uma melhor contribuição nos resultados obtidos até então, intervalos H ou os intervalos

DD”? Ressalta-se que o desempenho dos intervalos UD foram descartados, por serem ca-

pazes de assumir valores negativos e, por consequência, não poderem ser modelados com

distribuições Log-Normais.

4.3 Influência do Uso dos Tempos: {H} e {DD} 26

Na Tabela 4.14, observam-se os resultados obtidos para os intervalos separadamente, H

e DD, segundo método utilizado em (Killourhy e Maxion, 2009).

Tabela 4.14: Resultados com intervalos H e DD, sem equalização

Intervalos H Intervalos DD

Distância EER Intervalo de confiança (95 %) EER Intervalo de confiança (95 %)

Euclideana 0,170 ± 0,031 0,174 ± 0,047

Manhattan 0,160 ± 0,029 0,172 ± 0,026

Mahalanobis 0,161 ± 0,027 0,153 ± 0,018

Na Tabela 4.15, pode-se observar o resultado obtido em (Montalvão e Freire, 2006), ou

seja, mesma média e o mesmo desvio-padrão para os intervalos H e DD.

Aplicando o pré-processamento proposto, constatam-se, na Tabela 4.16, os resultados

obtidos para os intervalos H e DD respectivamente.

Tabela 4.15: Resultados com intervalos H e DD, com mesma equalização para todos os

intervalosIntervalos H Intervalos DD


Euclideana 0,159 ± 0,030 0,208 ± 0,027

Manhattan 0,153 ± 0,029 0,190 ± 0,027

Mahalanobis 0,152 ± 0,103 0,233 ± 0,035

Tabela 4.16: Resultados com intervalos H e DD, com equalização

Intervalos H Intervalos DD


Euclideana 0,147 ± 0,029 0,131 ± 0,021

Manhattan 0,144 ± 0,029 0,135 ± 0,023

Mahalanobis 0,137 ± 0,028 0,125 ± 0,017

Nota-se que o uso de intervalos H leva a desempenhos superiores, quando comparados

aos obtidos usando os intervalos DD, quando uma equalização única para todos os intervalos

4.4 Teste de Aderência da Log-Normalidade 27

de tempo é aplicada (ver Tabela 4.15). Isso pode ser justificado pelo fato da média µy estar

favorecendo a equalização dos tempos de retenção, H, em detrimento da equalização dos

tempos DD.

Em todo caso, ressalta-se que a agregação desses dois intervalos leva a um desempenho

superior, conforme verificou-se nas Tabelas: 4.2, 4.3 e 4.4.

4.4 Teste de Aderência da Log-Normalidade

Em análise estatística é comum se estimar parâmetros de uma determinada distribuição (mé-

dia, variância, mediana, etc.) a partir de amostras aleatórias. Este tipo de procedimento

inferencial é muito usado no teste de hipóteses relativas a distribuições. Um teste de hipóte-

ses é um método para verificar se os dados são compatíveis com alguma hipótese, podendo,

muitas vezes, sugerir a não-validade desta.

Figura 4.1: Ilustração da distribuição do intervalo do tipo Down-Down (DD) entre a digitação

dos caracteres “t” e “i” da senha hipotética “.tie5Roanl”.

Esses testes podem ser feitos segundo duas metodologias:

• Testes Paramétricos: são os testes conduzidos em situações onde se sabe ou se assume

modelo particular de distribuição para representar os dados, definido por parâmetros.


• Testes Não Paramétricos: são conduzidos sem assumir qualquer forma particular para

modelo hipotético que explica a distribuição dos dados.

Como o pré-processamento proposto é baseado na log-normalidade dos dados, pode-

se observar, na Figura 4.1, um gráfico real do logaritmo do intervalo DD - caracteres “ti”,

onde, no eixo horizontal, representa-se o logaritmo dos tempos brutos em segundos, e o eixo

vertical, a frequência. Verifica-se que a distribuição assemelha-se a uma gaussiana.

No sentido de se comparar à distribuição de intervalos associada aos caracteres e pares

de caracteres (dados), com uma função ideal (log-normal), objetivando validar a sua log-

normalidade, optou-se pelo uso do teste de Kolmogorov-Smirnov, dentre vários possíveis,

onde este é usado para determinar se duas distribuições de probabilidade diferem uma da

outra ou se uma das distribuições de probabilidade difere da distribuição em hipótese, neste

caso, log-normal, com base em amostras finitas.

O nome do teste é uma referência aos matemáticos russos Andrey Kolmogorov e Vladimir

Ivanovich Smirnov. O teste baseia-se na comparação da curva da frequência cumulativa dos

dados com a função de distribuição teórica em hipótese. A estatística do teste é calculada

através da máxima diferença entre ambas. A magnitude da diferença estabelece-se, proba-

bilisticamente, segundo a lei de probabilidade dessa estatística. Se os dados experimentais

afastam-se significativamente do que é esperado, segundo a distribuição em hipótese, então,

as curvas obtidas devem encontrar-se igualmente afastadas, e por um raciocínio análogo, se

a aderência ao modelo hipotético é admissível, as curvas devem ter um afastamento máximo

pequeno.

Utilizando o histograma apresentado na Figura 4.1, nos dados DD, com o intuito de testar

a distribuição através do teste de aderência de Kolmogorov-Smirnov, tem-se: assumindo que

o histograma na Figura 4.1, do logaritmo dos intervalos DD, é similar a uma curva gaussiana,

ou normal, conclui-se que a distribuição dos intervalos DD é log-normal.

Pode-se observar, na Figura 4.2, que a linha tracejada, correspondente à probabilidade

acumulada de uma variável aleatória normal idealizada, é similar à linha cheia, correspon-

dente à probabilidade acumulada da variável aleatória que representa o logaritmo dos tem-

pos.

Para as distribuições presentes na Figura 4.2, a estatística de Kolmogorov-Smirnov indi-

cou uma aderência de 0, 0904, sendo o intervalo de confiança (95%) igual a 0, 0960.


Figura 4.2: Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digitação

dos caracteres “t” e “i” da senha hipotética “.tie5Roanl” de um dado usuário.





Se considerarmos a estatística usada no teste de Kolmogorov-Smirnov, a probabilidade

acumulada relativa aos caracteres (distribuição a ser testada – linha cheia) é similar à pro-

babilidade acumulada idealizada (distribuição ideal – linha tracejada), na Figura 4.2. No

entanto, nas Figuras 4.3 e 4.4, não observa-se o mesmo. Aplicando o teste de Kolmogorov-

Smirnov, verifica-se que a distribuição do logaritmo de cada intervalo associado aos caracte-

res da senha hipotética, “.tie5Roanl”, individualmente testado com todas as 400 amostras de

cada indivíduo, não adere, no intervalo de confiança de 95%, a uma distribuição gaussiana,

ou seja, os intervalos brutos de tempos não aderem à “log-normalidade”.

Tais resultados são vistos com estranheza, uma vez que o pré-processamento proposto

parte da premissa da log-normalidade, e os resultados vistos até aqui demonstram um de-

sempenho superior, em termos de EER.

4.5 Influência do Caractere na Senha 30


dos caracteres “5” e “R” da senha hipotética “.tie5Roanl” de um dado usuário.

4.5 Influência do Caractere na Senha

O aprendizado individual de cada caractere da senha hipotética “.tie5Roanl” é estudado de

forma a identificar a relação existente entre as teclas e os intervalos de tempo corresponden-

tes.

Conforme cada usuário, dos 51 que compõem a base de dados em questão, vai digitando

as 400 amostras, ao longo de 8 seções, visto no capítulo 2.1, este vai se acostumando com a

senha, ou seja, vai memorizando-a. Tal fato pode ser entendido como um “aprendizado”.

Os gráficos a seguir exibem as “estatísticas de Kolmogorov-Smirnov” individualmente

medidas para cada par de letras (intervalos DD), Figuras 4.5 e 4.6, ao longo das 8 seções.

Verifica-se, nas Figuras 4.5 e 4.6, um processo estocástico contínuo de parâmetro con-

tínuo, ou seja, conforme cada indivíduo digita a senha sucessivas vezes, vai “aprendendo”

e, durante as 8 seções de 50 digitações, o usuário adquire um “aprendizado”, um grau de

estacionariedade.

Os gráficos assemelham-se fortemente a uma curva de aprendizagem, em que tais indi-

víduos que executam tarefas repetitivas, como esta em questão, adquirem uma melhoria no

4.5 Influência do Caractere na Senha 31


dos caracteres “a” e “n” da senha hipotética “.tie5Roanl” de um dado usuário.

Figura 4.5: Ilustração do aprendizado individual de cada característica da senha hipotética

“.tie5”.

4.6 Influência do Comprimento da Senha no EER 32

Figura 4.6: Ilustração do aprendizado individual de cada característica da senha hipotética

“Roanl”.

desempenho da repetição da tarefa, em termos de tempo e número de repetições (Sousa et

al., 2012).

Conclui-se que as características individualmente testadas, ou seja, todos os caracteres

da senha hipotética “.tie5Roanl”, após 400 repetições de cada usuário, vão se consolidando

em um padrão de digitação, ou seja, tal consolidação pode ser entendida como sendo um

“aprendizado”, para o intervalo de confiança de 95%, pelo teste de Kolmogorov-Smirnov.

Tal consolidação pode explicar o motivo dos bons resultados obtidos pelo pré-processamen-

to proposto.

4.6 Influência do Comprimento da Senha no EER

No sentido de verificação do EER, no tocante à estabilização do “aprendizado”, ou seja,

acomodação da curva, foi calculado o EER de cada ponto da senha hipotética “.tie5Roanl”,

ou seja, um EER para a “pseudo” senha “.”, outro EER para a “pseudo” senha “.t”, outro EER

para “.ti” e assim sucessivamente, até a composição total da senha hipotética, totalizando

assim 10 EER’s calculados, para evidenciar a acomodação de cada modelo testado, Figuras:

4.7, 4.8, 4.9, 4.10, sendo mensuradas as 3 distâncias de cada modelo (Euclideana, Manhattan


e a Mahalanobis).

Observa-se, na Tabela 4.17 e respectiva Figura 4.7, os EER para cada uma das 3 distân-

cias da senha hipotética, calculados com base na média dos intervalos H, DD e UD.

Tabela 4.17: Resultados dos EER dos intervalos H, DD e UD - sem equalização

EER Euclideana Manhattan Mahalanobis

. 0,343 0,337 0,254

.t 0,277 0,256 0,179

.ti 0,258 0,239 0,160

.tie 0,234 0,211 0,145

.tie5 0,211 0,203 0,140

.tie5R 0,202 0,192 0,126

.tie5Ro 0,196 0,181 0,125

.tie5Roa 0,192 0,175 0,118

.tie5Roan 0,184 0,166 0,115

.tie5Roanl 0,171 0,155 0,109

.tie5Roanl<enter> 0,171 0,153 0,110

Figura 4.7: Desempenho em termo de EER - (Killourhy e Maxion, 2009) - Intervalos H, DD,

UD

Já na Tabela 4.18 e respectiva Figura 4.8, os EER para cada uma das 3 distâncias da senha

hipotética, calculados com base na média dos intervalos H e DD.


Tabela 4.18: Resultados dos EER dos intervalos H e DD - sem equalização


. 0,345 0,324 0,254

.t 0,269 0,235 0,179

.ti 0,247 0,214 0,160

.tie 0,231 0,193 0,145

.tie5 0,210 0,189 0,140

.tie5R 0,197 0,173 0,126

.tie5Ro 0,192 0,164 0,125

.tie5Roa 0,187 0,156 0,118

.tie5Roan 0,181 0,151 0,115

.tie5Roanl 0,168 0,140 0,109

.tie5Roanl<enter> 0,167 0,139 0,110

Figura 4.8: Desempenho em termo de EER - (Killourhy e Maxion, 2009) - Intervalos H, DD

Na Tabela 4.19 e respectiva Figura 4.9, são utilizadas as 3 distâncias e mensurados os

EER, com base nos intervalos H e DD. Verifica-se uma oscilação entre os EER, caracteres 2,

3 e 4, porém, este não demonstra, visivelmente, uma acomodação.

Finalmente, na proposta atual, Tabela 4.20 e respectiva Figura 4.10, observa-se uma forte


Tabela 4.19: Resultados dos EER dos intervalos H e DD - com mesma equalização para

todos os intervalosEER Euclideana Manhattan Mahalanobis

. 0,305 0,303 0,299

.t 0,206 0,194 0,181

.ti 0,192 0,174 0,158

.tie 0,201 0,182 0,185

.tie5 0,197 0,174 0,186

.tie5R 0,170 0,146 0,159

.tie5Ro 0,160 0,135 0,150

.tie5Roa 0,149 0,125 0,139

.tie5Roan 0,140 0,117 0,130

.tie5Roanl 0,135 0,113 0,122

.tie5Roanl<enter> 0,133 0,109 0,119

Figura 4.9: Desempenho em termo de EER - (Montalvão e Freire, 2006) - Intervalos H, DD

aproximação entre as distâncias utilizadas, assim como se nota, também, que os índices não

demostram indícios de acomodação, levando a crer que o desempenho do pré-processamento

proposto é eficaz para senhas curtas e medianas, e, supostamente, tende a melhorar para


senhas mais longas que a utilizada.

Tabela 4.20: Resultados dos EER dos intervalos H e DD - com equalização


. 0,250 0,255 0,237

.t 0,162 0,161 0,149

.ti 0,146 0,148 0,133

.tie 0,128 0,130 0,125

.tie5 0,115 0,113 0,115

.tie5R 0,098 0,097 0,098

.tie5Ro 0,095 0,094 0,093

.tie5Roa 0,087 0,088 0,090

.tie5Roan 0,081 0,082 0,081

.tie5Roanl 0,074 0,077 0,074

.tie5Roanl<enter> 0,073 0,074 0,073

Figura 4.10: Desempenho em termo de EER - com Equalização - Intervalos H, DD

Conclui-se que os resultados obtidos na Tabela 4.20 e respectiva Figura 4.10, apresentam

uma similaridade entre as três distâncias, sendo estas muito próximas em termos de EER,

o que permite optar pelo uso da distância com menor custo computacional, a de Mahattan,


por exemplo. É sabido, entretanto, que tal similaridade só ocorre quando os dados estão

alinhados ao longo dos eixos ortogonais do espaço de representação das características, fato

este duplamente favorável.

Capítulo 5

Resultados a partir de novas bases de

dados

Após todo o estudo realizado, visto até então, podem surgir perguntas do tipo: “A posição dos

caracteres que compõem a senha influencia no resultado”? – “O layout do teclado influencia

no resultado”? – “O fato do usuário utilizar um, dois ou mais dedos na digitação da senha

hipotética, influenciará no resultado”? No sentido de buscar responder a estas perguntas,

novas bases de dados foram elaboradas.

5.1 Ferramenta desenvolvida para coleta das novas bases

de dados

Foi construído um aparelho de coleta de dados KeyStroke que consiste em:

1. um computador convencional laptop com o sistema operacional Windows XP;

2. aplicação em software para coleta dos tempos mensurado (H, DD e UD);

O software desenvolvido apresenta a senha hipotética a ser digitada. Assim que cada

digitação da senha é realizada, o software verifica quanto à sua corretividade, ou seja, caso

o usuário cometa um erro de digitação, o software não registra os tempos, descartando-os,

e solicitando uma nova digitação em seguida. Desta forma, gravaram-se 50 digitações desta

mesma senha, digitadas corretamente em cada sessão, totalizando 100 amostras em 2 seções.

38

5.2 Novas Bases de Dados e seus Protocolos 39

O desenvolvimento do software foi realizado utilizando o Microsoft Visual C# 2010 Ex-

press, assim como a coleta dos tempos H, UD e DD, foram realizadas através do uso da

própria biblioteca C#.

Na Figura 5.1 pode-se observar a interface onde são coletadas as amostras da senha

hipotética, “.tie5Roanl”.

Figura 5.1: Ilustração - Coleta dos dados da senha hipotética

Já na Figura 5.2 pode-se observar a interface onde são coletadas as amostras da senha

hipotética invertida, “Roanl5.tie”.

Tem-se na Figura 5.3 o layout do teclado do equipamento utilizado para coleta, o formato

deste é o ABNT2.

A coleta da senha “.tie5Roanl” foi realizada para se manter uma analogia com os resulta-

dos vistos no capítulo 4.1. Já a realização da coleta da senha invertida “Roanl5.tie” foi para

tornar-se possível a análise comportamental com relação à posição dos caracteres para um

determinado usuário.

5.2 Novas Bases de Dados e seus Protocolos

Várias pequenas bases de dados foram montadas, todas nos mesmos moldes da base utilizada

até então, (Killourhy e Maxion, 2009).

5.2 Novas Bases de Dados e seus Protocolos 40

Figura 5.2: Ilustração - Coleta dos dados da senha hipotética invertida

Figura 5.3: Layout do teclado do equipamento utilizado - formato ABNT2

As bases possuem as seguintes características:

• Cada usuário digitou a referida senha 100 vezes, em 2 grupos (ou sessões biométricas)

de 50 cada;

• Registraram-se os seguintes intervalos de tempos: H , DD e UD.

As novas bases de dados possuem as seguintes características:

• Base com 4 usuários, composta pela senha hipotética “.tie5Roanl”;

• Base com 4 usuários, composta pela senha hipotética invertida “Roanl5.tie”;

• Base com apenas 1 usuário da senha hipotética “.tie5Roanl”, sendo utilizados apenas

dois dedos na dinâmica da digitação;

5.3 Influência da Troca da Posição dos Caracteres 41

• Base com apenas 1 usuário da senha hipotética invertida “Roanl5.tie”, sendo utiliza-

dos apenas dois dedos na dinâmica da digitação.

Ressalta-se que as coletas das bases em questão foram realizadas de forma livre, no co-

tidiano de cada usuário, em diversos lugares, fato este bem distinto do protocolo realizado

pelo (Killourhy e Maxion, 2009), visto no capítulo 2.3. Pode-se questionar o fato de tais

bases serem pouco representativas, visto que são compostas por poucos usuários, com pou-

cos templates associados, porém tais bases serão utilizadas para responder questionamentos

pontuais e/ou apenas indicar um determinado resultado/análise.

5.3 Influência da Troca da Posição dos Caracteres

No sentido de comparar os resultados observados até então, confrontando dados da base de

(Killourhy e Maxion, 2009) e os novos usuários (nova bases de dados), foi realizada a se-

guinte alteração na base de (Killourhy e Maxion, 2009): foram considerados somente os

primeiros quatro usuários, com apenas 100 amostras (correspondendo a duas seções de co-

leta). A alteração foi realizada para se manter uma relação entre a base antiga (Killourhy e

Maxion, 2009), e a nova base montada. Ressaltando-se apenas que nos experimentos con-

tidos nesta seção, não serão contempladas as taxas referentes à distância de Mahalanobis,

visto que a mensuração da mesma será distorcida (fato este decorrente do número de amos-

tras, na fase de treino, ser insuficiente para o cálculo da matriz de covariância), de modo

similar ao que foi reportado na seção 4.2.

Na Tabela 5.1, pode-se observar os resultados obtidos, segundo abordagem de (Killourhy

e Maxion, 2009) na base antiga, porém com dimensão reduzida.

Tabela 5.1: Resultados com intervalos H, DD, sem equalização – base (Killourhy e Maxion,

2009) – “.tie5Roanl”Distância EER Intervalo de confiança (95 %)


Manhattan 0,183 ± 0,098

Com a montagem da nova base, conforme observou-se na seção 5.2, os resultados se-

gundo a abordagem de (Killourhy e Maxion, 2009), podem ser observados na Tabela 5.2:


Tabela 5.2: Resultados com intervalos H, DD, sem equalização – nova base – “.tie5Roanl”



Manhattan 0,165 ± 0,154

Nota-se, segundo os resultados da abordagem de (Killourhy e Maxion, 2009), que na

nova base, as taxas, em termos de EER, se alteram, porém são similares, se levado em

consideração o intervalo de confiança (95%), dando assim validade à nova base.

Analisou-se a influência do segmento de senha “.tie”, na senha hipotética normal,

“.tie5Roanl” e na senha hipotética invertida, “Roanl5.tie”. Para tal, foi analisado o padrão

das 10 últimas digitações, da sessão 2 (consideradas mais estáveis), sendo analisados 2 usuá-

rios.

A hipótese que se deseja verificar é se a média dos logaritmos dos intervalos de tempos

entre acionamentos consecutivos, DD, do segmento de senha “.tie”, para a senha hipotética

normal, “.tie5Roanl” e para a senha hipotética invertida, “Roanl5.tie” são similares.

Observa-se na Tabela 5.3 e respectiva Figura 5.4, a média dos logaritmos dos intervalos

de tempos entre acionamentos consecutivos, DD, do segmento de senha “.tie”, para a senha

hipotética normal, “.tie5Roanl” e para a senha hipotética invertida, “Roanl5.tie” coletados

do usuário 1. Ressalta-se que as linhas contínuas, azul e vermelha, correspondem à média

dos logaritmos dos intervalos de tempo DD do segmento de senha, e as respectivas linhas

pontilhadas, as margens superior e inferior, referem-se ao intervalo de confiança de 95%. Já

na Tabela 5.4 e respectiva Figura 5.5, observam-se os resultados equivalentes para o usuário

2.

Tabela 5.3: Resultados do segmento de senha “.tie” na senha normal e invertida - usuário 1

“.tie” – senha normal “.tie” – senha invertida

k (par) µy,DD,k Intervalo de confiança (95%) µy,DD,k Intervalo de confiança (95%)

.t -0,6566 ± 0,186 -0,8610 ± 0,093

ti -1,4862 ± 0,084 -1,4477 ± 0,079

ie -1,6730 ± 0,175 -1,7604 ± 0,140


Figura 5.4: Média dos logaritmos dos intervalos de tempos DD do segmento de senha “.tie”,

para senha hipotética normal e invertida do usuário 1

Tabela 5.4: Resultados do segmento de senha “.tie” na senha normal e invertida - usuário 2

“.tie” – senha normal “.tie” – senha invertida


.t -0,9273 ± 0,203 -1,5180 ± 0,202

ti -1,4126 ± 0,294 -1,3828 ± 0,081

ie -1,8132 ± 0,209 -1,5529 ± 0,475

Conforme os dados apresentados, pode-se verificar, na Tabela 5.3 e respectiva Figura 5.4,

que a alteração da posição relativa dos pares de caracteres não alterou significativamente os

intervalos DD, para “ti” e “ie”, mas provocou uma alteração além do intervalo de confiança

de 95% para o valor médio decorrente do par “.t”. Já na Tabela 5.4 e respectiva Figura 5.5,

observam-se valores médios distintos para os pares de caracteres “ti” e “ie”, e valores médios

dentro do intervalo de confiança de 95% para o par “.t”.



para senha hipotética normal e invertida do usuário 2

Conclui-se que as duas observações contrastam com a crença comum de que é o afas-

tamento entre as teclas que determina os intervalos de tempo, em keystroke. Isto é, mesmo

no caso do primeiro usuário, onde apenas um dos intervalos foi significativamente alterado,

interpreta-se isso como uma evidência suficiente de que a mudança da posição relativa dos

pares de caracteres – que claramente não altera as distâncias entre teclas – tem por efeito

alterar significativamente os intervalos de tempo. Caso os intervalos DD fossem completa-

mente determinados pela distância entre teclas, e dado que o usuário é mantido quando os

pares de teclas têm suas posições alteradas ao longo da senha, então se deveria esperar que

nenhum dos intervalos DD se alterasse significativamente.

5.4 Influência do Modo de Digitação 45

5.4 Influência do Modo de Digitação

Em uma tentativa de se evidenciar a influência do layout do teclado, ou seja, da distância

entre as teclas, foram coletadas quatro bases, com a dinâmica da digitação realizada com a

digitação normal, e com os dois dedos indicadores (aumentando assim o tempo de vôo1 entre

as teclas). As bases utilizadas nos próximos experimentos são as seguintes:

• 100 amostras para a senha hipotética “.tie5Roanl”, digitadas normalmente;

• 100 amostras para a senha hipotética “.tie5Roanl”, digitadas apenas com 2 dedos;

• 100 amostras para a senha hipotética invertida “Roanl5.tie”, digitadas normalmente;

• 100 amostras para a senha hipotética invertida “Roanl5.tie”, digitadas apenas com 2

dedos.

Para todas as bases foram mensuradas as médias dos logaritmos dos intervalos de tempos

entre acionamentos consecutivos, DD.

A hipótese que se deseja verificar é se a digitação, sob restrição do uso de apenas dois

dedos indicadores, exagera (amplifica) o efeito do tempo de vôo da mão do usuário, o que

deve aumentar os tempos dos intervalos DD. Caso positivo, deve-se esperar que os valores

médios existentes entre a digitação normal e a digitação com apenas 2 dedos sejam discre-

pantes, com médias maiores para o caso da digitação com restrição.

Observa-se, na Tabela 5.5 e respectiva Figura 5.6, as médias dos logaritmos dos intervalos

de tempos entre acionamentos consecutivos, DD, do segmento “.tie”, da senha hipotética

normal, “.tie5Roanl”, modo de digitação normal e com 2 dedos coletados do usuário 1.

Ressalta-se que as linhas contínuas, azul e vermelho, correspondem às médias encontradas,

e as respectivas linhas pontilhadas, às margens superior e inferior do intervalo de confiança

de 95%. Já a Tabela 5.6 e respectiva Figura 5.7 apresentam os resultados respectivos para a

senha hipotética invertida.

Nota-se que o aumento dos intervalos DD não é sempre observado, como seria de se

esperar. Há ainda uma alteração significativa apenas do intervalo DD associado ao par

“.t”, para a senha hipotética normal, tabela 5.5 e respectiva figura 5.6, e os intervalos DD

1É o tempo de duração entre liberar uma tecla e pressionar a tecla seguinte


associados a “.t” e a “ie”, para a senha hipotética invertida, tabela 5.6 e respectiva figura 5.7.

Assim como também é observado, para senha hipotética normal, figura 5.6, valores médios,

com a digitação com 2 dedos, em termos gerais, inferior.

Esses resultados permitem concluir que o modo de digitação influencia no padrão de

digitação. No entanto, nota-se, com surpresa, o fato dos intervalos DD, que se esperava que

fossem maiores para a digitação restrita a 2 dedos indicadores, serem equivalentes para a

digitação da senha invertida, figura 5.7, nos intervalos entre os caracteres “ti”, se considerado

o intervalo de confiança de 95%.

Mais surpreendentes ainda são os resultados obtidos para a digitação da senha normal,

figura 5.6, onde os intervalos DD, associados aos caracteres “.t”, foram significativamente

menores para a digitação com restrição de apenas 2 dedos, além de não apresentar diferenças

significativas para os demais intervalos estudados.

Tabela 5.5: Resultados do segmento de senha “.tie” com senha normal, modo de digitação

normal e com 2 dedos“.tie” – digitação normal “.tie” – digitação com 2 dedos


.t -0,6566 ± 0,186 -0,8338 ± 0,141

ti -1,4862 ± 0,084 -1,5697 ± 0,124

ie -1,6730 ± 0,175 -1,7731 ± 0,168

Tabela 5.6: Resultados do segmento de senha “.tie” com senha invertida, modo de digitação

normal e com 2 dedos“.tie” – digitação normal “.tie” – digitação com 2 dedos


.t -0,8571 ± 0,097 -0,6258 ± 0,156

ti -0,7627 ± 0,100 -0,7062 ± 0,286

ie -1,3545 ± 0,156 -1,3936 ± 0,198



para senha hipotética normal (digitação normal x digitação com 2 dedos)



para senha hipotética invertida (digitação normal x digitação com 2 dedos)

Capítulo 6

Conclusões e Trabalhos Futuros

Relatou-se que uma série de experimentos corroboram o resultado previamente publicado

em (Montalvão e Freire, 2006), apontando que um simples mapeamento não linear e sem

memória de intervalos de tempos pode melhorar, significativamente, o desempenho de veri-

ficação/identificação de algoritmos baseados na dinâmica de digitação.

Acrescentaram-se alterações à modelagem dos intervalos de tempos, para o caso espe-

cífico de sequências curtas e estáticas de digitação, como as senhas alfanuméricas. Essas

alterações podem ser vistas como uma substituição da modelagem das teclas acionadas por

variáveis aleatórias, por processos estocásticos, onde cada par de teclas (ou tecla, para os

tempos de retenção) é associado a uma variável aleatória desse processo estocástico.

Assim, através de experimentos com uma base de dados pública, e reproduzindo expe-

rimentos de referência, de acordo com protocolos estabelecidos em (Killourhy e Maxion,

2009) (que também foram os responsáveis pela publicação da base usada), conclui-se que o

pré-processamento de equalização dos intervalos reduz aproximadamente para a metade as

taxas de EER.

Experimentalmente, também nota-se que a inclusão dos intervalos de tempo do tipo Up-

Down (UD) não melhora o desempenho em termos de EER.

Evidencia-se que, mesmo utilizando 10 amostras apenas na fase de treino, o

pré-processamento proposto demonstra uma maior eficiência, no tocante à autentica-

ção/verificação.

No que diz respeito à eficiência das características H ou DD, é observado que agregá-las

leva a melhores resultados.

49

50

Demonstrou-se, experimentalmente, que as características individualmente testadas, ou

seja, todos os caracteres da senha hipotética “.tie5Roanl”, após 400 repetições de cada usuá-

rio, vão se consolidando em um padrão de digitação, e que tal consolidação pode ser en-

tendida como sendo um “aprendizado”, para o intervalo de confiança de 95%, pelo teste de

Kolmogorov-Smirnov. Tal consolidação pode explicar o motivo dos bons resultados obtidos

pelo pré-processamento proposto.

No sentido de verificação quanto à estabilização do “aprendizado”, conclui-se, experi-

mentalmente, que no pré-processamento proposto nesta dissertação, tabela 4.20 e respectiva

figura 4.10, é observada uma forte aproximação entre as distâncias utilizadas, assim como

se nota, também, que o mesmo não demostra indícios de acomodação, levando a crer que

o desempenho do pré-processamento proposto é eficaz para senhas curtas e medianas, e,

supostamente, tende a melhorar para senhas mais longas que a utilizada.

Foi desenvolvido um programa para coleta dos dados e a montagem de diversas novas

bases. Através destas, foi possível verificar vários fatores relevantes, no tocante à influência

da troca de posições dos caracteres na senha e ao modo de digitação.

Com relação à troca de posição dos caracteres na senha, visto na seção 5.3, verificou-se,

estatisticamente, que há um contraste com a crença comum de que é o afastamento entre

as teclas que determina os intervalos de tempo em keystroke. Isto é, no caso do primeiro

usuário, figura 5.4, apenas um par de caractere foi significativamente alterado. Já no caso do

segundo usuário, figura 5.5, observou-se alteração significativa em dois pares de caracteres.

Interpretam-se os resultados como uma evidência suficiente de que a mudança da posição

relativa dos pares de caracteres – que claramente não altera as distâncias entre teclas – tem

por efeito alterar significativamente os intervalos de tempo. Caso os intervalos DD fossem

completamente determinados pela distância entre teclas, e dado que o usuário é mantido

quando os pares de teclas têm suas posições alteradas ao longo da senha, então se deveria

esperar que nenhum dos intervalos DD se alterasse significativamente.

Por fim, com relação ao modo de digitação, foi constatado que o modo de digitação in-

fluencia no padrão de digitação. No entanto, notou-se, com surpresa, o fato dos intervalos

DD, que deveriam ser maiores para a digitação restrita a 2 dedos indicadores, serem equiva-

lentes para a digitação da senha invertida, figura 5.7, nos intervalos entre os caracteres “ti”.

Mais surpreendentes ainda foram os resultados obtidos para a digitação da senha normal,

51

figura 5.6, onde os intervalos DD, associados aos caracteres “.t”, foram significativamente

menores para a digitação com restrição de apenas 2 dedos, além de não apresentar diferenças

significativas para os demais intervalos estudados.

Uma consequência natural dos conhecimentos produzidos a partir desta dissertação é

que os mesmos representam o ponto de partida para análises e avaliações futuras, dentro

do contexto do grupo de trabalho intitulado BioChaves (Integração de Sinais Biométricos

na Identificação de Indivíduos). Por exemplo, uma análise mais aprofundada, no tocante ao

ritmo particular de cada indivíduo, pode ser realizada.

Outros possíveis trabalhos decorrentes desta dissertação referem-se a:

• Uma análise com relação à acomodação, conforme a seção 4.6, podendo assim de-

terminar o comprimento mínimo que a senha deve possuir para alcançar um bom de-

sempenho, em termos de EER, ampliando assim esse estudo às senhas medianas e/ou

longas;

• Um estudo da natureza dos caracteres utilizados, ou seja, faz-se necessário um melhor

entendimento sobre a relação existente entre ordenação dos caracteres e as taxas de

erro de detecção biométrica.

Referências

ALBUQUERQUE, J. P. de A. de; FORTES, J. M. P.; FINAMORE, W. A. Probabilidade,

Variáveis Aleatórias e Processos Estocásticos. 1 edition. ed. [S.l.]: Editora Interciência:

PUC Rio - Rio de Janeiro, 2008.

ARAÚJO et al. User authentication through typing biometrics features. IEEE Transactions

on Signal Processing, v. 53 (2), p. 851–855, 2005.

BALAGANI, K. S. et al. On the discriminability of keystroke feature vectors used in fixed

text keystroke authentication. Pattern Recognition Letters - Elsevier, v. 32, p. 1070–1080,

February 2011.

BLEHA, S. Recognition systems based on keystroke dynamics. Ph.D. thesis, Univ.

Missouri, Columbia, 1988.

BLEHA, S.; SLIVINSKY, C.; HUSSIEN, B. Computer-access security systems using

keystroke dynamics. IEEE Transactions on Pattern Analiysis and Machine Intelligence,

v. 12, p. 1217–1222, 1990.

BOSWORTH, S.; HOYT, D. B.; HUTT, A. E. Computer Security Handbook. 4. ed. [S.l.]:

Wiley-Interscience, New York, 2002.

DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. 2 edition. ed. [S.l.]:

Wiley-Interscience, New York, 2001.

GAINES, R. et al. Authentication by keystroke timing: some preliminary results. Tech rep,

Rand 473 Corporation, p. 52, 1980.

52

REFERÊNCIAS 53

GIOT, R.; EL-ABED, M.; ROSENBERGER, C. Greyc keystroke: a benchmark for

keystroke dynamics biometric systems. IEEE International Conference on Biometrics:

Theory, Applications and Systems (BTAS 2009), p. 6, 2009.

GIOT, R.; EL-ABED, M.; ROSENBERGER, C. Keystroke Dynamics Overview, Biometrics.

[S.l.]: InTech, Available from: http://www.intechopen.com/books/biometrics/keystroke-

dynamics-overview, 2011. 157-182 p.

GIOT, R.; NINASSI, A.; ROSENBERGER, C. Analysis of the acquisition process for

keystroke dynamics. BIOSIG - Proceedings of the International Conference of the, p. 1–6,

Setember 2012.

GONZALEZ; WOOD. Digital Image Processing. [S.l.]: Prentice Hall, 2002.

JAIN, A. K.; ROSS, A.; PRABHAKAR, S. An introduction to biometric recognition. IEEE

Transactions on Circuits and Systems for Video Technology, v. 14, p. 4–20, 2004.

KILLOURHY, K. S.; MAXION, R. A. Comparing anomaly - detection algorithms for

keystroke dynamics. IEEE/IFIP International Conference on Dependable Systems and

Networks (DSN-2009), p. 125–134, June 2009.

KILLOURHY, K. S.; MAXION, R. A. Should security researchers experiment more and

draw more inferences?’. 4th Workshop on Cyber Security Experimentation and Test, p. 8,

2011.

MONROSE et al. Keystroke dynamics as a biometric for authentication. Future Generation

Computer Systems, Elsevier, v. 16, n. 4, p. 351–359, 2000.

MONTALVÃO, J.; FREIRE, E. O. Equalization of keystroke timing histograms for

improved identification performance. International Telecommunications Symposium, p.

560–565, September 2006.

OBAIDAT, M. S.; SADOUN, B. Verification of computer users using keystroke dynamics.

IEEE Transsactions on Systems, Man, and Cybernetics 27 (2), v. 27, n. 2, p. 261–269, 1997.

REFERÊNCIAS 54

OLIVEIRA, A. E. de. API de segurança e armazenamento de uma arquitetura

multibiométrica para controle de acesso com autenticação contínua. [S.l.]: Dissertação de

Mestrado - Universidade Federal da Paraiba, UFPB, 2011. 129 p.

PEACOCK, A.; KE, X.; WILKERSON, M. Typing patterns: A key to user identification.

IEEE Security Privacy, v. 2, n. 5, p. 1540–7993, October 2004.

PISANI, P. H.; LORENA, A. C. Detecção de Intrusões com Dinâmica da Digitação: uma

Revisão Sistemática. [S.l.], 2011. v. 6.

SOUSA, B. de et al. Palavras no cérebro: o léxico mental. Letrônica: Revista Digital do

PPGL, v. 5, n. 3, p. 3–20, 2012.

UMPHRESS, D.; WILLIAMS, G. Identity verification through keyboard characteristics.

International Journal of Man-Machine Studies, v. 23, n. 3, p. 263–273, September 1985.

URTIGA, E. V. C.; MORENO, E. D. Keystroke-based biometric authentication in mobile

devices. IEEE Latin America Transactions, v. 9, n. 3, p. 368–375, June 2011.

VIGLIAZZI, D. Biometria - Medidas de Segurança. 1. ed. [S.l.]: Visual Books, 2003.

ZHONG, Y.; DENG, Y.; JAIN, A. K. Keystroke dynamics for user authentication. p.

117–123, May 2012.

Apêndice A

Artigo Submetido

Aqui é elencada a publicação realizada durante a concepção deste trabalho, bem como a sua

referida cópia.

1. “Equalização de Intervalos Adaptada à Dinâmica de Digitação (Keystroke) de Se-

nhas Curtas” , Bezerra, M. A., Montalvão, J. R., Freire, E. O., Congresso Brasileiro

de Automática (CBA2012), Setembro, Campina Grande, Paraíba, Brasil, 2012.

55

3164

Anais do XIX Congresso Brasileiro de Automática, CBA 2012.

ISBN: 978-85-8001-069-5

EQUALIZACAO DE INTERVALOS ADAPTADA A DINAMICA DA DIGITACAO(KEYSTROKE) DE SENHAS CURTAS

Murilo Alves Bezerra Junior∗, Jugurta Montalvao∗, Eduardo Oliveira Freire∗

∗Universidade Federal de Sergipe (UFS)Sao Cristovao, Sergipe, Brazil

Emails: [email protected], [email protected], [email protected]

Abstract— In 2006, a method was proposed concerning the use of time-interval equalization to improveperformances of most keystroke based biometric methods. There, small databases of static and free text wereused to show, in terms of error rates, the resulting gains associated to a handful set of methods. In this paper,we use a much bigger publicly available database, corresponding to a single hypothetical short password, typedby 51 subjects, and we adapt our time-interval equalization strategy to this single-word based biometric task.Experimental results with and without time-interval equalization, done with the very same methods alreadyused by the database owners, clearly show a sounding improvement of performance, with all methods, whentime-equalization is used as as pre-processing step.

Keywords— Keystroke, Time interval equalization, Biometrics.

Resumo— Em 2006, um metodo foi proposto sobre o uso da equalizacao de intervalos de tempos como forma demelhorar o desempenho de alguns metodos biometricos baseados em dinamica de digitacao (keystroke). Naqueleartigo, pequenas bases de dados com textos estaticos e livres foram usados para mostrar, em termos de taxas deerros, os ganhos quando a equalizacao era aplicada antes do uso de metodos classicos. Neste trabalho, nos usamosuma base publica muito maior, correspondente a uma unica senha hipotetica curta, digitada por 51 voluntarios,para a qual nos adaptamos a equalizacao de intervalos. Os resultados experimentais que sao apresentados, comos mesmos metodos ja usados pelos proprietarios da base Experimental, mostram claamente um notavel ganho dedesempenho, para todos os metodos testados, quando a equalizacao de intervalos e usada no pre-processamentodos dados.

Palavras-chave— Dinamica de digitacao, Equalizacao de intervalos de tempo, Biometria.

1 Introducao

A seguranca dos Sistemas de Informacao tem emsua essencia basica um problema em estabeleceruma associacao entre um indivıduo e uma identi-dade, o qual pode ser dividido em duas grandesareas: autenticacao e identificacao. A identifi-cacao e a forma com que o usuario fornece suaidentidade unica ao sistema, enquanto que a au-tenticacao e o processo pelo qual o usuario esta-belece a validacao de sua identidade (Bosworthet al., 2002), ou seja, a autenticacao e a prova daidentificacao.

Os processos de autenticacao, segundo a oticaobservada em Computer Security Handbook e(Bosworth et al., 2002), assumem tres formas ba-sicas, que podem ser fusionadas para aumentar aconfiabilidade no processo de autenticacao:

• Autenticacao por propriedade: algo que ousuario possua como uma chave ou cartaomagnetico;

• Autenticacao por conhecimento: algo que ousuario saiba como, por exemplo, uma senha;

• Autenticacao por caracterıstica: alguma ca-racterıstica comportamental ou fisiologica dousuario.

Nesse contexto, a biometria computacional eo ramo da ciencia da computacao que estuda as

medidas fısicas dos seres vivos no intuito de iden-tificar ou autenticar indivıduos atraves dos tracosfısicos caracterısticos e unicos (Vigliazzi, 2003) ou,alternativamente, atraves de comportamentos oureflexos que tambem possuam tracos individuais eestaveis (behavioural biometrics). Em sıntese, osmetodos biometricos sao mecanismos automatiza-dos de reconhecimento e/ou verificacao da identi-dade de uma pessoa “viva”, com base em algumacaracterıstica fisiologica, comportamental ou fısicado indivıduo.

A maioria dos sistemas de seguranca basea-dos em sinais biometricos exigem hardwares deaquisicao de dados especıficos. No entanto, haalgumas excecoes a esta regra, como a dinamicade digitacao, ou keystroke. Nesta forma especı-fica de biometria comportamental, os metodos dereconhecimento buscam extrair caracterısticas es-taveis da forma como uma pessoa digita ou em-purra as teclas de um teclado. A tecnologia origi-nal remonta aos tempos em que telegrafistas ex-perientes conseguiam identificar o remetente deuma mensagem, codificada em Morse, apenas peloritmo de chaveamento telegrafico desse remetente(Peacock, 2004).

Desde 1980, pesquisadores como (Gaines,1980), (D. Umphress, 1985), (Bleha, 1988) e(Bleha, 1990) tem estudado o uso de padroes dedigitacao na identificacao e na autenticacao bi-ometrica, e os resultados destes trabalhos temmostrado que os padroes dinamicos sao suficiente-

3165


ISBN: 978-85-8001-069-5

mente estaveis e discriminantes, ao ponto de per-mitir seu uso em aplicacoes cotidianas de biome-tria computacional. As principais caracterısticasutilizadas em autenticacao/ identificacao de usua-rios com base em sua dinamica de digitacao sao:

• A latencia entre uma liberacao de tecla e umacionamento consecutivos,

• A latencia entre dois acionamentos teclas con-secutivos,

• Duracao do keystroke (tempo de espera),

e muitos metodos concorrentes se distinguem prin-cipalmente no tratamento que dao a esses sinaisbrutos (adquiridos como series de intervalos em se-gundos). Assim, as estrategias apresentadas nes-ses metodos concorrentes vao desde o simples usoda media (Urtiga and Moreno, 2011) e da covari-ancia desses intervalos de tempo (Araujo, 2005),ate o uso das transformacoes nao-lineares de espa-cos vetoriais providas pelas redes neurais artificiais(Obaidat, 1997).

Em (R. Gio and Rosenberger, 2009), e pro-posto um pacote experimental (GREYC) in-cluindo uma base de dados publica e algoritmospara testes comparativos entre estrategias de au-tenticacao biometrica pela dinamica de digitacao.Essa base publica foi recentemente usada em ex-perimentos na antecipacao rapida de desempenhode sistemas biometricos (R. Giot, 2012).

Uma revisao bastante detalhada (recomen-davel) da aplicacao do keystroke na deteccaode intrusoes e apresentada em (Pisani and Lo-rena, 2011). Outros resultados recentes aindapodem ser vistos em (K. S. Balagani, 2011) e(Yu Zhong and Jain, 2012).

Em (J. Montalvao and Freire, 2006), um es-tudo detalhado da natureza aleatoria dos inter-valos de tempo observados em dinamica de di-gitacao foi conduzido, levando a um metodo depre-processamento que, quando aplicado em con-junto com metodos de reconhecimento propos-tos por outros autores, melhorou significativa-mente seus desempenhos respectivos. Esse pre-processamento, nomeado como time interval equa-lization, ou equalizacao de intervalos (analogo aequalizacao de histogramas de nıveis em imagensrepresentadas por bitmaps (Gonzalez, 2002)), foiapresentado de forma geral, para ser aplicadotanto a textos digitados livremente – como emmensagens de email –, como a textos fixos - i.e.sentenca fixa composta por algumas palavras.

Neste artigo, esse metodo e adaptado a umaunica sequencia curta de sımbolos, como senhas, eo seu desempenho e avaliado atraves de evidenciasempıricas extraıdas de experimentos com a basepublica de dados utilizada em (Killourhy and Ma-xion, 2009), sendo esta composta por 400 entradasde cada um dos 51 digitadores voluntarios, totali-zando 20400 amostras de dinamicas de digitacao

da mesma senha hipotetica curta. A exemplo doque foi feito em (J. Montalvao and Freire, 2006),aqui tambem usamos os mesmos metodos de re-conhecimento biometrico previamente usados em(Killourhy and Maxion, 2009). Assim, atraves deexperimentos com e sem time interval equaliza-tion, sao evidenciados os ganhos associados a essepre-processamento proposto.

Este artigo esta organizado da seguinte forma:primeiro, explica-se como esta composto o bancode dados utilizado, na Secao 2. Em seguida, na se-cao 3, e oferecida uma analise estatıstica dos inter-valos de tempo, a partir da qual, e realizada umaestrategia de equalizacao dos dados. Nas Secoes 4e 5, respectivamente, os resultados praticos das ex-periencias estaticas sao apresentados. Finalmente,os resultados sao discutidos e apresentam-se algu-mas conclusoes e perspectivas na Secao 6.

2 Base de dados

Considere um cenario no qual a senha de um usua-rio, com uma senha de longa data tem sido com-prometida por um impostor. O usuario genuıno,assume ser o unico a conhecer, utilizar e digitarsua senha, enquanto que um impostor, faz usodesta.

Em uma situacao tıpica de autenticacao viasenha alfa-numerica, o ritmo de digitacao podeser usado para dificultar a fraude. Isto e, mesmoconhecendo a senha, um impostor pode ser detec-tado por um desvio acima do normal na dinamicade digitacao dessa senha. Com base nesse cena-rio possıvel de aplicacao da biometria baseada emkeystroke, em (Killourhy and Maxion, 2009), umabase de amostras relativas a dinamica de digita-cao de uma unica senha hipotetica, por 51 vo-luntarios, foi montada, usada e, posteriormente,disponibilizada publicamente para novos experi-mentos. A senha hipotetica dessa base publica e“.tie5Roani”, e a base tem as seguintes caracte-rısticas:

• E composta por 51 usuarios distintos, sendo30 do sexo masculino e 21 do sexo feminino.

• Cada usuario digitou a referida senha 400 ve-zes, em 8 grupos de 50 cada.

• Foram registrados os intervalos de tempo deretencao de tecla, H - Hold, os intervalos detempo entre acionamentos consecutivos, DD- Down-Down, e os intervalos de tempo entreliberacao e acionamento consecutivos, UD -Up-Down.

Ilustra-se na figura 1 como e o processo deaquisicao dos intervalos de tempo do tipo DD.Ilustracoes analogas poderiam ser usadas para asaquisicoes dos intervalos H e UD, de tal forma quecada instancia de digitacao da senha prove, simul-taneamente, tres series de intervalos.

3166


ISBN: 978-85-8001-069-5

Figura 1: Ilustracao da aquisicao dos intervalosdo tipo Down-Down (DD) durante a digutacao dasenha hipotetica ’.tie5Roani’.

Em outras palavras, podemos ver o gesto dadigitacao como a combinacao paralela de tres fon-tes aleatorias de intervalos de tempo, como ilus-trado na figura 2, que indica como os tempos dostipos H, UD e DD sao capturados ao longo dalinha de tempo.

Figura 2: Ilustracao do significado dos tempos deretencao de tecla, tempos entre acionamentos con-secutivos e tempos entre liberacao e acionamentoconsecutivos

3 Protocolo de experimentos

Neste trabalho, reproduzimos fielmente o proto-colo usado em (Killourhy and Maxion, 2009). Istoe

1. Um dos 51 indivıduos da base e escolhido,por experimento, como o indivıduo alvo (ouautentico possuidor da senha), e os demaissao tomados como impostores que tambemconhecem (indevidamente) essa senha.

2. Na fase de treinamento, o algoritmo utiliza

como base as primeiras 200 repeticoes doindivıduo-alvo. E construıdo, entao, um mo-delo – ou um template – de comportamentodesse indivıduo.

3. Na fase de teste sao utilizados as outras 200repeticoes restantes do indivıduo alvo comotentativas genuınas de autenticacao.

4. Finalmente, como tentativas de autenticacaodos impostores, sao utilizadas as primeiras 5repeticoes de cada um dos 50 demais indivı-duos.

Embora 200 repeticoes seja uma quantidadeexageradamente grande de dados de treinamento,preocupacao que foi mencionada e justificada pe-los autores de (Killourhy and Maxion, 2009), nosmantemos esse mesmo protocolo por duas razoes:

• Primeiramente porque nosso objetivo e mos-trar, comparativamente, o ganho proporcio-nado pela equalizacao dos intervalos, e essenumero exagerado de amostras de treina-mento favorece isso, por fornecer medidas deerros relativamente estaveis.

• Alem disso, a reproducao rigorosa do proto-colo usado em (Killourhy and Maxion, 2009)nos permite conferir resultados esperados (nocaso sem o pre-processamento).

4 Equalizacao (pre-processamento)adaptado a senha curta

Numa adaptacao da notacao usada em (J. Mon-talvao and Freire, 2006), cada amostra de dina-mica de digitacao e representada como um vetor,xS = [xS(1)xS(2) · · ·xS(NS)], com NS interva-los de tempos positivos, em segundos, e o ındiceS representa a fonte aleatoria desses intervalos.Nesta adaptacao de modelo, assumimos a existen-cia de 2 fontes, a saber: S ∈ {H,DD}, relativasaos tempos de retencao de tecla e tempos entreacionamentos consecutivos, respectivamente. As-sumido que os intervalos sao instancias respectivasde 2 variaveis aleatorias contınuas, XH e XDD,com distribuicoes aproximadamente log-normais,temos, por consequencia, que

YS = loge(XS) (1)

possui distribuicao aproximadamente normal,para cada uma das 2 fontes. Assim, usando amesma aproximacao usada em (J. Montalvao andFreire, 2006) para a integral definida da gaussiana,G(yS), dada por:

G(yS) =1

1 + exp(− 1,7(yS−µy,S)σy,S

)(2)

3167


ISBN: 978-85-8001-069-5

uma primeira possıvel equalizacao de tempos podeser obtida como:

g(xS) =1

1 + exp(− 1,7(loge(xS)−µy,S)σy,S

)(3)

Em (J. Montalvao and Freire, 2006), ondeapenas intervalos DD foram considerados, em ba-ses de textos livres e fixos, os valores medios esti-mados para os parametros de media e desvio pa-drao foram µy,DD = −1, 56 e σy,DD = 0, 65, semlevar em conta as teclas consecutivas cujos aci-onamentos geravam o intervalo de tempo. Cla-ramente, essa foi uma opcao de simplificacao domodelo, em (J. Montalvao and Freire, 2006), quedescartou a dependencia entre teclas acionadas eintervalos medidos.

Neste artigo, duas importantes alteracoes namodelagem proposta em (J. Montalvao and Freire,2006) sao:

• Alem dos intervalos de tempo do tipo DD(Down-Down), incluımos os intervalos detempo de retencao (Hold). Vale notar quedescartamos os intervalos UD, que podem as-sumir valores negativos e, por consequencia,nao podem ser modelados com distribuicoesLog-Normais.

• No sentido de tirar o maximo de proveitodos poucos intervalos de tempo fornecidos poruma senha curta, a dependencia entre teclasacionadas e intervalos correspondentes nao foidescartada. Isto e, sendo a senha ’.tie5Roani’composta por 10 caracteres, sendo um delesmaiusculo, cada digitacao desta senha gera10 intervalos DD (contando com o SHIFT) e11 intervalos H, numa serie cuja ordem im-porta. Em outras palavras, as sequencias de21 intervalos DD e H assim obtidos sao mo-deladas como processo estocastico, nao maiscomo variaveis independentes.

Do ponto de vista de implementacao, estaultima alteracao significa que cada par de te-clas consecutivas – e.g. ’.t ou ’ti’ – deve terseus proprios parametros µy,S,k e σy,S,k, que de-vem ser estimados separadamente, onde k repre-senta a posicao do intervalo de tempo na senha.Logo, k ∈ {′.t′,′ ti′,′ ie′ . . . ,′ ni′} para S = DD ek ∈ {′.′,′ t′,′ i′ . . . ,′ n′,′ i′} para S = H .

5 Resultados Experimentais

Assim como em (Killourhy and Maxion, 2009), fo-ram implementados tres metodos “classicos”, ouseja, os metodos de autenticacao baseados nas dis-tancias Euclidiana, de Manhattan e de Mahalano-bis (R. O. Duda and Stork, 2001) entre os vetorescontendo os intervalos de tempo de uma tentativade autenticacao (genuına ou impostora) e o vetortemplate obtido durante a fase de treino ou ajuste.

No caso da distancia de Mahalanobis, na fase detreino, tambem foi gerada a matriz de covarianciaassociada ao template.

Cada experimento realizado independente-mente fornece uma grande quantidade de distan-cias medidas entre amostra e template do indivı-duo (ou usuario) alvo. Assim, dado um limiar dedecisao, λ, podemos computar erros de dois tipos,a saber:

• Erro de falso alarme, ou falsa rejeicao:quando o usuario alvo digita a senha mas adistancia medida entre a amostra fornecida eo seu template e maior que λ.

• Erro de falsa aceitacao: quando um impostordigita a senha e a distancia medida entre suaamostra de tempos e o template do usuarioalvo e menor que λ.

Claramente, as frequencias relativas de ocor-rencia desses dois erros sao funcoes de λ, de talforma que quando uma cresce, a outra decresce.No ponto de operacao em que as duas se igualamencontramos o que e chamado de taxa de errosiguais, ou Equal Error Rate (EER), que e umamedida comumente usada na avaliacao de siste-mas biometricos. Neste trabalho, compararemosos desempenhos de cada metodo atraves do EER.

Reproduzindo os experimentos realizados em(Killourhy and Maxion, 2009), com intervalos detempo em segundos, obtivemos os resultados in-dicados na tabela 1, que tambem apresenta o in-tervalo de 95 % de confianca para esses EER me-dios, medidos ao longo dos experimentos com os51 indivıduos. Vale observar que apenas nestesexperimentos de referencia utilizamos os 3 tiposde intervalos: H, DD e UD.

Tabela 1: Resultados com intervalos H, DD e UD,sem equalizacaoDistancia EER Intervalo de confianca

(95 %)Euclideana 0,170 ± 0,026Manhattan 0,153 ± 0,025Mahalanobis 0,110 ± 0,018

O segundo conjunto de experimentos consis-tiu apenas na remocao dos intervalos do tipo UD,como forma de estabelecer uma referencia de de-sempenho sem equalizacao de intervalos, mas comapenas os intervalos H e DD. Os desempenhos ob-tidos sao apresentados na tabela 2.

Embora a intencao por tras deste experimentofosse apenas estabelecer uma referencia para com-paracao, notamos, com surpresa, que a simplesremocao dos intervalos UD parece promover umleve ganho de desempenho. No entanto, esse ga-nho nao deve ser aceito como evidencia suficientecontra o uso dos intervalos UD, se levarmos emconta os intervalos de confianca dessas medidas.

3168


ISBN: 978-85-8001-069-5

Tabela 2: Resultados com intervalos H e DD, semequalizacaoDistancia EER Intervalo de confianca


Em todo caso, o mınimo que podemos concluir eque os intervalos do tipo UD tambem nao contri-buem, nesses experimentos, para diminuir o EER.

No terceiro conjunto de experimentos, o pre-processamento (equalizacao) e feito sem levar emconsideracao a dependencia entre teclas aciona-das e intervalos foi aplicado. Em outras palavras,a mesma media µY = −2, 05 e o mesmo desvio-padrao, σY = 0, 66, foram aplicados a equliza-cao de todos os intervalos DD e H. Com excecaoda inclusao dos intervalos do tipo H, isto corres-ponde ao tratamento proposto em (J. Montalvaoand Freire, 2006), para textos livres ou compostospor varias palavras (nao-curtos). Os resultadosobtidos sao apresentados na tabela 3.

Tabela 3: Resultados com intervalos H e DD, commesma equalizacao para todos os intervalosDistancia EER Intervalo de confianca


Nota-se que, embora esse nao seja o trata-mento mais adequado as sequencias curtas (comoas senhas), houve ainda assim um ganho significa-tivo de desempenho, em termos de EER, quandosao usadas as distancias euclideana e de Manhat-tan.

O quarto conjunto de experimentos corres-ponde ao foco principal deste trabalho. Nele, fo-ram estimados os parametros µy,S,k e σy,S,k paracada par de teclas acionadas, no caso dos inter-valos DD, e para cada tecla, no caso dos inter-valos H. Em seguida, os intervalos, em segundos,foram transformados, usando a equacao 3, em me-didas adimensionais, Y , com distribuicoes quasi-uniformes entre 0 e 1. Essas medidas, Y , substi-tuiram entao os tempos em segundos, X , nas ta-belas de dados. A essa substituicao de X por Y ,nas tabelas de dados experimentais, chamamos depre-processamento dos intervalos de tempos.

Apos o pre-processamento, usamos os meto-dos de treinamento e comparacao precisamentecomo em (Killourhy and Maxion, 2009), sem ne-nhuma alteracao. Assim, os resultados apresen-tados na tabela 4 refletem apenas o impacto dopre-processamento proposto, isto e, da equaliza-cao dos intervalos, conforme descrito na secao 4.

Tabela 4: Resultados com intervalos H e DD, comequalizacaoDistancia EER Intervalo de confianca


6 Discussao e Conclusoes

Neste artigo, uma serie de experimentos cor-roboram o resultado previamente publicado em(J. Montalvao and Freire, 2006), apontando queum simples mapeamento nao linear e sem memo-ria de intervalos de tempo pode melhorar signifi-cativamente o desempenho de verificacao / iden-tificacao de algoritmos baseados na dinamica dedigitacao. Esta afirmacao baseia-se na hipotese deque as distribuicoes de probabilidade muito dese-quilibradas das variaveis aleatorias que modelamtais intervalos reduzem o desempenho da maioriados algoritmos ingenuos (ingenuos no sentido deque eles nao incorporam qualquer tipo de com-pensacao explıcita ou implıcita desse vies de dis-tribuicao).

Neste trabalho, acrescentamos alteracoes amodelagem dos intervalos de tempos para o casoespecıfico de sequencias curtas e estaticas de digi-tacao, como as senhas alfanumericas. Essas alte-racoes podem ser vistas como uma simples substi-tuicao de variaveis aleatorias independentes (dasteclas acionadas) por processos estocasticos, ondecada par de teclas (ou tecla, para os tempos de re-tencao) e associada a uma variavel aleatoria desseprocesso estocastico.

Assim, atraves de experimentos com uma basede dados publica, e reproduzindo experimentosde referencia de acordo com protocolos estabele-cidos em (Killourhy and Maxion, 2009) (que tam-bem foram os responsaveis pela publicacao da baseusada), colhemos evidencias experimentais clarasde que o pre-processamento de equalizacao dos in-tervalos reduziu aproximadamente para a metadeas taxas de EER.

Experimentalmente, tambem notamos que,para os dados da base usada, a inclusao os inter-valos de tempo do tipo Up-Down (UD) nao me-lhoram o desempenho, em termos de EER.

Agradecimentos

Este trabalho contou com o apoio financeiro par-cial do CNPq.

3169


ISBN: 978-85-8001-069-5

Referencias

Araujo, L.C.F., J. L. L. M. L. L. Y.-U. J. (2005).User authentication through typing biome-trics features, IEEE Trans Signal Process. 53(2) .

Bleha, S. (1988). Recognition systems based onkeystroke dynamics, Ph.D. thesis, Univ. Mis-souri, Columbia .

Bleha, S., S. C. H. B. (1990). Computer-accesssecurity systems using keystroke dynamics,IEEE Trans Pattern Anal. Machine Intell. 12(12) .

Bosworth, S., Hoyt, D. B. and Hutt, A. E. (2002).Computer Security Handbook, 4 edn, Wiley-Interscience, New York.

D. Umphress, G. W. (1985). Identity verificationthrough keyboard characteristics, Internati-onal Journal of Man-Machine Studies .

Gaines, R., L. W. P. S. S. N. (1980). Authentica-tion by keystroke timing: some preliminaryresults, Tech rep, Rand 473 Corporation .

Gonzalez (2002). Wood, Digital Image Processing,Prentice Hall.

J. Montalvao, C. A. S. A. and Freire, E. O. (2006).Equalization of keystroke timing histogramsfor improved identification performance, In-ternational Telecommunications Symposium .

K. S. Balagani, V. V. Phoha, A. R. S. P. (2011).On the discriminability of keystroke featurevectors used in fixed text keystroke authenti-cation, Pattern Recognition Letters - Elsevier.

Killourhy, K. S. and Maxion, R. A. (2009). Com-paring anomaly - detection algorithms forkeystroke dynamics, IEEE/IFIP Internatio-nal Conference on Dependable Systems andNetworks (DSN-2009) .

Obaidat, M., S. B. (1997). Verification of com-puter users using keystroke dynamics, IEEETrans Systems, Man, Cybernetics 27 (2) .

Peacock, A., K. X. W. M. (2004). Typing pat-terns: A key to user 489 identification, IEEESecurity Privacy 2 (5) .

Pisani, P. H. and Lorena, A. C. (2011). Deteccaode intrusoes com dinamica da digitacao: umarevisao sistematica, Technical report.

R. Gio, M. E.-A. and Rosenberger, C. (2009).Greyc keystroke: a benchmark for keystrokedynamics biometric systems, IEEE Internati-onal Conference on Biometrics: Theory, Ap-plications and Systems (BTAS 2009) .

R. Giot, M. El-Abed, C. R. (2012). Fast compu-tation of the performance evaluation of bio-metric systems: Application to multibiome-trics, Future Generation Computer Systems(FGCS) .

R. O. Duda, P. E. H. and Stork, D. G. (2001).Pattern Classification, second edition edn,Wiley-Interscience, New York.

Urtiga, E. V. C. and Moreno, E. D. (2011).Keystroke-based biometric authentication inmobile devices, IEEE Latin America Tran-sactions .

Vigliazzi, D. (2003). Biometria - Medidas de Se-guranca, 1 edn, Visual Books.

Yu Zhong, Y. D. and Jain, A. K. (2012). Keys-troke dynamics for user authentication, Bio-metric WorkShop .

universidade federal de sergipe centro de … · universidade federal de sergipe centro de...

Documents