estudo de casos sobre privacidade e transparência na...

Post on 13-Aug-2020

5 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Introdução Anonimização Estado da Arte Resumo

Estudo de Casos sobre Privacidade eTransparência na Publicação de Dados

Gabriel Henrique Nunes

EVCOMP 2020

Departamento de Ciência da ComputaçãoUniversidade Federal de Minas Gerais

17 de Fevereiro de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

IntroduçãoTransparênciaPrivacidade

AnonimizaçãoDesidentificação e PseudonimizaçãoMétodos DeterminísticosMétodos Probabilísticos

Estado da ArteGoogle, Microsoft, e AppleUS Census Bureau

Resumo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Transparência

Introdução

Transparência

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

The actual Enumeration shall be made within three Years after the firstMeeting of the Congress of the United States, and within every subsequent

Term of ten Years, in such Manner as they shall by Law direct.

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação política

I Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

US Code Titles 13 & 14

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Legislação específica(1968)

Lei de Acesso à Informação(2011)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Transparência

A Importância da Publicação de Dados

PlanejamentoI Políticas públicas

I Representação políticaI Distribuição de fundos

I Investimentos privados

Pesquisas científicasI DemografiaI Economia

Princípios Fundamentais dasEstatísticas Oficiais

(2014)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Introdução

Privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

Princípio 6. Os dados individuais coletados pelos órgãos esta-tísticos para a elaboração de estatísticas, sejam eles referentes apessoas físicas ou jurídicas, devem ser estritamente confidenciaise utilizados exclusivamente para fins estatísticos.

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

Princípio 6. Os dados individuais coletados pelos órgãos esta-tísticos para a elaboração de estatísticas, sejam eles referentes apessoas físicas ou jurídicas, devem ser estritamente confidenciaise utilizados exclusivamente para fins estatísticos.

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletados

I Justiça (Fairness)I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)

I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentais

I Democracia

Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simples

I Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simplesI Dados sensíveis

I Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

O Problema da Publicação de Dados

A Importância da ConfidencialidadeI Precisão dos dados coletadosI Justiça (Fairness)I Direitos fundamentaisI Democracia

Entretanto, garanti-la não é simplesI Dados sensíveisI Quasi-identificadores

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Confidencialidade e Privacidade

ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações

I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras

PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva

I Utilizado na Legislação mais recente sobre dados pessoais

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Confidencialidade e Privacidade

ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações

I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras

PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva

I Utilizado na Legislação mais recente sobre dados pessoais

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Confidencialidade e Privacidade

ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações

I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras

PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva

I Utilizado na Legislação mais recente sobre dados pessoais

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Confidencialidade e Privacidade

ConfidencialidadeEnvolve um conjunto de regras ou uma promessa que limitam oacesso ou impõem restrições a certos tipos de informações

I Usualmente utilizado no relacionamento com médicos,advogados, ou instituições financeiras

PrivacidadeCapacidade de isolar a si mesmo ou de isolar informações sobre simesmo e, assim, expressar-se de maneira seletiva

I Utilizado na Legislação mais recente sobre dados pessoais

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governos

I por empresas privadasI para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020

I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadas

I para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020

I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadasI para publicação

I para uso internoLGPDI Entra em vigor em Agosto de 2020

I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020

I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020

I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Lei Geral de Proteção de Dados Pessoais (LGPD)

Dados pessoais são coletados:I por governosI por empresas privadasI para publicaçãoI para uso interno

LGPDI Entra em vigor em Agosto de 2020I O que são dados pessoais?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

O problema é a forma de acesso aos dados. Eles deveriam seranonimos. A cada pessoa se atribui um código, um ID, e as-sim as pessoas que lidam com o banco de dados nao tem acessoàs informações em nível pessoal. Td criptografado. Assim seevita invasao de privacidade, stalker, etc

- Usuário do Twitter

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

O problema é a forma de acesso aos dados. Eles deveriam seranonimos. A cada pessoa se atribui um código, um ID, e as-sim as pessoas que lidam com o banco de dados nao tem acessoàs informações em nível pessoal. Td criptografado. Assim seevita invasao de privacidade, stalker, etc

- Usuário do Twitter

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso

I Evita acesso não autorizadoI Evita vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveis

Anonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso

I Evita acesso não autorizadoI Evita vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveisAnonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acessoI Evita acesso não autorizado

I Evita vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveisAnonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acessoI Evita acesso não autorizadoI Evita vazamento de informações

I Não protegem contra inferênciaquando os dados são acessíveis

Anonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informações

I Não protegem contra inferênciaquando os dados são acessíveis

Anonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveis

Anonimização

I Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveisAnonimizaçãoI Diversos métodos propostos

I Diversos vetores de ataque jádemonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Privacidade

Possíveis Soluções

Controle de acesso e CriptografiaI Evitam acesso não autorizadoI Evitam vazamento de informaçõesI Não protegem contra inferência

quando os dados são acessíveisAnonimizaçãoI Diversos métodos propostosI Diversos vetores de ataque já

demonstrados

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Anonimização

Desidentificação ePseudonimização

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Desidentificação ou Anonimização "inocente"

DefiniçãoUma base de dados é dita anônima se dela foram retirados osidentificadores diretos dos indivíduos

ExemplosNome, números únicos de identificação (CPF, RG), endereço, etcEntretanto, a definição de identificadores diretos é muito flexível

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Desidentificação ou Anonimização "inocente"

DefiniçãoUma base de dados é dita anônima se dela foram retirados osidentificadores diretos dos indivíduos

ExemplosNome, números únicos de identificação (CPF, RG), endereço, etc

Entretanto, a definição de identificadores diretos é muito flexível

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Desidentificação ou Anonimização "inocente"

DefiniçãoUma base de dados é dita anônima se dela foram retirados osidentificadores diretos dos indivíduos

ExemplosNome, números únicos de identificação (CPF, RG), endereço, etcEntretanto, a definição de identificadores diretos é muito flexível

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Desidentificação

Nome Idade Condição1 Jon Snow 30 Resfriado2 Jamie Lannister 39 Mão amputada3 Arya Stark 16 Dor de estômago4 Bran Stark 14 Paraplegia5 Eddad Stark 32 Dor de cabeça6 Ramsay Bolton 32 Psicopatia7 Daenerys Targaryen 25 Mania de grandeza

Catuscia Palamidessi, Kostas Chatzikokolakis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Desidentificação

Nome Idade Condição1 * 30 Resfriado2 * 39 Mão amputada3 * 16 Dor de estômago4 * 14 Paraplegia5 * 32 Dor de cabeça6 * 32 Psicopatia7 * 25 Mania de grandeza

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Quasi-identificadores

DefiniçãoAtributos que podem ser vinculados a informações externas paraidentificar indivíduos unicamente

ObservaçãoDefinir o conjunto de quasi-identificadores para uma dadapublicação ainda é uma questão em aberto

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Quasi-identificadores

DefiniçãoAtributos que podem ser vinculados a informações externas paraidentificar indivíduos unicamente

ObservaçãoDefinir o conjunto de quasi-identificadores para uma dadapublicação ainda é uma questão em aberto

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack (1998)

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis Informações

auxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack (1998)

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis

Informaçõesauxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack (1998)

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis Informações

auxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack (1998)

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis Informações

auxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack (1998)

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis Informações

auxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

Base 1: Dados médicos

EtniaData da visitaDiagnósticoProcedimentoMedicamento

Valor

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

Base 1: Dados médicos

EtniaData da visitaDiagnósticoProcedimentoMedicamento

Valor

GêneroAniversário

CEP

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

Base 2: Lista de eleitores

NomeEndereço

Data de registroÚltima eleição

Partido

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

Base 2: Lista de eleitores

NomeEndereço

Data de registroÚltima eleição

Partido

GêneroAniversário

CEP

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

Base 1: Dados médicos

EtniaData da visitaDiagnósticoProcedimentoMedicamento

Valor

Base 2: Lista de eleitores

NomeEndereço

Data de registroÚltima eleição

Partido

GêneroAniversário

CEP

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

ConclusõesI Com apenas gênero, data de aniversário, e CEP, Sweeney

foi capaz de reidentificar o governador de Massachusetts

I O mesmo foi possível para 87% da população dos EUA,também unicamente identificável pelos mesmos atributos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Sweeney’s Linkage Attack na Prática

ConclusõesI Com apenas gênero, data de aniversário, e CEP, Sweeney

foi capaz de reidentificar o governador de MassachusettsI O mesmo foi possível para 87% da população dos EUA,

também unicamente identificável pelos mesmos atributos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Pseudonimização

DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo

Entretanto...I Apresenta os mesmos problemas que a Desidentificação

I Publicação de dados longitudinais no tempo

I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Pseudonimização

DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo

Entretanto...I Apresenta os mesmos problemas que a Desidentificação

I Publicação de dados longitudinais no tempo

I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Pseudonimização

DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo

Entretanto...I Apresenta os mesmos problemas que a DesidentificaçãoI Publicação de dados longitudinais no tempo

I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Pseudonimização

DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo

Entretanto...I Apresenta os mesmos problemas que a DesidentificaçãoI Publicação de dados longitudinais no tempo

I Pseudonimização é ainda pior do que Desidentificação

I Facilita a reidentificação ao longo do tempo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Pseudonimização

DefiniçãoUma base de dados é dita pseudonimizada se dela foram retiradosos identificadores diretos dos indivíduos em substituição por umcódigo único para cada indivíduo

Entretanto...I Apresenta os mesmos problemas que a DesidentificaçãoI Publicação de dados longitudinais no tempo

I Pseudonimização é ainda pior do que DesidentificaçãoI Facilita a reidentificação ao longo do tempo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicas

I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicas

I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicas

I Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicas

I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a Internet

I The New York Times cruzou as pesquisas de umusuário com listas telefônicas

I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicas

I “60 anos de idade”, “homens solteiros”, “cão queurina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicasI “60 anos de idade”, “homens solteiros”, “cão que

urina em tudo”, “paisagistas em Lilburn, GA”

I Reidentificou Thelma Arnold, viúva de 62 anos,com três cães, de Lilburn, Geórgia

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Desidentificação e Pseudonimização

Exemplo de Pseudonimização

I Divulgou 20 milhões de pesquisas realizadas pormais de 650 mil usuários ao longo de três meses

I Objetivo era fomentar pesquisas científicasI Os dados foram liberados para toda a InternetI The New York Times cruzou as pesquisas de um

usuário com listas telefônicasI “60 anos de idade”, “homens solteiros”, “cão que

urina em tudo”, “paisagistas em Lilburn, GA”I Reidentificou Thelma Arnold, viúva de 62 anos,

com três cães, de Lilburn, GeórgiaPrivacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Anonimização

Métodos Determinísticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

k-Anonimização (Sweeney & Samarati, 1998)

DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:

I generalização de atributosI supressão de atributosI adição de registros sintéticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

k-Anonimização (Sweeney & Samarati, 1998)

DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:I generalização de atributos

I supressão de atributosI adição de registros sintéticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

k-Anonimização (Sweeney & Samarati, 1998)

DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:I generalização de atributosI supressão de atributos

I adição de registros sintéticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

k-Anonimização (Sweeney & Samarati, 1998)

DefiniçãoUma base de dados é dita k-Anônima se cada registro forindistinguível de k − 1 outros registros, considerando-se osquase-identificadores, através de:I generalização de atributosI supressão de atributosI adição de registros sintéticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 4-Anonimização

Não Sensível SensívelCEP Idade País Condição

1 13053 28 Rússia Cardíaco2 13068 29 EUA Cardíaco3 13068 21 Japão Virose4 13053 23 EUA Virose5 14853 50 Índia Câncer6 14853 55 Rússia Cardíaco7 14850 47 EUA Virose8 14850 49 EUA Virose9 13053 31 EUA Câncer10 13053 37 Índia Câncer11 13068 36 Japão Câncer12 13068 35 EUA Câncer

Não Sensível SensívelCEP Idade País Condição

1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose

5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose

9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 4-Anonimização

Não Sensível SensívelCEP Idade País Condição

1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 4-Anonimização

Não Sensível SensívelCEP Idade País Condição

1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 4-Anonimização

Não Sensível SensívelCEP Idade País Condição

1 130** < 30 * Cardíaco2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose5 1485* ≥ 40 * Câncer6 1485* ≥ 40 * Cardíaco7 1485* ≥ 40 * Virose8 1485* ≥ 40 * Virose9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

`-Diversidade (Kifer et al., 2007)

DefiniçãoUma base de dados é dita `-Diversa se cada agrupamento deregistros apresentar uma diversidade de, ao menos, ` atributossensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 3-Diversidade

Não Sensível SensívelCEP Idade Gênero Condição

1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 3-Diversidade

Não Sensível SensívelCEP Idade Gênero Condição

1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 3-Diversidade

Não Sensível SensívelCEP Idade Gênero Condição

1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Exemplo de 3-Diversidade

Não Sensível SensívelCEP Idade Gênero Condição

1 130** ≤ 50 * Câncer2 130** ≤ 50 * Câncer3 130** ≤ 50 * Hemofilia4 130** ≤ 50 * Virose5 122** > 50 * Hemofilia6 122** > 50 * Câncer7 122** > 50 * Virose8 122** > 50 * Virose9 130** ≤ 50 * Câncer10 130** ≤ 50 * Câncer11 130** ≤ 50 * Hemofilia12 130** ≤ 50 * Virose

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Limitações de `-Diversidade

I Pode ser muito rigorosa

I A sensibilidade dos atributos pode variarI Pode não ser suficiente

I Permite a inferência de atributos sensíveis, e em alguns casoscom elevada probabilidade

t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Limitações de `-Diversidade

I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar

I Pode não ser suficiente

I Permite a inferência de atributos sensíveis, e em alguns casoscom elevada probabilidade

t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Limitações de `-Diversidade

I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar

I Pode não ser suficiente

I Permite a inferência de atributos sensíveis, e em alguns casoscom elevada probabilidade

t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Limitações de `-Diversidade

I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar

I Pode não ser suficienteI Permite a inferência de atributos sensíveis, e em alguns casos

com elevada probabilidade

t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Limitações de `-Diversidade

I Pode ser muito rigorosaI A sensibilidade dos atributos pode variar

I Pode não ser suficienteI Permite a inferência de atributos sensíveis, e em alguns casos

com elevada probabilidade

t-Proximidade (Li et al., 2007)DefiniçãoUma base de dados é dita t-Próxima se cada agrupamento deregistros apresentar uma distribuição de atributos sensíveis próxima,a no máximo uma distância t, da distribuição geral

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Composicionalidade

DB1: Contémdados sensíveis(anonimizada)

DB2: Coleçãopública de dadosnão sensíveis Informações

auxiliares

Algoritmo para relacionar informações

Registro(s) reidentificado(s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Composicionalidade

Não Sensível SensívelCEP Idade País Condição

1 130** < 30 * AIDS2 130** < 30 * Cardíaco3 130** < 30 * Virose4 130** < 30 * Virose

5 130** ≥ 40 * Câncer6 130** ≥ 40 * Cardíaco7 130** ≥ 40 * Virose8 130** ≥ 40 * Virose

9 130** 3* * Câncer10 130** 3* * Câncer11 130** 3* * Câncer12 130** 3* * Câncer

Não Sensível SensívelCEP Idade País Condição

1 130** < 35 * AIDS2 130** < 35 * Tuberculose3 130** < 35 * Gripe4 130** < 35 * Tuberculose5 130** < 35 * Câncer6 130** < 35 * Câncer

7 130** ≥ 35 * Câncer8 130** ≥ 35 * Câncer9 130** ≥ 35 * Câncer10 130** ≥ 35 * Tuberculose11 130** ≥ 35 * Virose12 130** ≥ 35 * Virose

Alice tem 28 anos de idade, mora no CEP 13012, e visita ambos os hospitais

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Netflix Prize Dataset (2008)

I 500.000 registros anônimos de classificações de filmes

I Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis

públicos no IMBD (The Internet Movie Database)I Saber apenas algumas preferências (2-8 filmes, imprecisas) de

um assinante foram suficientes para realizar a reidentificaçãoI Foi possível inferir posicionamento político e outras

informações sensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Netflix Prize Dataset (2008)

I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicas

I Narayanan & Shmatikov cruzaram as informações com perfispúblicos no IMBD (The Internet Movie Database)

I Saber apenas algumas preferências (2-8 filmes, imprecisas) deum assinante foram suficientes para realizar a reidentificação

I Foi possível inferir posicionamento político e outrasinformações sensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Netflix Prize Dataset (2008)

I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis

públicos no IMBD (The Internet Movie Database)

I Saber apenas algumas preferências (2-8 filmes, imprecisas) deum assinante foram suficientes para realizar a reidentificação

I Foi possível inferir posicionamento político e outrasinformações sensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Netflix Prize Dataset (2008)

I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis

públicos no IMBD (The Internet Movie Database)I Saber apenas algumas preferências (2-8 filmes, imprecisas) de

um assinante foram suficientes para realizar a reidentificação

I Foi possível inferir posicionamento político e outrasinformações sensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Determinísticos

Netflix Prize Dataset (2008)

I 500.000 registros anônimos de classificações de filmesI Objetivo era fomentar pesquisas científicasI Narayanan & Shmatikov cruzaram as informações com perfis

públicos no IMBD (The Internet Movie Database)I Saber apenas algumas preferências (2-8 filmes, imprecisas) de

um assinante foram suficientes para realizar a reidentificaçãoI Foi possível inferir posicionamento político e outras

informações sensíveis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Anonimização

Métodos Probabilísticos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Ataques Composicionais

I Problema de métodosdeterminísticos

I Cada observável correspondea um conjunto de segredos

I Combinar observaçõesdiferentes permitedeterminar intersecções nodomínio dos segredos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Ataques Composicionais

I Problema de métodosdeterminísticos

I Cada observável correspondea um conjunto de segredos

I Combinar observaçõesdiferentes permitedeterminar intersecções nodomínio dos segredos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Ataques Composicionais

I Problema de métodosdeterminísticos

I Cada observável correspondea um conjunto de segredos

I Combinar observaçõesdiferentes permitedeterminar intersecções nodomínio dos segredos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Visão Geral

I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade

I Teorema de Bayes:

p(s|o) = p(s)p(o) · p(o|s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Visão Geral

I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade

I Teorema de Bayes:

p(s|o) = p(s)p(o) · p(o|s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Visão Geral

I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade

I Teorema de Bayes:

p(s|o) = p(s)p(o) · p(o|s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Visão Geral

I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade

I Teorema de Bayes:

p(s|o) = p(s)p(o) · p(o|s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Visão Geral

I Todo segredo pode gerarqualquer observável deacordo com uma distribuiçãode probabilidade

I Teorema de Bayes:

p(s|o) = p(s)p(o) · p(o|s)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Idade mínima com doença:

I 30 com probabilidade 1/4I 40 com probabilidade 1/2I 50 com probabilidade 1/4

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Idade mínima com doença:I 30 com probabilidade 1/4

I 40 com probabilidade 1/2I 50 com probabilidade 1/4

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Idade mínima com doença:I 30 com probabilidade 1/4I 40 com probabilidade 1/2

I 50 com probabilidade 1/4

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Idade mínima com doença:I 30 com probabilidade 1/4I 40 com probabilidade 1/2I 50 com probabilidade 1/4

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Idade mínima com doença:I 30 com probabilidade 1/4I 40 com probabilidade 1/2I 50 com probabilidade 1/4

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Peso mínimo com doença:

I 60 com probabilidade 1/7I 90 com probabilidade 2/7I 100 com probabilidade 4/7

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Peso mínimo com doença:I 60 com probabilidade 1/7

I 90 com probabilidade 2/7I 100 com probabilidade 4/7

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Peso mínimo com doença:I 60 com probabilidade 1/7I 90 com probabilidade 2/7

I 100 com probabilidade 4/7

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Peso mínimo com doença:I 60 com probabilidade 1/7I 90 com probabilidade 2/7I 100 com probabilidade 4/7

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Peso mínimo com doença:I 60 com probabilidade 1/7I 90 com probabilidade 2/7I 100 com probabilidade 4/7

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplo

Nome Idade DoençaAlice 30 nãoBob 30 nãoCarl 40 nãoDon 40 simEllie 50 nãoFrank 50 sim

Nome Peso DoençaAlice 60 nãoBob 90 nãoCarl 90 nãoDon 100 simEllie 60 nãoFrank 100 sim

Alice BobCarl DonEllie Frank

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Observações

I Deve-se escolher a distribuição de probabilidade com cuidado

I O mecanismo deve proporcionar um equilíbrio entreprivacidade e utilidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Observações

I Deve-se escolher a distribuição de probabilidade com cuidadoI O mecanismo deve proporcionar um equilíbrio entre

privacidade e utilidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2

I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2

I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das bases

I ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das bases

I ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Definições

Distância de HammingA Distância de Hammning entre dois bancos de dados x1 e x2 éigual ao número de registros que diferem entre x1 e x2

Bancos de Dados AdjacentesDois bancos de dados x1 e x2 são adjacentes se a Distância deHammning entre eles é igual a um. Denotamos essa propriedadecomo x1 ∼ x2I x1 e x2 diferem em relação a apenas um indivíduo, i.e.

I ou o indivíduo foi adicionado a apenas uma das basesI ou removido de apenas uma das basesI ou teve seu valor alterado em apenas uma das bases

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Privacidade ε-Diferencial (Dwork, 2006)

DefiniçãoUma base de dados é dita Privada ε-Diferencial se para todos osbancos de dados x , x ′ adjacentes, e para todo z ∈ Z , a respostareportada, temos que:

p(K = z |X = x)

p(K = z |X = x ′)≤ eε

InterpretaçãoA presença ou não de informações sobre um indivíduo na base dedados não altera significativamente os resultados obtidos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Privacidade ε-Diferencial (Dwork, 2006)

DefiniçãoUma base de dados é dita Privada ε-Diferencial se para todos osbancos de dados x , x ′ adjacentes, e para todo z ∈ Z , a respostareportada, temos que:

p(K = z |X = x)

p(K = z |X = x ′)≤ eε

InterpretaçãoA presença ou não de informações sobre um indivíduo na base dedados não altera significativamente os resultados obtidos

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dados

I Independe do adversárioI Robustez quanto à Composicionalidade

I Dados dois mecanismos Privados ε1-Diferencial eε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um

máximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário

I Robustez quanto à Composicionalidade

I Dados dois mecanismos Privados ε1-Diferencial eε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um

máximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário

I Robustez quanto à Composicionalidade

I Dados dois mecanismos Privados ε1-Diferencial eε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um

máximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário

I Robustez quanto à ComposicionalidadeI Dados dois mecanismos Privados ε1-Diferencial e

ε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um

máximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário

I Robustez quanto à ComposicionalidadeI Dados dois mecanismos Privados ε1-Diferencial e

ε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultas

I É possível definir um orçamento de privacidade, ou seja, ummáximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Propriedades da Privacidade Diferencial

I Independência da prior, a distribuição de probabilidade sobreos segredos antes de se consultar o banco de dadosI Independe do adversário

I Robustez quanto à ComposicionalidadeI Dados dois mecanismos Privados ε1-Diferencial e

ε2-Diferencial, a composição é um mecanismo(ε1 + ε2)-Diferencial

I A privacidade diminui linearmente com o número de consultasI É possível definir um orçamento de privacidade, ou seja, um

máximo aceitável de violação da privacidade

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplos de Privacidade Diferencial

Qual a altura média?A distribuição varia entre50 cm e 250 cm

Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)

190 (1− p)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplos de Privacidade Diferencial

Qual a altura média?A distribuição varia entre50 cm e 250 cm

Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)

190 (1− p)

Um mecanismo que sempre reporta aresposta verdadeira (150 cm) não éprivado, qualquer que seja o ε

p(media = 150|Daniel = 120)

p(media = 150|Daniel = 190)=

10

= e∞

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplos de Privacidade Diferencial

Qual a altura média?A distribuição varia entre50 cm e 250 cm

Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)

190 (1− p)

Um mecanismo que sempre reportauma resposta errada (168 cm) écompletamente privado (ε = 0), mascompletamente inútil

p(media = 168|Daniel = x)

p(media = 168|Daniel = x ′)=

11

= e0

p(media = z |Daniel = x)

p(media = z |Daniel = x ′)=

00

(z 6= 168)

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplos de Privacidade Diferencial

Qual a altura média?A distribuição varia entre50 cm e 250 cm

Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)

190 (1− p)

Um mecanismo que sempre reporta100 cm se a resposta verdadeira (150cm) for menor ou igual a 150 cm, oureporta 200 cm caso contrário, não éprivado, qualquer que seja o ε

p(media = 100|Daniel = 120)

p(media = 100|Daniel = 190)=

10

= e∞

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Métodos Probabilísticos

Exemplos de Privacidade Diferencial

Qual a altura média?A distribuição varia entre50 cm e 250 cm

Altura (cm)Alice 140Bob 180Carol 160Daniel 120 (p)

190 (1− p)

O mecanismo que reporta a respostaverdadeira com probabilidade ε/(200+ε) etodos os outros inteiros no intervalo[50, 250] com probabilidade 1/(200+ε), éprivado ε-diferencial

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Estado da Arte

Google, Microsoft, e Apple

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

DefiniçãoA randomização e a adição de ruído são realizadas pelo software emexecução no dispositivo do usuário

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Google, Microsoft, e Apple

Privacidade Diferencial Local

ExemplosAs seguintes empresas privadas reportam utilizar PrivacidadeDiferencial Local para coleta de Telemetria

I Google (Chrome): RAPPOR (Randomized AggregatablePrivacy-Preserving Ordinal Response)

I Apple: iOS 10 em diante

I Microsoft: Windows 10

O objetivo final é aumentar a aceitação pública da coleta de dados

Entretanto, para garantir a utilidade dos dados coletados, utilizamum orçamento de privacidade (ε) muito grande

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Estado da Arte

US Census Bureau

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Responsável pela realização dos Censos decenais

I Os resultados são publicados agregados e servem de base para

I a repartição dos assentos na Câmara dos Deputados entre osestados

I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais

I Por Lei, a Confidencialidade deve ser garantida

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para

I a repartição dos assentos na Câmara dos Deputados entre osestados

I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais

I Por Lei, a Confidencialidade deve ser garantida

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para

I a repartição dos assentos na Câmara dos Deputados entre osestados

I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais

I Por Lei, a Confidencialidade deve ser garantida

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para

I a repartição dos assentos na Câmara dos Deputados entre osestados

I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais

I Por Lei, a Confidencialidade deve ser garantida

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Responsável pela realização dos Censos decenaisI Os resultados são publicados agregados e servem de base para

I a repartição dos assentos na Câmara dos Deputados entre osestados

I a distribuição de mais de US$675 bilhões em fundos federaispara estados e organizações locais

I Por Lei, a Confidencialidade deve ser garantida

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Até o Censo de 1970, apenas desidentificava os registros

I Entre os Censos de 1980 e de 2010, aplicou também métodosdeterminísticos

I Teorema da Reconstrução da Base de Dados(Dinur & Nissim, 2003)

I “Muitas estatísticas publicadas com muita precisão a partir deuma base de dados confidencial expõem a base de dadosinteira com quase certeza”

I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos

√N, onde N é o tamanho

da população

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos

determinísticos

I Teorema da Reconstrução da Base de Dados(Dinur & Nissim, 2003)

I “Muitas estatísticas publicadas com muita precisão a partir deuma base de dados confidencial expõem a base de dadosinteira com quase certeza”

I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos

√N, onde N é o tamanho

da população

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos

determinísticosI Teorema da Reconstrução da Base de Dados

(Dinur & Nissim, 2003)

I “Muitas estatísticas publicadas com muita precisão a partir deuma base de dados confidencial expõem a base de dadosinteira com quase certeza”

I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos

√N, onde N é o tamanho

da população

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos

determinísticosI Teorema da Reconstrução da Base de Dados

(Dinur & Nissim, 2003)I “Muitas estatísticas publicadas com muita precisão a partir de

uma base de dados confidencial expõem a base de dadosinteira com quase certeza”

I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos

√N, onde N é o tamanho

da população

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

Visão Geral

I Até o Censo de 1970, apenas desidentificava os registrosI Entre os Censos de 1980 e de 2010, aplicou também métodos

determinísticosI Teorema da Reconstrução da Base de Dados

(Dinur & Nissim, 2003)I “Muitas estatísticas publicadas com muita precisão a partir de

uma base de dados confidencial expõem a base de dadosinteira com quase certeza”

I Para se ter privacidade, é necessário adicionar umaperturbação de magnitude ao menos

√N, onde N é o tamanho

da população

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislação

I Entretanto, Privacidade Diferencial Local adiciona muitoruído, caso seja utilizada para garantir de fato a privacidade

I Todo o banco de dados deve ser processado de uma só vezpara garantir melhor precisão

I Todos os usos dos dados privados devem ser previamenteconsiderados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidade

I Todo o banco de dados deve ser processado de uma só vezpara garantir melhor precisão

I Todos os usos dos dados privados devem ser previamenteconsiderados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez

para garantir melhor precisão

I Todos os usos dos dados privados devem ser previamenteconsiderados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez

para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente

considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez

para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente

considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez

para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente

considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

US Census Bureau

2020 Census

I Métodos determinísticos foram descartados devido à legislaçãoI Entretanto, Privacidade Diferencial Local adiciona muito

ruído, caso seja utilizada para garantir de fato a privacidadeI Todo o banco de dados deve ser processado de uma só vez

para garantir melhor precisãoI Todos os usos dos dados privados devem ser previamente

considerados no orçamento de privacidade, ou seja, antes dapublicação dos dados

I Foi desenvolvido um novo método, Top-Down, que permite acriação das tabelas com informações agregadas sem grandesperdas de utilidade

I Novos resultados referentes ao Censo de 2010 foram publicadospara servirem de exemplo da aplicação do novo método

I US National Census Day: 1o de Abril de 2020Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Resumo

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoais

I É importante que essas entidades garantam a segurança dessasinformações

I Controle de acesso e Criptografia são muito importantes, masnão resolvem todos os problemas

I É importante que essas entidades continuem divulgando dados,mas de forma responsável

I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto

I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informações

I Controle de acesso e Criptografia são muito importantes, masnão resolvem todos os problemas

I É importante que essas entidades continuem divulgando dados,mas de forma responsável

I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto

I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemas

I É importante que essas entidades continuem divulgando dados,mas de forma responsável

I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto

I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,

mas de forma responsável

I Muitos métodos de Anonimização já foram propostos, masdiversos problemas permanecem em aberto

I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,

mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas

diversos problemas permanecem em aberto

I Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,

mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas

diversos problemas permanecem em abertoI Como definir o conjunto de quasi-identificadores?

I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,

mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas

diversos problemas permanecem em abertoI Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?

I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Governos e empresas privadas coletam e continuarão coletandodados pessoaisI É importante que essas entidades garantam a segurança dessas

informaçõesI Controle de acesso e Criptografia são muito importantes, mas

não resolvem todos os problemasI É importante que essas entidades continuem divulgando dados,

mas de forma responsávelI Muitos métodos de Anonimização já foram propostos, mas

diversos problemas permanecem em abertoI Como definir o conjunto de quasi-identificadores?I Como garantir um nível aceitável de utilidade?I Como anonimizar dados longitudinais no tempo?

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Como equilibrar Transparência e Privacidade?

Lembrando que a Lei Geral de Proteção de Dadosentra em vigor em Agosto de 2020 no Brasil!

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Resumo

Como equilibrar Transparência e Privacidade?

Lembrando que a Lei Geral de Proteção de Dadosentra em vigor em Agosto de 2020 no Brasil!

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Agradecimentos

Departamento de Ciência da Computação

Equipe da EVCOMP 2020

Prof. Mário Alvim e Prof. Annabelle McIver

Prof. Catuscia Palamidessi e Prof. Kostas Chatzikokolakis

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

Introdução Anonimização Estado da Arte Resumo

Agradecimentos

Obrigado pela atenção!

ghn@nunesgh.com Rnunesgh.com/sobre ®

Privacidade e Transparência na Publicação de Dados Universidade Federal de Minas Gerais

top related