big data : vers une nouvelle science des risques ? serge abiteboul inria et ens cachan conseil...

18
Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data et science des risques 1

Upload: franck-dubost

Post on 03-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

1

Big data : vers une nouvelle science des risques ?

Serge AbiteboulINRIA et ENS Cachan

Conseil national du numérique et Académie des sciences

Big data et science des risques

Page 2: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

2

Organisation

• Big data en bref• Big data : mythe et réalité• Exemple : la santé (une vision d’ignorant)

Big data et science des risques

Page 3: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

3

Big data en bref

Big data et science des risques

Page 4: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

4

Le Big Data

• Le big data ou La data– Data ce n’est pas pluriel ?

• En français : Grosses données – Moins glamour ?

Big data et science des risques

Page 5: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

5

Crash course en Big Data• La société moderne génère des volumes de données infernaux

– Double tous les 18 mois• Ces données ont une valeur considérable

– Santé, science, environnement, sécurité, transport... • Le « Big data »: croiser les données

– Très structurées et propres d’une entreprise/organisation– Avec la masse de données moins structurées/plus sales du Web

• Des données personnelles (comme des emails)• Des données de réseaux sociaux• Et des flux de données (générées par ex. par des senseurs)…

• Valoriser ces données• Découvrir de nouvelles connaissances • Offrir de nouveaux services

Big data et science des risques

Page 6: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

6

Crash course: tâches principales• L’analyse de données – Un vieux problème• Tâches principales

– Acquisition : aller chercher les données, e.g., outils ETL – Intégration : e.g., transformer dans un schéma unique, aligner les données– Nettoyage : e.g., éliminer les réplicas, résoudre les contradictions, gérer les

données manquantes…– Crowd sourcing: interagir avec des humains pour obtenir des données,

résoudre les contradictions…– Interrogation : requête, souscription, visualisation– Analyse statistique : frequent item set…

• L’analyse de données ne répond pas à des problèmes souvent complexes– Fouille : quelles sont les questions intéressantes ?– Utilisation : comment utiliser ces données ?– Etc.

Big data et science des risques

Page 7: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

7

Difficultés

• Taille des données : c’est Big ! Téraoctets, plus• Hétérogénéité: structures, ontologies, multilinguisme…• Vélocité: importance du temps, taux de changement/d'arrivée…• Espace : localisation• Protection des données : données privées, réglementation…• Qualité: erreurs, incomplétude, confiance, • Et encore de la qualité: provenance, fraicheur...

• Et la complexité : un algorithme en n3 sur un milliard d’enregistrements reste hors de portée même avec mille machines…

Big data et science des risques

Page 8: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

8

Pour tuer quelques idées reçues

• La grande mode est au parallélisme massif style Hadoop– Super techno venue des moteurs de recherche– Ne marche que sur les problèmes très parallèles– Technologie encore assez bas niveau (ça s’améliore)

• Évidemment, – Ça impressionne (de moins en moins)– C’est fun

• Mais si « votre data est Big » et si vous recherchez l’efficacité, interrogez vous :– Vos données sont-elles vraiment Big ?– Ne suffirait-il pas de gonfler votre machine en RAM/en SSD ?– Peut-on réduire la dimension en échantillonnant ?

Big data et science des risques

Page 9: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

9

Big data : mythe et réalité

Big data et science des risques

Page 10: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

10

Big data – Le mythe

On va résoudre les problèmes de l’humanité– On a plus en plus de données bientôt toutes les données– Un coup d’algo et on va résoudre le cancer, la pauvreté,

etc.

En analysant ces données, nous pouvons faire des prédications de plus en plus fines… mais– Cela reste des statistiques – Limites dues à la complexité en la taille des données– Et évidemment une énorme place au hasard

On va sûrement résoudre des problèmes… MaisBig data et science des risques

Page 11: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

11

Big data – La réalité

Ce qu’on observe surtout pour l’instants

1. Les sociétés utilisent des données privées– Pour des buts commerciaux – principalement pub ciblées– Plus il y a de données, plus ils gagnent d’argent

2. Les états utilisent des données privées– Pour se protéger du terrorisme– Pour surveiller leurs citoyens (surtout dans certains pays)– Plus il y a de données, plus l’état est puissant

Big data et science des risques

Page 12: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

12

Et si on utilisait cette techno pour résoudre de vrais problèmes

Prévoir et mieux y répondre • À des crises sanitaires • À des problèmes d'environnement• À des catastrophes naturelles • …Aider à résoudre les problèmes de• Santé, transport, pauvreté, • …Organiser un suivi personnalisé• Des personnes en difficultés• Des personnes âgées• Des élèves en difficulté• …

Big data et science des risques

Page 13: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

13

Exemple : la santé (une vision d’ignorant)

Big data et science des risques

Page 14: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

14

Les soins personnalisés• Toutes les données

médicales de la personne– Son génome

• Toutes ses données sociales• Soins personnalisés• Mesures prédictives

Les polices personnalisées• Plus chères pour les

personnes à risque• Personnes « trop » à risque

non assurées • Mutualisation des risques

de plus en plus limitée

C’est la même science qui rend ça possibleQuel monde souhaitons-nous?

Big data et science des risques

Exemple : La santé

Page 15: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

15

Problème : les données personnelles

• Mes achats, ma géolocalisation, mes courriels…• Mes données médicales, fiscales, assurances… • Mes données dans les réseaux sociaux…

– Peut-être celles de mes amis• Mes données génomiques

– 23andMe: pour 99$ séquencement de votre génome et publication sur le Web

Et ma vie privée ?

2 exemples de problèmes récents :– Instagram et revente– Facebook et embauche

Big data et science des risques

Page 16: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

16

Les données personnelles appartiennent à la personneLes entreprises/états n’en sont que les dépositaires temporaires

Une religion personnelle

• À qui appartiennent mes données ?

Big data et science des risques

Page 17: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

17

Comment pouvoir faire quand même des statistiques ?

• L’anonymisation des données– En garantissant l’anonymat de chacun - compliqué– Par exemple, « differential privacy »

• Le propriétaire des données a le droit de choisir ce qu’on fait de ses données– Condition d’utilisation– Durée

• Responsabilité légales de ceux qui détiennent ces données

Big data et science des risques

Page 18: Big data : vers une nouvelle science des risques ? Serge Abiteboul INRIA et ENS Cachan Conseil national du numérique et Académie des sciences Big data

18Big data et science des risques