révolu’on big-data: info ou intox? le point de vue du stas ... · o assistants virtuels (de...

Révolu'onBig-Data:infoouintox?Lepointdevuedusta's'cien

LaurenceReboul(AMU-I2M)

SemaineData-SHS

BigData:unerévolu'onenmarche!LesBigDatadanslapresse

Unbuzzmédia,que…

Sur(le(site(du(CNRS(

04/03/14 12:30Big Data, la déferlante des octets | CNRS le journal

Page 1 sur 10file:///Users/Mokrane-CNRS/Desktop/Big%20Data,%20la%20déferlante%20des%20octets%20%7C%20CNRS%20le%20journal.webarchive

Donner du sens à la science

Suivre

Rechercher Se connecter / S'inscrire

Types

VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE

MES THÈMES

Partager l'articleRechercher

[Src: Bouzeghoub, Mastodons: Une approche interdisciplinaire des Big Data]

25

Et(ailleurs(

41!


25

Intervenant l mentions légales.

P. 33

l CNRS - MI

NEEDS

[Src: Bouzeghoub, L’exploitation scientifique des donnees]

25

Introduction Principes mathematiques Le Big Data

Croissance du monde numerique

BigData:unerévolu'onenmarche!Quelqueschiffres

Unemassededonnéesencroissance…

v  Selonunrapportrécentdelacommissioneuropéenne,lemondegénèrechaqueminute1,7millionsdemilliardsd’octetsdedonnées,soitl’équivalentde360000DVD,etlesentreprisesquibâ'ssentleursprocessusdécisionnelsenexploitantcesdonnéesaccroissentleurproduc'vité(Besseetal.,2016).

v  L'espècehumainegénèreendeuxjoursseulementlamêmequan'tédedonnéesquiaétégénéréeentre

sonappari'onsurTerreetl'an2003(Netyscom,«BusinessSolu'ons»,janv.2017)

²  Twi`ergénèrequo'diennement7téraoctetsdedonnéesetFacebook10téraoctets.²  LeRadiotélescopegéant«SquareKilometreArray»prévupour2024devraitgénérer7000téraoctets

dedonnéesbrutesparsecondes.v  Laproduc'ondedonnéesnumériquesdoubletousles3ans,depuis1980.

Unitédemesures:Unkilooctet(Ko)=milleoctets-quelquesKo,c’estlepoidsd’unsimplefichiertexte

Unmégaoctet(Mo)=unmilliond’octets-unCD-Romfait650MoUngigaoctet(Go)=unmilliardd’octet-latailled’uneclefUSBvarieusuellementde1à8Go,aumieux256Go

Untéraoctet(To)=millemilliardsd’octets-lacapacitédestockaged’undisquedurperformant.


Toujoursplusderichessegénérée…

²  210Md$:CAannueles'médumarchémondialduBigDataen2020=PIBduPortugal

²  57Md$:CAgénéréen2017parlesfournisseursdeservicesBigDatadanslemonde

²  1,2Md$:avantagecompé''fgénéréd’ici2020parlesentreprisesu'lisatrices

Desinves,ssements…²  Projec'onà2020desmontantsdes

inves'ssementsdesprincipauxsecteursayantmassivementadoptéleBigData:

–  Industrie16,4Md$,–  Finance15,4Md$,–  Venteaudétail8,2Md$.

InfographieissuedusalonBigDataParis,mars2019(Corp)

•  l


Denouveauxbesoinsdeforma,ons…

²  Ilfaudraformerenviron130000spécialistesdeladatapourrépondreauxbesoinsdesentreprisesd’ici2020

²  Forma'onsniveaumasterouvertesetsalairesd’entréeenFrancedepuislelancementduPlanBigDataen2014(Corp)

… etde«nouveaux»mé,ers

LeBigData:c’estquoi?Originedesdonnéesmassives

Unerévolu,onculturelle:ladigitalisa,ondumonde…L’existenceetletraitementdesBigDataontétérenduspossiblesparunesériedechangementstechnologiques.

v  Développementd’internet

•  denombreusesac'vitéshumainespeuventyêtreenregistrées

v  Mul'plica'ondescapteursdetoutesorte,etinforma'sa'oncroissantedesorganisa'ons

•  onpeutdisposerd’informa'onsprécises,récurrentesetmassivessurd’innombrablespra'ques.

v  Augmenta'ondelapuissancedesordinateursetappari'ondenouvellesméthodesdetraitement

•  Ilestpossibledelesstockeretdelesanalyser.

Aucunedéfini,onréellementconsensuelle…

•  l

[email protected] – University of Geneva – KEYSTONE Summer School – © July 2015 - 7

[Picture from: http://www.intel.com/content/www/us/en/communications/internet-minute-infographic.html]

Data communication

© Copyright attached

[email protected] – University of Geneva – KEYSTONE Summer School – © July 2015 - 6

A digital world

© Copyright attached

LeBigData:c’estquoi?Originedesdonnéesmassives

Lebigdata:uneinfimepar,edanslamassedesdonnéesnumériques(aveclequelilestsouventconfonduàtort…)

Importancedifféren'elledesdifférentessourcesdedonnéesnumériques.NB:Laplupartdesques'onnairesenlignenedépassentpaslemillierd’individus,etbeaucoupdedonnéesissuesdel’internetpeuventêtretraitéessurunordinateurclassique.Leplussouvent,c’estaussivraidesarchivesetdel’opendata.

Ø  Donnéesdel’internet:•  «Traces»laisséesviauneac'vitésurleweb

Consulta'ondesites,discussionssurlesréseauxsociaux,espacesdestockageenligne,ou'lscollabora'fs,…

•  Opendata(encroissance),donnéesproduitespardescollec'vités,servicespublics,entreprisesmisesdélibérémentàladisposi'ondupublic,réu'lisablesetpartageableslibrement

-Donnéesouvertesgouvernementales(ex:data.gouv.fr),quiperme`entl’accèsàdel’informa'onper'nentesurlesmarchésdupays.Autresexemples:OpenBiomedicalOntologies(GO,..),data.sncf.com,h`ps://data.oecd.org/fr/-  laWorldWideWebFounda'onpublieunOpenDataIndexperme`antdeclasser

lespayslesplusperformantsdansladiffusiondeleursdonnées(n°1=Etats-Unis)

Ø  Donnéesproduitespardesorganisa2ons-administra'ons,entreprises,associa'ons-danslecadredeleurfonc'onnement -  donnéesclients,fournisseurs,donnéestransac'onnelles,donnéesdeproduc'on,

employés,résultatsfinanciers,détailsdel’ac'vitédesservices,etc..-  Donnéespropriétairesetrarementdisponiblesenligne

Ø  Archivesdigitales(encroissance):ini'alementnonnumériques,maisquiontétéconver'esEx:Laculturométrique(étudeducomportementhumainetdestendancesculturellesvial'analysequan'ta'vedetextesnumérisés)s’appuiesurcegenredematériau.

Ø  Donnéesdecapteurs Ex:smartphones,cartesdetransportencommun,objetsconnectés

Ø  Donnéesissuesdeques2onnairesauto‑administrésEx:GreatBri'shClassSurveyenGBsurlesclassessociales(Savageetal.,2013).160000personnesinterrogéesentre2011et2013.

LeBigData:c’estquoi?Essaisdedéfini'on

Unepremièredéfini-ondesBig-Data…

«Lebigdata,li`éralementgrossesdonnées,oumégadonnées,parfoisappeléesdonnéesmassives,désignentdesensemblesdedonnéesquideviennenttellementvolumineuxqu’ilsendeviennentdifficilesàtravailleravecdesou'lsclassiquesdeges'ondebasededonnéesoudeges'ondel’informa'on.»(Wikipédia)NB:Défini'ontropvague:l’insuffisancedescapacitésdetraitementetstockagen’estpasunproblèmefondamentalementnouveau.

Qu’estVce(qu’une((très(grande)(masse(de(données(?(

VLDB

XLDB

Big Data

Very Big Data

Massive Data

Data Deluge

Grandes Conf du domaine: VLDB, XLDB, ICDE, EDBT, …


26


Unedeuxièmedéfini-on:Les3,4,…5V

Ø  Valeur:concernelaprobléma'qued’iden'fierdesinforma'onsper'nentesdanslamassedisponibleetdelesvaloriser

Ø  Volume:grandnombred’individuset/oudevariablesstat.Enpra'que,desdonnéesdeviennentmassiveslorsqu’ellesexcèdentdeuxseuilstechnologiques:

•  lacapacitédelamémoirevive(RAM)del’ordinateur (quelquesgiga-octets)

•  Lacapacitédestockagedudisquedurdel’ordinateur (quelquestéraoctets)

Ø  Variété:faitréférenceà•  Différentsformatsdedonnées

Image,texte,fichier,graphe,signalaudio,vidéo,mélangedetelsformats(exdonnéesmédicales)

•  Donnéessouventbrutesetnonstructurées(stockéessansformatprédéfini)Exdedonnéestextuellesnon-structurées:ensembledecourriels,présenta'onsPowerPoint,documentsWord,detextesissusdecollabora'onoudemessagerie

Ø  Vélocité:l’acquisi'on,lamiseàjouretletraitementdes

donnéesdoitsefaireen(quasi)con'nuEx:Donnéesboursières,tweets(plusde500emis/sec)

Ø  Véracité:concernelafiabilitéetlacrédibilitédesinforma'onscollectées.Renvoieaufaitqu’ilestdifficiledejus'fierl’authen'citédescontenus.


Quelquesexemplesconcretsdedonnéesmassives…o  Donnéesgénomiques:plusde500000micro-réseauxmisàladisposi'ondupublic,chaqueréseau

contenantdesdizainesdemilliersdevaleursd'expressiondemolécules

o  Donnéesd’IRMf:desdizainesdemilliersdetéraoctetsd'imagesproduitesparrésonancemagné'quefonc'onnelle(IRMf),chaqueimagecontenantplusde50000valeursvoxel(pixel3D)

o  Donnéesd’Astrophysique:lerécentLSST(LargeSynop'cSurveyTelescope),télescopeterrestreéquipéd’unecamérade3200Mégapixelsenregistre30Téraoctetsdedonnéesparnuitrela'vesàdesmilliardsd’objetsobservéssoustouteslescoutures

o  Donnéestextuelleso  Donnéesfinancièreso  Donnéesissuesdesréseauxsociauxo  Relevésonlinedetransac'onsdeventesélectroniques,o  Donnéesdevidéosdesurveillanceo  Tracespersonnellesdecapteurso  …….

LeBigData:c’estquoi?BigDataetalgorithmes

Desdéfini-onsplusrécentesassocientlesBigDataauxalgorithmescapablesdelestraiter,relevantdu«machinelearning»

²  Algorithme:«Unalgorithmeestunensemblederèglesetd’instruc'onsécritesenvued’obtenirunrésultat.Unereceèdecuisineoubienunepar''onmusicalesontdesalgorithmes»(P.Bertailetal.,2019)

Lesalgorithmespermeèntd’automa'serdestraitementsrépé''fsàgrandeéchelle,detrieret/oudeclasserdescentainesdemilliersderésultats,deprévoirdesdécisionsfuturesaprèsavoirexaminédesmillionsdedécisionspassées,deformulerdesrecommanda'ons,etc.²  Machinelearning(appren'ssagemachine/appren'ssageautoma'que):lesalgorithmesdemachine

learningconsistentà«apprendre»àunordinateuràiden'fierautoma'quementdes«paèrns»(règlesmathéma'ques)danslesdonnées,ens’entraînantàpar'rd’exemples(donnéesd’entraînement),puisàappliquercesrèglesàdenouvellesdonnéesàdesfinsdeprévision.

-  Brancheini'alementissuel’intelligencear'ficielle(e.g.réseauxdeneurones).Lesparadigmesdu

machinelearningontétéélaborésengrandepar'eilyaplusd’undemisiècleenIA.

-  Relèveaujourd’huidudomainedelasta's'que,del’informa'queetdesmathéma'ques.Lesméthodesdemachinelearningissuesdelasta's'que(sta,s,callearning)ontétéintroduitesparVapnik(1999)etpopulariséesparHas'eetal.(2001).


Quelquesapplica,onsinnovantesdesalgorithmes….

o  Economie,finance:Prédic'onentempsréeldel’évolu'ondesprix,detendancesboursières,etc.

o  Santé:Diagnos'cmédicalautoma'sé,médecinepersonnalisée,opéra'onsassistées,prédic'ond’épidémiesetdemaladies(ex:Googleflue)

o  e-commerce:publicitéciblée,Recommanda'ondeproduits(surNezlix,Amazon,etc.)

o  Banque,assurance:Détec'ondefraudes,creditscoring,etc.

o  Industrie:Maintenanceprédic'veàpar'rdecapteursdesignauxfaibles(pouravions,forages,etc.)

o  Jus,cecriminelle:Policeprédic've,aideàladécisionjudiciaire(ex:algorithmesPredPol,Compas)

o  Educa,on:Cartescolaire,orienta'onscolaire(ex:parcoursup)

o  Transport:Op'misa'ondutransportàpar'rdedonnéesentempsréeldutrafic)

o  Assistantsvirtuels(dereconnaissancevocale– Siri,Alexa;agentsconversa'onnels– Chatbots)

o  Cyber-sécurité(détec'ondecybera`aquesetdepiratages,etc.)o  Voitureautonome

o  Villeintelligente

•  l

Statistique et société, Vol. 2, N° 4 décembre 2014www.statistique-et-societe.fr | © Société Française de Statistique (SFdS)16

Figure 1 : Sept cas d’usage des « BigData »

S&S : Faut-il pour caractériser le BigData faire des distinctions entre les différents types de données ? Les données structurées, les « traces » qu’on laisse sur Internet, les données textuelles, etc. ?

AL : Il y a bien entendu de grandes différences du point de vue des techniques de traitement des données. Par exemple, lorsqu’on a affaire à des données issues du recueil de formulaires administratifs, les matrices « observations-variables » sont bien remplies, il y a en général peu de valeurs manquantes ; alors que, lorsqu’on utilise les traces laissées sur Internet par les consommateurs pour concevoir un système de recommandation de produits, la matrice « individus x produits » est très « creuse », et cela appelle des techniques de traitement particulières. En matière de traitement des textes, c’est pareil : le « text mining » existe depuis longtemps, mais le traitement des textes spontanés, récupérés sur des forums par exemple, pose des difficultés nouvelles. Il y a un foisonnement de recherches là-dessus pour mettre au point des algorithmes adaptés. Cela dit, ces différences ne me semblent pas être au cœur de la caractérisation du phénomène « BigData ».

S&S : : La statistique publique est-elle menacée par l’émergence du « BigData » ?

AL : Qu’est-ce qu’on attend de la statistique publique ? Qu’elle produise des chiffres sûrs, selon des méthodologies éprouvées, en respectant des principes clairs. Personne ne va s’amuser à lui faire de l’ombre sur ce terrain. La contrepartie est un certain manque d’agilité. Si des initiatives issues du BigData peuvent lui porter tort, c’est dans un domaine bien particulier, celui de la création d’indicateurs économiques avancés à partir de données captées « dans la vraie vie » à


EtquelquesbouleWes…o  COMPAS(2000-…):Unalgorithmepeut-ilprédirelerisquede

récidived’undétenus?

•  Lesalgorithmesprédic'fssontu'lisésdepuisquinzeansparlajus'ceaméricainecommeaideàladécision.

•  LelogicielCOMPAS(Correc'onalOffenderManagementProfilingforAlterna'veSanc'ons)estu'liséenfindeprocédurepénalepourévaluerlerisquederécidive,envuededéciderderemisesenlibertécondi'onnelle.

•  Ledétenu(encollabora'onavecuntravailleursocial)doitrépondreà137.Lelogicielendéduitunscorede«dangerosité»comprisentre1et10.

•  L’ar'cle«Machinebias»dusiteProPublica(Angwinetal.,2016)accusecescored’êtrebiaisé:lesNoirssontdeuxfoisplussuscep'blesquelesBlancsd’êtreconsidérésà«hautrisque»derécidiveparl’algorithme,alorsmêmequ’ilsnerécidiventpas.

•  L’entrepriseNorthpointequidé'entCompas

considèrequesonalgorithmeestunsecretcommercial:nilajus'cenilesaccusésnesontautorisésàexaminerlaformulemathéma'queu'lisée.

•  RécidivedeB.Parker=0


o  Google-FluTrends(2013-2015):Prédic'ondel’épidémiedegrippe

•  GoogleFluTrends(GFT)estunalgorithmebasésurlafréquencedemots-clefsassociésauxsymptômesgrippauxtapésdanslemoteurderechercheGoogle:toux,fièvre,médicamentscontrelatouxetlafièvre

•  Beaucoupplusréac'fquelesanalysesfaitesparlescentresdesanté,ildoitperme`rederepérerentempsréeldeszonescontaminéesàpar'rdesrequêtes.

•  En2013,lelogicielaétéàl'origined'unefausse

alerteàNewYork.

•  Selonunar'clepubliéScienceenmars2014,l’algorithmeavaitsures'méde140%lepicd'épidémiepourl'ensembleduterritoireaméricainsurlasaison2012-2013.

•  GoogleFluTrendsaétére'rédepuis2015.

•  Googlen'ajamaisrendupublicslestermesderechercheu'lisésdanslaGFT,etiln'yaaucunmoyenpourleschercheursd’enreproduirelefonc'onnement.

LEBIGDATAc’estquoi?

o  Algorithmederecrutementd’Amazon(2015-2018)

•  L’algorithmeétaitdes'néàexaminerlesdemandesd'emploietàdonnerauxcandidatsunenoteallantdeuneàcinqétoiles.

•  L'entrepriseyarenoncétroisansplustardaprèsavoirdécouvertunefaillemajeuredanslesystème:iln'aimaitpaslesfemmes.

•  EntraînésurlabasedesCVreçusparlegroupesur

unepériodededixans,quiétaientpourlaplupartceuxd’hommes,refletdelaprédominancemasculinedanslesecteurdesnouvellestechnologie,lesystèmeenestvenuàdéduirequelescandidatsmasculinspourcespostesétaientpréférables,cequil’amenaitàrejeterlescandidaturesoùfiguraituneréférenceaux«femmes»,commedanslaphrase«capitainedeclubd’échecsféminin».

L’analysedesBigDataDesdéfisàrelever

Larévolu-ondesBigdataetdesalgorithmes:entreenthousiasme…

«Ce`eintelligencear'ficielledontlechampd’applica'ons’étenddésormaisdudiagnos'cmédicalàlavoitureautonomeetàladistribu'ond’énergie,pourneciterquequelquesexemples,estaujourd’huiaucœurdepréoccupa'onsindustriellesetpoli'quesmajeures»

(C.Villani,2018).….Etinquiétudeso  Lesalgorithmesd’appren'ssagedesontdeplusen

plusdiscutésetcontestés.

o  Lesprojetsu'lisantlesBigDataetleursalgorithmessontmajoritairementcontrôléspardessociétésprivéesetpeuventêtredélibérémentopaques.

o  Ce`eopacitésoulèvedesques'onséthiques

d’autantpluspressantesquel’usagedesalgorithmesdansnosviespersonnellesestgrandissant:

•  confiden'alitédesdonnéesàlabasedesalgorithmesd’appren'ssage,

•  entraveàlaconcurrence,•  transparenceouapplicabilitédesdécisions,•  risquesdebiaisdiscriminatoiresenversdesindividus

ougroupessensibles.

CathyO’Neil(2016):unalgorithmen’estenréalitéqu’une«opinionintégréeauxprogrammes»

LerapportdelacommissionVillaniappelleà«ouvrirlesboîtesnoires»del’IAetconsidèrequ’ils’agitd’unenjeudémocra'que.Undéveloppementinéluctablequ’ilfautsavoirdémys-fieretencadrerP.Besseetal.,2019:«Abordersérieusementcesques'onsnécessiteàlafoisdesérieusescompétencestechniques,afindecomprendrefinementlefonc'onnementdesalgorithmesetdegarderunregardcri'quesurlediscoursquilesentoure,etuneexper'sejuridique,sociétaleousociologique,voirepoli'queouphilosophique.»HG.Wells:«Lejugementsta's'queseraunjouraussinécessaireàl’exercicedebasedesfonc'onsducitoyenquelacapacitédelireetd’écrire.»


Quefaireànotreéchelle?•  IlincombeauxchercheurslaresponsabilitédecomprendrelesenjeuxdesBigData

etdeleurtraitement,deveilleràlabonneu'lisa'ondesméthodesd’analyse•  Celapeutêtreaussiuneopportunitédansnospra'quesderecherche

Exemples:-  Observerdescomportementsindividuelsàlaloupevialesdonnéesde

capteursouréseauxsociaux(ex:compréhensiondespra'quesdemobilitésurunterritoire)

-  Produiredesindicateursàunegranularitéplusfine-àl'échelled'unterritoire,surdessous-popula'onsoucertainsmarchés(ex.u'lisa'ondedonnéesdecaissepouraméliorerlaprécisiondel'indicedesprixàlaconsomma'on)

-  Explorerlesstructurescachéesdechaquesous-popula'ondedonnées,ycompriscellesquisontrarementobservées(ex:compréhensiondemaladiesrares,…)

LaTGIRHuma-Numdéveloppeundisposi'ftechnologiquequipermetd'accompagnerlesdifférentesétapesd’unprojetderechercheàl’airedunumérique.Ellemetàdisposi'onunensembledeservicespourlestockage,letraitement,lepartage,la

diffusionetlaconserva'ondesdonnéesnumériquesdelarechercheenscienceshumainesetsociales.


Untourd’horizondesdéfisqueposentlesBigDatapourl’analysededonnéesA-Lesdonnées:ü  Accessibilité:Cesdonnéessontellesaccessibles?Aquelprix?ü  Qualité:Sont-ellesdessourcesfiables?Comments’enassurer?B-Leurtraitement:ü  Défiseninforma'que:qu’enest-ilducoûtinforma'quepourstockeretanalyserces

données?Quellessolu'ons?ü  Défisensta's'que:Quellessontleslimitesdesméthodesd’analysetradi'onnelles?Quelles

solu'ons?ü  Lanaissancedela«DataScience».

C-Exploita'ondesrésultats:ü  Equitéetloyautédesalgorithmesü  Lagouvernancedesdonnéesetdestraitements

Données Traitement Résultats

LesdonnéesAccessibilité

²  Lesrestric2onscommerciales•  LesdétenteursdedonnéesBigData(ounumérisées)nesontpluslesfournisseurshabituels(sta's'que

publique,etc..)•  Laplupartdesdonnéessontlapropriétéd’acteursduprivé,pourlesquelsellescons'tuentdesressources

compé''ves.

–  Dépendancevis-à-visdesplateformesprivéespourl’accèsàdesdonnéesexploitables–  Nécessitesouventlasignaturedepartenariatsetdémarchesadministra'vesfas'dieuses–  Risquedemarchandisa'on

A l'aidede sonapplica'onPa'entTruth, la startupEmbleemaproposede réunir lesdonnéesde santé (dossiermédical, résultatsd’analysesmédicales,donnéesdecapteurFitBit,etc.)despa'ents,souventdisséminéesentreplusieursacteurs,surunemarketplaceetauxpa'entsdelesmoné'serentoutetransparencegrâceàuneblockchain:lorsquelepa'enttéléchargeoufaittéléchargerunepar'edesesdonnéesdesanté, il reçoitde lacryptomonnaie ; l'u'lisateurestencouragéà inciterd'autrespa'entsàrejoindre laplateformegrâceàuneprimed'environ20dollars;lesacheteursdedonnées(laboratoirespharmaceu'ques,compagniesd’assuranceetc.)réalisentdespaiementsencryptomonnaie,dontunepar'eestreverséeauxpa'ents.


²  Lesrestric2onsjuridiques(RèglementGénéralsurlaProtec2ondesDonnées,2018)•  LaRGPDassureuncontrôlerenforcésurlesdonnéespersonnelles:consentement,exigencede

compréhensiondestraitementseffectuésetdesdécisionsissuesdecestraitement.

•  NouveautédelaRGPD(ar'cle89):régimedérogatoirepourlesac'vitésderecherchescien'fique,des'néàfaciliterlestraitementsdedonnéespersonnellesetàoffriràlarecherchepubliquedesgaran'espourassurersonindépendance:lesdonnéespersonnellespeuventêtreréu'liséàdesfinsd’intérêtpublicoulégi'me(exconstruiredesrecherchesenpartenariat).Restric,ons:

–  Nes’appliquepasauxdonnéessensibles(donnéesdesanté,raciales,sexuelles,poli'ques,religieuses),saufexcep'onsexplicitementlistéesdanslarèglementa'on(e.g.aprèsconsentementdelapersonne,donnéesrenduesmanifestementpubliquesparlapersonneconcernée,intérêtpublicimportant,sauvegardedelaviehumaine).

–  Lesrésultatsd’analysedoiventêtrereproduc'bles(problèmeconséquentdansuncontextededonnéesmouvantes)

LescandaleFacebook-CambridgeAnaly'ca:fuitedesdonnéespersonnellesde87millionsd'u'lisateursdeFacebook,quelasociétédeprofilagepoli'queCambridgeAnaly'ca(CA)avaitcommencéàrecueillirdès2014.Cesinforma'onsontserviàinfluencerlesinten'onsdevotesenfaveurd'hommespoli'quesquiontretenulesservicesdeCA.


²  Lesrestric2onstechniques2principauxmodesd’accèsauxdonnées:•  U'lisa'ondesAPI’s:certainssitesetplateformesmeèntàdisposi'ondupublicdesinterfacesde

programma'on(API’s)grâceauxquellesunusagerextérieurpeutaccéderàcertainscontenusdansdesformatsstructurésetréu'lisables(ex:l’APIdeTwièrpermetd’envoyerdesrequêtesàlabasededonnéesenfonc'ondestweetsàcollectersurlabasedemots-clés-hashtag-,d’iden'fiantsd’u'lisateursoud’autresvariablescommelalocalisa'ongéographique).Limites:

–  Restric'onscommerciales,juridiques(ex:Twièrarestreintl’accèsàsabase,TripAdvisormetsonAPIàdisposi'ondes

établissementsdetourismemaisexclutsonu'lisa'onàdesfinalitésderecherchescien'fique)–  Biaiséventuelsdusauxcaractéris'quesdesAPI’s–  Difficultésdefiltrage:l’applica'ondefiltrespermeàntderestreindrelepérimètreauthèmequel'onsouhaiteanalyser

estuntravailconséquentsionveuts'assurerdelaper'nenceducontenuquel'onanalyse.

•  Appren'ssageetu'lisa'ondelogicielsspécialisésd’acquisi'ondedonnéesnonstructurées:

–  Webcrawler:logicielquiparcourtetindexeleWebafind’enétablirlacartographie.–  Scraper:logicielquiaspirelesélémentscons'tuantsd’uneouplusieurspagesweb-contenugénéralementnonstructuré-

etlestransformeendonnéesstructuréesfacilementexploitables.–  ETL(Extract-transform-load)(oudatapumping):technologieinforma'quepermeàntd'effectuerdessynchronisa'ons

massivesd'informa'ond'unesourcededonnées(basededonnées,..)versuneautre,pourensuitelesrestructurer,etenfinleschargerdansunDataWarehouse.

LesdonnéesQualité

Danslesétudesclassiques(nmodéré)Ques,onsposéesex-ante:Quesouhaitons-nousmesurer?Commentcapturerl’informa'on?

–  Donnéescollectéesautraversd’enquêtes,–  afind’obtenirdesréponsesàdesques'ons

définiesàl’avance,–  enfonc'ond'unobjec'fprécis,–  surdeséchan'llonsreprésenta'fs(ounon)

d’unepopula'onbiendéfinie.

Permetl’élabora'ondeplansexpérimentauxvisantàcontrôlercertainsbiaiséventuels.

Al’aireduBigData(ngrand,sen-mentd’exhaus-vité)Ques,onsposéesex-post:Quellesdonnéesexistent?Quepeut-onenfaire?

–  Donnéesgénéréesautoma'quement(traces),Condi'onsdecollectegénéralementinconnues,

–  nonspécifiques(nonproduitespourlesbesoinsd’uneétude),

–  pasdebutpréétabli,–  nonconçuespourêtredeséchan'llonsprobabilistes,

pasdepopula'onderéférence.Pasd’harmonisa'onnidecontrôledesbiais

Conclusion:«Garbagein,garbageout»:peut-on'rerquelquechosedebondecesdonnéesenl’absencedeconnaissancessurleurscondi'onsd’acquisi'onetdecontrôle ?

LesdonnéesQualité

²  Quelquesbiaiscourants…•  Donnéessales

–  unepar'edesdonnéesn’estpasper'nentespourl’étude,necorrespondpasdirectementauconceptquel’onsouhaitemesurer.

–  Cequel’onmesurenepermetpasdedéfinirclairementl’unitésta's'que(ex:plusieurspersonnespeuventseservird’unmêmetéléphone)

•  Biaisdesélec'on

–  lescaractéris'quesdel’échan'llonsontdifférentesdecellesdelapopula'onquel’onsouhaiteétudier Ex: Enquêtes en lignes de type Great Bri'sh Survey (sélec'on des u'lisateurs d’internet), u'lisateurs de téléphonie mobile (sous représenta'on de la popula'on la moins connecté), algorithme de recrutement d’Amazon (sur-représenta'ondeCVmasculinscompétents),etc.

•  Biaisderéponse

–  différenceentrecequel’onrépondetcequel’onfaitEx:commentairessurlesréseau,profilFB,parlentplusdelaréputa'onquelesgensveulentavoir

•  Noncomparabilitédesindicateursdansletemps

–  rupturesnonmaîtriséesliéesàdesmodifica'onsdeformat,decollecte,changementdecomposi'ondel’échan'llon,etc.

•  Biaisdelavariableomise

–  Touteslesvariablesnesontpastoujoursdisponiblespourproduirelesrésultats.–  Onpeutsouventtoutauplusrécupérerdesproxies

Ex:algorithmesderecrutement:sidescapacitéstellesqueleleadership,l’intelligenceémo'onnellenesontpasprisesencomptemaisqu’ellessontnéga'vementcorréléesauxrésultatsscolaires,onrisquedepénaliserlespersonnesavecdesrésultatsscolairesmoyens,maisquidé'ennentd’autrequalitésindispensables.

•  ………………..

LesdonnéesQualité

² …etquelquespistesdesolu2onso  Desprécau2onsdebase

•  Savoirexactementcequel’onveutmesurer-  Quellepopula'on?(popula'ondesinternautesvspopula'onglobale,..)-  Quelphénomène?(réputa'onvsfaits,…)

•  Sefaireuneidéeprécisedesbiaispoten'elsBall&al.(2011)étudientlaper'nencel’u'lisa'ondedonnéesd’appelstéléphoniquesfourniespardesvolontairespourdéduirelesdommagescausésauxbâ'mentsenHaï'aprèsletremblementdeterrede2010.Lessignauxd’appelsontdonnéuneimagetrompeusedesdommages:-  laproximitédesdommagesétaitfortement(néga'vement)corréléeaveclavolontéetlacapacitédes

gensàlessignaler.-  Laplupartdesrapportsd’appelstéléphoniquesprovenaientdezonesnonendommagées.

LesdonnéesQualité

o  NeOoyeretpréparerlesdonnées•  DataWrangling:processusquipermetàpar'rdesdonnéesbrutesdeles

structurer,lesne`oyer,lesenrichir,lesvalideretlestransformerdansunformatadaptéàl’analyse.

–  Vérifica'on,transforma'onséventuelles,sélec'ondesvariablesd’études,

imputa'ondedonnéesmanquantes.–  Metenœuvredesméthodesdeniveautrèsélémentaire(résumésta's'que

desdistribu'ons,etc.)àtrèsélaborée(,mewarping– algorithmeperme`antdemesurerlasimilaritéentredeuxséries-recalagedecourbesoud’images...)

•  Phaselapluslongueetfondamentalepourlaqualitédesrésultats

•  AprèsunbonneWoyageetlechoixjudicieuxdesdonnéesenfonc,ondesobjec,fsdel’étude,lesdonnéesnesontgénéralementplusmassives.

LesdonnéesQualité

o  Quan2tévsqualitédesdonnées:unessaideformalisa2ondubiaisdesélec2on(Meng,2018)•  P=popula'onfiniedetailleN•  Denombreusesquan'tésd’intérêtdelapopula'onpeuventêtreexpriméessousformed’unemoyenne

•  Es'ma'onsurunéchan'llonIndetaillen:R=mécanismederéponse,quisoustendlaqualitédesdonnéesExemplesdemécanismes:-Echan'llonnagealéatoireparfait(SRS):Inestchoisiauhasardetindépendammentdesobserva'onsdeG.-Echan'llonnagealéatoireavecnonréponses:lecaractèreprobabilistedeRdedépenddumécanismedenonréponse(MAR,NMAR,..)-Donnéesauto-déclaréesouenregistréesadministra'vement(fréquentenBigData):Rnonprobabiliste

Gn =1n

Gjj=1

n

∑ =

RjGjj=1

N

∑

Rjj=1

N

∑, Rj =1 si j ∈ In et 0 sinon, Rj

j=1

N

∑ = n, In sous-ensemble de taille n de {1, ..... ,N }

E(G(X)) =GN =1N

Gjj=1

N

∑ ;Gi =G(Xj ) ;Xj ∈ Rp = caractéristique des individus de P

LesdonnéesQualité

Erreurd’es,ma,on(enl'absencedebiaisderéponse),sousunmécanismeRdonné:

Ø  Quan'tédedonnées(DO,dépenddutauxd’échan'llonnage):f=1alorsΔ=0/f=0alorsΔinfinieØ  Difficultéduproblème(Du,dépenddelavariabilitédesréponses):σG=0alorsΔ=0;ΔaugmenteavecσGØ  Qualitédesdonnées(DI,dépenddelacorréla'onentreRetlesréponses):

–  E(ρR,G)=0enl’absencedebiaisdesélec'on(laprobabilitéqu'unevaleurpar'culièredeGsoitenregistréeoudéclaréenedépendpasdelavaleurelle-même).

–  SidesvaleursplusélevéesdeGontdeschancesplusélevées/moinsélevéesd'êtreenregistrées,alorsGnsures'me/sous-es'meGN.

Effetdel’augmenta,ondeNsurlaqualitéd’échan,llonnage(Designeffect):

–  Pourunmécanismeparfait:

–  Silaqualitéestmauvaise,l’erreuraugmenteaveclatailledelapopula'on!!

Δ =MSER (Gn ) = ER ((Gn −GN )2 ) = E(ρ 2R,G )

qualité des données!"# $# ×

1− ff

quantité de données!

× σ 2G

difficulté du problème! = DI ×DO ×DU

ρR,G = corrélation entre R et G, f = n/N=taux d'échantillonage σ G = écart-type de G

Deff = MSER (Gn )MSESRS (Gn )

= (N −1)DI

DI =O(N −1), MSESRS (Gn ) =O(1 / n), Deff =O(1)

LesdonnéesQualité

ConclusiondeMeng:•  L’idéeintui'vequetouteinférencesta's'ques'amélioreàmesurequelatailledel'échan'llon

augmente(loidesgrandsnombres,TCL)estfausse:ellen'estvalablequesil'onauncontrôlestrictdupland'échan'llonnage.

•  Onnepeutpases'merDIapriori(sansconnaissance/supposi'ondumécanismederéponseR).

•  Enempruntantdel'informa'onprovenantd'ensemblesdedonnéessimilaires,onpeutêtreenmesured'établirunevaleurpréalablepourDI,etd’obtenirunevisionplusclairedumécanismederéponsepouréventuellementcorrigerlebiaisdesélec'on.

•  Exempledel’élec'onaméricainede2016:

-  Lemonde,08/11/2016:«Elec'onaméricaine2016:Clintondonnéegagnanteparpresquetouteslesprojec'ons»

-  LegrandparadoxedesdonnéesaexacerbélebiaispourClinton:lessondagesn'ontpastenucomptedelapopula'onquiarefuséderépondreàlaques'on«Pourquicomptez-vousvoter?».LesgensquivoulaientvoterpourTrumpétaientunpeumoinsenclinsàrépondreàlaques'onquelespar'sansdeClinton,peut-êtreparcequ'ilspensaientque«cen'étaitpasuneréponsepopulaire».

LesdonnéesQualité

o  Quelquessolu2onspourcomprendre/contrôlerlebiaisdesélec2on

•  Iden'fierlesmécanismesdenonréponseenvued’u'liseruneméthodedecorrec'onappropriée

c.f.mécanismesMCAR,MAR,MNAR(Li`leetRubin,2002).

•  Compléterl’informa'onmanquanteConsisteàimputerlesdonnéesmanquantes(cf.Li`leetRubin,2002)parl’intermédiaired’unmodèlesta's'queapproprié(ajustéidéalementaumoyendedonnéesissuesd’unpland’expériencecontrôlé). Ex:imputa'on«hot-deck»:lesvaleursdespopula'onsmanquantessontremplacéesparlavaleurd’individusoula moyennedevaleursd’individusayantdescaractéris'quessimilaires.

•  RedresserlesdonnéesNécessited’es'merdesprobabilitésd’inclusion-requiertsouventderechercherdesvariablesauxiliairesetdestotauxdepopula'ondansdessourcesexternes. Ex:Pondéra'onparprobabilitéinverse(SeamanetWhite,2011).

•  U'liserleré-échan'llonnagepourrecréerdespopula'onsar'ficiellesressemblantàlapopula'oncible

Permetderépliqueroudesupprimercertainsindividus Ex:BagofLi`leBootstrap(Kleineretal.,2012).

•  U'liserdesmodèlesdesélec'onConsisteàconstruireunmodèlesurl’échan'llonperme`antdeprédireensuitesurlesunitéshorséchan'llon Ex:Méthoded’Heckman(Heckman,1979).

LesdonnéesQualité

•  U'liserdel’informa'onauxiliaireissued’autressourcesdedonnéesfiables(recensement,basesdedonnéesadministra'ves,enquêtes,etc.)Souventindispensablepourcomprendrelesmécanismesdebiais/sélec'onenjeu,calculeroumodéliserdespropensionsàrépondre/desprobabilitésd’inclusion.

Exemplesdetravauxillustra,fsensciencessociales:

Pestreetal.2016:U'lisedesCDR(enregistrementsdedétailsd’appels,listed'appelscomplètepour2013,fournieparOrange)pourétudierlesdéplacementsavantetaprèsunecatastrophenaturelle.-  AnalyseconjointedesdonnéesdeRecensementde2013duSénégaletdesCDRpourcomprendreetcorrigerlebiaisdesélec'on.

-  Contrôle:Es'ma'ondumodèlestandard:log(P)=α+βlog(N)+e.Sures'melatailledelapopula'onsurcertainesrégions.-  Recherchedevariablesresponsablesdece`esures'ma'on:rajoutdel’âgemoyendelarégion:log(P)=α+βlog(U)+γA+e-  U'lisa'ondescoefficientsderégressionpoures'merlatailledelapopula'onàdesniveauxadministra'fsinférieursetcomparaisonàlatailleréelle

donnéeparlerecensement-  «Lesrésultatssuggèrentqu'enajoutantcertainesvariablesexplica'vescommel'âgeàlarégression,nousrendonsnotrecapacitéd'extrapolerdespopula'onsà

desniveauxgéographiquesinférieursbeaucoupplusrobustesquedanslemodèlestandard.»

P=tailledelapopula'onpourunezonegéographiquedonnée(issudurecensement);N=nombred'u'lisateursdetéléphonescellulairescorrespondante(issudeCDR)A=âgemoyendelazone(issudurecensement)Zagheni&Weber,2012:Etudiedesmodèlesdemigra'onhumainebaséssur

–  desinforma'onsgéographiquesetdémographiquesissuesd’ungrandéchan'llondemessagesélectroniquesYahoo,–  destauxdemigra'onparâgepour11payseuropéens,recueillisparEurostat–  dessta's'quesinterna'onalessurlestauxdepénétra'onInternetparâgeetsexe.

Zagheni&Weber,2015:Examinelali`ératurequiu'liselesdonnéesInternetpourlesétudesdémographiquesetprésenteuncadregénéralpourtraiterleproblèmedubiaisdesélec'ondansleséchan'llonsnonreprésenta'fs.Deuxapprochesprincipalessontproposéespourréduirelebiaisselonquedesdonnées«auxiliaires»sontdisponiblesounon.

Quelquesréférencescomplémentaires:-Beresewiczetal.,2018-Imbertetal.,2019-Kim&Wang,2019

Traitement des Big Data Les défis informatiques

Lamajoritédeslogicielsdetraitementnécessitentlechargementenmémoiredel’ensembledesdonnées.Quefairelorsquecen’estpluspossible?

–  Donnéespastropvolumineuses:u'lisa'ond’unelibrairieperme`antuneextensionvirtuelledelamémoirevive(packagesBigmemory,ffsousR),deslibrairiesdemanipula'ondedonnéesadaptées(packagesdplyr,data.tablesousR),etéventuellementducalculparallèle(packageparallelousnowsousR,voirh`ps://cran.r-project.org/web/views/HighPerformanceCompu'ng.html).

–  Donnéestropvolumineuses:Lorsquelesdonnéesnepeuventplusêtrestockéesnitraitéessurunseulordinateuret/ouprocesseur

Unesolu2on:diviserpourrégnerü  partagedesressourcesdestockagedesdonnées:lamémoireestrépar'esurplusieurs

nœuds(cœursdeprocesseursouprocesseurs)-mémoiredistribuée.ü  partagedesressourcesdecalcul:uncalculestrépar'surplusieursnoeuds–calcul

distribué(ouparallèle)

calculparallèle=diviserungrosproblèmeensous-problèmesplustraçablesetindépendants,chacuntraitéparuneunitédetraitement.Lesrésultatsintermédiairesdechaqueunitésontensuitecombinéspourobtenirlaproduc'ontotale.

TraitementdesBigDataLesdéfisinforma'ques

Généralement,onu,lisedesclustersd’ordinateurs(ordinateursautonomesmisenréseau).Etunframework:infrastructuredeprogramma'onquisechargederépar'rlescalculsetlesdonnées.Propriétésrequises:•  fiabilité:toléranceàlapannedecertains

processeurs•  scalabilité(possibilitédepassageàl’échelle):

capacitéàaugmentersesperformanceslorsqu’onaugmentelenombredenœuds.

Uneréférence:Hadoop(frameworkécritenJava,développéenversionlibreparlafonda'onApache)

o  HDFS:sonpropresystèmedestockagedistribuéàauto-répara'on(duplica'ondesdonnées)

o  Lemodèledeprogramma'onMapReducedecalculparallèle(développéparGoogle)

NB:Rhadoop(développéparrevolu'onanaly'cs/microso�):ensembledepackagesd’interfaceavecHadoopsousR(enlocalouviaunclustervirtuelCloudera)D’autreslogicielsprome`eurs:Spark,MahoutSparkpalieauxtempsdecalculrédhibitoiresd’Hadooppourlesalgorithmesitéra'fs.NB:commepourHadoop,desversionsRexistent(Rspark).DesDéfis:ü  Programma'onMapreduce(cfmicrosolfRserver)ü  Infrastructurenécessaire(coût,etc..);cloudcompu'ng

TraitementdesBigDataLesdéfisensta's'queLeFléaudeladimension

Bellman,1961:The“curseofdimensionality”(nombredevariablespgrand)ü  Désignediversphénomènescontre-intui'fsquiontlieulorsquel'onchercheàanalyser

ouorganiserdesdonnéesdansdesespacesdegrandedimension.

ü  Liéauphénomènedesparsité(phénomènedel’espacevide):Lorsquelenombrededimensionsaugmente,lesdonnéesseretrouvent«isolées»etdeviennentéparses.

Exemplesdeproblèmes«sparse»:classifica'ond'images(p=millionsdepixels),detextes(p=unedizainesdemilliers),génomique(p=dizainesdemilliersdevaleursd'expressiondegènes)

Choix de modele et fleau de la dimension

Curse of dimensionality (Bellman)

Dans [0, 1]d, combien de points doit contenir une grille regulierepour que tout point ait un voisin de la grille au plus a distance 0.1 ?

d = 1 : 5 points0.1 0.3 0.5 0.7 0.9

d = 2 : 49 points

0.0 0.2 0.4 0.6 0.8 1.0

0.00.2

0.40.6

0.81.0

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

d = 10 : 976562500000 points

d = 20 : 976562500000000000000000000 points

Lesdéfisensta's'queLeFléaudeladimension

Ø  Imprécisiondeses2ma2onsExemple1:Construireunhistogrammeens’appuyantsur10pointsenmoyenneparintervalleet10classesparvariable.•  DansR(p=1):10classes,nécessiten=100

observa'ons

•  DansR2(p=2):100classes,n=1000

•  DansR10(p=10):1010classesn=1011observa'ons!!

Exemple2:Evolu'ondunombred’observa'onsnécessairesàl’approxima'ond’unedistribu'ongaussienneparunes'mateurànoyaugaussienenfonc'ondeladimensionpdel’espace.

Théorie:Es'ma'onnonparamétriqueengrandedimension.

•  Aucunes'mateurnepeutfairemieux•  L’erreurd’es'ma'on(plusprécisémentle

termedevariance)croîtavecp.

F = { f Lipschitz : [0,1]p →R},

inffnsup f∈F E f − fn

2

≥Cn−

22+p

2.4. Classification des données de grande dimension 37

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

1000

2000

3000

4000

5000

6000

7000

Dimension

N(p)

FIG. 2.7 – Nombre d’observations nécessaires à l’approximation d’une distribution gaussienne quel-conque avec des noyaux gaussiens fixés avec une erreur maximale de 10% (voir [84]).

introduisant la programmation dynamique. Le site (très controversé) books.google.com nous a permisd’avoir accès à la préface de cet ouvrage dont voici la partie la plus intéressante pour notre propos :

All this [les problèmes liés à la dimension] may be subsumed under the heading « thecurse of dimensionality ». Since this is a curse, [...], there is no need to feel discouragedabout the possibility of obtaining significant results despite it.

Nous verrons en effet dans la suite de ce mémoire qu’il existe des solutions à ce « fléau de la dimen-sion » et qu’il peut même faciliter certaines tâches (dont la classification sous certaines conditions).Nous allons voir dans la suite de ce paragraphe quelles sont les principales manifestations de la grandedimension des données. Le lecteur pourra consulter [47, chap. 1], [82, chap. 7] où l’Aide-Mémoire deDonoho [27] pour plus de détails sur ces phénomènes.

Le fléau de la dimension à proprement parlé

Bellman utilisa le terme « fléau de la dimension » dans [6] pour parler de la difficulté d’optimiserune fonction par une recherche exhaustive de l’optimum dans un espace discrétisé. En effet, Bellmannous rappelle que si l’on considère une grille régulière de pas 1/10 sur le cube unité dans un espaceà 10 dimensions, nous obtenons 1010 points. Ainsi, pour rechercher l’optimum d’une fonction surce cube unité, il faut effectuer 1010 évaluations de la fonction. Si le cube unité en dimension 20est considéré, alors il faudra effectuer évidemment 1020 évaluations de la fonction. Silverman [84]a également observé ce phénomène dans le cadre de l’approximation d’une distribution gaussiennequelconque avec des noyaux gaussiens fixés. Ses résultats montrent que le nombre N d’observationsnécessaires à cette tâche avec une erreur maximale de 10% croît exponentiellement avec la dimension


Ø  Lesdistancesclassiquesnesontplusper2nentes(concentra2ondesdistances)

•  v

Segmentation des donnees

On considere deux observations (xi

, xk

), xi

2 Rp, xk

2 Rp

� X

1X

2 . . . X

j . . . X

p

1 x11 . . . x1j x1p...! i x

i1 . . . x

ij

x

ip

...! k x

k1 . . . x

kj

x

kp

...n x

n1 . . . x

nj

x

np

• Distance euclidienne `2 entre ces deux observations:

||xi

� x

k

||2 =qP

p

d=1(xi (d)� x

k

(d))2

M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 8 / 23

Etude de la distance euclidienne en fonction de la

dimension p

• Illustrations:n = 100 observations, uniforme, en dimension 1, 2, 3, ...

• Indicateur:max

i 6=j

||xi

�x

k

||2min

i 6=j

||xi

�x

k

||222 435 346 47

p = 1 p = 2 p = 3! Fleau de la dimension


Fleau de la dimension

Illustration: n = 100 observations uniformes (K = 500 repetitions) •

Evolution du rapportmax

i 6=j

||xi

�x

j

||min

i 6=j

||xi

�x

j

|| en fonction de la dimension p

! La distance euclidienne perd sa capacite de discrimination en grandedimension lorsque p augmente! Problematique pour la segmentation, la discrimination des observations



Exemple:Classifica'on(discrimina'on,SVM,algorithmesderecommanda'on,…)Engrandedimension,touslespointssemblentsituésàégaledistance

Segmentation de donnees

Faible dimension p=2

Donnees Matrice Classification Classification

des distances hierarchique non supervisee

Grande dimension p=20



Ø  Lasignifica2vitésta2s2queposeproblèmeü  Testsmul'plesettauxdefauxposi'fsEngrandedimension,lenombrepd’hypothèsesàtestersimultanémentatendanceàaugmenter(plusdevariablesétudiées),ainsiqueletauxdefauxposi'fs.Ex:ptests,correspondantàpcritèresdejugement,sontréaliséspourcomparerunnouveautraitementàuntraitementtémoin.

Solu'ons:correc'ondesp-values(e.g.bornedeBonferroni,procédureBHdeBenjaminietHochberg(1995),etc.)

p hypothèses indépendantes testées simultanément : H j :m1, j =m2, j, j =1,...p

P(rejeter au moins une H jà tort) =1− (1−α)p


ü  Faussescorréla'ons

Engrandedimension,desvariablesnoncorréléesscien'fiquementpeuventavoirdescorréla'onsempiriquesélevées.-Problèmedesfacteursdeconfusion(variablecachéeinfluantsurles2variablesétudiées)ParadoxedeSimpson:ex:comparaisondedeuxtraitementscontrelescalculsrénaux.A>B B>A<BAaétédonnébeaucoupplussouventqueBpourlesgroscalculs,quisontplusdifficilesàsoigner:leséchan'llonsnesontpashomogènesdupointdevuedufacteurdeconfusion.

-Corréla,onn’estpascausalité:mêmelorsquedeuxévénementssontcorrélés(reliés),ilspeuventl’êtresanspourautantavoirderapportdecauseàeffet.«EnFrance,57%desmortsontlieuàl’hôpital».Alors,dangereuxl’hôpital?

-Lesfaussescorréla,onspeuvententraînerdefaussesdécouvertesscien,fiquesex:GoogleFluetfaussescorréla'ons:pourprévoirl’épidémie,l’algorithmerelevaitdestermes«saisonniers»telsquelestournoisdebasket,trèssuivisauxEtats-Unisetquiontlieul’hiver(Lazeretal,2014)quicoïncidentaveclesépidémiesdegrippedufaitducalendrier,maisquinetraduisentaucununliendecausalitéentrelesdeux.

Introduction Principes mathematiques Le Big Data

Correlations en statistique

De nombreux journaux par-lent d’etudes scientifiques s’appuyant sur des etudes et des sondages


ü  Faussesinférencessta's'ques

Instabilitédesmodèlesengrandedimension

Ex:modèlelinéaireàprégresseurs(pgrand)

Critèresdesélec,ondevariablesclassiquesmaladaptés-  Lesrésidussontquasinulsengrandedimension(=0

lorsquep>n)

-  Critèresclassiques:

Testsdenullitédescoefficientstoussignifica,fs(cftestmul'ples)

Y = Xβ +ε, Y ∈ Rn, X ∈ Rn×p, Var(ε) =σ 2In

β = X 'X( )non inversibleou forte collinéarité

!"#−1 (X 'Y )→ une infinité de solutions

R2 =1−εi

2∑(yi − y )2∑

≈1

AIC = n logεi

2∑2

+ 2(p+1)→−∞


LaØ  Sur-appren2ssage

ü  Auplusladimensionaugmente,auplusonatendanceàajusterdesmodèlescomplexes(tenta'ond’u'lisertoutel’informa'ondisponible).

ü  PrincipeduRasoird’Ockham(Ockham(1285-1347))-parcimonie

Régressionlinéairey=ax+b Régressiondedegré15:y=ax15+bIlfauttrouverlebondegrédecomplexitépourobtenirunmodèleefficace.Apprendre=Modéliserlesrégularités"réelles"présentes

danslesdonnées:modélisa'onper'nente,bonnegénéralisa'on

Sur-apprendre=Modéliserlesrégularités"accidentelles"localesàl'échan'llond'appren'ssage:pasdebonnegénéralisa'on

Rasoird’Occam

Erreurdeprédic:on

Complexitédumodel

pe:te grande

Erreurd’entraînement

Erreurdetest

GrandbiaisPe:tevariance

Pe:tbiaisGrandevariance

sous-appren3ssage

surappren3ssage

Y = f (X1,...,Xp )+ε

No,onsd’appren,ssagesupervisé:

-  On«apprend»(es'me)lafonc'onfàpar'rd’exemples

(donnéesd’entrainement)

-  Onévaluelaqualitéprédic'vedumodèlesurunéchan'llondetest

Ycatégorielle:classifica'onsupervisée(régressionlogis'que,Knn,SVM,CART),f=classifieurYnumérique:régression(linéaire,nonlinéaire,knn,randomforest),f=fonc'onderégressionExClassif:Y=(«voiture»,«chat»);X1=(imagesdechats,devoitures)


Unesolu2onaufléaudeladimension:ladimensionintrinsèque

Sco`,1992:«theunderlyingstructureofpdimensionaldataisalmostalwaysofdimensionlowerthanp»

Dansbeaucoupdecescas,ladimensionnalitén'estgrandequ’enapparenceExemples:-  classifica,ond’imagesennoiretblancdechiffresmanuscrits:chaqueimageestdécritepar

denombreuxpixels,maispeudepixelssontnoirs(coordonnéesnonnulles).Lenombredepixelspsures'melacomplexitédesdonnées.

-  classifica,ondesdocuments:undocumentestdécritparunvecteurdedimensionp(detaillelatailledudic'onnaire=unecentainedemilliersdemots),chaquecoordonnéevaut1(oufréquencedumot)silemotapparaîtdansletexte,0sinon.Maisundocumentdonnénecon'entquequelquescentainesdemots,etdonclaplusgrandepar'edesonvecteurestnulle.

•  Autresméthodes:"Projec'onPursuitRegression",réseauxdeneurones

•  :


ü  Méthodesderéduc2ondeladimension

•  Remplacementdesdonnéesoriginalespardesdonnéesdansunespacedeplusdepe'tedimension,toutenconservantl'essen'eldel’informa'on.Ex:ACP,ACPsparse,extensionsàdesespacesnonlinéaire(principalcurves,ACI,KernelPCA,etc.)

•  Généralisa'ondesméthodesclassiquesdesélec'ondevariablesengrandedimensionex:ExtendedBIC,généralisa'onducritèreBICpourp>n(Chen&Chen,2008).

•  Autresméthodes:régressionsparprojec'onpursuit,réseauxde

neurones,etc.


ü  Méthodesderégularisa2on•  Danslesmodèlesderégression:

-  seulunpe'tnombredeparamètresestnécessaire(sparsitéduparamètre)

-  minimisa'ond’uncritèreadapté(vraisemblance,moindrescarrés)pénalisépourcontraindreuncertainnombredecoefficientsdumodèleàêtrenuls.

Exemple:régressionlinéairepénalisée:

λpermetdetrouveruncompromisentrelacomplexitédumodèleetsonajustementauxdonnées

-λ=0:touteslesvariablessontsélec'onnées;grandecomplexité;prédic'onsmauvaise. -λinfini:aucunevariablen’estsélec'onnée;oublidel’informa'ondanslesdonnées.

Pénalisa'onsclassiques:

•  Généralisa,ondesméthodesderégularisa,onàdenombreuxproblèmes:es'ma'ondematricesdecovariancesparse,ACPsparse,modèleslinéairesgénéralisés,SVM,analysediscriminante,clustering,sérieschronologiques,sélec'onpararbresrégularisés,randomforestrégularisées.

β = argminβ (yi − yi )2 −λpen(β)∑

⎛

⎝⎜

⎞

⎠⎟,λ > 0

Ridge : pen(β) = β 2, ;j=1

p

∑ Lasso : pen(β) = β jj=1

p

∑ ; Elastic Net: pen(β) = λ1 β 2 +λ2j=1

p

∑ β jj=1

p

∑

Y = Xβ +ε

Lesdéfisensta's'queQuelquesautreslimites

Ø  Endogénéitéaccidentelle:lorsquedansunmodèle,certainsrégresseurssontcorrélésaccidentellementavecletermed’erreur(biaisd’omissiondevariables,erreursdemesure).

–  Facilitéparlegrandnombredecaractéris'quesàchoisirengrandedimension–  invaliditédesmodèleclassiques(quireposentsurunhypothèsed’exogénéité)–  Solu'ons:méthodedesvariablesinstrumentales,affaiblissementdeshypothèses(Fanetal.,

2014)

Ø  Hétérogéneité:lorsqueplusieurssous-popula'onscoexistentetprésententdescaractéris'quespropres.

–  FréquentenBigDataoùlesdonnéessontsouventcrééesenagrégeantdenombreusessourcesdedonnéescorrespondantàdifférentessous-popula'ons

–  Biaissta's'quesdanslesmodèles–  Solu'ons:modèlesdemélange,…

Ø  Nonper2nencedesp-values:Quandngranditlesp-valuessonttoutessignifica'ves.–  Solu'ons:FacteurdeBayes,u'lisa'ondesIC(Kimetal.,2019).

Lesdéfisensta's'queQuelquesautreslimites

Ø  Variétédesdonnées:commentcombineretanalyserlesnouvellessourcesd'informa'on(textes,images,vidéos,audio,fonc'ons…)

Ex:Enmédecine,fusiond’informa'onsprovenantdedifférentshôpitauxetunitésdesoinsafind'apprendreplusrapidementdenouvellesmaladiesEx:Traitementinforma'quedesopinionsetdessen'ments(Tausczik&Pennebaker,2010),àpar'rdel’informa'ontextuelleetvocalesurlesréseauxsociauxetsurleWeb.

ü  Destravauxsurlacombinaisondessources

•  Laméta-analyse(Brockwell&Gordon,2001):moyentradi'onneldecombinerl'informa'onsurdesvariablesdefréquenceoudelocalisa'ondifférentes.

•  Nowcas'ng(Giannone&al,2008):combinaisondesérieschronologiquesdepériodicitédifférentes.

ü  Desméthodesspécifiquesparsources

•  Analysevidéo(ex:observa'onduclimat,neurosciences,télédétec'on,surveillancevidéo):Quelquesméthodes:détec'onderuptures(naissanced’unouragan,présenced'uneac'vitécérébrale,présenced'unvoleurdansunbâ'ment),techniquesderéduc'ondimensionnellepourlacompressionvidéo,méthodesdeclusteringpourlasegmenta'ondumouvement.

•  Analysedessignauxaudio(ex:capteursdesmesuredesignauxvitauxhumains-température

corporelle,tensionartérielle,rythmecardiaque-capteursdemouvements) Quelquesméthodes:analysefonc'onnelle(réduc'ondimensionnelle,classifica'onfonc'onnelles,séries chronologiquesfonc'onnelles)

LetraitementdesdonnéesmassivesVersla«DataScience»

²  MachineLearningvsSta2s2que:lechocdescultures

Breiman,2001:«Sta,s,calmodeling:thetwocultures»

ü  Problèmedemodélisa'onsta's'que:Àl'intérieurdelaboîtenoire,lanaturesecharged'associerlesprédicteursetlaréponse.ü  Deuxobjec'fsdelamodélisa'ondedonnées:

-  Comprendre.Extrairedesinforma'onssurlafaçondontlanatureassocielaréponseauxprédicteurs(compréhensiondesdonnéesetdumécanismequilesaengendrées).

-  Prédire.Etrecapabledeprévoirquellesserontlesréponsesauxvariablesd'entréefutures.ü  Deuxapprochesdifférentespoura`eindrecesobjec'fs:-  Visionclassique(sta's'que):modèlespourcomprendre-  Vision«MachineLearning»(branchedel’IAnéedanslesannées1980):modèlepourprévoir

Statistical Science2001, Vol. 16, No. 3, 199–231

Statistical Modeling: The Two CulturesLeo Breiman

Abstract. There are two cultures in the use of statistical modeling toreach conclusions from data. One assumes that the data are generatedby a given stochastic data model. The other uses algorithmic models andtreats the data mechanism as unknown. The statistical community hasbeen committed to the almost exclusive use of data models. This commit-ment has led to irrelevant theory, questionable conclusions, and has keptstatisticians from working on a large range of interesting current prob-lems. Algorithmic modeling, both in theory and practice, has developedrapidly in fields outside statistics. It can be used both on large complexdata sets and as a more accurate and informative alternative to datamodeling on smaller data sets. If our goal as a field is to use data tosolve problems, then we need to move away from exclusive dependenceon data models and adopt a more diverse set of tools.

1. INTRODUCTION

Statistics starts with data. Think of the data asbeing generated by a black box in which a vector ofinput variables x (independent variables) go in oneside, and on the other side the response variables ycome out. Inside the black box, nature functions toassociate the predictor variables with the responsevariables, so the picture is like this:

y xnature

There are two goals in analyzing the data:

Prediction. To be able to predict what the responsesare going to be to future input variables;Information. To extract some information abouthow nature is associating the response variablesto the input variables.

There are two different approaches toward thesegoals:

The Data Modeling Culture

The analysis in this culture starts with assuminga stochastic data model for the inside of the blackbox. For example, a common data model is that dataare generated by independent draws from

response variables = f(predictor variables,random noise, parameters)

Leo Breiman is Professor, Department of Statistics,University of California, Berkeley, California 94720-4735 (e-mail: [email protected]).

The values of the parameters are estimated fromthe data and the model then used for informationand/or prediction. Thus the black box is filled in likethis:

y xlinear regression logistic regressionCox model

Model validation. Yes–no using goodness-of-fittests and residual examination.Estimated culture population. 98% of all statisti-cians.

The Algorithmic Modeling Culture

The analysis in this culture considers the inside ofthe box complex and unknown. Their approach is tofind a function f!x"—an algorithm that operates onx to predict the responses y. Their black box lookslike this:

y xunknown

decision treesneural nets

Model validation. Measured by predictive accuracy.Estimated culture population. 2% of statisticians,many in other fields.

In this paper I will argue that the focus in thestatistical community on data models has:

• Led to irrelevant theory and questionable sci-entific conclusions;

199

LetraitementdesdonnéesmassivesVersla«datascience»

Visionclassique:modélisa'onsta's'que(98%dessta's'ciens)

–  Approchehypothé'co-déduc've–  Reposesurl'hypothèsed'unmodèlesous-

jacentdanslaboîte,choisidansuneclasserestreinte

–  Es'ma'ondesparamètresetvalida'ondumodèle(Oui-non)

–  Interpréta'ondel’effetdexsury

+++SouventsimpleetInterprétable---•  Rigidité:Lesconclusionsportentsurle

mécanismedumodèleetnonsurlemécanismedelanature(problèmesilemodèleestunemauvaiseimita'on)

•  Méthodesdevalida'onerronéesengrandedimension

•  Capacitéprédic've?

VisionMachinelearning:modélisa'onalgorithmique(2%dessta's'ciens)-  Approcheinduc've-  L'intérieurdelaboîteestcomplexeetinconnu:

plutôtquedefixerunmodèle,onchercheunefonc'on-unalgorithme– qui«apprend»àassocierxày,àpar'rdedonnées(ensembled’entrainement)

-  Valida'ondumodèle:mesuredelaprécision

prédic'vesurunensemblededonnéestest.-  Prédic'ondeyàpar'rdenouvellesvaleursdex+++Plusflexible,s’appuieessen'ellementsurlesdonnées(«data-driven»),reposesurdeshypothèsesmoinsnombreusesoumoinsfortes.---•  Beaucoupd’algorithmessontefficaces

empiriquementmaispasdejus'fica'onthéorique

•  Interpréta'on?Black-box

Statistical Science2001, Vol. 16, No. 3, 199–231

Statistical Modeling: The Two CulturesLeo Breiman

Abstract. There are two cultures in the use of statistical modeling toreach conclusions from data. One assumes that the data are generatedby a given stochastic data model. The other uses algorithmic models andtreats the data mechanism as unknown. The statistical community hasbeen committed to the almost exclusive use of data models. This commit-ment has led to irrelevant theory, questionable conclusions, and has keptstatisticians from working on a large range of interesting current prob-lems. Algorithmic modeling, both in theory and practice, has developedrapidly in fields outside statistics. It can be used both on large complexdata sets and as a more accurate and informative alternative to datamodeling on smaller data sets. If our goal as a field is to use data tosolve problems, then we need to move away from exclusive dependenceon data models and adopt a more diverse set of tools.

1. INTRODUCTION

Statistics starts with data. Think of the data asbeing generated by a black box in which a vector ofinput variables x (independent variables) go in oneside, and on the other side the response variables ycome out. Inside the black box, nature functions toassociate the predictor variables with the responsevariables, so the picture is like this:

y xnature

There are two goals in analyzing the data:

Prediction. To be able to predict what the responsesare going to be to future input variables;Information. To extract some information abouthow nature is associating the response variablesto the input variables.

There are two different approaches toward thesegoals:

The Data Modeling Culture

The analysis in this culture starts with assuminga stochastic data model for the inside of the blackbox. For example, a common data model is that dataare generated by independent draws from

response variables = f(predictor variables,random noise, parameters)

Leo Breiman is Professor, Department of Statistics,University of California, Berkeley, California 94720-4735 (e-mail: [email protected]).

The values of the parameters are estimated fromthe data and the model then used for informationand/or prediction. Thus the black box is filled in likethis:

y xlinear regression logistic regressionCox model

Model validation. Yes–no using goodness-of-fittests and residual examination.Estimated culture population. 98% of all statisti-cians.

The Algorithmic Modeling Culture

The analysis in this culture considers the inside ofthe box complex and unknown. Their approach is tofind a function f!x"—an algorithm that operates onx to predict the responses y. Their black box lookslike this:

y xunknown

decision treesneural nets

Model validation. Measured by predictive accuracy.Estimated culture population. 2% of statisticians,many in other fields.

In this paper I will argue that the focus in thestatistical community on data models has:

• Led to irrelevant theory and questionable sci-entific conclusions;

199

STATISTICAL MODELING: THE TWO CULTURES 209

class #2 are !x"2#$. If these two sets of vectors canbe separated by a hyperplane then there is an opti-mal separating hyperplane. “Optimal” is defined asmeaning that the distance of the hyperplane to anyprediction vector is maximal (see below).

The set of vectors in !x"1#$ and in !x"2#$ thatachieve the minimum distance to the optimalseparating hyperplane are called the support vec-tors. Their coordinates determine the equation ofthe hyperplane. Vapnik (1995) showed that if aseparating hyperplane exists, then the optimal sep-arating hyperplane has low generalization error(see Glossary).

optimal hyperplane

support vector

In two-class data, separability by a hyperplanedoes not often occur. However, let us increase thedimensionality by adding as additional predictorvariables all quadratic monomials in the originalpredictor variables; that is, all terms of the formxm1xm2. A hyperplane in the original variables plusquadratic monomials in the original variables is amore complex creature. The possibility of separa-tion is greater. If no separation occurs, add cubicmonomials as input features. If there are originally30 predictor variables, then there are about 40,000features if monomials up to the fourth degree areadded.

The higher the dimensionality of the set of fea-tures, the more likely it is that separation occurs. Inthe ZIP Code data set, separation occurs with fourthdegree monomials added. The test set error is 4.1%.Using a large subset of the NIST data base as atraining set, separation also occurred after addingup to fourth degree monomials and gave a test seterror rate of 1.1%.

Separation can always be had by raising thedimensionality high enough. But if the separatinghyperplane becomes too complex, the generalizationerror becomes large. An elegant theorem (Vapnik,1995) gives this bound for the expected generaliza-tion error:

Ex"GE# ≤ Ex"number of support vectors#/"N− 1#!

where N is the sample size and the expectation isover all training sets of size N drawn from the sameunderlying distribution as the original training set.

The number of support vectors increases with thedimensionality of the feature space. If this number

becomes too large, the separating hyperplane willnot give low generalization error. If separation can-not be realized with a relatively small number ofsupport vectors, there is another version of supportvector machines that defines optimality by addinga penalty term for the vectors on the wrong side ofthe hyperplane.

Some ingenious algorithms make finding the opti-mal separating hyperplane computationally feasi-ble. These devices reduce the search to a solutionof a quadratic programming problem with linearinequality constraints that are of the order of thenumber N of cases, independent of the dimensionof the feature space. Methods tailored to this partic-ular problem produce speed-ups of an order of mag-nitude over standard methods for solving quadraticprogramming problems.

Support vector machines can also be used toprovide accurate predictions in other areas (e.g.,regression). It is an exciting idea that gives excel-lent performance and is beginning to supplant theuse of neural nets. A readable introduction is inCristianini and Shawe-Taylor (2000).

11. INFORMATION FROM A BLACK BOX

The dilemma posed in the last section is thatthe models that best emulate nature in terms ofpredictive accuracy are also the most complex andinscrutable. But this dilemma can be resolved byrealizing the wrong question is being asked. Natureforms the outputs y from the inputs x by means ofa black box with complex and unknown interior.

y xnature

Current accurate prediction methods are alsocomplex black boxes.

y xneural nets forestssupport vectors

So we are facing two black boxes, where oursseems only slightly less inscrutable than nature’s.In data generated by medical experiments, ensem-bles of predictors can give cross-validated errorrates significantly lower than logistic regression.My biostatistician friends tell me, “Doctors caninterpret logistic regression.” There is no way theycan interpret a black box containing fifty treeshooked together. In a choice between accuracy andinterpretability, they’ll go for interpretability.

Framing the question as the choice between accu-racy and interpretability is an incorrect interpre-tation of what the goal of a statistical analysis is.

Lesdéfisensta's'queVersla«datascience»

²  Ladatascience:unrapprochementdesculturesü  Lacomplexitécroissantedesdonnées(enpar'culierleséquençagedugénomehumain)et

l’évolu'ondescapacitésdecalculontconduitlessta's'quesàdévelopperdesméthodesdeplusenplusflexibles,danslecadredel’appren'ssagesta's'que(Has'eetal.,2009)

ü  Parallèlement,leMachineLearnings’estappuyésurlamodélisa'onstochas'queet

sta's'queafindeconstruiredesalgorithmesfournissantdesrèglesdedécisionsper'nentesetdesgaran'esthéoriques.

L’interprétabilitéetlarecherchedegaran'esthéoriquesdesmodèlesissusduMachineLearningestunethéma'quederechercheenpleinessorpourlesSta's'ques(c.f.Sameketal.2017,Murdosh,2019)ü  Lerapprochementdecesdeuxcultures,enparallèleàl’évolu'ondesmoyensdecalculsetla

croissancedesvolumesdedonnéesadonnénaissanceàunenouvellediscipline:la«DataScience».

Leconsensusaujourd’huiestdedéfinirledatascien,stàl’intersec'ondetroisdomainesd’exper'se:Informa'que,Sta's'queetMathéma'ques.


²  Retoursurles«algorithmes»:Quelquesprincipesgénérauxd’appren2ssagemachine

LesdifférentstypesdeméthodesOnclassegénéralementlesméthodesd’appren'ssageautoma'quesen4groupes:-  lesméthodesd’appren'ssageclassiques,-  lesméthodesd’appren'ssageparrenforcement-  lesméthodesd’appren'ssageprofond-  Lesméthodesd’appren'ssageensemblistes(souventra`achéesauxméthodesclassiques)


Lesméthodesd’appren2ssageclassiquesOnpeutclasserlesméthodesd’appren'ssageclassiquesen2groupes:lesméthodessupervisées,lesméthodesnonsupervisées.Appren2ssagesuperviséLesdonnéesd’entrainement(ouexemples)sontannotées:•  ondisposed’unéchan'llond’entrainementdetype(xi,yi)•  onchercheunefonc'onftelleque:

f=fonc'onderégression/classifieur

Problèmeàrésoudre:Op'miserfauseind’uneclassedemodèles,enminimisantunrisqued’erreur(ex:tauxd’erreur)surdesdonnéesd’entraînement.

Exempledemodèles:Discrimina'on,régression,boos'ng,SVM,GAM,KNN,arbresderégression,réseauxdeneurones…

•  L

Applica'ons:-  Reconnaissanced’objets:unproblèmesupervisé

correspondaucasoùlelabel«voiture»estbienassociéàdesphotosdevoitures,lelabel«chat»àdesphotosdechat,etc.L’algorithmeapprendainsiàpar'rdemilliersoudemillionsd’exemplesé'quetés:ilcherchelarela'onquipermetderelierlesimagesauxlabels

-  classifica,ond’emailenspamounonselonlecontenudumessage,sonexpéditeur,sonsujet…

-  diagnos,cmédicalselonlessymptômes

Y = f (X1,...,Xp )+ε


Appren2ssagenonsuperviséLesexemplesnesontpasannotés•  ondisposed’unéchan'llond’entrainementdetype(xi)•  Laméthodedoitfaireémergerautoma'quementlescatégoriesàassocierauxdonnéesqu’onluisoumet

(pourreconnaîtrequ’unchatestunchat,unevoiture)commesontcapablesdelefairelesanimauxetleshumains.

•  Pourcela,l’algorithmechercheàmaximiserd’unepartl’homogénéitédesdonnéesauseindesgroupesdedonnéesetàformerdesgroupesaussidis'nctsquepossible:lamétriquesous-jacentejoueunrôleclépourdéterminercequiestlanormeetcequis’enéloigne.

Problèmeàrésoudre:Trouverdesrèglesdeclassementdesobserva'ons/deregroupementdevariablesretraçantdefaçonop'malelastructureinhérentedesdonnées,enminimisantunrisqued’erreursurdesdonnéesd’entrainement.Exempledemodèles:classifica'onnonsupervisée(clustering),analysefactorielle,méthodesderéduc'ondedimensionApplica'ons:Segmenta,ond’images:onessaiedeséparerlesimagesengroupes-regrouperdesimagesdevoitures,dechats,etc.Détec,ond’anomalies:pourlamaintenanceprédic've,lacybsersécurité,ledépistageprécocedemaladies,etc.Systèmesderecommanda,on


Prédic2bilitévsexplicabilité•  Certainesméthodessontmoinsflexibles(ouplusrestric'ves)qued’autresdanslesensoùellespeuvent

es'merseulementunegammelimitéedeformespourf.Ex:larégressionlinéairenepeutproduirequedesfonc'onslinéairesalorsquelessplinessontne`ementplusflexiblescarellespeuventproduireplusdeformespourl’es'mateurdef.

•  Lesmodèlesrestric'fssontbienplusinterprétables.Encontraste,lesapprochestrèsflexiblespeuventamener

àdeses'mateurstellementcomplexesdefqu’ilestdifficiledecomprendrecommentunprédicteurindividuelestassociéàlaréponse.

•  Lorsduchoixd’unmodèle,savoirquelleapprocheprivilégierenfonc'onduproblèmeconcretétudié-Approcheprévision:détec'ondepannes,d’épidémies,indicedeprixàlaconsomma'on-Approcheinterpréta'on:compréhensionduphénomène-mobilisedescompétencesmé'er:ingénierie,médecine,économie

2.1 What Is Statistical Learning? 25

Flexibility

Interpr

etabili

ty

Low High

LowHig

h Subset SelectionLasso

Least Squares

Generalized Additive ModelsTrees

Bagging, Boosting

Support Vector Machines

FIGURE 2.7. A representation of the tradeoff between flexibility and inter-pretability, using different statistical learning methods. In general, as the flexibil-ity of a method increases, its interpretability decreases.

more interpretable. For instance, when inference is the goal, the linearmodel may be a good choice since it will be quite easy to understandthe relationship between Y and X1, X2, . . . , Xp. In contrast, very flexibleapproaches, such as the splines discussed in Chapter 7 and displayed inFigures 2.5 and 2.6, and the boosting methods discussed in Chapter 8, canlead to such complicated estimates of f that it is difficult to understandhow any individual predictor is associated with the response.Figure 2.7 provides an illustration of the trade-off between flexibility and

interpretability for some of the methods that we cover in this book. Leastsquares linear regression, discussed in Chapter 3, is relatively inflexible butis quite interpretable. The lasso, discussed in Chapter 6, relies upon the

lassolinear model (2.4) but uses an alternative fitting procedure for estimatingthe coefficients β0,β1, . . . ,βp. The new procedure is more restrictive in es-timating the coefficients, and sets a number of them to exactly zero. Hencein this sense the lasso is a less flexible approach than linear regression.It is also more interpretable than linear regression, because in the finalmodel the response variable will only be related to a small subset of thepredictors — namely, those with nonzero coefficient estimates. Generalizedadditive models (GAMs), discussed in Chapter 7, instead extend the lin-

generalizedadditive modelear model (2.4) to allow for certain non-linear relationships. Consequently,

GAMs are more flexible than linear regression. They are also somewhatless interpretable than linear regression, because the relationship betweeneach predictor and the response is now modeled using a curve. Finally, fully

TraitementdesBigDataL’exploita'ondesrésultats

²  Equitéetloyautédesalgorithmes2condi'onsnécessairesàl’exploita'ondesrésultatsissusdesalgorithmes(P.Besseetal.,2018)

•  Loyautéd’unalgorithme:Lerésultatdel’algorithmedoitêtreloyalvis-à-visdesintérêtsdespersonnesqu’ilssontcensésservir;impliquequelesrésultatsproduitssoientconformesauxaèntesdesu'lisateurs/consommateurs.

•  Equitéd’unalgorithme:Lerésultatdel’algorithmedoitêtreéquitableentrelespersonnessurla

based’a`ributsprotégésparlaloi;impliquequelesrésultatsn’opèrentpasdedis'nc'onentrelespersonnesenfonc'ond’a`ributstelsquel’origineethnique,legenre,ouencorelasitua'ondefamille.

L’actualitéquo'dienneaèstedenombreuxcasdepra'quesdiscriminatoiresliéesàdesalgorithmes(cf.aussiquelquesbouleès)-  AuxEtats-Unis,lesnoirssontplusdiscriminéssurlesplateformespopulairesdeloca'onsd’appartementenligne(Edelman,Lucaand

Svirsky,2017).-  Despublicitéscibléesetautoma'séesenlignerela'vesauxopportunitésd’emploidanslesdomainesdessciences,dela

technologie,del’ingénierieetdesmathéma'quesseraientplusfréquemmentproposéesauxhommesqu’auxfemmes(LambrechtandTucker,2017).

TraitementdesBigDataL’exploita'ondesrésultats

²  GouvernancedesdonnéesNouvellesdisposi'onsprisesparleRGPDpourletraitementdedonnéespersonnelles:

•  Jus'fica'ondutraitement(ar'cle6duRGPD)–  finalité:letraitementdoitcorrespondreàunobjec'fbienprécis,légaletlégi'me–  licéité:letraitementdoitrespecterl’undespoints:consentementexplicitedelapersonneconcernée/fondésurunebase

légale/liéàl’exécu'ond’uncontrat/nécessaireàlasauvegarded’intérêtsvitaux/nécessaireàl’exécu'ond’unemissiond’intérêtpublic/répondàunintérêtlégi'mepourleresponsabledetraitement

–  per'nence:lesdonnéesdoiventêtreper'nentesetstrictementnécessairesauregarddelafinalitédutraitement

•  Sécurisa'onetconserva'onlimitéedesdonnées(ar'cle5e)–  Iln'estpaspossibledeconserverdesinforma'onspersonnellespouruneduréeindéfinie.Uneduréedeconserva'onprécise

doitêtrefixée,selonletyped’informa'onetlafinalité–  lasécuritéetlaconfiden'alitédesinforma'onsdoitêtregaran'e.Seuleslespersonnesautoriséesdoiventyavoiraccès.

•  Réalisa'ond’uneAnalysed’ImpactsurlaProtec'ondesDonnées(AIPD)–  UneAIPDdoitobligatoirementêtremenélorsqueletraitementest«suscep,bled’engendrerunrisqueélevépourlesdroitset

libertésdespersonnesconcernées»(cflignesdirectricesduG29).

•  Droitd’accèsauxdonnéesettransparencedesinforma'ons(ar'cles12-15)–  Toutepersonnedoitavoirundroitd’accèsàsesdonnées–  Elleestendroitdeconnaîtrelaraisondelacollectedesdifférentesdonnéeslesconcernant,decomprendreletraitementqui

serafaitdecesdonnéesetsafinalité,laduréedeconserva'ondesdonnéesetrésultats;ce`einforma'ondoitêtretransparentecompréhensibleetfacilementaccessible.

Angwin,J.,Kirchner,L.,Larson,J.&Ma`u,S.(2016).HowWeAnalyzedtheCOMPASRecidivismAlgorithm.ProPublica,23may2016.Ball,P.,Klingner,J.&Lum,K.(2011).Crowdsourceddataisnotasubs,tuteforrealsta,s,cs.TechnologyMeetsSociety.Bellman,R.E.(1961).Adap,veControlProcesses.PrincetonUniversityPress,Princeton,NJ.Benjamini,Y.&Hochberg,Y.(1995).ControllingtheFalseDiscoveryRate:APrac,calandPowerfulApproachtoMul,pleTes,ng.JournaloftheRoyalSta's'calSociety,seriesB(Methodological),57(1)289-300.Beresewicz,M.,Lehtonen,R.,Reis,F.,DiConsiglio,L.&Karlberg,M.(2018).Anoverviewofmethodsfortrea,ngselec,vityinbigdatasources.Sa's'calworkingpapers,eurostat.Bertail,P.,Bounie,D.,Clémençon,S.&Waelbroeck,P.(2019).Algorithmes:biais,discrimina,onetéquité.TelecomParisTech.Besse,P.,Castets-Renaud,C.,Garivier,A.&Loubes,J.M(2018).L’IAduQuo,dienpeutelleêtreÉthique?LoyautédesAlgorithmesd’Appren,ssageAutoma,que.InSta's'queetSociété,6(3).Besse,P.&Laurent,B.(2016).Desta,s,cienàDataScien,st-Développementspédagogiquesàl'INSAdeToulouse.Sta's'queetEnseignement,SFDS,7(1),75–93.Breiman,L.(2001).Sta,s,calModeling:TheTwoCultures.Sta's'calScience,16(3),199-215.Brockwell,S.E.&Gordon,I.R.(2001).Acomparisonofsta,s,calmethodsformeta-analysis.Stat.Med.20(6)825-40.Chen,J.&Chen,Z.(2008).ExtendedBayesianinforma,oncriteriaformodelselec,onwithlargemodelspaces.Biometrika,95(3),759–771.Donoho,D.(2017).50YearsofDataScience.JournalofComputa'onalandGraphicalSta's'cs,26745-766.Fan,J.&Liao,Y.(2014).Endogeneityinhighdimensions.TheAnnalsofSta's'cs,42(3),872-917.Giannone,D.,Reichlinb,L.&Small,D.(2008).Nowcas,ng:Thereal-,meinforma,onalcontentofmacroeconomicdata.JournalofMonetaryEconomics,55,665–676.Has'e,T.,Tibshirani,R.&Friedman,J.(2001).TheElementsofSta,s,calLearning:DataMining,Inference,andPredic,on.Springer.Heckman,J.J.(1979).Sampleselec,onbiasasaspecifica,onerror.Econometrica47,153–161.Imbert,A.&Vialaneix,N.(2018).Décrire,prendreencompte,imputeretévaluerlesvaleursmanquantesdanslesétudessta,s,ques:unerevuedesapprochesexistantes.JournaldelaSFDS,159(2).Kim,H.&Robinson,A.P.(2019).Interval-BasedHypothesisTes,ngandItsApplica,onstoEconomicsandFinance.Econometrics,7(2),21.Kim,J.K.&Wang,Z.(2019).SamplingTechniquesforBigDataAnalysis.Interna'onalSta's'calReview,87,177–191.Kleiner,A.,Talwalkar,A.,Sarkar,P.&Jordan,M.(2012).Thebigdatabootstrap.InProceedingsof29thInterna'onalConferenceonMachineLearning,Edinburgh,Scotland.Lazer,D.,Kennedy,R.,King,G.&Vespignani,A.(2014).TheParableofGoogleFlu:TrapsinBigDataAnalysis.Science343(6176),1203-1205Li`leR.J.A.&Rubin,D.B.(2002).Sta,s,calAnalysiswithMissingData.Wiley:NewYork.Meng,X.L.(2018).Sta,s,calparadisesandparadoxesinbigdata(I):Lawoflargepopula,ons,bigdataparadox,andthe2016USpresiden,alelec,on.TheAnnalsofAppliedSta's'cs,12(2),685–726.O’Neil,C.(2018).Algorithmes:labombeàretardement.Ed.lesArènes.Pestre,G.,Letouzé,E.&Zagheni,E.(2016).TheABCDEofBigData:assessingbiasesincall-detailrecordsfordevelopmentes,mates.TheWorldBankEconomicReview,1-9.Samek,W.,Wiegand,T.&Müller,K-R.(2017).ExplainableAr,ficialIntelligence:Understanding,VisualizingandInterpre,ngDeepLearningModels.arXiv:1708.08296v1Savage,M.etal.(2013).ANewModelofSocialClass?FindingsfromtheBBC’sGreatBri,shClassSurveyExperiment.Sociology47(2),219–250.Sco`,D.W.(1992).Mul,variateDensityEs,ma,on:Theory,Prac,ce,andVisualiza,on.JohnWiley,NewYork.Seaman,S.R&White,I.R.(2012).Reviewofinverseprobabilityweigh,ngfordealingwithmissingdata.Sta's'calMethodsinMedicalResearch,22(3),278-295.Tausczik,Y.R.&Pennebaker,J.W.(2010).ThePsychologicalMeaningofWords:LIWCandComputerizedTextAnalysisMethods.JournalofLanguageandSocialPsychology,29(1)Vapnik,V.N.(1999).TheNatureofSta,s,callearningtheory.N.Y:Springer.Zagheni,E.&Weber,,I.(2012).Youarewhereyoue-mail:usinge-maildatatoes,mateinterna,onalmigra,onrates.Proceedingsofthe4thAnnualACMWebScienceConference.Zagheni,E.&Weber,I.(2015).Demographicresearchwithnon-representa,veinternetdata.Interna'onalJournalofManpower,36(1),13-25.

révolu’on big-data: info ou intox? le point de vue du stas ... · o assistants virtuels (de...

Documents