révolu’on big-data: info ou intox? le point de vue du stas ... · o assistants virtuels (de...
TRANSCRIPT
Révolu'onBig-Data:infoouintox?Lepointdevuedusta's'cien
LaurenceReboul(AMU-I2M)
SemaineData-SHS
BigData:unerévolu'onenmarche!LesBigDatadanslapresse
Unbuzzmédia,que…
Sur(le(site(du(CNRS(
04/03/14 12:30Big Data, la déferlante des octets | CNRS le journal
Page 1 sur 10file:///Users/Mokrane-CNRS/Desktop/Big%20Data,%20la%20déferlante%20des%20octets%20%7C%20CNRS%20le%20journal.webarchive
Donner du sens à la science
Suivre
Rechercher Se connecter / S'inscrire
Types
VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE
MES THÈMES
Partager l'articleRechercher
[Src: Bouzeghoub, Mastodons: Une approche interdisciplinaire des Big Data]
25
Et(ailleurs(
41!
[Src: Bouzeghoub, Mastodons: Une approche interdisciplinaire des Big Data]
25
Intervenant l mentions légales.
P. 33
l CNRS - MI
NEEDS
[Src: Bouzeghoub, L’exploitation scientifique des donnees]
25
Introduction Principes mathematiques Le Big Data
Croissance du monde numerique
BigData:unerévolu'onenmarche!Quelqueschiffres
Unemassededonnéesencroissance…
v Selonunrapportrécentdelacommissioneuropéenne,lemondegénèrechaqueminute1,7millionsdemilliardsd’octetsdedonnées,soitl’équivalentde360000DVD,etlesentreprisesquibâ'ssentleursprocessusdécisionnelsenexploitantcesdonnéesaccroissentleurproduc'vité(Besseetal.,2016).
v L'espècehumainegénèreendeuxjoursseulementlamêmequan'tédedonnéesquiaétégénéréeentre
sonappari'onsurTerreetl'an2003(Netyscom,«BusinessSolu'ons»,janv.2017)
² Twi`ergénèrequo'diennement7téraoctetsdedonnéesetFacebook10téraoctets.² LeRadiotélescopegéant«SquareKilometreArray»prévupour2024devraitgénérer7000téraoctets
dedonnéesbrutesparsecondes.v Laproduc'ondedonnéesnumériquesdoubletousles3ans,depuis1980.
Unitédemesures:Unkilooctet(Ko)=milleoctets-quelquesKo,c’estlepoidsd’unsimplefichiertexte
Unmégaoctet(Mo)=unmilliond’octets-unCD-Romfait650MoUngigaoctet(Go)=unmilliardd’octet-latailled’uneclefUSBvarieusuellementde1à8Go,aumieux256Go
Untéraoctet(To)=millemilliardsd’octets-lacapacitédestockaged’undisquedurperformant.
BigData:unerévolu'onenmarche!Quelqueschiffres
Toujoursplusderichessegénérée…
² 210Md$:CAannueles'médumarchémondialduBigDataen2020=PIBduPortugal
² 57Md$:CAgénéréen2017parlesfournisseursdeservicesBigDatadanslemonde
² 1,2Md$:avantagecompé''fgénéréd’ici2020parlesentreprisesu'lisatrices
Desinves,ssements…² Projec'onà2020desmontantsdes
inves'ssementsdesprincipauxsecteursayantmassivementadoptéleBigData:
– Industrie16,4Md$,– Finance15,4Md$,– Venteaudétail8,2Md$.
InfographieissuedusalonBigDataParis,mars2019(Corp)
• l
BigData:unerévolu'onenmarche!Quelqueschiffres
Denouveauxbesoinsdeforma,ons…
² Ilfaudraformerenviron130000spécialistesdeladatapourrépondreauxbesoinsdesentreprisesd’ici2020
² Forma'onsniveaumasterouvertesetsalairesd’entréeenFrancedepuislelancementduPlanBigDataen2014(Corp)
… etde«nouveaux»mé,ers
LeBigData:c’estquoi?Originedesdonnéesmassives
Unerévolu,onculturelle:ladigitalisa,ondumonde…L’existenceetletraitementdesBigDataontétérenduspossiblesparunesériedechangementstechnologiques.
v Développementd’internet
• denombreusesac'vitéshumainespeuventyêtreenregistrées
v Mul'plica'ondescapteursdetoutesorte,etinforma'sa'oncroissantedesorganisa'ons
• onpeutdisposerd’informa'onsprécises,récurrentesetmassivessurd’innombrablespra'ques.
v Augmenta'ondelapuissancedesordinateursetappari'ondenouvellesméthodesdetraitement
• Ilestpossibledelesstockeretdelesanalyser.
Aucunedéfini,onréellementconsensuelle…
• l
[email protected] – University of Geneva – KEYSTONE Summer School – © July 2015 - 7
[Picture from: http://www.intel.com/content/www/us/en/communications/internet-minute-infographic.html]
Data communication
© Copyright attached
[email protected] – University of Geneva – KEYSTONE Summer School – © July 2015 - 6
A digital world
© Copyright attached
LeBigData:c’estquoi?Originedesdonnéesmassives
Lebigdata:uneinfimepar,edanslamassedesdonnéesnumériques(aveclequelilestsouventconfonduàtort…)
Importancedifféren'elledesdifférentessourcesdedonnéesnumériques.NB:Laplupartdesques'onnairesenlignenedépassentpaslemillierd’individus,etbeaucoupdedonnéesissuesdel’internetpeuventêtretraitéessurunordinateurclassique.Leplussouvent,c’estaussivraidesarchivesetdel’opendata.
Ø Donnéesdel’internet:• «Traces»laisséesviauneac'vitésurleweb
Consulta'ondesites,discussionssurlesréseauxsociaux,espacesdestockageenligne,ou'lscollabora'fs,…
• Opendata(encroissance),donnéesproduitespardescollec'vités,servicespublics,entreprisesmisesdélibérémentàladisposi'ondupublic,réu'lisablesetpartageableslibrement
-Donnéesouvertesgouvernementales(ex:data.gouv.fr),quiperme`entl’accèsàdel’informa'onper'nentesurlesmarchésdupays.Autresexemples:OpenBiomedicalOntologies(GO,..),data.sncf.com,h`ps://data.oecd.org/fr/- laWorldWideWebFounda'onpublieunOpenDataIndexperme`antdeclasser
lespayslesplusperformantsdansladiffusiondeleursdonnées(n°1=Etats-Unis)
Ø Donnéesproduitespardesorganisa2ons-administra'ons,entreprises,associa'ons-danslecadredeleurfonc'onnement - donnéesclients,fournisseurs,donnéestransac'onnelles,donnéesdeproduc'on,
employés,résultatsfinanciers,détailsdel’ac'vitédesservices,etc..- Donnéespropriétairesetrarementdisponiblesenligne
Ø Archivesdigitales(encroissance):ini'alementnonnumériques,maisquiontétéconver'esEx:Laculturométrique(étudeducomportementhumainetdestendancesculturellesvial'analysequan'ta'vedetextesnumérisés)s’appuiesurcegenredematériau.
Ø Donnéesdecapteurs Ex:smartphones,cartesdetransportencommun,objetsconnectés
Ø Donnéesissuesdeques2onnairesauto‑administrésEx:GreatBri'shClassSurveyenGBsurlesclassessociales(Savageetal.,2013).160000personnesinterrogéesentre2011et2013.
LeBigData:c’estquoi?Essaisdedéfini'on
Unepremièredéfini-ondesBig-Data…
«Lebigdata,li`éralementgrossesdonnées,oumégadonnées,parfoisappeléesdonnéesmassives,désignentdesensemblesdedonnéesquideviennenttellementvolumineuxqu’ilsendeviennentdifficilesàtravailleravecdesou'lsclassiquesdeges'ondebasededonnéesoudeges'ondel’informa'on.»(Wikipédia)NB:Défini'ontropvague:l’insuffisancedescapacitésdetraitementetstockagen’estpasunproblèmefondamentalementnouveau.
Qu’estVce(qu’une((très(grande)(masse(de(données(?(
VLDB
XLDB
Big Data
Very Big Data
Massive Data
Data Deluge
Grandes Conf du domaine: VLDB, XLDB, ICDE, EDBT, …
[Src: Bouzeghoub, Mastodons: Une approche interdisciplinaire des Big Data]
26
LeBigData:c’estquoi?Essaisdedéfini'on
Unedeuxièmedéfini-on:Les3,4,…5V
Ø Valeur:concernelaprobléma'qued’iden'fierdesinforma'onsper'nentesdanslamassedisponibleetdelesvaloriser
Ø Volume:grandnombred’individuset/oudevariablesstat.Enpra'que,desdonnéesdeviennentmassiveslorsqu’ellesexcèdentdeuxseuilstechnologiques:
• lacapacitédelamémoirevive(RAM)del’ordinateur (quelquesgiga-octets)
• Lacapacitédestockagedudisquedurdel’ordinateur (quelquestéraoctets)
Ø Variété:faitréférenceà• Différentsformatsdedonnées
Image,texte,fichier,graphe,signalaudio,vidéo,mélangedetelsformats(exdonnéesmédicales)
• Donnéessouventbrutesetnonstructurées(stockéessansformatprédéfini)Exdedonnéestextuellesnon-structurées:ensembledecourriels,présenta'onsPowerPoint,documentsWord,detextesissusdecollabora'onoudemessagerie
Ø Vélocité:l’acquisi'on,lamiseàjouretletraitementdes
donnéesdoitsefaireen(quasi)con'nuEx:Donnéesboursières,tweets(plusde500emis/sec)
Ø Véracité:concernelafiabilitéetlacrédibilitédesinforma'onscollectées.Renvoieaufaitqu’ilestdifficiledejus'fierl’authen'citédescontenus.
LeBigData:c’estquoi?Essaisdedéfini'on
Quelquesexemplesconcretsdedonnéesmassives…o Donnéesgénomiques:plusde500000micro-réseauxmisàladisposi'ondupublic,chaqueréseau
contenantdesdizainesdemilliersdevaleursd'expressiondemolécules
o Donnéesd’IRMf:desdizainesdemilliersdetéraoctetsd'imagesproduitesparrésonancemagné'quefonc'onnelle(IRMf),chaqueimagecontenantplusde50000valeursvoxel(pixel3D)
o Donnéesd’Astrophysique:lerécentLSST(LargeSynop'cSurveyTelescope),télescopeterrestreéquipéd’unecamérade3200Mégapixelsenregistre30Téraoctetsdedonnéesparnuitrela'vesàdesmilliardsd’objetsobservéssoustouteslescoutures
o Donnéestextuelleso Donnéesfinancièreso Donnéesissuesdesréseauxsociauxo Relevésonlinedetransac'onsdeventesélectroniques,o Donnéesdevidéosdesurveillanceo Tracespersonnellesdecapteurso …….
LeBigData:c’estquoi?BigDataetalgorithmes
Desdéfini-onsplusrécentesassocientlesBigDataauxalgorithmescapablesdelestraiter,relevantdu«machinelearning»
² Algorithme:«Unalgorithmeestunensemblederèglesetd’instruc'onsécritesenvued’obtenirunrésultat.Unerece`edecuisineoubienunepar''onmusicalesontdesalgorithmes»(P.Bertailetal.,2019)
Lesalgorithmesperme`entd’automa'serdestraitementsrépé''fsàgrandeéchelle,detrieret/oudeclasserdescentainesdemilliersderésultats,deprévoirdesdécisionsfuturesaprèsavoirexaminédesmillionsdedécisionspassées,deformulerdesrecommanda'ons,etc.² Machinelearning(appren'ssagemachine/appren'ssageautoma'que):lesalgorithmesdemachine
learningconsistentà«apprendre»àunordinateuràiden'fierautoma'quementdes«pa`erns»(règlesmathéma'ques)danslesdonnées,ens’entraînantàpar'rd’exemples(donnéesd’entraînement),puisàappliquercesrèglesàdenouvellesdonnéesàdesfinsdeprévision.
- Brancheini'alementissuel’intelligencear'ficielle(e.g.réseauxdeneurones).Lesparadigmesdu
machinelearningontétéélaborésengrandepar'eilyaplusd’undemisiècleenIA.
- Relèveaujourd’huidudomainedelasta's'que,del’informa'queetdesmathéma'ques.Lesméthodesdemachinelearningissuesdelasta's'que(sta,s,callearning)ontétéintroduitesparVapnik(1999)etpopulariséesparHas'eetal.(2001).
LeBigData:c’estquoi?BigDataetalgorithmes
Quelquesapplica,onsinnovantesdesalgorithmes….
o Economie,finance:Prédic'onentempsréeldel’évolu'ondesprix,detendancesboursières,etc.
o Santé:Diagnos'cmédicalautoma'sé,médecinepersonnalisée,opéra'onsassistées,prédic'ond’épidémiesetdemaladies(ex:Googleflue)
o e-commerce:publicitéciblée,Recommanda'ondeproduits(surNezlix,Amazon,etc.)
o Banque,assurance:Détec'ondefraudes,creditscoring,etc.
o Industrie:Maintenanceprédic'veàpar'rdecapteursdesignauxfaibles(pouravions,forages,etc.)
o Jus,cecriminelle:Policeprédic've,aideàladécisionjudiciaire(ex:algorithmesPredPol,Compas)
o Educa,on:Cartescolaire,orienta'onscolaire(ex:parcoursup)
o Transport:Op'misa'ondutransportàpar'rdedonnéesentempsréeldutrafic)
o Assistantsvirtuels(dereconnaissancevocale– Siri,Alexa;agentsconversa'onnels– Chatbots)
o Cyber-sécurité(détec'ondecybera`aquesetdepiratages,etc.)o Voitureautonome
o Villeintelligente
• l
Statistique et société, Vol. 2, N° 4 décembre 2014www.statistique-et-societe.fr | © Société Française de Statistique (SFdS)16
Figure 1 : Sept cas d’usage des « BigData »
S&S : Faut-il pour caractériser le BigData faire des distinctions entre les différents types de données ? Les données structurées, les « traces » qu’on laisse sur Internet, les données textuelles, etc. ?
AL : Il y a bien entendu de grandes différences du point de vue des techniques de traitement des données. Par exemple, lorsqu’on a affaire à des données issues du recueil de formulaires administratifs, les matrices « observations-variables » sont bien remplies, il y a en général peu de valeurs manquantes ; alors que, lorsqu’on utilise les traces laissées sur Internet par les consommateurs pour concevoir un système de recommandation de produits, la matrice « individus x produits » est très « creuse », et cela appelle des techniques de traitement particulières. En matière de traitement des textes, c’est pareil : le « text mining » existe depuis longtemps, mais le traitement des textes spontanés, récupérés sur des forums par exemple, pose des difficultés nouvelles. Il y a un foisonnement de recherches là-dessus pour mettre au point des algorithmes adaptés. Cela dit, ces différences ne me semblent pas être au cœur de la caractérisation du phénomène « BigData ».
S&S : : La statistique publique est-elle menacée par l’émergence du « BigData » ?
AL : Qu’est-ce qu’on attend de la statistique publique ? Qu’elle produise des chiffres sûrs, selon des méthodologies éprouvées, en respectant des principes clairs. Personne ne va s’amuser à lui faire de l’ombre sur ce terrain. La contrepartie est un certain manque d’agilité. Si des initiatives issues du BigData peuvent lui porter tort, c’est dans un domaine bien particulier, celui de la création d’indicateurs économiques avancés à partir de données captées « dans la vraie vie » à
LeBigData:c’estquoi?BigDataetalgorithmes
EtquelquesbouleWes…o COMPAS(2000-…):Unalgorithmepeut-ilprédirelerisquede
récidived’undétenus?
• Lesalgorithmesprédic'fssontu'lisésdepuisquinzeansparlajus'ceaméricainecommeaideàladécision.
• LelogicielCOMPAS(Correc'onalOffenderManagementProfilingforAlterna'veSanc'ons)estu'liséenfindeprocédurepénalepourévaluerlerisquederécidive,envuededéciderderemisesenlibertécondi'onnelle.
• Ledétenu(encollabora'onavecuntravailleursocial)doitrépondreà137.Lelogicielendéduitunscorede«dangerosité»comprisentre1et10.
• L’ar'cle«Machinebias»dusiteProPublica(Angwinetal.,2016)accusecescored’êtrebiaisé:lesNoirssontdeuxfoisplussuscep'blesquelesBlancsd’êtreconsidérésà«hautrisque»derécidiveparl’algorithme,alorsmêmequ’ilsnerécidiventpas.
• L’entrepriseNorthpointequidé'entCompas
considèrequesonalgorithmeestunsecretcommercial:nilajus'cenilesaccusésnesontautorisésàexaminerlaformulemathéma'queu'lisée.
• RécidivedeB.Parker=0
LeBigData:c’estquoi?BigDataetalgorithmes
o Google-FluTrends(2013-2015):Prédic'ondel’épidémiedegrippe
• GoogleFluTrends(GFT)estunalgorithmebasésurlafréquencedemots-clefsassociésauxsymptômesgrippauxtapésdanslemoteurderechercheGoogle:toux,fièvre,médicamentscontrelatouxetlafièvre
• Beaucoupplusréac'fquelesanalysesfaitesparlescentresdesanté,ildoitperme`rederepérerentempsréeldeszonescontaminéesàpar'rdesrequêtes.
• En2013,lelogicielaétéàl'origined'unefausse
alerteàNewYork.
• Selonunar'clepubliéScienceenmars2014,l’algorithmeavaitsures'méde140%lepicd'épidémiepourl'ensembleduterritoireaméricainsurlasaison2012-2013.
• GoogleFluTrendsaétére'rédepuis2015.
• Googlen'ajamaisrendupublicslestermesderechercheu'lisésdanslaGFT,etiln'yaaucunmoyenpourleschercheursd’enreproduirelefonc'onnement.
LEBIGDATAc’estquoi?
o Algorithmederecrutementd’Amazon(2015-2018)
• L’algorithmeétaitdes'néàexaminerlesdemandesd'emploietàdonnerauxcandidatsunenoteallantdeuneàcinqétoiles.
• L'entrepriseyarenoncétroisansplustardaprèsavoirdécouvertunefaillemajeuredanslesystème:iln'aimaitpaslesfemmes.
• EntraînésurlabasedesCVreçusparlegroupesur
unepériodededixans,quiétaientpourlaplupartceuxd’hommes,refletdelaprédominancemasculinedanslesecteurdesnouvellestechnologie,lesystèmeenestvenuàdéduirequelescandidatsmasculinspourcespostesétaientpréférables,cequil’amenaitàrejeterlescandidaturesoùfiguraituneréférenceaux«femmes»,commedanslaphrase«capitainedeclubd’échecsféminin».
L’analysedesBigDataDesdéfisàrelever
Larévolu-ondesBigdataetdesalgorithmes:entreenthousiasme…
«Ce`eintelligencear'ficielledontlechampd’applica'ons’étenddésormaisdudiagnos'cmédicalàlavoitureautonomeetàladistribu'ond’énergie,pourneciterquequelquesexemples,estaujourd’huiaucœurdepréoccupa'onsindustriellesetpoli'quesmajeures»
(C.Villani,2018).….Etinquiétudeso Lesalgorithmesd’appren'ssagedesontdeplusen
plusdiscutésetcontestés.
o Lesprojetsu'lisantlesBigDataetleursalgorithmessontmajoritairementcontrôléspardessociétésprivéesetpeuventêtredélibérémentopaques.
o Ce`eopacitésoulèvedesques'onséthiques
d’autantpluspressantesquel’usagedesalgorithmesdansnosviespersonnellesestgrandissant:
• confiden'alitédesdonnéesàlabasedesalgorithmesd’appren'ssage,
• entraveàlaconcurrence,• transparenceouapplicabilitédesdécisions,• risquesdebiaisdiscriminatoiresenversdesindividus
ougroupessensibles.
CathyO’Neil(2016):unalgorithmen’estenréalitéqu’une«opinionintégréeauxprogrammes»
LerapportdelacommissionVillaniappelleà«ouvrirlesboîtesnoires»del’IAetconsidèrequ’ils’agitd’unenjeudémocra'que.Undéveloppementinéluctablequ’ilfautsavoirdémys-fieretencadrerP.Besseetal.,2019:«Abordersérieusementcesques'onsnécessiteàlafoisdesérieusescompétencestechniques,afindecomprendrefinementlefonc'onnementdesalgorithmesetdegarderunregardcri'quesurlediscoursquilesentoure,etuneexper'sejuridique,sociétaleousociologique,voirepoli'queouphilosophique.»HG.Wells:«Lejugementsta's'queseraunjouraussinécessaireàl’exercicedebasedesfonc'onsducitoyenquelacapacitédelireetd’écrire.»
L’analysedesBigDataDesdéfisàrelever
Quefaireànotreéchelle?• IlincombeauxchercheurslaresponsabilitédecomprendrelesenjeuxdesBigData
etdeleurtraitement,deveilleràlabonneu'lisa'ondesméthodesd’analyse• Celapeutêtreaussiuneopportunitédansnospra'quesderecherche
Exemples:- Observerdescomportementsindividuelsàlaloupevialesdonnéesde
capteursouréseauxsociaux(ex:compréhensiondespra'quesdemobilitésurunterritoire)
- Produiredesindicateursàunegranularitéplusfine-àl'échelled'unterritoire,surdessous-popula'onsoucertainsmarchés(ex.u'lisa'ondedonnéesdecaissepouraméliorerlaprécisiondel'indicedesprixàlaconsomma'on)
- Explorerlesstructurescachéesdechaquesous-popula'ondedonnées,ycompriscellesquisontrarementobservées(ex:compréhensiondemaladiesrares,…)
LaTGIRHuma-Numdéveloppeundisposi'ftechnologiquequipermetd'accompagnerlesdifférentesétapesd’unprojetderechercheàl’airedunumérique.Ellemetàdisposi'onunensembledeservicespourlestockage,letraitement,lepartage,la
diffusionetlaconserva'ondesdonnéesnumériquesdelarechercheenscienceshumainesetsociales.
L’analysedesBigDataDesdéfisàrelever
Untourd’horizondesdéfisqueposentlesBigDatapourl’analysededonnéesA-Lesdonnées:ü Accessibilité:Cesdonnéessontellesaccessibles?Aquelprix?ü Qualité:Sont-ellesdessourcesfiables?Comments’enassurer?B-Leurtraitement:ü Défiseninforma'que:qu’enest-ilducoûtinforma'quepourstockeretanalyserces
données?Quellessolu'ons?ü Défisensta's'que:Quellessontleslimitesdesméthodesd’analysetradi'onnelles?Quelles
solu'ons?ü Lanaissancedela«DataScience».
C-Exploita'ondesrésultats:ü Equitéetloyautédesalgorithmesü Lagouvernancedesdonnéesetdestraitements
Données Traitement Résultats
LesdonnéesAccessibilité
² Lesrestric2onscommerciales• LesdétenteursdedonnéesBigData(ounumérisées)nesontpluslesfournisseurshabituels(sta's'que
publique,etc..)• Laplupartdesdonnéessontlapropriétéd’acteursduprivé,pourlesquelsellescons'tuentdesressources
compé''ves.
– Dépendancevis-à-visdesplateformesprivéespourl’accèsàdesdonnéesexploitables– Nécessitesouventlasignaturedepartenariatsetdémarchesadministra'vesfas'dieuses– Risquedemarchandisa'on
A l'aidede sonapplica'onPa'entTruth, la startupEmbleemaproposede réunir lesdonnéesde santé (dossiermédical, résultatsd’analysesmédicales,donnéesdecapteurFitBit,etc.)despa'ents,souventdisséminéesentreplusieursacteurs,surunemarketplaceetauxpa'entsdelesmoné'serentoutetransparencegrâceàuneblockchain:lorsquelepa'enttéléchargeoufaittéléchargerunepar'edesesdonnéesdesanté, il reçoitde lacryptomonnaie ; l'u'lisateurestencouragéà inciterd'autrespa'entsàrejoindre laplateformegrâceàuneprimed'environ20dollars;lesacheteursdedonnées(laboratoirespharmaceu'ques,compagniesd’assuranceetc.)réalisentdespaiementsencryptomonnaie,dontunepar'eestreverséeauxpa'ents.
LesdonnéesAccessibilité
² Lesrestric2onsjuridiques(RèglementGénéralsurlaProtec2ondesDonnées,2018)• LaRGPDassureuncontrôlerenforcésurlesdonnéespersonnelles:consentement,exigencede
compréhensiondestraitementseffectuésetdesdécisionsissuesdecestraitement.
• NouveautédelaRGPD(ar'cle89):régimedérogatoirepourlesac'vitésderecherchescien'fique,des'néàfaciliterlestraitementsdedonnéespersonnellesetàoffriràlarecherchepubliquedesgaran'espourassurersonindépendance:lesdonnéespersonnellespeuventêtreréu'liséàdesfinsd’intérêtpublicoulégi'me(exconstruiredesrecherchesenpartenariat).Restric,ons:
– Nes’appliquepasauxdonnéessensibles(donnéesdesanté,raciales,sexuelles,poli'ques,religieuses),saufexcep'onsexplicitementlistéesdanslarèglementa'on(e.g.aprèsconsentementdelapersonne,donnéesrenduesmanifestementpubliquesparlapersonneconcernée,intérêtpublicimportant,sauvegardedelaviehumaine).
– Lesrésultatsd’analysedoiventêtrereproduc'bles(problèmeconséquentdansuncontextededonnéesmouvantes)
LescandaleFacebook-CambridgeAnaly'ca:fuitedesdonnéespersonnellesde87millionsd'u'lisateursdeFacebook,quelasociétédeprofilagepoli'queCambridgeAnaly'ca(CA)avaitcommencéàrecueillirdès2014.Cesinforma'onsontserviàinfluencerlesinten'onsdevotesenfaveurd'hommespoli'quesquiontretenulesservicesdeCA.
LesdonnéesAccessibilité
² Lesrestric2onstechniques2principauxmodesd’accèsauxdonnées:• U'lisa'ondesAPI’s:certainssitesetplateformesme`entàdisposi'ondupublicdesinterfacesde
programma'on(API’s)grâceauxquellesunusagerextérieurpeutaccéderàcertainscontenusdansdesformatsstructurésetréu'lisables(ex:l’APIdeTwi`erpermetd’envoyerdesrequêtesàlabasededonnéesenfonc'ondestweetsàcollectersurlabasedemots-clés-hashtag-,d’iden'fiantsd’u'lisateursoud’autresvariablescommelalocalisa'ongéographique).Limites:
– Restric'onscommerciales,juridiques(ex:Twi`erarestreintl’accèsàsabase,TripAdvisormetsonAPIàdisposi'ondes
établissementsdetourismemaisexclutsonu'lisa'onàdesfinalitésderecherchescien'fique)– Biaiséventuelsdusauxcaractéris'quesdesAPI’s– Difficultésdefiltrage:l’applica'ondefiltresperme`antderestreindrelepérimètreauthèmequel'onsouhaiteanalyser
estuntravailconséquentsionveuts'assurerdelaper'nenceducontenuquel'onanalyse.
• Appren'ssageetu'lisa'ondelogicielsspécialisésd’acquisi'ondedonnéesnonstructurées:
– Webcrawler:logicielquiparcourtetindexeleWebafind’enétablirlacartographie.– Scraper:logicielquiaspirelesélémentscons'tuantsd’uneouplusieurspagesweb-contenugénéralementnonstructuré-
etlestransformeendonnéesstructuréesfacilementexploitables.– ETL(Extract-transform-load)(oudatapumping):technologieinforma'queperme`antd'effectuerdessynchronisa'ons
massivesd'informa'ond'unesourcededonnées(basededonnées,..)versuneautre,pourensuitelesrestructurer,etenfinleschargerdansunDataWarehouse.
LesdonnéesQualité
Danslesétudesclassiques(nmodéré)Ques,onsposéesex-ante:Quesouhaitons-nousmesurer?Commentcapturerl’informa'on?
– Donnéescollectéesautraversd’enquêtes,– afind’obtenirdesréponsesàdesques'ons
définiesàl’avance,– enfonc'ond'unobjec'fprécis,– surdeséchan'llonsreprésenta'fs(ounon)
d’unepopula'onbiendéfinie.
Permetl’élabora'ondeplansexpérimentauxvisantàcontrôlercertainsbiaiséventuels.
Al’aireduBigData(ngrand,sen-mentd’exhaus-vité)Ques,onsposéesex-post:Quellesdonnéesexistent?Quepeut-onenfaire?
– Donnéesgénéréesautoma'quement(traces),Condi'onsdecollectegénéralementinconnues,
– nonspécifiques(nonproduitespourlesbesoinsd’uneétude),
– pasdebutpréétabli,– nonconçuespourêtredeséchan'llonsprobabilistes,
pasdepopula'onderéférence.Pasd’harmonisa'onnidecontrôledesbiais
Conclusion:«Garbagein,garbageout»:peut-on'rerquelquechosedebondecesdonnéesenl’absencedeconnaissancessurleurscondi'onsd’acquisi'onetdecontrôle ?
LesdonnéesQualité
² Quelquesbiaiscourants…• Donnéessales
– unepar'edesdonnéesn’estpasper'nentespourl’étude,necorrespondpasdirectementauconceptquel’onsouhaitemesurer.
– Cequel’onmesurenepermetpasdedéfinirclairementl’unitésta's'que(ex:plusieurspersonnespeuventseservird’unmêmetéléphone)
• Biaisdesélec'on
– lescaractéris'quesdel’échan'llonsontdifférentesdecellesdelapopula'onquel’onsouhaiteétudier Ex: Enquêtes en lignes de type Great Bri'sh Survey (sélec'on des u'lisateurs d’internet), u'lisateurs de téléphonie mobile (sous représenta'on de la popula'on la moins connecté), algorithme de recrutement d’Amazon (sur-représenta'ondeCVmasculinscompétents),etc.
• Biaisderéponse
– différenceentrecequel’onrépondetcequel’onfaitEx:commentairessurlesréseau,profilFB,parlentplusdelaréputa'onquelesgensveulentavoir
• Noncomparabilitédesindicateursdansletemps
– rupturesnonmaîtriséesliéesàdesmodifica'onsdeformat,decollecte,changementdecomposi'ondel’échan'llon,etc.
• Biaisdelavariableomise
– Touteslesvariablesnesontpastoujoursdisponiblespourproduirelesrésultats.– Onpeutsouventtoutauplusrécupérerdesproxies
Ex:algorithmesderecrutement:sidescapacitéstellesqueleleadership,l’intelligenceémo'onnellenesontpasprisesencomptemaisqu’ellessontnéga'vementcorréléesauxrésultatsscolaires,onrisquedepénaliserlespersonnesavecdesrésultatsscolairesmoyens,maisquidé'ennentd’autrequalitésindispensables.
• ………………..
LesdonnéesQualité
² …etquelquespistesdesolu2onso Desprécau2onsdebase
• Savoirexactementcequel’onveutmesurer- Quellepopula'on?(popula'ondesinternautesvspopula'onglobale,..)- Quelphénomène?(réputa'onvsfaits,…)
• Sefaireuneidéeprécisedesbiaispoten'elsBall&al.(2011)étudientlaper'nencel’u'lisa'ondedonnéesd’appelstéléphoniquesfourniespardesvolontairespourdéduirelesdommagescausésauxbâ'mentsenHaï'aprèsletremblementdeterrede2010.Lessignauxd’appelsontdonnéuneimagetrompeusedesdommages:- laproximitédesdommagesétaitfortement(néga'vement)corréléeaveclavolontéetlacapacitédes
gensàlessignaler.- Laplupartdesrapportsd’appelstéléphoniquesprovenaientdezonesnonendommagées.
LesdonnéesQualité
o NeOoyeretpréparerlesdonnées• DataWrangling:processusquipermetàpar'rdesdonnéesbrutesdeles
structurer,lesne`oyer,lesenrichir,lesvalideretlestransformerdansunformatadaptéàl’analyse.
– Vérifica'on,transforma'onséventuelles,sélec'ondesvariablesd’études,
imputa'ondedonnéesmanquantes.– Metenœuvredesméthodesdeniveautrèsélémentaire(résumésta's'que
desdistribu'ons,etc.)àtrèsélaborée(,mewarping– algorithmeperme`antdemesurerlasimilaritéentredeuxséries-recalagedecourbesoud’images...)
• Phaselapluslongueetfondamentalepourlaqualitédesrésultats
• AprèsunbonneWoyageetlechoixjudicieuxdesdonnéesenfonc,ondesobjec,fsdel’étude,lesdonnéesnesontgénéralementplusmassives.
LesdonnéesQualité
o Quan2tévsqualitédesdonnées:unessaideformalisa2ondubiaisdesélec2on(Meng,2018)• P=popula'onfiniedetailleN• Denombreusesquan'tésd’intérêtdelapopula'onpeuventêtreexpriméessousformed’unemoyenne
• Es'ma'onsurunéchan'llonIndetaillen:R=mécanismederéponse,quisoustendlaqualitédesdonnéesExemplesdemécanismes:-Echan'llonnagealéatoireparfait(SRS):Inestchoisiauhasardetindépendammentdesobserva'onsdeG.-Echan'llonnagealéatoireavecnonréponses:lecaractèreprobabilistedeRdedépenddumécanismedenonréponse(MAR,NMAR,..)-Donnéesauto-déclaréesouenregistréesadministra'vement(fréquentenBigData):Rnonprobabiliste
Gn =1n
Gjj=1
n
∑ =
RjGjj=1
N
∑
Rjj=1
N
∑, Rj =1 si j ∈ In et 0 sinon, Rj
j=1
N
∑ = n, In sous-ensemble de taille n de {1, ..... ,N }
E(G(X)) =GN =1N
Gjj=1
N
∑ ;Gi =G(Xj ) ;Xj ∈ Rp = caractéristique des individus de P
LesdonnéesQualité
Erreurd’es,ma,on(enl'absencedebiaisderéponse),sousunmécanismeRdonné:
Ø Quan'tédedonnées(DO,dépenddutauxd’échan'llonnage):f=1alorsΔ=0/f=0alorsΔinfinieØ Difficultéduproblème(Du,dépenddelavariabilitédesréponses):σG=0alorsΔ=0;ΔaugmenteavecσGØ Qualitédesdonnées(DI,dépenddelacorréla'onentreRetlesréponses):
– E(ρR,G)=0enl’absencedebiaisdesélec'on(laprobabilitéqu'unevaleurpar'culièredeGsoitenregistréeoudéclaréenedépendpasdelavaleurelle-même).
– SidesvaleursplusélevéesdeGontdeschancesplusélevées/moinsélevéesd'êtreenregistrées,alorsGnsures'me/sous-es'meGN.
Effetdel’augmenta,ondeNsurlaqualitéd’échan,llonnage(Designeffect):
– Pourunmécanismeparfait:
– Silaqualitéestmauvaise,l’erreuraugmenteaveclatailledelapopula'on!!
Δ =MSER (Gn ) = ER ((Gn −GN )2 ) = E(ρ 2R,G )
qualité des données!"# $# ×
1− ff
quantité de données!
× σ 2G
difficulté du problème! = DI ×DO ×DU
ρR,G = corrélation entre R et G, f = n/N=taux d'échantillonage σ G = écart-type de G
Deff = MSER (Gn )MSESRS (Gn )
= (N −1)DI
DI =O(N −1), MSESRS (Gn ) =O(1 / n), Deff =O(1)
LesdonnéesQualité
ConclusiondeMeng:• L’idéeintui'vequetouteinférencesta's'ques'amélioreàmesurequelatailledel'échan'llon
augmente(loidesgrandsnombres,TCL)estfausse:ellen'estvalablequesil'onauncontrôlestrictdupland'échan'llonnage.
• Onnepeutpases'merDIapriori(sansconnaissance/supposi'ondumécanismederéponseR).
• Enempruntantdel'informa'onprovenantd'ensemblesdedonnéessimilaires,onpeutêtreenmesured'établirunevaleurpréalablepourDI,etd’obtenirunevisionplusclairedumécanismederéponsepouréventuellementcorrigerlebiaisdesélec'on.
• Exempledel’élec'onaméricainede2016:
- Lemonde,08/11/2016:«Elec'onaméricaine2016:Clintondonnéegagnanteparpresquetouteslesprojec'ons»
- LegrandparadoxedesdonnéesaexacerbélebiaispourClinton:lessondagesn'ontpastenucomptedelapopula'onquiarefuséderépondreàlaques'on«Pourquicomptez-vousvoter?».LesgensquivoulaientvoterpourTrumpétaientunpeumoinsenclinsàrépondreàlaques'onquelespar'sansdeClinton,peut-êtreparcequ'ilspensaientque«cen'étaitpasuneréponsepopulaire».
LesdonnéesQualité
o Quelquessolu2onspourcomprendre/contrôlerlebiaisdesélec2on
• Iden'fierlesmécanismesdenonréponseenvued’u'liseruneméthodedecorrec'onappropriée
c.f.mécanismesMCAR,MAR,MNAR(Li`leetRubin,2002).
• Compléterl’informa'onmanquanteConsisteàimputerlesdonnéesmanquantes(cf.Li`leetRubin,2002)parl’intermédiaired’unmodèlesta's'queapproprié(ajustéidéalementaumoyendedonnéesissuesd’unpland’expériencecontrôlé). Ex:imputa'on«hot-deck»:lesvaleursdespopula'onsmanquantessontremplacéesparlavaleurd’individusoula moyennedevaleursd’individusayantdescaractéris'quessimilaires.
• RedresserlesdonnéesNécessited’es'merdesprobabilitésd’inclusion-requiertsouventderechercherdesvariablesauxiliairesetdestotauxdepopula'ondansdessourcesexternes. Ex:Pondéra'onparprobabilitéinverse(SeamanetWhite,2011).
• U'liserleré-échan'llonnagepourrecréerdespopula'onsar'ficiellesressemblantàlapopula'oncible
Permetderépliqueroudesupprimercertainsindividus Ex:BagofLi`leBootstrap(Kleineretal.,2012).
• U'liserdesmodèlesdesélec'onConsisteàconstruireunmodèlesurl’échan'llonperme`antdeprédireensuitesurlesunitéshorséchan'llon Ex:Méthoded’Heckman(Heckman,1979).
LesdonnéesQualité
• U'liserdel’informa'onauxiliaireissued’autressourcesdedonnéesfiables(recensement,basesdedonnéesadministra'ves,enquêtes,etc.)Souventindispensablepourcomprendrelesmécanismesdebiais/sélec'onenjeu,calculeroumodéliserdespropensionsàrépondre/desprobabilitésd’inclusion.
Exemplesdetravauxillustra,fsensciencessociales:
Pestreetal.2016:U'lisedesCDR(enregistrementsdedétailsd’appels,listed'appelscomplètepour2013,fournieparOrange)pourétudierlesdéplacementsavantetaprèsunecatastrophenaturelle.- AnalyseconjointedesdonnéesdeRecensementde2013duSénégaletdesCDRpourcomprendreetcorrigerlebiaisdesélec'on.
- Contrôle:Es'ma'ondumodèlestandard:log(P)=α+βlog(N)+e.Sures'melatailledelapopula'onsurcertainesrégions.- Recherchedevariablesresponsablesdece`esures'ma'on:rajoutdel’âgemoyendelarégion:log(P)=α+βlog(U)+γA+e- U'lisa'ondescoefficientsderégressionpoures'merlatailledelapopula'onàdesniveauxadministra'fsinférieursetcomparaisonàlatailleréelle
donnéeparlerecensement- «Lesrésultatssuggèrentqu'enajoutantcertainesvariablesexplica'vescommel'âgeàlarégression,nousrendonsnotrecapacitéd'extrapolerdespopula'onsà
desniveauxgéographiquesinférieursbeaucoupplusrobustesquedanslemodèlestandard.»
P=tailledelapopula'onpourunezonegéographiquedonnée(issudurecensement);N=nombred'u'lisateursdetéléphonescellulairescorrespondante(issudeCDR)A=âgemoyendelazone(issudurecensement)Zagheni&Weber,2012:Etudiedesmodèlesdemigra'onhumainebaséssur
– desinforma'onsgéographiquesetdémographiquesissuesd’ungrandéchan'llondemessagesélectroniquesYahoo,– destauxdemigra'onparâgepour11payseuropéens,recueillisparEurostat– dessta's'quesinterna'onalessurlestauxdepénétra'onInternetparâgeetsexe.
Zagheni&Weber,2015:Examinelali`ératurequiu'liselesdonnéesInternetpourlesétudesdémographiquesetprésenteuncadregénéralpourtraiterleproblèmedubiaisdesélec'ondansleséchan'llonsnonreprésenta'fs.Deuxapprochesprincipalessontproposéespourréduirelebiaisselonquedesdonnées«auxiliaires»sontdisponiblesounon.
Quelquesréférencescomplémentaires:-Beresewiczetal.,2018-Imbertetal.,2019-Kim&Wang,2019
Traitement des Big Data Les défis informatiques
Lamajoritédeslogicielsdetraitementnécessitentlechargementenmémoiredel’ensembledesdonnées.Quefairelorsquecen’estpluspossible?
– Donnéespastropvolumineuses:u'lisa'ond’unelibrairieperme`antuneextensionvirtuelledelamémoirevive(packagesBigmemory,ffsousR),deslibrairiesdemanipula'ondedonnéesadaptées(packagesdplyr,data.tablesousR),etéventuellementducalculparallèle(packageparallelousnowsousR,voirh`ps://cran.r-project.org/web/views/HighPerformanceCompu'ng.html).
– Donnéestropvolumineuses:Lorsquelesdonnéesnepeuventplusêtrestockéesnitraitéessurunseulordinateuret/ouprocesseur
Unesolu2on:diviserpourrégnerü partagedesressourcesdestockagedesdonnées:lamémoireestrépar'esurplusieurs
nœuds(cœursdeprocesseursouprocesseurs)-mémoiredistribuée.ü partagedesressourcesdecalcul:uncalculestrépar'surplusieursnoeuds–calcul
distribué(ouparallèle)
calculparallèle=diviserungrosproblèmeensous-problèmesplustraçablesetindépendants,chacuntraitéparuneunitédetraitement.Lesrésultatsintermédiairesdechaqueunitésontensuitecombinéspourobtenirlaproduc'ontotale.
TraitementdesBigDataLesdéfisinforma'ques
Généralement,onu,lisedesclustersd’ordinateurs(ordinateursautonomesmisenréseau).Etunframework:infrastructuredeprogramma'onquisechargederépar'rlescalculsetlesdonnées.Propriétésrequises:• fiabilité:toléranceàlapannedecertains
processeurs• scalabilité(possibilitédepassageàl’échelle):
capacitéàaugmentersesperformanceslorsqu’onaugmentelenombredenœuds.
Uneréférence:Hadoop(frameworkécritenJava,développéenversionlibreparlafonda'onApache)
o HDFS:sonpropresystèmedestockagedistribuéàauto-répara'on(duplica'ondesdonnées)
o Lemodèledeprogramma'onMapReducedecalculparallèle(développéparGoogle)
NB:Rhadoop(développéparrevolu'onanaly'cs/microso�):ensembledepackagesd’interfaceavecHadoopsousR(enlocalouviaunclustervirtuelCloudera)D’autreslogicielsprome`eurs:Spark,MahoutSparkpalieauxtempsdecalculrédhibitoiresd’Hadooppourlesalgorithmesitéra'fs.NB:commepourHadoop,desversionsRexistent(Rspark).DesDéfis:ü Programma'onMapreduce(cfmicrosolfRserver)ü Infrastructurenécessaire(coût,etc..);cloudcompu'ng
TraitementdesBigDataLesdéfisensta's'queLeFléaudeladimension
Bellman,1961:The“curseofdimensionality”(nombredevariablespgrand)ü Désignediversphénomènescontre-intui'fsquiontlieulorsquel'onchercheàanalyser
ouorganiserdesdonnéesdansdesespacesdegrandedimension.
ü Liéauphénomènedesparsité(phénomènedel’espacevide):Lorsquelenombrededimensionsaugmente,lesdonnéesseretrouvent«isolées»etdeviennentéparses.
Exemplesdeproblèmes«sparse»:classifica'ond'images(p=millionsdepixels),detextes(p=unedizainesdemilliers),génomique(p=dizainesdemilliersdevaleursd'expressiondegènes)
Choix de modele et fleau de la dimension
Curse of dimensionality (Bellman)
Dans [0, 1]d, combien de points doit contenir une grille regulierepour que tout point ait un voisin de la grille au plus a distance 0.1 ?
d = 1 : 5 points0.1 0.3 0.5 0.7 0.9
d = 2 : 49 points
0.0 0.2 0.4 0.6 0.8 1.0
0.00.2
0.40.6
0.81.0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
d = 10 : 976562500000 points
d = 20 : 976562500000000000000000000 points
Lesdéfisensta's'queLeFléaudeladimension
Ø Imprécisiondeses2ma2onsExemple1:Construireunhistogrammeens’appuyantsur10pointsenmoyenneparintervalleet10classesparvariable.• DansR(p=1):10classes,nécessiten=100
observa'ons
• DansR2(p=2):100classes,n=1000
• DansR10(p=10):1010classesn=1011observa'ons!!
Exemple2:Evolu'ondunombred’observa'onsnécessairesàl’approxima'ond’unedistribu'ongaussienneparunes'mateurànoyaugaussienenfonc'ondeladimensionpdel’espace.
Théorie:Es'ma'onnonparamétriqueengrandedimension.
• Aucunes'mateurnepeutfairemieux• L’erreurd’es'ma'on(plusprécisémentle
termedevariance)croîtavecp.
F = { f Lipschitz : [0,1]p →R},
inffnsup f∈F E f − fn
2
≥Cn−
22+p
2.4. Classification des données de grande dimension 37
1 2 3 4 5 6 7 8 9 10 11 12 13 14 150
1000
2000
3000
4000
5000
6000
7000
Dimension
N(p)
FIG. 2.7 – Nombre d’observations nécessaires à l’approximation d’une distribution gaussienne quel-conque avec des noyaux gaussiens fixés avec une erreur maximale de 10% (voir [84]).
introduisant la programmation dynamique. Le site (très controversé) books.google.com nous a permisd’avoir accès à la préface de cet ouvrage dont voici la partie la plus intéressante pour notre propos :
All this [les problèmes liés à la dimension] may be subsumed under the heading « thecurse of dimensionality ». Since this is a curse, [...], there is no need to feel discouragedabout the possibility of obtaining significant results despite it.
Nous verrons en effet dans la suite de ce mémoire qu’il existe des solutions à ce « fléau de la dimen-sion » et qu’il peut même faciliter certaines tâches (dont la classification sous certaines conditions).Nous allons voir dans la suite de ce paragraphe quelles sont les principales manifestations de la grandedimension des données. Le lecteur pourra consulter [47, chap. 1], [82, chap. 7] où l’Aide-Mémoire deDonoho [27] pour plus de détails sur ces phénomènes.
Le fléau de la dimension à proprement parlé
Bellman utilisa le terme « fléau de la dimension » dans [6] pour parler de la difficulté d’optimiserune fonction par une recherche exhaustive de l’optimum dans un espace discrétisé. En effet, Bellmannous rappelle que si l’on considère une grille régulière de pas 1/10 sur le cube unité dans un espaceà 10 dimensions, nous obtenons 1010 points. Ainsi, pour rechercher l’optimum d’une fonction surce cube unité, il faut effectuer 1010 évaluations de la fonction. Si le cube unité en dimension 20est considéré, alors il faudra effectuer évidemment 1020 évaluations de la fonction. Silverman [84]a également observé ce phénomène dans le cadre de l’approximation d’une distribution gaussiennequelconque avec des noyaux gaussiens fixés. Ses résultats montrent que le nombre N d’observationsnécessaires à cette tâche avec une erreur maximale de 10% croît exponentiellement avec la dimension
Lesdéfisensta's'queLeFléaudeladimension
Ø Lesdistancesclassiquesnesontplusper2nentes(concentra2ondesdistances)
• v
Segmentation des donnees
On considere deux observations (xi
, xk
), xi
2 Rp, xk
2 Rp
� X
1X
2 . . . X
j . . . X
p
1 x11 . . . x1j x1p...! i x
i1 . . . x
ij
x
ip
...! k x
k1 . . . x
kj
x
kp
...n x
n1 . . . x
nj
x
np
• Distance euclidienne `2 entre ces deux observations:
||xi
� x
k
||2 =qP
p
d=1(xi (d)� x
k
(d))2
M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 8 / 23
Etude de la distance euclidienne en fonction de la
dimension p
• Illustrations:n = 100 observations, uniforme, en dimension 1, 2, 3, ...
• Indicateur:max
i 6=j
||xi
�x
k
||2min
i 6=j
||xi
�x
k
||222 435 346 47
p = 1 p = 2 p = 3! Fleau de la dimension
M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 10 / 23
Fleau de la dimension
Illustration: n = 100 observations uniformes (K = 500 repetitions) •
Evolution du rapportmax
i 6=j
||xi
�x
j
||min
i 6=j
||xi
�x
j
|| en fonction de la dimension p
! La distance euclidienne perd sa capacite de discrimination en grandedimension lorsque p augmente! Problematique pour la segmentation, la discrimination des observations
M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 11 / 23
Lesdéfisensta's'queLeFléaudeladimension
Exemple:Classifica'on(discrimina'on,SVM,algorithmesderecommanda'on,…)Engrandedimension,touslespointssemblentsituésàégaledistance
Segmentation de donnees
Faible dimension p=2
Donnees Matrice Classification Classification
des distances hierarchique non supervisee
Grande dimension p=20
M. Mougeot (Paris Diderot) Mathematiques en Mouvement 6 Juin 2015 12 / 23
Lesdéfisensta's'queLeFléaudeladimension
Ø Lasignifica2vitésta2s2queposeproblèmeü Testsmul'plesettauxdefauxposi'fsEngrandedimension,lenombrepd’hypothèsesàtestersimultanémentatendanceàaugmenter(plusdevariablesétudiées),ainsiqueletauxdefauxposi'fs.Ex:ptests,correspondantàpcritèresdejugement,sontréaliséspourcomparerunnouveautraitementàuntraitementtémoin.
Solu'ons:correc'ondesp-values(e.g.bornedeBonferroni,procédureBHdeBenjaminietHochberg(1995),etc.)
p hypothèses indépendantes testées simultanément : H j :m1, j =m2, j, j =1,...p
P(rejeter au moins une H jà tort) =1− (1−α)p
Lesdéfisensta's'queLeFléaudeladimension
ü Faussescorréla'ons
Engrandedimension,desvariablesnoncorréléesscien'fiquementpeuventavoirdescorréla'onsempiriquesélevées.-Problèmedesfacteursdeconfusion(variablecachéeinfluantsurles2variablesétudiées)ParadoxedeSimpson:ex:comparaisondedeuxtraitementscontrelescalculsrénaux.A>B B>A<BAaétédonnébeaucoupplussouventqueBpourlesgroscalculs,quisontplusdifficilesàsoigner:leséchan'llonsnesontpashomogènesdupointdevuedufacteurdeconfusion.
-Corréla,onn’estpascausalité:mêmelorsquedeuxévénementssontcorrélés(reliés),ilspeuventl’êtresanspourautantavoirderapportdecauseàeffet.«EnFrance,57%desmortsontlieuàl’hôpital».Alors,dangereuxl’hôpital?
-Lesfaussescorréla,onspeuvententraînerdefaussesdécouvertesscien,fiquesex:GoogleFluetfaussescorréla'ons:pourprévoirl’épidémie,l’algorithmerelevaitdestermes«saisonniers»telsquelestournoisdebasket,trèssuivisauxEtats-Unisetquiontlieul’hiver(Lazeretal,2014)quicoïncidentaveclesépidémiesdegrippedufaitducalendrier,maisquinetraduisentaucununliendecausalitéentrelesdeux.
Introduction Principes mathematiques Le Big Data
Correlations en statistique
De nombreux journaux par-lent d’etudes scientifiques s’appuyant sur des etudes et des sondages
Lesdéfisensta's'queLeFléaudeladimension
ü Faussesinférencessta's'ques
Instabilitédesmodèlesengrandedimension
Ex:modèlelinéaireàprégresseurs(pgrand)
Critèresdesélec,ondevariablesclassiquesmaladaptés- Lesrésidussontquasinulsengrandedimension(=0
lorsquep>n)
- Critèresclassiques:
Testsdenullitédescoefficientstoussignifica,fs(cftestmul'ples)
Y = Xβ +ε, Y ∈ Rn, X ∈ Rn×p, Var(ε) =σ 2In
β = X 'X( )non inversibleou forte collinéarité
!"#−1 (X 'Y )→ une infinité de solutions
R2 =1−εi
2∑(yi − y )2∑
≈1
AIC = n logεi
2∑2
+ 2(p+1)→−∞
Lesdéfisensta's'queLeFléaudeladimension
LaØ Sur-appren2ssage
ü Auplusladimensionaugmente,auplusonatendanceàajusterdesmodèlescomplexes(tenta'ond’u'lisertoutel’informa'ondisponible).
ü PrincipeduRasoird’Ockham(Ockham(1285-1347))-parcimonie
Régressionlinéairey=ax+b Régressiondedegré15:y=ax15+bIlfauttrouverlebondegrédecomplexitépourobtenirunmodèleefficace.Apprendre=Modéliserlesrégularités"réelles"présentes
danslesdonnées:modélisa'onper'nente,bonnegénéralisa'on
Sur-apprendre=Modéliserlesrégularités"accidentelles"localesàl'échan'llond'appren'ssage:pasdebonnegénéralisa'on
Rasoird’Occam
Erreurdeprédic:on
Complexitédumodel
pe:te grande
Erreurd’entraînement
Erreurdetest
GrandbiaisPe:tevariance
Pe:tbiaisGrandevariance
sous-appren3ssage
surappren3ssage
Y = f (X1,...,Xp )+ε
No,onsd’appren,ssagesupervisé:
- On«apprend»(es'me)lafonc'onfàpar'rd’exemples
(donnéesd’entrainement)
- Onévaluelaqualitéprédic'vedumodèlesurunéchan'llondetest
Ycatégorielle:classifica'onsupervisée(régressionlogis'que,Knn,SVM,CART),f=classifieurYnumérique:régression(linéaire,nonlinéaire,knn,randomforest),f=fonc'onderégressionExClassif:Y=(«voiture»,«chat»);X1=(imagesdechats,devoitures)
Lesdéfisensta's'queLeFléaudeladimension
Unesolu2onaufléaudeladimension:ladimensionintrinsèque
Sco`,1992:«theunderlyingstructureofpdimensionaldataisalmostalwaysofdimensionlowerthanp»
Dansbeaucoupdecescas,ladimensionnalitén'estgrandequ’enapparenceExemples:- classifica,ond’imagesennoiretblancdechiffresmanuscrits:chaqueimageestdécritepar
denombreuxpixels,maispeudepixelssontnoirs(coordonnéesnonnulles).Lenombredepixelspsures'melacomplexitédesdonnées.
- classifica,ondesdocuments:undocumentestdécritparunvecteurdedimensionp(detaillelatailledudic'onnaire=unecentainedemilliersdemots),chaquecoordonnéevaut1(oufréquencedumot)silemotapparaîtdansletexte,0sinon.Maisundocumentdonnénecon'entquequelquescentainesdemots,etdonclaplusgrandepar'edesonvecteurestnulle.
• Autresméthodes:"Projec'onPursuitRegression",réseauxdeneurones
• :
Lesdéfisensta's'queLeFléaudeladimension
ü Méthodesderéduc2ondeladimension
• Remplacementdesdonnéesoriginalespardesdonnéesdansunespacedeplusdepe'tedimension,toutenconservantl'essen'eldel’informa'on.Ex:ACP,ACPsparse,extensionsàdesespacesnonlinéaire(principalcurves,ACI,KernelPCA,etc.)
• Généralisa'ondesméthodesclassiquesdesélec'ondevariablesengrandedimensionex:ExtendedBIC,généralisa'onducritèreBICpourp>n(Chen&Chen,2008).
• Autresméthodes:régressionsparprojec'onpursuit,réseauxde
neurones,etc.
Lesdéfisensta's'queLeFléaudeladimension
ü Méthodesderégularisa2on• Danslesmodèlesderégression:
- seulunpe'tnombredeparamètresestnécessaire(sparsitéduparamètre)
- minimisa'ond’uncritèreadapté(vraisemblance,moindrescarrés)pénalisépourcontraindreuncertainnombredecoefficientsdumodèleàêtrenuls.
Exemple:régressionlinéairepénalisée:
λpermetdetrouveruncompromisentrelacomplexitédumodèleetsonajustementauxdonnées
-λ=0:touteslesvariablessontsélec'onnées;grandecomplexité;prédic'onsmauvaise. -λinfini:aucunevariablen’estsélec'onnée;oublidel’informa'ondanslesdonnées.
Pénalisa'onsclassiques:
• Généralisa,ondesméthodesderégularisa,onàdenombreuxproblèmes:es'ma'ondematricesdecovariancesparse,ACPsparse,modèleslinéairesgénéralisés,SVM,analysediscriminante,clustering,sérieschronologiques,sélec'onpararbresrégularisés,randomforestrégularisées.
β = argminβ (yi − yi )2 −λpen(β)∑
⎛
⎝⎜
⎞
⎠⎟,λ > 0
Ridge : pen(β) = β 2, ;j=1
p
∑ Lasso : pen(β) = β jj=1
p
∑ ; Elastic Net: pen(β) = λ1 β 2 +λ2j=1
p
∑ β jj=1
p
∑
Y = Xβ +ε
Lesdéfisensta's'queQuelquesautreslimites
Ø Endogénéitéaccidentelle:lorsquedansunmodèle,certainsrégresseurssontcorrélésaccidentellementavecletermed’erreur(biaisd’omissiondevariables,erreursdemesure).
– Facilitéparlegrandnombredecaractéris'quesàchoisirengrandedimension– invaliditédesmodèleclassiques(quireposentsurunhypothèsed’exogénéité)– Solu'ons:méthodedesvariablesinstrumentales,affaiblissementdeshypothèses(Fanetal.,
2014)
Ø Hétérogéneité:lorsqueplusieurssous-popula'onscoexistentetprésententdescaractéris'quespropres.
– FréquentenBigDataoùlesdonnéessontsouventcrééesenagrégeantdenombreusessourcesdedonnéescorrespondantàdifférentessous-popula'ons
– Biaissta's'quesdanslesmodèles– Solu'ons:modèlesdemélange,…
Ø Nonper2nencedesp-values:Quandngranditlesp-valuessonttoutessignifica'ves.– Solu'ons:FacteurdeBayes,u'lisa'ondesIC(Kimetal.,2019).
Lesdéfisensta's'queQuelquesautreslimites
Ø Variétédesdonnées:commentcombineretanalyserlesnouvellessourcesd'informa'on(textes,images,vidéos,audio,fonc'ons…)
Ex:Enmédecine,fusiond’informa'onsprovenantdedifférentshôpitauxetunitésdesoinsafind'apprendreplusrapidementdenouvellesmaladiesEx:Traitementinforma'quedesopinionsetdessen'ments(Tausczik&Pennebaker,2010),àpar'rdel’informa'ontextuelleetvocalesurlesréseauxsociauxetsurleWeb.
ü Destravauxsurlacombinaisondessources
• Laméta-analyse(Brockwell&Gordon,2001):moyentradi'onneldecombinerl'informa'onsurdesvariablesdefréquenceoudelocalisa'ondifférentes.
• Nowcas'ng(Giannone&al,2008):combinaisondesérieschronologiquesdepériodicitédifférentes.
ü Desméthodesspécifiquesparsources
• Analysevidéo(ex:observa'onduclimat,neurosciences,télédétec'on,surveillancevidéo):Quelquesméthodes:détec'onderuptures(naissanced’unouragan,présenced'uneac'vitécérébrale,présenced'unvoleurdansunbâ'ment),techniquesderéduc'ondimensionnellepourlacompressionvidéo,méthodesdeclusteringpourlasegmenta'ondumouvement.
• Analysedessignauxaudio(ex:capteursdesmesuredesignauxvitauxhumains-température
corporelle,tensionartérielle,rythmecardiaque-capteursdemouvements) Quelquesméthodes:analysefonc'onnelle(réduc'ondimensionnelle,classifica'onfonc'onnelles,séries chronologiquesfonc'onnelles)
LetraitementdesdonnéesmassivesVersla«DataScience»
² MachineLearningvsSta2s2que:lechocdescultures
Breiman,2001:«Sta,s,calmodeling:thetwocultures»
ü Problèmedemodélisa'onsta's'que:Àl'intérieurdelaboîtenoire,lanaturesecharged'associerlesprédicteursetlaréponse.ü Deuxobjec'fsdelamodélisa'ondedonnées:
- Comprendre.Extrairedesinforma'onssurlafaçondontlanatureassocielaréponseauxprédicteurs(compréhensiondesdonnéesetdumécanismequilesaengendrées).
- Prédire.Etrecapabledeprévoirquellesserontlesréponsesauxvariablesd'entréefutures.ü Deuxapprochesdifférentespoura`eindrecesobjec'fs:- Visionclassique(sta's'que):modèlespourcomprendre- Vision«MachineLearning»(branchedel’IAnéedanslesannées1980):modèlepourprévoir
Statistical Science2001, Vol. 16, No. 3, 199–231
Statistical Modeling: The Two CulturesLeo Breiman
Abstract. There are two cultures in the use of statistical modeling toreach conclusions from data. One assumes that the data are generatedby a given stochastic data model. The other uses algorithmic models andtreats the data mechanism as unknown. The statistical community hasbeen committed to the almost exclusive use of data models. This commit-ment has led to irrelevant theory, questionable conclusions, and has keptstatisticians from working on a large range of interesting current prob-lems. Algorithmic modeling, both in theory and practice, has developedrapidly in fields outside statistics. It can be used both on large complexdata sets and as a more accurate and informative alternative to datamodeling on smaller data sets. If our goal as a field is to use data tosolve problems, then we need to move away from exclusive dependenceon data models and adopt a more diverse set of tools.
1. INTRODUCTION
Statistics starts with data. Think of the data asbeing generated by a black box in which a vector ofinput variables x (independent variables) go in oneside, and on the other side the response variables ycome out. Inside the black box, nature functions toassociate the predictor variables with the responsevariables, so the picture is like this:
y xnature
There are two goals in analyzing the data:
Prediction. To be able to predict what the responsesare going to be to future input variables;Information. To extract some information abouthow nature is associating the response variablesto the input variables.
There are two different approaches toward thesegoals:
The Data Modeling Culture
The analysis in this culture starts with assuminga stochastic data model for the inside of the blackbox. For example, a common data model is that dataare generated by independent draws from
response variables = f(predictor variables,random noise, parameters)
Leo Breiman is Professor, Department of Statistics,University of California, Berkeley, California 94720-4735 (e-mail: [email protected]).
The values of the parameters are estimated fromthe data and the model then used for informationand/or prediction. Thus the black box is filled in likethis:
y xlinear regression logistic regressionCox model
Model validation. Yes–no using goodness-of-fittests and residual examination.Estimated culture population. 98% of all statisti-cians.
The Algorithmic Modeling Culture
The analysis in this culture considers the inside ofthe box complex and unknown. Their approach is tofind a function f!x"—an algorithm that operates onx to predict the responses y. Their black box lookslike this:
y xunknown
decision treesneural nets
Model validation. Measured by predictive accuracy.Estimated culture population. 2% of statisticians,many in other fields.
In this paper I will argue that the focus in thestatistical community on data models has:
• Led to irrelevant theory and questionable sci-entific conclusions;
199
LetraitementdesdonnéesmassivesVersla«datascience»
Visionclassique:modélisa'onsta's'que(98%dessta's'ciens)
– Approchehypothé'co-déduc've– Reposesurl'hypothèsed'unmodèlesous-
jacentdanslaboîte,choisidansuneclasserestreinte
– Es'ma'ondesparamètresetvalida'ondumodèle(Oui-non)
– Interpréta'ondel’effetdexsury
+++SouventsimpleetInterprétable---• Rigidité:Lesconclusionsportentsurle
mécanismedumodèleetnonsurlemécanismedelanature(problèmesilemodèleestunemauvaiseimita'on)
• Méthodesdevalida'onerronéesengrandedimension
• Capacitéprédic've?
VisionMachinelearning:modélisa'onalgorithmique(2%dessta's'ciens)- Approcheinduc've- L'intérieurdelaboîteestcomplexeetinconnu:
plutôtquedefixerunmodèle,onchercheunefonc'on-unalgorithme– qui«apprend»àassocierxày,àpar'rdedonnées(ensembled’entrainement)
- Valida'ondumodèle:mesuredelaprécision
prédic'vesurunensemblededonnéestest.- Prédic'ondeyàpar'rdenouvellesvaleursdex+++Plusflexible,s’appuieessen'ellementsurlesdonnées(«data-driven»),reposesurdeshypothèsesmoinsnombreusesoumoinsfortes.---• Beaucoupd’algorithmessontefficaces
empiriquementmaispasdejus'fica'onthéorique
• Interpréta'on?Black-box
Statistical Science2001, Vol. 16, No. 3, 199–231
Statistical Modeling: The Two CulturesLeo Breiman
Abstract. There are two cultures in the use of statistical modeling toreach conclusions from data. One assumes that the data are generatedby a given stochastic data model. The other uses algorithmic models andtreats the data mechanism as unknown. The statistical community hasbeen committed to the almost exclusive use of data models. This commit-ment has led to irrelevant theory, questionable conclusions, and has keptstatisticians from working on a large range of interesting current prob-lems. Algorithmic modeling, both in theory and practice, has developedrapidly in fields outside statistics. It can be used both on large complexdata sets and as a more accurate and informative alternative to datamodeling on smaller data sets. If our goal as a field is to use data tosolve problems, then we need to move away from exclusive dependenceon data models and adopt a more diverse set of tools.
1. INTRODUCTION
Statistics starts with data. Think of the data asbeing generated by a black box in which a vector ofinput variables x (independent variables) go in oneside, and on the other side the response variables ycome out. Inside the black box, nature functions toassociate the predictor variables with the responsevariables, so the picture is like this:
y xnature
There are two goals in analyzing the data:
Prediction. To be able to predict what the responsesare going to be to future input variables;Information. To extract some information abouthow nature is associating the response variablesto the input variables.
There are two different approaches toward thesegoals:
The Data Modeling Culture
The analysis in this culture starts with assuminga stochastic data model for the inside of the blackbox. For example, a common data model is that dataare generated by independent draws from
response variables = f(predictor variables,random noise, parameters)
Leo Breiman is Professor, Department of Statistics,University of California, Berkeley, California 94720-4735 (e-mail: [email protected]).
The values of the parameters are estimated fromthe data and the model then used for informationand/or prediction. Thus the black box is filled in likethis:
y xlinear regression logistic regressionCox model
Model validation. Yes–no using goodness-of-fittests and residual examination.Estimated culture population. 98% of all statisti-cians.
The Algorithmic Modeling Culture
The analysis in this culture considers the inside ofthe box complex and unknown. Their approach is tofind a function f!x"—an algorithm that operates onx to predict the responses y. Their black box lookslike this:
y xunknown
decision treesneural nets
Model validation. Measured by predictive accuracy.Estimated culture population. 2% of statisticians,many in other fields.
In this paper I will argue that the focus in thestatistical community on data models has:
• Led to irrelevant theory and questionable sci-entific conclusions;
199
STATISTICAL MODELING: THE TWO CULTURES 209
class #2 are !x"2#$. If these two sets of vectors canbe separated by a hyperplane then there is an opti-mal separating hyperplane. “Optimal” is defined asmeaning that the distance of the hyperplane to anyprediction vector is maximal (see below).
The set of vectors in !x"1#$ and in !x"2#$ thatachieve the minimum distance to the optimalseparating hyperplane are called the support vec-tors. Their coordinates determine the equation ofthe hyperplane. Vapnik (1995) showed that if aseparating hyperplane exists, then the optimal sep-arating hyperplane has low generalization error(see Glossary).
optimal hyperplane
support vector
In two-class data, separability by a hyperplanedoes not often occur. However, let us increase thedimensionality by adding as additional predictorvariables all quadratic monomials in the originalpredictor variables; that is, all terms of the formxm1xm2. A hyperplane in the original variables plusquadratic monomials in the original variables is amore complex creature. The possibility of separa-tion is greater. If no separation occurs, add cubicmonomials as input features. If there are originally30 predictor variables, then there are about 40,000features if monomials up to the fourth degree areadded.
The higher the dimensionality of the set of fea-tures, the more likely it is that separation occurs. Inthe ZIP Code data set, separation occurs with fourthdegree monomials added. The test set error is 4.1%.Using a large subset of the NIST data base as atraining set, separation also occurred after addingup to fourth degree monomials and gave a test seterror rate of 1.1%.
Separation can always be had by raising thedimensionality high enough. But if the separatinghyperplane becomes too complex, the generalizationerror becomes large. An elegant theorem (Vapnik,1995) gives this bound for the expected generaliza-tion error:
Ex"GE# ≤ Ex"number of support vectors#/"N− 1#!
where N is the sample size and the expectation isover all training sets of size N drawn from the sameunderlying distribution as the original training set.
The number of support vectors increases with thedimensionality of the feature space. If this number
becomes too large, the separating hyperplane willnot give low generalization error. If separation can-not be realized with a relatively small number ofsupport vectors, there is another version of supportvector machines that defines optimality by addinga penalty term for the vectors on the wrong side ofthe hyperplane.
Some ingenious algorithms make finding the opti-mal separating hyperplane computationally feasi-ble. These devices reduce the search to a solutionof a quadratic programming problem with linearinequality constraints that are of the order of thenumber N of cases, independent of the dimensionof the feature space. Methods tailored to this partic-ular problem produce speed-ups of an order of mag-nitude over standard methods for solving quadraticprogramming problems.
Support vector machines can also be used toprovide accurate predictions in other areas (e.g.,regression). It is an exciting idea that gives excel-lent performance and is beginning to supplant theuse of neural nets. A readable introduction is inCristianini and Shawe-Taylor (2000).
11. INFORMATION FROM A BLACK BOX
The dilemma posed in the last section is thatthe models that best emulate nature in terms ofpredictive accuracy are also the most complex andinscrutable. But this dilemma can be resolved byrealizing the wrong question is being asked. Natureforms the outputs y from the inputs x by means ofa black box with complex and unknown interior.
y xnature
Current accurate prediction methods are alsocomplex black boxes.
y xneural nets forestssupport vectors
So we are facing two black boxes, where oursseems only slightly less inscrutable than nature’s.In data generated by medical experiments, ensem-bles of predictors can give cross-validated errorrates significantly lower than logistic regression.My biostatistician friends tell me, “Doctors caninterpret logistic regression.” There is no way theycan interpret a black box containing fifty treeshooked together. In a choice between accuracy andinterpretability, they’ll go for interpretability.
Framing the question as the choice between accu-racy and interpretability is an incorrect interpre-tation of what the goal of a statistical analysis is.
Lesdéfisensta's'queVersla«datascience»
² Ladatascience:unrapprochementdesculturesü Lacomplexitécroissantedesdonnées(enpar'culierleséquençagedugénomehumain)et
l’évolu'ondescapacitésdecalculontconduitlessta's'quesàdévelopperdesméthodesdeplusenplusflexibles,danslecadredel’appren'ssagesta's'que(Has'eetal.,2009)
ü Parallèlement,leMachineLearnings’estappuyésurlamodélisa'onstochas'queet
sta's'queafindeconstruiredesalgorithmesfournissantdesrèglesdedécisionsper'nentesetdesgaran'esthéoriques.
L’interprétabilitéetlarecherchedegaran'esthéoriquesdesmodèlesissusduMachineLearningestunethéma'quederechercheenpleinessorpourlesSta's'ques(c.f.Sameketal.2017,Murdosh,2019)ü Lerapprochementdecesdeuxcultures,enparallèleàl’évolu'ondesmoyensdecalculsetla
croissancedesvolumesdedonnéesadonnénaissanceàunenouvellediscipline:la«DataScience».
Leconsensusaujourd’huiestdedéfinirledatascien,stàl’intersec'ondetroisdomainesd’exper'se:Informa'que,Sta's'queetMathéma'ques.
Lesdéfisensta's'queVersla«datascience»
² Retoursurles«algorithmes»:Quelquesprincipesgénérauxd’appren2ssagemachine
LesdifférentstypesdeméthodesOnclassegénéralementlesméthodesd’appren'ssageautoma'quesen4groupes:- lesméthodesd’appren'ssageclassiques,- lesméthodesd’appren'ssageparrenforcement- lesméthodesd’appren'ssageprofond- Lesméthodesd’appren'ssageensemblistes(souventra`achéesauxméthodesclassiques)
Lesdéfisensta's'queVersla«datascience»
Lesméthodesd’appren2ssageclassiquesOnpeutclasserlesméthodesd’appren'ssageclassiquesen2groupes:lesméthodessupervisées,lesméthodesnonsupervisées.Appren2ssagesuperviséLesdonnéesd’entrainement(ouexemples)sontannotées:• ondisposed’unéchan'llond’entrainementdetype(xi,yi)• onchercheunefonc'onftelleque:
f=fonc'onderégression/classifieur
Problèmeàrésoudre:Op'miserfauseind’uneclassedemodèles,enminimisantunrisqued’erreur(ex:tauxd’erreur)surdesdonnéesd’entraînement.
Exempledemodèles:Discrimina'on,régression,boos'ng,SVM,GAM,KNN,arbresderégression,réseauxdeneurones…
• L
Applica'ons:- Reconnaissanced’objets:unproblèmesupervisé
correspondaucasoùlelabel«voiture»estbienassociéàdesphotosdevoitures,lelabel«chat»àdesphotosdechat,etc.L’algorithmeapprendainsiàpar'rdemilliersoudemillionsd’exemplesé'quetés:ilcherchelarela'onquipermetderelierlesimagesauxlabels
- classifica,ond’emailenspamounonselonlecontenudumessage,sonexpéditeur,sonsujet…
- diagnos,cmédicalselonlessymptômes
Y = f (X1,...,Xp )+ε
Lesdéfisensta's'queVersla«datascience»
Appren2ssagenonsuperviséLesexemplesnesontpasannotés• ondisposed’unéchan'llond’entrainementdetype(xi)• Laméthodedoitfaireémergerautoma'quementlescatégoriesàassocierauxdonnéesqu’onluisoumet
(pourreconnaîtrequ’unchatestunchat,unevoiture)commesontcapablesdelefairelesanimauxetleshumains.
• Pourcela,l’algorithmechercheàmaximiserd’unepartl’homogénéitédesdonnéesauseindesgroupesdedonnéesetàformerdesgroupesaussidis'nctsquepossible:lamétriquesous-jacentejoueunrôleclépourdéterminercequiestlanormeetcequis’enéloigne.
Problèmeàrésoudre:Trouverdesrèglesdeclassementdesobserva'ons/deregroupementdevariablesretraçantdefaçonop'malelastructureinhérentedesdonnées,enminimisantunrisqued’erreursurdesdonnéesd’entrainement.Exempledemodèles:classifica'onnonsupervisée(clustering),analysefactorielle,méthodesderéduc'ondedimensionApplica'ons:Segmenta,ond’images:onessaiedeséparerlesimagesengroupes-regrouperdesimagesdevoitures,dechats,etc.Détec,ond’anomalies:pourlamaintenanceprédic've,lacybsersécurité,ledépistageprécocedemaladies,etc.Systèmesderecommanda,on
Lesdéfisensta's'queVersla«datascience»
Prédic2bilitévsexplicabilité• Certainesméthodessontmoinsflexibles(ouplusrestric'ves)qued’autresdanslesensoùellespeuvent
es'merseulementunegammelimitéedeformespourf.Ex:larégressionlinéairenepeutproduirequedesfonc'onslinéairesalorsquelessplinessontne`ementplusflexiblescarellespeuventproduireplusdeformespourl’es'mateurdef.
• Lesmodèlesrestric'fssontbienplusinterprétables.Encontraste,lesapprochestrèsflexiblespeuventamener
àdeses'mateurstellementcomplexesdefqu’ilestdifficiledecomprendrecommentunprédicteurindividuelestassociéàlaréponse.
• Lorsduchoixd’unmodèle,savoirquelleapprocheprivilégierenfonc'onduproblèmeconcretétudié-Approcheprévision:détec'ondepannes,d’épidémies,indicedeprixàlaconsomma'on-Approcheinterpréta'on:compréhensionduphénomène-mobilisedescompétencesmé'er:ingénierie,médecine,économie
2.1 What Is Statistical Learning? 25
Flexibility
Interpr
etabili
ty
Low High
LowHig
h Subset SelectionLasso
Least Squares
Generalized Additive ModelsTrees
Bagging, Boosting
Support Vector Machines
FIGURE 2.7. A representation of the tradeoff between flexibility and inter-pretability, using different statistical learning methods. In general, as the flexibil-ity of a method increases, its interpretability decreases.
more interpretable. For instance, when inference is the goal, the linearmodel may be a good choice since it will be quite easy to understandthe relationship between Y and X1, X2, . . . , Xp. In contrast, very flexibleapproaches, such as the splines discussed in Chapter 7 and displayed inFigures 2.5 and 2.6, and the boosting methods discussed in Chapter 8, canlead to such complicated estimates of f that it is difficult to understandhow any individual predictor is associated with the response.Figure 2.7 provides an illustration of the trade-off between flexibility and
interpretability for some of the methods that we cover in this book. Leastsquares linear regression, discussed in Chapter 3, is relatively inflexible butis quite interpretable. The lasso, discussed in Chapter 6, relies upon the
lassolinear model (2.4) but uses an alternative fitting procedure for estimatingthe coefficients β0,β1, . . . ,βp. The new procedure is more restrictive in es-timating the coefficients, and sets a number of them to exactly zero. Hencein this sense the lasso is a less flexible approach than linear regression.It is also more interpretable than linear regression, because in the finalmodel the response variable will only be related to a small subset of thepredictors — namely, those with nonzero coefficient estimates. Generalizedadditive models (GAMs), discussed in Chapter 7, instead extend the lin-
generalizedadditive modelear model (2.4) to allow for certain non-linear relationships. Consequently,
GAMs are more flexible than linear regression. They are also somewhatless interpretable than linear regression, because the relationship betweeneach predictor and the response is now modeled using a curve. Finally, fully
TraitementdesBigDataL’exploita'ondesrésultats
² Equitéetloyautédesalgorithmes2condi'onsnécessairesàl’exploita'ondesrésultatsissusdesalgorithmes(P.Besseetal.,2018)
• Loyautéd’unalgorithme:Lerésultatdel’algorithmedoitêtreloyalvis-à-visdesintérêtsdespersonnesqu’ilssontcensésservir;impliquequelesrésultatsproduitssoientconformesauxa`entesdesu'lisateurs/consommateurs.
• Equitéd’unalgorithme:Lerésultatdel’algorithmedoitêtreéquitableentrelespersonnessurla
based’a`ributsprotégésparlaloi;impliquequelesrésultatsn’opèrentpasdedis'nc'onentrelespersonnesenfonc'ond’a`ributstelsquel’origineethnique,legenre,ouencorelasitua'ondefamille.
L’actualitéquo'diennea`estedenombreuxcasdepra'quesdiscriminatoiresliéesàdesalgorithmes(cf.aussiquelquesboule`es)- AuxEtats-Unis,lesnoirssontplusdiscriminéssurlesplateformespopulairesdeloca'onsd’appartementenligne(Edelman,Lucaand
Svirsky,2017).- Despublicitéscibléesetautoma'séesenlignerela'vesauxopportunitésd’emploidanslesdomainesdessciences,dela
technologie,del’ingénierieetdesmathéma'quesseraientplusfréquemmentproposéesauxhommesqu’auxfemmes(LambrechtandTucker,2017).
TraitementdesBigDataL’exploita'ondesrésultats
² GouvernancedesdonnéesNouvellesdisposi'onsprisesparleRGPDpourletraitementdedonnéespersonnelles:
• Jus'fica'ondutraitement(ar'cle6duRGPD)– finalité:letraitementdoitcorrespondreàunobjec'fbienprécis,légaletlégi'me– licéité:letraitementdoitrespecterl’undespoints:consentementexplicitedelapersonneconcernée/fondésurunebase
légale/liéàl’exécu'ond’uncontrat/nécessaireàlasauvegarded’intérêtsvitaux/nécessaireàl’exécu'ond’unemissiond’intérêtpublic/répondàunintérêtlégi'mepourleresponsabledetraitement
– per'nence:lesdonnéesdoiventêtreper'nentesetstrictementnécessairesauregarddelafinalitédutraitement
• Sécurisa'onetconserva'onlimitéedesdonnées(ar'cle5e)– Iln'estpaspossibledeconserverdesinforma'onspersonnellespouruneduréeindéfinie.Uneduréedeconserva'onprécise
doitêtrefixée,selonletyped’informa'onetlafinalité– lasécuritéetlaconfiden'alitédesinforma'onsdoitêtregaran'e.Seuleslespersonnesautoriséesdoiventyavoiraccès.
• Réalisa'ond’uneAnalysed’ImpactsurlaProtec'ondesDonnées(AIPD)– UneAIPDdoitobligatoirementêtremenélorsqueletraitementest«suscep,bled’engendrerunrisqueélevépourlesdroitset
libertésdespersonnesconcernées»(cflignesdirectricesduG29).
• Droitd’accèsauxdonnéesettransparencedesinforma'ons(ar'cles12-15)– Toutepersonnedoitavoirundroitd’accèsàsesdonnées– Elleestendroitdeconnaîtrelaraisondelacollectedesdifférentesdonnéeslesconcernant,decomprendreletraitementqui
serafaitdecesdonnéesetsafinalité,laduréedeconserva'ondesdonnéesetrésultats;ce`einforma'ondoitêtretransparentecompréhensibleetfacilementaccessible.
Angwin,J.,Kirchner,L.,Larson,J.&Ma`u,S.(2016).HowWeAnalyzedtheCOMPASRecidivismAlgorithm.ProPublica,23may2016.Ball,P.,Klingner,J.&Lum,K.(2011).Crowdsourceddataisnotasubs,tuteforrealsta,s,cs.TechnologyMeetsSociety.Bellman,R.E.(1961).Adap,veControlProcesses.PrincetonUniversityPress,Princeton,NJ.Benjamini,Y.&Hochberg,Y.(1995).ControllingtheFalseDiscoveryRate:APrac,calandPowerfulApproachtoMul,pleTes,ng.JournaloftheRoyalSta's'calSociety,seriesB(Methodological),57(1)289-300.Beresewicz,M.,Lehtonen,R.,Reis,F.,DiConsiglio,L.&Karlberg,M.(2018).Anoverviewofmethodsfortrea,ngselec,vityinbigdatasources.Sa's'calworkingpapers,eurostat.Bertail,P.,Bounie,D.,Clémençon,S.&Waelbroeck,P.(2019).Algorithmes:biais,discrimina,onetéquité.TelecomParisTech.Besse,P.,Castets-Renaud,C.,Garivier,A.&Loubes,J.M(2018).L’IAduQuo,dienpeutelleêtreÉthique?LoyautédesAlgorithmesd’Appren,ssageAutoma,que.InSta's'queetSociété,6(3).Besse,P.&Laurent,B.(2016).Desta,s,cienàDataScien,st-Développementspédagogiquesàl'INSAdeToulouse.Sta's'queetEnseignement,SFDS,7(1),75–93.Breiman,L.(2001).Sta,s,calModeling:TheTwoCultures.Sta's'calScience,16(3),199-215.Brockwell,S.E.&Gordon,I.R.(2001).Acomparisonofsta,s,calmethodsformeta-analysis.Stat.Med.20(6)825-40.Chen,J.&Chen,Z.(2008).ExtendedBayesianinforma,oncriteriaformodelselec,onwithlargemodelspaces.Biometrika,95(3),759–771.Donoho,D.(2017).50YearsofDataScience.JournalofComputa'onalandGraphicalSta's'cs,26745-766.Fan,J.&Liao,Y.(2014).Endogeneityinhighdimensions.TheAnnalsofSta's'cs,42(3),872-917.Giannone,D.,Reichlinb,L.&Small,D.(2008).Nowcas,ng:Thereal-,meinforma,onalcontentofmacroeconomicdata.JournalofMonetaryEconomics,55,665–676.Has'e,T.,Tibshirani,R.&Friedman,J.(2001).TheElementsofSta,s,calLearning:DataMining,Inference,andPredic,on.Springer.Heckman,J.J.(1979).Sampleselec,onbiasasaspecifica,onerror.Econometrica47,153–161.Imbert,A.&Vialaneix,N.(2018).Décrire,prendreencompte,imputeretévaluerlesvaleursmanquantesdanslesétudessta,s,ques:unerevuedesapprochesexistantes.JournaldelaSFDS,159(2).Kim,H.&Robinson,A.P.(2019).Interval-BasedHypothesisTes,ngandItsApplica,onstoEconomicsandFinance.Econometrics,7(2),21.Kim,J.K.&Wang,Z.(2019).SamplingTechniquesforBigDataAnalysis.Interna'onalSta's'calReview,87,177–191.Kleiner,A.,Talwalkar,A.,Sarkar,P.&Jordan,M.(2012).Thebigdatabootstrap.InProceedingsof29thInterna'onalConferenceonMachineLearning,Edinburgh,Scotland.Lazer,D.,Kennedy,R.,King,G.&Vespignani,A.(2014).TheParableofGoogleFlu:TrapsinBigDataAnalysis.Science343(6176),1203-1205Li`leR.J.A.&Rubin,D.B.(2002).Sta,s,calAnalysiswithMissingData.Wiley:NewYork.Meng,X.L.(2018).Sta,s,calparadisesandparadoxesinbigdata(I):Lawoflargepopula,ons,bigdataparadox,andthe2016USpresiden,alelec,on.TheAnnalsofAppliedSta's'cs,12(2),685–726.O’Neil,C.(2018).Algorithmes:labombeàretardement.Ed.lesArènes.Pestre,G.,Letouzé,E.&Zagheni,E.(2016).TheABCDEofBigData:assessingbiasesincall-detailrecordsfordevelopmentes,mates.TheWorldBankEconomicReview,1-9.Samek,W.,Wiegand,T.&Müller,K-R.(2017).ExplainableAr,ficialIntelligence:Understanding,VisualizingandInterpre,ngDeepLearningModels.arXiv:1708.08296v1Savage,M.etal.(2013).ANewModelofSocialClass?FindingsfromtheBBC’sGreatBri,shClassSurveyExperiment.Sociology47(2),219–250.Sco`,D.W.(1992).Mul,variateDensityEs,ma,on:Theory,Prac,ce,andVisualiza,on.JohnWiley,NewYork.Seaman,S.R&White,I.R.(2012).Reviewofinverseprobabilityweigh,ngfordealingwithmissingdata.Sta's'calMethodsinMedicalResearch,22(3),278-295.Tausczik,Y.R.&Pennebaker,J.W.(2010).ThePsychologicalMeaningofWords:LIWCandComputerizedTextAnalysisMethods.JournalofLanguageandSocialPsychology,29(1)Vapnik,V.N.(1999).TheNatureofSta,s,callearningtheory.N.Y:Springer.Zagheni,E.&Weber,,I.(2012).Youarewhereyoue-mail:usinge-maildatatoes,mateinterna,onalmigra,onrates.Proceedingsofthe4thAnnualACMWebScienceConference.Zagheni,E.&Weber,I.(2015).Demographicresearchwithnon-representa,veinternetdata.Interna'onalJournalofManpower,36(1),13-25.