Vous êtes sur la page 1sur 16
ye ee em Les promesses & \V iG ELD du Big Data .... n2013,l’humanité a stocké plus de 2000 milliards de gigaoctets de données numériques nouvelles. Et les trois quarts de ces données ont été créées par Jes consommateurs que nous sommes. Mises en réseau et exploitées par des ordinateurs, ces Big Data contiennent la promesse de services nouveaux qui amélioreront nos vies : éviter les embouteillages, adapter Yenseignement a chaque éléve, personnaliser nos traitements médicaux, etc. Mais l’ére des Big Data porte aussi le risque d’une surveillance permanente. Connaitre les possibilités et les limites des technologies est indispensable pour en réglementer l'usage sans en entraver les développements utiles, et pour que chacun, individuellement, puisse mieux les maitriser. ) Vincent Blondel: « Nous étudions de nouveaux objets scientifiques » propos recuels par Luc Allemand Un réseau d’autobus redessiné grace au téléphone mobile par Francesco Calabrese Les flux de données visualisés en temps réel Une vie privée est-elle encore Possible ? paradetine Decuyper et vincent Blondel 1 aa2- Décemne 2013 La Recherche +27 Perey Baas Be ee 1 * VINCENT BLONDEL: «N de nouveaux objets scien Entretien l’accroissement rapide du volume des données numériques enregistrées promet une compréhension inédite des comportements sociaux. Mais il nécessite de nouvelles méthodes d’analyse. Vincent Blondel do Louvain, en Beleique, ct profesteur inv ‘0 Massachusetts Incite of Technology, aux Etats-Unis cur prt ostune unite de mesure Sninlornatqus slat ‘Sintormston: ‘Tggabit= bis {robe = 10a LA RECHERCHE: Comment définissez-vous Jes Big Data? VINCENT BLONDEL: Le premier critére est le volume, sous-entendu par le mot «big». Le domaine des Big Data s'intéresse a des ensembles de données digitales qui,de parleur taille, ne peuvent étre traitées avec des métho- des traditionnelles; en fonction des applica- tions, ce peut-étre de Vordre du gigabit", du ‘térabit* ou plus encore. Ensuite, ce volume ne cesse de croitre & grande vitesse, On estime que le volume de données stockées dans le monde double tous les quatre ans. On a ainsi stocké plus de données depuis 2010 qu'on ne Vavait fait depuis les débuts de 'hurmanité! Le troisiéme critére, c'est la grande diver- site des données auxquelles on s‘intéresse. Ce peut étrela consommation d’lectricitédans tous les quartiers de France & tout moment, les 30 milliards de «j'aime » journaliers sur Facebook ou les 5 000 photographies déposées chaque minute sur le site de partage Flickr [1 Enfin,on attache la « véracité» sles données recueillies sont souvent bruitées et impréci- ses et doivent étre traitées pour en extraire de Vinformation utile Vessentiel A Ce eee en ed cee mC cer er tart > ILFAUT METTRE ou point des méthodles de traitement dont le nombre d’opérations n’augmente pas trop vite Peer er > CE DOMAINE fournit aussi de nouveau outils pour fal dla scionco, notammont dos sconces sociales, 28-La Recherche! pécemuae 2013 <2 icra Enquoices traitementsdifférent ils deceux que Yon xéalise déja en informatique? VB.Cequinous a fait entrer dans ére des Big Data, cest explosion des capacités de stockage. Un petit disque dur de Vépaisseur d'un livre suffi par exemple & stocker les informations sur les communications téléphoniques belges d'une année. Et cela pour un prix trés modest 1 devient alors possible de s‘interroger sur la facon de traiter ces données afin d'en tirer des informations utiles: cette capacité de stockage crée de nouveaux objets a étudier, et il nous ‘faut imaginer comment le faire. Méme si nous anétions aujourd'hui de recueillir des données, nous aurions besoin de plusieurs années de trax vallpourcomprendre comment analyser tout ce quenousavonsdéja enregistré. Maisles données continuent d'arriver, toujours plus vite! Done vous recherchez de nouvelles méthodes analyse? VB. Exactement.Prenonslexempled unréseau dans lequel des entités sont connectées les unes aux autres. Un probléme classique et trés géné- ral consiste @ rechercher des «communautés » des zones lusdensémentconnectéesque d'autres. Ceestunproblemebien définimathématiquement, et nous avions depuis longtemps des méthodes pour le résoudre. Mais elles nétaient pas assez effcaces: il auraitfallu des années pour traiter les énormes réseaux d'aujourd’hui, formés par les utilisateurs de Facebook, qui sont 1 milliard, ou les pages web relies par des hyperliens, que Yon compte par dizaines de milliards. Désormais, de nouvelles méthodes permettent de résoudre rapidement ces problémes & Vaide d'un simple ordinateur de bureau. Lefficaité, cestadire la , vitesse de traitement, est aussi 'un des obstacles 3 Asurmonter quand il agit de détecter des comé- #2 lations dans des ensembles trés grands oudl'iden- 3 tifier des événements anormaux dans des séries. ous étudions tifiques » Comment rendre ces méthodes plus cfficaces? VB. Il faut que le nombre dopéra- tons a réaliser, donc le temps néces saire augmerte pas trop vite quand Jevolume des données s'amplife fg.) Pourladétection de communautés, par exemple, ce nombre dopérations crois- saitcommele carédela quantitédedon- nées: pour un réseau 20 fois plus gros, fallait 100 fois plus de temps. Par exem- ple, imaginons qu'une heure de calcul suffise pour mener tne analyse sur les communications téléphoniques d’une seule joumnéea Bruxelles Pourtraiterles ‘communications de toute la Belgique, cela prendra 100 heures. Et pour les ‘communications de toute T Europe, il faudra environ 250000 heures, soit plus de vingt-huit ans, Ce n'est pas possible. Nous devons done trouver des méthodes dont e temps de calcul crot moins vite avec Jataille des données Linéairement parexemple-le ‘temps augmente seulement proportionnellement ‘ala quantité de données. Cest le minimum siTon ‘veut lire toutes les données. Peut-on néanmoins faire mieux? VB, Oui, nous savons aujourd'hui analyserun ensemble de données sans les consulter toutes, en donnant néanmoins des garanties sur la fia- Dilité de la réponse. Voila une problématique scientifique récente et typiquement Big Data, Parexemple,ilya quotidiennement desmlliards detransactions avec des artes de erédit. Un algo- rithme qui n’en analyse que 10 ou 100 millions pourra tout de méme indiquer qu’aucune carte n’aeuun parcours correspondant a une usurpa- tiond identité.La réponse ne sera pas garantie & 100%, parce que des comportements anozmaux pourraient exister dans les données qui n/ont pas été analysées, Maisla probabilite quelle soit vvraie sera quantifiée rigoureusement. Cela ressemble & des sondages? V.B.En quelque sorte, maiscetype de méthode permetderépondreadesquestionspluscomplexes que celles posées lors de sondages dopinion. Par exem- ple, évotution au cours du temps des communautés qui structurent un réseau, ou la détermination qu'une entité a eu un parcours different des autres. La théorie nous permet de déterminer la distribution de probabilités suivant laquelle il faut choisirles données a analyser pour optimi- ser la précision de la réponse. Fille nous permet ‘aussi de donnerdesbornesmathématiques pour Vécart entre cetteéponseetcellequel’on aurait obtenue sion avait examinétoutesles données Bien entendu, tout cela repose sur des hypothé- ses en lien avec la structure de lensemble de données et dépend du problame particulier que Ton souaite ésoudre. Deuxanteurs ont affirmé vécemmentquelesBig Data sont porteuses d'une zévelution sclentis- que comparable a celle entrainéeparT'invention du microscope (]- Quen pensez-vous? VB. Les Big Data permettent effectivement de faire de la science de fagon totalement >9» 2 mécemane 2033 La Recherche -20 Eee pee Be eel «Nous étudions 99> nouvelle, notamment és pour étude de phénoménes de nouveaux objets | sociaux. par exemple, avec scientifiques» (alec LaVerne 8K Caer 8 Data John Maroy 2013 Blwmurtaiteon Nombre dopérations Beeeeee 2s a Fig.1 La complexité des algorithmes Samuel Martin et Corentin Vande Kerekhove, dans mon laboratoite, nous travaillons cenpsychologie sociale surlesdynamiques d'opi- rion: comment, dans un groupe, des personnes qui doivent faire un choix s'influencent-elles rmutuellement ? Desmodéles mathématiques ont 446 proposés, maisilfautles tester. Autrefois,nous aurionsmenélesexpériences avec quelques dizai- nes de personnes, Aujourd’hui, grace au «Ture mécanique» dela société Amazon, nous pouvons tés simplement recruter plusieurs milliers de participants qui réaliseront lexpérience de chez ceux en échange d'une somme modique fs). Nos résultats auront une autre portée! Un autre exemple est lié au développement des «cours en ligne ouverts et massifs, les ‘MO0C, selon I'acronyme anglais. Des univer- sités proposent des cours en accés gratuit sur Internet. A luniversité catholique de Louvain, nous travaillons en partenariat avec la plate- forme internationale edX, fondée par I'uni- versité Harvard et le Massachusetts Institute of Technology, aux Etats-Unis, dont linterface enregistre Fensemble du parcours de formation de Yétudiant: & quels moments il se connecte, combien de temps il reste sur chaque page, son ‘tawede réussite aux tests qui lui sont réguliére- ment proposés, éventuellement les questions qu'il pose au sein des forums mis en place, ete. 20) aD to ‘uanuté de données LENOMBRE D OPERATIONS nécossairespourtraiterune quanttén de don- néosne ditpasaugmentertropte ven, Der slgrthmes accotables pour ‘etd donne avec nevaraton enn parexompa)prennentiop de temps ‘ansledomaine de BigData.Desméthodesdéehanilonnage outovterler ‘données ne son pases, permettent une variation ps fable que {30+La Recherche | nécemamne 2013 1° 402 Cela permetde aire des observations et desexpé- rimentations pédagogiquesa une échelle inacces- sible jusquiici. En cortélant e comportement des étudiants avecleursrésultatsetleur progression, ‘on pourra comprendrelles processus 'apprentis- sagemiewx quonne|'ajamais ait, déterminer si certains sont plus efficaces que d’autres et offrir un parcours personnalisé. Finalement, ne renoncez-vous pas & établir des lois scientifiques explicatives au profit de simples corrélations, que seul ordinateur maftrise? V.B. Si un algorithme peut vous dire avant ‘votre médecin, et sans que 'on comprenne tota- Jement pourquoi, que vous avez une probabilité levee d‘avoir un cancer, je ne vois pas pourquoi on sn priverait. Ensuite, les Big Data touchent Jes sciences sociales dans lesquelles les chaines causales d'explication sont moins claires qu’en physique ouen biologie.Enfin,lesanalyses de Big Datasont des outils quinese substituentpasala compréhension des scientifiques: elles attirent Yattention sur des corrélations détectées afin que ces derniers recherchent ensuite des expli- cationscausales. Bien entendu,pourlesentrepri- ses quis intéressent seulement aux applications, pour mieux vendre leurs produits par exemple, les modeles explicatifs ne sont pas nécessaires. Jn science par contre, les Big Data peuvent bien étre vues comme un outil &'image d’un micro- scope, pour faire progresser la connaissance ¥ atil une question sur laquelle les Big Data zencontrent des difficultés sérieuses aujourd’hui? VB. La protection de la vie privée, Les Big Data promettent desbénéficesénormespourlasocieté, enfaisant progresserlamédecine personnatisée la ‘Ptédiction dea propagation de virus oulesmodé- les de croissance éconornique. Mais comme ces données sont souvent issues des comportements de chacun dentre nous ily a des risques dintru- sion,ce quisuscite des craintes. {lest dela respon- sabilité des scientifiques de contribuer ces problé- ‘matiques et 'aiderles citoyens et les legislateus qui sinterrogent sur les limites & mettre, comme Jefont ence momerttceuxdel'Union européenne. ‘Trouverlajuste mesurene doit pas tre seulement du ressort de juristes ou de techniciens mais bien de toute la société. Cour qui élaborent des mode- les d'utilisation des données doiventaussimontrer scientifiquementintérétde faire les difficultés quis présentent lorsqu‘on veut rendre des don- nées anionymes et quantifierles dangersauxquels on sexpose en partageant des données. 1 Propos recuilis par Lue Allemand 2° Un réseau d’autobus grace au téléphone mobi ar Francesco Calabrese, quidige 'équipe Smarter Urban Dynamics du contr de recherche analyse des caractéristiques temporelles et spatiales des appels de téléphones mobiles a Abidjan, en Cote d'Ivoire, inspire des modifications des transports urbains qui réduiraient les temps de trajets des usagers. esvillesd’Afriquesubsaharienneont long, billet onéreux. Ces insuffisances ont dans connu ces demniéres décennies une denombreuxendroits étéen partiecomblées par détérioration de leurs systémes de l'apparition de services de transporteurs privés transport en commun. Les grandes utilisant de petits véhicules. sociétésdettransportsesont révélées Ainsi, & Abidjan, en Céte d'Ivolze, of vivent peuefficaces:lignes surchargées,tempsdetrajet 4,5 millions d’habitants, les 539 autobus de la Is sont suppléés par quelque 16 000 minibus et taxis collectifs, oiivousn ‘32+ mecherche | ORCEIMBRE 2013 482 redessiné le compagnie publique Sotra sont complétés par environ 5 000 minibus et 1.000 taxis collectifs, Lesconséquencessurla mobilitésont problema: tiques. Les minibus et autres formes de trans- port collectif représentent la moitié du trafic en passagers le long de certains axes. Des axes quiseraient desservis plus efficacement par des vehicules de plus grande capacité, mais trop coitteux pour de petites compagnies privées. Labsence de normes et de contrdles est égale- ment préjudiciable ala sécurité—les villes afri- caines ayant globalement un taux de déces par accident élevé ~ et 4 Fenvironnement [i Quantifier la mobilité. Pourmiewxrépondre alademande de mobilité des habitants,en met- tanten place un systémedetransport publiceffi- caceetconcudans une perspective durable faut abord quantifiercelle-c, Comment parvenir? Lesméthodes classiques, fondées sur desenqué- tes avec des questionnaires auprés des utilisa- teurs, ont été utilisées de maniére tréslimitée, en raison de leur coat élevé. Et en Céte d'Ivoire, comme souvent dansles pays endéveloppement, les infrastructures mumériques (senseurs surles routes ou GPS dans les véhicules) sont rates. En revanche, le téléphone mobile, lui, est trés répandu. Par exemple, en Cate d'ivoire, 70% des habitantsenpossédent un.Cest pourquoilesdon- néespersonnellesdes utilisateurspeuventy jouer un rdle si important. En effet, les communica tionsai'aidedestéléphonesmobilesoffrent Ades villes oi urbanisation est rapide la possiblité de suivre la mobilité des habitants et d'estimer précisément les besoins en transport. Sicettenouvelleméthode pour évaluerlamobi- Lté est effcace, Cest parce quion a affaire & des données massives: le fort taux de pénétration du téléphone mobile fournit un échantillonnage de plusieurs ordres de grandeur supérieur a celui obtenuparles enquétesabase de questionnaires. Onenglobe ainsiplusde categories d'utilisateurs et celles-ci sont représentées proportionnelle- mentaleurimportancestatistique.Ainsi,exploi- ter ces données massives permet de diminuer le biais statistique des enquétes. De surcrot, les ‘Les flux moyens de déplacements entre les paires d’antennes- relais de la ville entre 7 et 16 heures sont représentés par les traits jaunes. Is ont été caleulés & partix des appels passés Par 500000 téléphones pour une période de cing mois. donnéessurlescommunications mobiles peuvent étre obtenues en temps réel, autorisant un suivi dynamique du besoin de transport avec, 4 terme, Tidée de rendre ces services plus réactifs Avecmes collegues Michele Berlingerio, Giusy Di Lorenzo, Rahul Nair, Fabio Pinelli et Marco Luca Sobio, nous avons voulu vérifier ce que ouvait apporter en pratique ce type d'appro- che. Nous nous sommes concentrés surla ville Abidjan, pour laquelle Vopérateur de télé- phonie Orange avait fourni des données dap pels dans le cadre d’un concours baptisé Data {for Development («données pourle développe- ‘ment»)[2}-La base de données globale pour la Céte d'ivoire contient2,5 milliards denregistre ments ~ appels et SMS — échangés entre 5 mil- lions ¢'utilisateurs. Chaque enregistrement comprend un identifiant anonymisé, 'heure A aquelle I'appel a été passé ou recu (ou le 9» peat Ba tt ees eee ee ete cet eee eee ees ne eee ee ed le besoin de transport dans les zones urbaines. Pra ye ere ere) eet ee eermnen sad Cece r4a2 once 2022 La Recherche +29 bai Be med Pr aied Un réseau 29> SMS envoyé),etV'dentifiantde . Yantenne-relais connectée au por- WMautobus ———_asieaudéiutderappelBienquela redessiné grace _ \calsstionprecisedesutiisateurs au téléphone mobile “um prose TINEATRE se *esouten tn nombre operations proportionnal la uate de dennos niaitpas été fourniedanslenregis- trement, nous avons pula déduire avec une précision de 500 metres (en zone urbaine), en supposant que les utilisateurs se trouvaient dans la zone de couverture de 'antenne-relas (la « cellule») lorsque I'appel était passé Matrice origine/destination. Létude a porté sur les enregistrements provenant de 500000 téléphones pour des appels passés en 2012 sur une période de cing mois (dix groupes de 50000 utilisateurs choisis au hasard toutes les deux semaines). A partir de ces enregistre- ‘ments, nous avons extrapolé les mouvernents individuels entre deux appels consécutifs ps sés parle méme téléphone et utilisant deux cel- lules voisines. La connaissancedesmouvements individuels entre les antennes-relais permet de construire la matrice origine/destination. Cette ‘matrice décrite nombre de personnes qui voya- gent de n'importe quel point dorigine a m/im: porte quelle destination de la ville (carte p. 33). Plus précisément, elle représente le flot de per- sonnes entre chaque paire d'antennes origine/ destination durant un intervalle de temps. Les sequences d’antennes-relais le plus souvent utilisées (en bleu) reflatent les motifs de déplacement les plus fréquents. Cewr-ci sont analysés afin d’optimiser le réseau Wautobus dans les zones insuffisamment desservies. 34+ La Recherche | DsceMne 2005 1° 632 La matrice origine/destination donne un pre- ier élément d’analysedelamobilitéd’une ville. ‘Avec cet apercu de la demande de transport de la population d'Abidjan, nous avons pu évaluer quantitativement ’adéquation entrelesystéme actueldetransporturbainetlademande. AL aide uncalculateur d'itinéraire que nous avons mis, aupoint nous avons associé chaque élément de la matrice ~ chaque paire origine/destination — letrajeten bus le plus probable qui serait utilisé pour se déplacer d'un endroit & un autre. Avec ce procédé, onestime la fréquentation attendue de chaque ligne de bussitout le monde décidait Afutilise les transports en commun. Ce procédé permet en outre d'évaluerle temps detrajet associé achaquedéplacementetle temps dattente prévu de ces personnes leur point de correspondance. De la sorte, nous avons mis en. évidence des lacunes dans le systéme de trans- port public actuel. En effet, nous avons trouvé des pairesorigine/destination pourlesquelles a durée de voyage parle systéme de bus était bien supérieured celle laquelle onpourrait s'attendre compte tenu de la distance & parcourir. Ces carences nous ont poussés & étudier comment ajouter de nouvelles lignes de bus en vue d’améliorer l'efficacité du systéme. Nous nous sommes replongés dans les don- nées d’appels des téléphones afin d’en extraire les motifs de déplacement les plus fréquents, comme des séquences d'antennes-relais utili- sées plus souvent que d'autres (carte c-contre) Bon nombre de ces habitudes de déplacement conespondalent des lignes actuelles duréseau abidjanais, Mais d'autres semblaient couvrir des zones de la ville oii le transport public officiel n'est pas disponible: on n'y trouve que des minibus ou des taxis. Ajouter des lignes.A partirdctoutescesinfor- mations, nous avons élaboré un modéle d’op- timisation qui tentait d’évaluer quelles lignes ajouter au systme existant pour maximiser le niveau de service Plus précisément,compte tent du réseau présent, de la matrice origine/desti- nation, des motifs de déplacement les plus fré- quents,deY'estimation des tempsde trajets dans exéseauetdesressourees budgétaires(entermes 4e taille des véhicules), nous avons cherché & determiner un ensemble de nouvelles lignes et de fréquences pour ces lignes de maniéreamini- miser les temps de trajets a travers a ville. Bien quele problémene soitpas inéaire* ilpeut étre approché par un probleme de programmation linéaire de grande dimension. Aprés avoir tourné sur nos machines, Valgorithme d'optimisation a recommandé Vajout de quatre nouvelles lignes dontla mise en ceuvre réduirait en moyenne de 10% les temps de déplacements a travers la ville (carte ci-contre).En rapprochant le systéme de trans- port public des zones oi les gens souhaitent utiliser, ces nouvelles lignes amélioreraient ‘aussi la fréquentation. Avecces lignes supplé- ‘mentaizes, "impact sur les 22 lignes existan- tes serait également positif. Le temps de trajet ‘moyen sur certaines lignes déja existantes se réduirait,carl’ajout de nouvelles lignes détour- nerait une partie du lot de citadins voyageant habituellement sur les anciennes lignes [3]. ‘Nous avons pas évalué'impact de cette opti- sation surles minibus et les taxis collects, mais il est vraisemblable que leur utilisation diminuerait avec la disponibilité ée meilleurs services de transport public dans la vile. Ce projet illustre bien comment des données massives issues des appels par les téléphones portables sont exploitables pour micux comprendre la demande de transport. A condi- tion de préserver I'anonymat, ce qui restera un enjeu crucial pour l'avenir, des données analysées en temps réel ou presque permet- traient de mesurerla qualité du service fourni auxhabitants et d’ajuster dynamiquementles différents réseaux de transport aux besoins: ‘a fréquentation des lignes de bus existantes (en rose) est calculée & partir des flux de déplacements (carte p. 33). En prenant aussi en compte les déplacements les plus ‘fréquonts, de nouvelles lignes (en bleu) peuvent étze proposée des tarifs variables selon la frequentation, des lignes qui s'ajustent dynamiquement, ou encore des mesures d'incitation destinées IK Gwlism atic spor ofastuere, & encourager le changement de moyen de 2011 [2] wwe oengecem [3] .seringeioeal, ahine teeming sd ronda Oza n abs 63,2013, transport pour éviter les congestions de trafic. Des analyses de données qui deviendront plus fréquentes et qui pourronts'appliquer partout travers le monde. ei ak Publetns Téléphone et niveau de vie Les données issues de téléphones mobiles permettent de ‘artographier la richesse d'un pays dans lequel il n’existe pas de systéme fiable de collecte régulidre de données socio-économiques. Thoralf Gutierrez, de V'université catholique de Louvain, en Belgique, et ses collegues ont ainsi analysé les comportements achat de cxédit pour les communications mobiles en Céte Ivoire: beaucoup @utilisateurs n’ont pas d/abonnement et rechargent leur compte téléphonique d’une somme quis choisissent A chaque fois. Ces données anonymisées datant de 2012 provenaient d'un opérateur important du pays. Supposant que la taille et la fréquence des achats sont corrélées au niveau de richesse, ils ont utilisé la moyenne des sommes pour établir une carte de richesse du pays. 1s ont aussi analysé le brassage social & partir dela ~variabilité locale des achats moyens. Ce type de données pourrait servir& faire des prévisions et aider prendre 1_ des décisions socio-économiques. m Philipp Pjot E rewierer eat, ao 909449612013 me Routes = Zones urbaines — 260 371 528 753 ‘Moyenne des montants de rechargement en francs CFA ket ee ere ae ee Pe neice con. 1 402- mecemone 2023|La Recherche -25 Sy Pai Bene 3 - Les flux de données vi Les données arrivent désormais a grande vitesse de toutes parts et a flux continu. De nouvelles méthodes de visualisation nous permettent de les explorer et d’en extraire des informations. Mises a jours surles réseaux sociaux, courziers électroniques, ventes ou productions industrielles: des fu de données sont produits en permanence.Dans nemabre de cas, ces données peuvent &tre éparties en catégories. Mais, ‘lles apparsissent a des instante ‘mprévisibles, accumulent jusqu’a ce quielles soient traitées, et doivent tre conservées sous forme agrégée pour fourntr une information historique et contextuelle, La méthode de «sédimentation visuelle», qui s'appuie sur 'analogie de la sédimentation géologique, pour but de permettre a compréhension simultanée des différentes étapes i. 1S wmesiulsedimertationry 6a Recherche | ogcemns 2033-622 PARCOURS D'UNE DONNEE Arrivée des données Zone tampon Jetons Siqastion iyigue = Focuation Zone dagrégation satiation Données périmées Suppression des données posses | | | sualisés en temps réel MODIFICATIONS COLONNES CAMEMBERT ‘SUR WIKIPEDIA SANS SEPARATION | | SANS SEPARATION ‘Anglais Allemand Frangis Polonals _Joponas es mee rent rrcecerinenneeemeneeteentenneceecnneninenmnenameime SHI ea een Saree Su es aferents aye ee Coca rn eee eerie Se ct a Soa eae ears eens cS nasty Tm! Peeters ey pene peste 1 2+ icenmnse 2023 |La Recherche -37 4 -Une vie privée est-elle encore possible ? Chacun de nous, en utilisant son GPS ou son téléphone mobile, indique sa position. A priori, une donnée sans importance. Pourtant, recoupée avec une ou deux autres, elle permet de nous identifier parmi les utilisateurs. ous étes en voiture, un dimanche soir, et vous vous dirigez vers une ‘grande ville d'Furope. Le systéme de guidage GPS de votre véhicule vousindique «Emboutellagedans par Adeline x2 kilométres vitesse moyenne 20 kilométres & Decuyper, Yheure. Voulez-vous étre déviés? » Bien heureux eae détreinformé temps, vous changezd'itinéraite, Se gagnant ainsi un temps précieux. ‘olourin, ob Cette situation est bien réelle (elle est arivée Vincent Blondel &l'undentrenous).Laplupart des systémes GPS eatprteseur commercialisés aujourdhui ne se contentent demethématques pas, en effet, de calculer votre position & partir sopigetes de signaux envoyés par des satellites. Toutes es trente secondes environ, ils indiquent celle-ci un service central, qui lenregistre anonyme- ment. En combinant ces informations pour tous les véhicules équipés,un logiciel calculel'état du traf, dont il informe en retour les utilisateurs Services personnalisés. Habitués depuis quelques années aux services personnalisés, précis et disponibles en temps réel, nous utill sons tous les jours les résultats de analyse ins- tantanée de nos données et de celles des autres, collectées en masse. Le prix & payer? Partager PTT at Cte tt sees Pent > TOUTEFOIS, QUATRE POINTS spatio-temporelssuffsent Pe sce eee ee read Peete mere cos age eee Pere er eet et pier nee a ctertoee sect ees ‘38+La Recherche] pEceMBRE 2023 «W452 sesdonnéesaveclegestionnairedel'application et lui permettre de les utiliser. Mais quel degré danonymat peut-on conserver quand on enze- gistre la trajectoire, méme approximative, d'un grand nombre de personnes? Aen coire les opérateurs, vous n’avez pas & vous inquiéter pour votre vie privée: ni votre nom ni le numéro de votre appareil ne sont conservés avec vos données de localisation, Impossible quiconque de es utiliser pour vous suivrealatrace, Malheureusement, cen'est pas tout a fait vrai. Létude menée par lun entre nous (Vincent Blondel), avec Yves-Alexandre de ‘Montjoye, César Hidalgo et Michel Verleysen, du ‘MIT,auxEtats-Unis, et de 'université catholique de Louvain, en Belgique, montre que trés peu d'informations de localisation du type de celles. transmises par un GPS suffisent pour distinguer une trajectoiresinguliére et,partant, pourrecon- naitre une personne particuliére (1), les bases de données enregistrées par les opé- rateurs de téléphonie mobile, comme celle utili- s8ée pour cette étude (un million et demi d’abon- nés sur quinze mois), contiennent généralement, pour chaque utilisateur, 'endroit et Iheure aux- quels chaque appel a été passé. in reprenant les antennes quiontrelayélesappels,onpeutretracer unitinéraire approximatif pour chaque personne présente dans les données. Chaque point de cet itinéraire est caractérisé par une date et par une position géographique, en pratiquela positionde Yantenne-relais quia retransmis|e début del'ap- pel. Combien de pointssuffisent pour caractériser complétement une trajectoire particuliére? Laréponse, étonnamment, est quatre! Si vous connaissez quatre des points de passage d'une Quand on recoupe les bases de données ‘Que se passe-til si ’on associe les informations de plusieurs bases de données? Le risque de voir sa vie privée exposée devient alors d’autant plus grand. Cest ce qui est arrivé pour NetFlix, entreprise américaine qui propose de regarder des films en. streaming sur Internet. In 2006, la société a lancé un concours pour améliorer son systéme de recommandation et a rendu publique I'activité en ligne d'un demi-million d'utilisateurs, tous identifies par des numéros de clients anonymes. Deux chercheuxs de université du Texas ont cependant réussi a emettre un nom sur plusieurs de ces numéros, en comparant les informations de NetFlix et les avis sur les films disponibles sure site de référence IMDb qui, eux, ne sont pas anonymes. Is ont ainsi révélé jusqu’aux opinions politiques et orientations sexuelles de plusieurs utilisatewrs. Laffaire a été portée devant la justice. personne, dans 95% descas,iln'y aqu’un utilisa- ‘teur dont I'tinéraire passe par ces quatre points précis[fg.1 Vous pouvezainsile retrouverdansla base de données et suivre le restant deson trajet, de ses appels et de son activité téléphonique. Informations en chaine. Pour mesurer/'in- formation que donnent quatre points de pas- sage, pour une résolution temporelle & Yheure pris et une précision spatiale déterminée parla zone couverte par chaque antenne,on choisit une personne au hasard dans la base de données et _parmi ses points de passage, on en sélectionne quatreau hasard.Ensuite,pources quatre points de passage précis, on cherche, parmile million et demi d'utilisateurs, ceux qui ont une trajee- toire compatible avec ees quatre points. >>> 100% Proportion de tracesuniques Bess xe 2 ® 2 igs BE Nombre do pants spatio-temporels LATRAJECTOIRE des appelstelephoniques d'un abonné (a gauche) est enregistrée dans une base de données sous forme de points spatio-emporels:lazone couverte par fantenne quia relayél'appelestassociée fheure de cl de cet trajectoires sont incvidualisées lorsque fon en connait deux points (8 droite). Avec quatre points, on en individu i, une heure prés(au milieu). Lamoitié 2 95%. Ww 4nz cmap 2033 | La Recherche +39 > Big Data+ 4 Pred possible? Résolution spatiale (en nombre 'entennes) Une vie privée est-elle encore Fig.2 La dégradation de l'information quatre points de clles-ci décrot assez lentement i fon ne diminue la préc- sionquen temps (on abscisso)ou qu'on espace (en ordonnée). lest bien phis cfficace dela diminuer pour les deux paramétres simultanément. 99> On répéte alors Vexpérienceun grand nombre defois:choix d'une personne, choix des points de passage, comptage du nombre de trajec: toires compatibles. Ht on observe alors que, parmi les 2500essaisdece type xalisés,95% des qua- druplets ne corres- pondent qu’aunseul utilisateur. La connaissance des quatre points de passage suffit donc dans ce cas a retrouver une personne précise. En résumé, cela veut dire que si vous savez qu'une personne a passé des appels depuis chez elle le matin vers 8 heures jde son liew de travail, dont vousconnaissezlalocalisation géographique, vvers 10 heures; du supermarché ot elle fait ses courses &19 heures; et & nouveau de son domi- 40 La Recherche | pécemmns 2013-1402 Les serveurs de données de Google (ici prés d’Atlanta, aux Etats- Unis) conservent les historiques de recherches des utilisateurs »> senssibles. Une application pour un télé- phone intelligent ou une tablette semble utile et répondre & nos besoins, soit. Va-t-elle nous faciliter la vie? Il suffi de cliquer sur le bouton «Accepter les termes et conditions d’utilisa- tion», et de profiter du service. tn petit clic, est vite fait, souvent sans prendre le temps de lire le long texte qui décrit comment et dans quel In) vAdeMonioyeeal, but les données seront utilisées, SinicRepas, 3, 1376, [21 Apts Our Publesion ep Repuion ope Whitepape, Februy2013 [B15.aaeman etal Mobis '12,Pacesdngsol the 10otnstoral confrence en Mele systermsand sens 201 Géolocalisation fréquente. Plus de la moitié es applications gratuites demandent d’enregis: trer la position géographique de l'utilisateur [2 (On remarque que beaucoup d'applications qui nefournissentpas d'information en rapportavec lalocalisation 'enregistrent quand méme: ceux quiTont produite se constituent ainsi une base de données des endroitsd’otleurapplication est uilisée, cans toujours un but bien défini Que peut-on alors faire pour protéger a vie privée tout en profitant des nouveauxservices développés surla base des données partagées? Interdire aux sociétés d'enregistrer et d’utili ser les données disponibles ne ferait quem pécher d'utiliser les services auxquels nous nous sommes rapidement habitués et qui se fondent sur les données de chacun pour amé- liorer leur efficacté Une solution récemnment proposée par une équipe del'universitédePrinceton et deslabora- toires AT&T auxttats-Unisseraitde synthétiser des données artifiielles, qui présenteraientles memes caractéristiques queles données authen- tiques,afin de pouvoir les rendre publiques sans danger d’intrusion dansla vie privée}. Lutilité de cette approche reste cependant imitée, puis- que toute analyse faite sur les données de syn- thése devrait tre vérifigesurles vraies données pour étre validée. De plus, pour construire de telles données de synthése, il faudrait deja die poser de données authentiques pouren utiliser les caractéristiques, Le plus effcace, afin de continuer a utiliser les services que la technologie actuelle permet tout en préservant sa vie privée est finalernent sans doute de recommander 4 l'utilisateur applications et de réseaux sociaux de surfer consciencieusement, de bien personnaliser ses paramétres de confidentialité et de n’accep ter de partager sa géolocalisation qu'avee des partenaires de confiance. Notre banque en sait souvent beaucoup surnous salaie, allocations familiales, cotisation & un syndicat, factures MayerSdhinboree 2013. sxamples ecodesource Xk. Cie Big Dts, >HeniVedtes6ig snail pour ‘Revolt Tat Dazdenaziipsinyed, — lstdimeaton vee. Tansom HowlWetive, _conipasecinerens Silla Won annie Pager ohn uray, 2013. > Jean Pere Male, Sergnié ene 2 fig Dts Geis Pesora, _Latplewptuwdestig jin 2012 tai 2013, Tecnology fevew Daa hp /injurconig,_lechalenge Data or Businss Roper mai2013. datareveluion catrella_Davelopmentegua ‘42-La Recherche DECEMBRE 2013-1482 tes contbution de {0 équipesscentiiques. > wor future. Le projet européen Futur \seledévloppement Gestecmnologes de Fnfrmaton ee a {elacomprehersion| Son activité utilisation desig Data pourla sce >hep fing orgi2- Infolab- 2 Fondation Inert rovselegénsaton ‘mina campagne nab oursertbiler entropies des donne. Hela soct > htip:/idataveyes.com > brtp(fhd.media.mit. LasoaetDatveyes presente feduleHuman Dynamics etvenddesservcesde LBbortoryde Mifconzece ual de donne,

Vous aimerez peut-être aussi