ye ee em
Les promesses
& \V iGELD
du Big Data ....
n2013,l’humanité a stocké plus
de 2000 milliards de gigaoctets
de données numériques
nouvelles. Et les trois quarts de
ces données ont été créées par
Jes consommateurs que nous
sommes. Mises en réseau et
exploitées par des ordinateurs,
ces Big Data contiennent la promesse de
services nouveaux qui amélioreront nos
vies : éviter les embouteillages, adapter
Yenseignement a chaque éléve, personnaliser
nos traitements médicaux, etc. Mais l’ére des
Big Data porte aussi le risque d’une surveillance
permanente. Connaitre les possibilités et les
limites des technologies est indispensable
pour en réglementer l'usage sans en entraver
les développements utiles, et pour que chacun,
individuellement, puisse mieux les maitriser.
) Vincent Blondel: « Nous étudions
de nouveaux objets scientifiques »
propos recuels par Luc Allemand
Un réseau d’autobus redessiné
grace au téléphone mobile
par Francesco Calabrese
Les flux de données visualisés
en temps réel
Une vie privée est-elle encore
Possible ? paradetine Decuyper et vincent Blondel
1 aa2- Décemne 2013 La Recherche +27Perey
Baas Be ee
1 * VINCENT BLONDEL: «N
de nouveaux objets scien
Entretien l’accroissement rapide du volume des données numériques
enregistrées promet une compréhension inédite des comportements
sociaux. Mais il nécessite de nouvelles méthodes d’analyse.
Vincent Blondel
do Louvain,
en Beleique,
ct profesteur inv
‘0 Massachusetts
Incite
of Technology,
aux Etats-Unis
cur prt ostune
unite de mesure
Sninlornatqus
slat
‘Sintormston:
‘Tggabit= bis
{robe = 10a
LA RECHERCHE: Comment définissez-vous
Jes Big Data?
VINCENT BLONDEL: Le premier critére est
le volume, sous-entendu par le mot «big».
Le domaine des Big Data s'intéresse a des
ensembles de données digitales qui,de parleur
taille, ne peuvent étre traitées avec des métho-
des traditionnelles; en fonction des applica-
tions, ce peut-étre de Vordre du gigabit", du
‘térabit* ou plus encore. Ensuite, ce volume ne
cesse de croitre & grande vitesse, On estime
que le volume de données stockées dans le
monde double tous les quatre ans. On a ainsi
stocké plus de données depuis 2010 qu'on ne
Vavait fait depuis les débuts de 'hurmanité!
Le troisiéme critére, c'est la grande diver-
site des données auxquelles on s‘intéresse.
Ce peut étrela consommation d’lectricitédans
tous les quartiers de France & tout moment,
les 30 milliards de «j'aime » journaliers sur
Facebook ou les 5 000 photographies déposées
chaque minute sur le site de partage Flickr [1
Enfin,on attache la « véracité» sles données
recueillies sont souvent bruitées et impréci-
ses et doivent étre traitées pour en extraire
de Vinformation utile
Vessentiel
A Ce eee en ed
cee mC cer er tart
> ILFAUT METTRE ou point des méthodles de traitement
dont le nombre d’opérations n’augmente pas trop vite
Peer er
> CE DOMAINE fournit aussi de nouveau outils pour fal
dla scionco, notammont dos sconces sociales,
28-La Recherche! pécemuae 2013 <2
icra
Enquoices traitementsdifférent ils deceux que
Yon xéalise déja en informatique?
VB.Cequinous a fait entrer dans ére des Big
Data, cest explosion des capacités de stockage.
Un petit disque dur de Vépaisseur d'un livre
suffi par exemple & stocker les informations
sur les communications téléphoniques belges
d'une année. Et cela pour un prix trés modest
1 devient alors possible de s‘interroger sur la
facon de traiter ces données afin d'en tirer des
informations utiles: cette capacité de stockage
crée de nouveaux objets a étudier, et il nous
‘faut imaginer comment le faire. Méme si nous
anétions aujourd'hui de recueillir des données,
nous aurions besoin de plusieurs années de trax
vallpourcomprendre comment analyser tout ce
quenousavonsdéja enregistré. Maisles données
continuent d'arriver, toujours plus vite!
Done vous recherchez de nouvelles méthodes
analyse?
VB. Exactement.Prenonslexempled unréseau
dans lequel des entités sont connectées les unes
aux autres. Un probléme classique et trés géné-
ral consiste @ rechercher des «communautés »
des zones lusdensémentconnectéesque d'autres.
Ceestunproblemebien définimathématiquement,
et nous avions depuis longtemps des méthodes
pour le résoudre. Mais elles nétaient pas assez
effcaces: il auraitfallu des années pour traiter
les énormes réseaux d'aujourd’hui, formés par
les utilisateurs de Facebook, qui sont 1 milliard,
ou les pages web relies par des hyperliens, que
Yon compte par dizaines de milliards. Désormais,
de nouvelles méthodes permettent de résoudre
rapidement ces problémes & Vaide d'un simple
ordinateur de bureau. Lefficaité, cestadire la ,
vitesse de traitement, est aussi 'un des obstacles 3
Asurmonter quand il agit de détecter des comé- #2
lations dans des ensembles trés grands oudl'iden- 3
tifier des événements anormaux dans des séries.ous étudions
tifiques »
Comment rendre ces méthodes plus
cfficaces?
VB. Il faut que le nombre dopéra-
tons a réaliser, donc le temps néces
saire augmerte pas trop vite quand
Jevolume des données s'amplife fg.)
Pourladétection de communautés, par
exemple, ce nombre dopérations crois-
saitcommele carédela quantitédedon-
nées: pour un réseau 20 fois plus gros,
fallait 100 fois plus de temps. Par exem-
ple, imaginons qu'une heure de calcul
suffise pour mener tne analyse sur les
communications téléphoniques d’une
seule joumnéea Bruxelles Pourtraiterles
‘communications de toute la Belgique,
cela prendra 100 heures. Et pour les
‘communications de toute T Europe, il
faudra environ 250000 heures, soit plus
de vingt-huit ans, Ce n'est pas possible.
Nous devons done trouver des méthodes
dont e temps de calcul crot moins vite avec
Jataille des données Linéairement parexemple-le
‘temps augmente seulement proportionnellement
‘ala quantité de données. Cest le minimum siTon
‘veut lire toutes les données.
Peut-on néanmoins faire mieux?
VB, Oui, nous savons aujourd'hui analyserun
ensemble de données sans les consulter toutes,
en donnant néanmoins des garanties sur la fia-
Dilité de la réponse. Voila une problématique
scientifique récente et typiquement Big Data,
Parexemple,ilya quotidiennement desmlliards
detransactions avec des artes de erédit. Un algo-
rithme qui n’en analyse que 10 ou 100 millions
pourra tout de méme indiquer qu’aucune carte
n’aeuun parcours correspondant a une usurpa-
tiond identité.La réponse ne sera pas garantie &
100%, parce que des comportements anozmaux
pourraient exister dans les données qui n/ont
pas été analysées, Maisla probabilite quelle soit
vvraie sera quantifiée rigoureusement.
Cela ressemble & des sondages?
V.B.En quelque sorte, maiscetype de méthode
permetderépondreadesquestionspluscomplexes
que celles posées lors de sondages dopinion.
Par exem-
ple, évotution
au cours du temps
des communautés qui
structurent un réseau, ou la détermination
qu'une entité a eu un parcours different des
autres. La théorie nous permet de déterminer la
distribution de probabilités suivant laquelle il
faut choisirles données a analyser pour optimi-
ser la précision de la réponse. Fille nous permet
‘aussi de donnerdesbornesmathématiques pour
Vécart entre cetteéponseetcellequel’on aurait
obtenue sion avait examinétoutesles données
Bien entendu, tout cela repose sur des hypothé-
ses en lien avec la structure de lensemble de
données et dépend du problame particulier que
Ton souaite ésoudre.
Deuxanteurs ont affirmé vécemmentquelesBig
Data sont porteuses d'une zévelution sclentis-
que comparable a celle entrainéeparT'invention
du microscope (]- Quen pensez-vous?
VB. Les Big Data permettent effectivement
de faire de la science de fagon totalement >9»
2 mécemane 2033 La Recherche -20Eee
pee Be eel
«Nous étudions 99> nouvelle, notamment
és pour étude de phénoménes
de nouveaux objets | sociaux. par exemple, avec
scientifiques»
(alec
LaVerne
8K Caer 8 Data John
Maroy 2013
Blwmurtaiteon
Nombre dopérations
Beeeeee 2s
a
Fig.1 La complexité des algorithmes
Samuel Martin et Corentin
Vande Kerekhove, dans mon
laboratoite, nous travaillons
cenpsychologie sociale surlesdynamiques d'opi-
rion: comment, dans un groupe, des personnes
qui doivent faire un choix s'influencent-elles
rmutuellement ? Desmodéles mathématiques ont
446 proposés, maisilfautles tester. Autrefois,nous
aurionsmenélesexpériences avec quelques dizai-
nes de personnes, Aujourd’hui, grace au «Ture
mécanique» dela société Amazon, nous pouvons
tés simplement recruter plusieurs milliers de
participants qui réaliseront lexpérience de chez
ceux en échange d'une somme modique fs). Nos
résultats auront une autre portée!
Un autre exemple est lié au développement
des «cours en ligne ouverts et massifs, les
‘MO0C, selon I'acronyme anglais. Des univer-
sités proposent des cours en accés gratuit sur
Internet. A luniversité catholique de Louvain,
nous travaillons en partenariat avec la plate-
forme internationale edX, fondée par I'uni-
versité Harvard et le Massachusetts Institute
of Technology, aux Etats-Unis, dont linterface
enregistre Fensemble du parcours de formation
de Yétudiant: & quels moments il se connecte,
combien de temps il reste sur chaque page, son
‘tawede réussite aux tests qui lui sont réguliére-
ment proposés, éventuellement les questions
qu'il pose au sein des forums mis en place, ete.
20) aD to
‘uanuté de données
LENOMBRE D OPERATIONS nécossairespourtraiterune quanttén de don-
néosne ditpasaugmentertropte ven, Der slgrthmes accotables pour
‘etd donne avec nevaraton enn parexompa)prennentiop de temps
‘ansledomaine de BigData.Desméthodesdéehanilonnage outovterler
‘données ne son pases, permettent une variation ps fable que
{30+La Recherche | nécemamne 2013 1° 402
Cela permetde aire des observations et desexpé-
rimentations pédagogiquesa une échelle inacces-
sible jusquiici. En cortélant e comportement des
étudiants avecleursrésultatsetleur progression,
‘on pourra comprendrelles processus 'apprentis-
sagemiewx quonne|'ajamais ait, déterminer si
certains sont plus efficaces que d’autres et offrir
un parcours personnalisé.
Finalement, ne renoncez-vous pas & établir
des lois scientifiques explicatives au profit
de simples corrélations, que seul ordinateur
maftrise?
V.B. Si un algorithme peut vous dire avant
‘votre médecin, et sans que 'on comprenne tota-
Jement pourquoi, que vous avez une probabilité
levee d‘avoir un cancer, je ne vois pas pourquoi
on sn priverait. Ensuite, les Big Data touchent
Jes sciences sociales dans lesquelles les chaines
causales d'explication sont moins claires qu’en
physique ouen biologie.Enfin,lesanalyses de Big
Datasont des outils quinese substituentpasala
compréhension des scientifiques: elles attirent
Yattention sur des corrélations détectées afin
que ces derniers recherchent ensuite des expli-
cationscausales. Bien entendu,pourlesentrepri-
ses quis intéressent seulement aux applications,
pour mieux vendre leurs produits par exemple,
les modeles explicatifs ne sont pas nécessaires.
Jn science par contre, les Big Data peuvent bien
étre vues comme un outil &'image d’un micro-
scope, pour faire progresser la connaissance
¥ atil une question sur laquelle les Big
Data zencontrent des difficultés sérieuses
aujourd’hui?
VB. La protection de la vie privée, Les Big Data
promettent desbénéficesénormespourlasocieté,
enfaisant progresserlamédecine personnatisée la
‘Ptédiction dea propagation de virus oulesmodé-
les de croissance éconornique. Mais comme ces
données sont souvent issues des comportements
de chacun dentre nous ily a des risques dintru-
sion,ce quisuscite des craintes. {lest dela respon-
sabilité des scientifiques de contribuer ces problé-
‘matiques et 'aiderles citoyens et les legislateus
qui sinterrogent sur les limites & mettre, comme
Jefont ence momerttceuxdel'Union européenne.
‘Trouverlajuste mesurene doit pas tre seulement
du ressort de juristes ou de techniciens mais bien
de toute la société. Cour qui élaborent des mode-
les d'utilisation des données doiventaussimontrer
scientifiquementintérétde faire les difficultés
quis présentent lorsqu‘on veut rendre des don-
nées anionymes et quantifierles dangersauxquels
on sexpose en partageant des données.
1 Propos recuilis par Lue Allemand2° Un réseau d’autobus
grace au téléphone mobi
ar Francesco
Calabrese,
quidige 'équipe
Smarter Urban
Dynamics du contr
de recherche
analyse des caractéristiques temporelles et spatiales
des appels de téléphones mobiles a Abidjan, en
Cote d'Ivoire, inspire des modifications des transports
urbains qui réduiraient les temps de trajets des usagers.
esvillesd’Afriquesubsaharienneont long, billet onéreux. Ces insuffisances ont dans
connu ces demniéres décennies une denombreuxendroits étéen partiecomblées par
détérioration de leurs systémes de l'apparition de services de transporteurs privés
transport en commun. Les grandes utilisant de petits véhicules.
sociétésdettransportsesont révélées Ainsi, & Abidjan, en Céte d'Ivolze, of vivent
peuefficaces:lignes surchargées,tempsdetrajet 4,5 millions d’habitants, les 539 autobus de la
Is sont suppléés par quelque 16 000 minibus et taxis collectifs, oiivousn
‘32+ mecherche | ORCEIMBRE 2013 482redessiné
le
compagnie publique Sotra sont complétés par
environ 5 000 minibus et 1.000 taxis collectifs,
Lesconséquencessurla mobilitésont problema:
tiques. Les minibus et autres formes de trans-
port collectif représentent la moitié du trafic
en passagers le long de certains axes. Des axes
quiseraient desservis plus efficacement par des
vehicules de plus grande capacité, mais trop
coitteux pour de petites compagnies privées.
Labsence de normes et de contrdles est égale-
ment préjudiciable ala sécurité—les villes afri-
caines ayant globalement un taux de déces par
accident élevé ~ et 4 Fenvironnement [i
Quantifier la mobilité. Pourmiewxrépondre
alademande de mobilité des habitants,en met-
tanten place un systémedetransport publiceffi-
caceetconcudans une perspective durable faut
abord quantifiercelle-c, Comment parvenir?
Lesméthodes classiques, fondées sur desenqué-
tes avec des questionnaires auprés des utilisa-
teurs, ont été utilisées de maniére tréslimitée,
en raison de leur coat élevé. Et en Céte d'Ivoire,
comme souvent dansles pays endéveloppement,
les infrastructures mumériques (senseurs surles
routes ou GPS dans les véhicules) sont rates.
En revanche, le téléphone mobile, lui, est trés
répandu. Par exemple, en Cate d'ivoire, 70% des
habitantsenpossédent un.Cest pourquoilesdon-
néespersonnellesdes utilisateurspeuventy jouer
un rdle si important. En effet, les communica
tionsai'aidedestéléphonesmobilesoffrent Ades
villes oi urbanisation est rapide la possiblité
de suivre la mobilité des habitants et d'estimer
précisément les besoins en transport.
Sicettenouvelleméthode pour évaluerlamobi-
Lté est effcace, Cest parce quion a affaire & des
données massives: le fort taux de pénétration
du téléphone mobile fournit un échantillonnage
de plusieurs ordres de grandeur supérieur a celui
obtenuparles enquétesabase de questionnaires.
Onenglobe ainsiplusde categories d'utilisateurs
et celles-ci sont représentées proportionnelle-
mentaleurimportancestatistique.Ainsi,exploi-
ter ces données massives permet de diminuer
le biais statistique des enquétes. De surcrot, les
‘Les flux moyens de déplacements entre les paires d’antennes-
relais de la ville entre 7 et 16 heures sont représentés par
les traits jaunes. Is ont été caleulés & partix des appels passés
Par 500000 téléphones pour une période de cing mois.
donnéessurlescommunications mobiles peuvent
étre obtenues en temps réel, autorisant un suivi
dynamique du besoin de transport avec, 4 terme,
Tidée de rendre ces services plus réactifs
Avecmes collegues Michele Berlingerio, Giusy
Di Lorenzo, Rahul Nair, Fabio Pinelli et Marco
Luca Sobio, nous avons voulu vérifier ce que
ouvait apporter en pratique ce type d'appro-
che. Nous nous sommes concentrés surla ville
Abidjan, pour laquelle Vopérateur de télé-
phonie Orange avait fourni des données dap
pels dans le cadre d’un concours baptisé Data
{for Development («données pourle développe-
‘ment»)[2}-La base de données globale pour la
Céte d'ivoire contient2,5 milliards denregistre
ments ~ appels et SMS — échangés entre 5 mil-
lions ¢'utilisateurs. Chaque enregistrement
comprend un identifiant anonymisé, 'heure A
aquelle I'appel a été passé ou recu (ou le 9»
peat
Ba tt ees eee ee
ete cet eee eee ees
ne eee ee ed
le besoin de transport dans les zones urbaines.
Pra ye ere ere)
eet ee eermnen sad
Cece
r4a2 once 2022 La Recherche +29bai Be med
Pr aied
Un réseau 29> SMS envoyé),etV'dentifiantde
. Yantenne-relais connectée au por-
WMautobus ———_asieaudéiutderappelBienquela
redessiné grace _ \calsstionprecisedesutiisateurs
au téléphone
mobile
“um prose
TINEATRE se
*esouten tn nombre
operations
proportionnal la
uate de dennos
niaitpas été fourniedanslenregis-
trement, nous avons pula déduire
avec une précision de 500 metres
(en zone urbaine), en supposant
que les utilisateurs se trouvaient dans la zone
de couverture de 'antenne-relas (la « cellule»)
lorsque I'appel était passé
Matrice origine/destination. Létude a
porté sur les enregistrements provenant de
500000 téléphones pour des appels passés en
2012 sur une période de cing mois (dix groupes
de 50000 utilisateurs choisis au hasard toutes
les deux semaines). A partir de ces enregistre-
‘ments, nous avons extrapolé les mouvernents
individuels entre deux appels consécutifs ps
sés parle méme téléphone et utilisant deux cel-
lules voisines. La connaissancedesmouvements
individuels entre les antennes-relais permet de
construire la matrice origine/destination. Cette
‘matrice décrite nombre de personnes qui voya-
gent de n'importe quel point dorigine a m/im:
porte quelle destination de la ville (carte p. 33).
Plus précisément, elle représente le flot de per-
sonnes entre chaque paire d'antennes origine/
destination durant un intervalle de temps.
Les sequences d’antennes-relais le plus souvent utilisées
(en bleu) reflatent les motifs de déplacement les plus
fréquents. Cewr-ci sont analysés afin d’optimiser le réseau
Wautobus dans les zones insuffisamment desservies.
34+ La Recherche | DsceMne 2005 1° 632
La matrice origine/destination donne un pre-
ier élément d’analysedelamobilitéd’une ville.
‘Avec cet apercu de la demande de transport de
la population d'Abidjan, nous avons pu évaluer
quantitativement ’adéquation entrelesystéme
actueldetransporturbainetlademande. AL aide
uncalculateur d'itinéraire que nous avons mis,
aupoint nous avons associé chaque élément de
la matrice ~ chaque paire origine/destination —
letrajeten bus le plus probable qui serait utilisé
pour se déplacer d'un endroit & un autre. Avec
ce procédé, onestime la fréquentation attendue
de chaque ligne de bussitout le monde décidait
Afutilise les transports en commun.
Ce procédé permet en outre d'évaluerle temps
detrajet associé achaquedéplacementetle temps
dattente prévu de ces personnes leur point de
correspondance. De la sorte, nous avons mis en.
évidence des lacunes dans le systéme de trans-
port public actuel. En effet, nous avons trouvé
des pairesorigine/destination pourlesquelles a
durée de voyage parle systéme de bus était bien
supérieured celle laquelle onpourrait s'attendre
compte tenu de la distance & parcourir.
Ces carences nous ont poussés & étudier
comment ajouter de nouvelles lignes de bus
en vue d’améliorer l'efficacité du systéme.
Nous nous sommes replongés dans les don-
nées d’appels des téléphones afin d’en extraire
les motifs de déplacement les plus fréquents,
comme des séquences d'antennes-relais utili-
sées plus souvent que d'autres (carte c-contre)
Bon nombre de ces habitudes de déplacement
conespondalent des lignes actuelles duréseau
abidjanais, Mais d'autres semblaient couvrir
des zones de la ville oii le transport public
officiel n'est pas disponible: on n'y trouve que
des minibus ou des taxis.
Ajouter des lignes.A partirdctoutescesinfor-
mations, nous avons élaboré un modéle d’op-
timisation qui tentait d’évaluer quelles lignes
ajouter au systme existant pour maximiser le
niveau de service Plus précisément,compte tent
du réseau présent, de la matrice origine/desti-
nation, des motifs de déplacement les plus fré-
quents,deY'estimation des tempsde trajets dans
exéseauetdesressourees budgétaires(entermes
4e taille des véhicules), nous avons cherché &
determiner un ensemble de nouvelles lignes et
de fréquences pour ces lignes de maniéreamini-
miser les temps de trajets a travers a ville. Bien
quele problémene soitpas inéaire* ilpeut étre
approché par un probleme de programmation
linéaire de grande dimension.Aprés avoir tourné sur nos machines,
Valgorithme d'optimisation a recommandé
Vajout de quatre nouvelles lignes dontla mise
en ceuvre réduirait en moyenne de 10% les
temps de déplacements a travers la ville (carte
ci-contre).En rapprochant le systéme de trans-
port public des zones oi les gens souhaitent
utiliser, ces nouvelles lignes amélioreraient
‘aussi la fréquentation. Avecces lignes supplé-
‘mentaizes, "impact sur les 22 lignes existan-
tes serait également positif. Le temps de trajet
‘moyen sur certaines lignes déja existantes se
réduirait,carl’ajout de nouvelles lignes détour-
nerait une partie du lot de citadins voyageant
habituellement sur les anciennes lignes [3].
‘Nous avons pas évalué'impact de cette opti-
sation surles minibus et les taxis collects,
mais il est vraisemblable que leur utilisation
diminuerait avec la disponibilité ée meilleurs
services de transport public dans la vile.
Ce projet illustre bien comment des données
massives issues des appels par les téléphones
portables sont exploitables pour micux
comprendre la demande de transport. A condi-
tion de préserver I'anonymat, ce qui restera
un enjeu crucial pour l'avenir, des données
analysées en temps réel ou presque permet-
traient de mesurerla qualité du service fourni
auxhabitants et d’ajuster dynamiquementles
différents réseaux de transport aux besoins:
‘a fréquentation des lignes de bus existantes (en rose)
est calculée & partir des flux de déplacements (carte p. 33).
En prenant aussi en compte les déplacements les plus
‘fréquonts, de nouvelles lignes (en bleu) peuvent étze proposée
des tarifs variables selon la frequentation,
des lignes qui s'ajustent dynamiquement,
ou encore des mesures d'incitation destinées
IK Gwlism atic
spor ofastuere,
& encourager le changement de moyen de 2011
[2] wwe oengecem
[3] .seringeioeal,
ahine teeming sd
ronda Oza n
abs 63,2013,
transport pour éviter les congestions de trafic.
Des analyses de données qui deviendront plus
fréquentes et qui pourronts'appliquer partout
travers le monde.
ei ak Publetns
Téléphone
et niveau de vie
Les données issues de téléphones mobiles permettent de
‘artographier la richesse d'un pays dans lequel il n’existe
pas de systéme fiable de collecte régulidre de données
socio-économiques. Thoralf Gutierrez, de V'université
catholique de Louvain, en Belgique, et ses collegues ont
ainsi analysé les comportements achat de cxédit pour
les communications mobiles en Céte Ivoire: beaucoup
@utilisateurs n’ont pas d/abonnement et rechargent
leur compte téléphonique d’une somme quis choisissent
A chaque fois. Ces données anonymisées datant de
2012 provenaient d'un opérateur important du pays.
Supposant que la taille et la fréquence des achats sont
corrélées au niveau de richesse, ils ont utilisé la moyenne
des sommes pour établir une carte de richesse du pays.
1s ont aussi analysé le brassage social & partir dela
~variabilité locale des achats moyens. Ce type de données
pourrait servir& faire des prévisions et aider prendre
1_ des décisions socio-économiques. m Philipp Pjot
E rewierer eat, ao 909449612013
me
Routes =
Zones urbaines —
260 371 528 753
‘Moyenne des montants de rechargement en francs CFA
ket ee
ere ae ee
Pe neice con.
1 402- mecemone 2023|La Recherche -25Sy
Pai Bene
3 - Les flux de données vi
Les données arrivent
désormais a grande
vitesse de toutes parts
et a flux continu.
De nouvelles méthodes
de visualisation nous
permettent de les
explorer et d’en extraire
des informations.
Mises a jours surles réseaux sociaux,
courziers électroniques, ventes
ou productions industrielles:
des fu de données sont produits
en permanence.Dans nemabre
de cas, ces données peuvent &tre
éparties en catégories. Mais,
‘lles apparsissent a des instante
‘mprévisibles, accumulent jusqu’a
ce quielles soient traitées, et doivent
tre conservées sous forme agrégée
pour fourntr une information
historique et contextuelle,
La méthode de «sédimentation
visuelle», qui s'appuie sur 'analogie
de la sédimentation géologique,
pour but de permettre
a compréhension simultanée
des différentes étapes i.
1S wmesiulsedimertationry
6a Recherche | ogcemns 2033-622
PARCOURS
D'UNE DONNEE
Arrivée
des données
Zone tampon
Jetons
Siqastion
iyigue
= Focuation
Zone
dagrégation
satiation
Données
périmées
Suppression
des données posses
|
|
|sualisés en temps réel
MODIFICATIONS COLONNES CAMEMBERT
‘SUR WIKIPEDIA SANS SEPARATION | | SANS SEPARATION
‘Anglais Allemand Frangis Polonals _Joponas es mee
rent rrcecerinenneeemeneeteentenneceecnneninenmnenameime SHI
ea
een
Saree
Su es aferents
aye ee
Coca rn eee
eerie
Se ct a
Soa eae ears eens
cS
nasty
Tm!
Peeters ey
pene
peste
1 2+ icenmnse 2023 |La Recherche -374 -Une vie privée
est-elle encore possible ?
Chacun de nous, en utilisant son GPS ou son téléphone mobile, indique
sa position. A priori, une donnée sans importance. Pourtant, recoupée avec
une ou deux autres, elle permet de nous identifier parmi les utilisateurs.
ous étes en voiture, un dimanche
soir, et vous vous dirigez vers une
‘grande ville d'Furope. Le systéme
de guidage GPS de votre véhicule
vousindique «Emboutellagedans
par Adeline x2 kilométres vitesse moyenne 20 kilométres &
Decuyper, Yheure. Voulez-vous étre déviés? » Bien heureux
eae détreinformé temps, vous changezd'itinéraite,
Se gagnant ainsi un temps précieux.
‘olourin, ob Cette situation est bien réelle (elle est arivée
Vincent Blondel &l'undentrenous).Laplupart des systémes GPS
eatprteseur commercialisés aujourdhui ne se contentent
demethématques pas, en effet, de calculer votre position & partir
sopigetes de signaux envoyés par des satellites. Toutes es
trente secondes environ, ils indiquent celle-ci
un service central, qui lenregistre anonyme-
ment. En combinant ces informations pour tous
les véhicules équipés,un logiciel calculel'état du
traf, dont il informe en retour les utilisateurs
Services personnalisés. Habitués depuis
quelques années aux services personnalisés,
précis et disponibles en temps réel, nous utill
sons tous les jours les résultats de analyse ins-
tantanée de nos données et de celles des autres,
collectées en masse. Le prix & payer? Partager
PTT
at Cte tt sees
Pent
> TOUTEFOIS, QUATRE POINTS spatio-temporelssuffsent
Pe sce eee ee read
Peete mere cos
age eee
Pere er eet et
pier nee a ctertoee sect ees
‘38+La Recherche] pEceMBRE 2023 «W452sesdonnéesaveclegestionnairedel'application
et lui permettre de les utiliser. Mais quel degré
danonymat peut-on conserver quand on enze-
gistre la trajectoire, méme approximative, d'un
grand nombre de personnes?
Aen coire les opérateurs, vous n’avez pas &
vous inquiéter pour votre vie privée: ni votre
nom ni le numéro de votre appareil ne sont
conservés avec vos données de localisation,
Impossible quiconque de es utiliser pour vous
suivrealatrace, Malheureusement, cen'est pas
tout a fait vrai. Létude menée par lun entre
nous (Vincent Blondel), avec Yves-Alexandre de
‘Montjoye, César Hidalgo et Michel Verleysen, du
‘MIT,auxEtats-Unis, et de 'université catholique
de Louvain, en Belgique, montre que trés peu
d'informations de localisation du type de celles.
transmises par un GPS suffisent pour distinguer
une trajectoiresinguliére et,partant, pourrecon-
naitre une personne particuliére (1),
les bases de données enregistrées par les opé-
rateurs de téléphonie mobile, comme celle utili-
s8ée pour cette étude (un million et demi d’abon-
nés sur quinze mois), contiennent généralement,
pour chaque utilisateur, 'endroit et Iheure aux-
quels chaque appel a été passé. in reprenant les
antennes quiontrelayélesappels,onpeutretracer
unitinéraire approximatif pour chaque personne
présente dans les données. Chaque point de cet
itinéraire est caractérisé par une date et par une
position géographique, en pratiquela positionde
Yantenne-relais quia retransmis|e début del'ap-
pel. Combien de pointssuffisent pour caractériser
complétement une trajectoire particuliére?
Laréponse, étonnamment, est quatre! Si vous
connaissez quatre des points de passage d'une
Quand on recoupe
les bases de données
‘Que se passe-til si ’on associe les informations de plusieurs
bases de données? Le risque de voir sa vie privée exposée devient
alors d’autant plus grand. Cest ce qui est arrivé pour NetFlix,
entreprise américaine qui propose de regarder des films en.
streaming sur Internet. In 2006, la société a lancé un concours
pour améliorer son systéme de recommandation et a rendu
publique I'activité en ligne d'un demi-million d'utilisateurs, tous
identifies par des numéros de clients anonymes. Deux chercheuxs
de université du Texas ont cependant réussi a emettre un nom
sur plusieurs de ces numéros, en comparant les informations de
NetFlix et les avis sur les films disponibles sure site de référence
IMDb qui, eux, ne sont pas anonymes. Is ont ainsi révélé
jusqu’aux opinions politiques et orientations sexuelles
de plusieurs utilisatewrs. Laffaire a été portée devant la justice.
personne, dans 95% descas,iln'y aqu’un utilisa-
‘teur dont I'tinéraire passe par ces quatre points
précis[fg.1 Vous pouvezainsile retrouverdansla
base de données et suivre le restant deson trajet,
de ses appels et de son activité téléphonique.
Informations en chaine. Pour mesurer/'in-
formation que donnent quatre points de pas-
sage, pour une résolution temporelle & Yheure
pris et une précision spatiale déterminée parla
zone couverte par chaque antenne,on choisit une
personne au hasard dans la base de données et
_parmi ses points de passage, on en sélectionne
quatreau hasard.Ensuite,pources quatre points
de passage précis, on cherche, parmile million
et demi d'utilisateurs, ceux qui ont une trajee-
toire compatible avec ees quatre points. >>>
100%
Proportion de tracesuniques
Bess
xe 2 ®
2
igs BE
Nombre do pants spatio-temporels
LATRAJECTOIRE des appelstelephoniques d'un abonné (a gauche) est enregistrée dans une base de données sous forme de points
spatio-emporels:lazone couverte par fantenne quia relayél'appelestassociée fheure de cl
de cet trajectoires sont incvidualisées lorsque fon en connait deux points (8 droite). Avec quatre points, on en individu
i, une heure prés(au milieu). Lamoitié
2 95%.
Ww 4nz cmap 2033 | La Recherche +39> Big Data+ 4
Pred
possible?
Résolution spatiale (en nombre 'entennes)
Une vie privée
est-elle encore
Fig.2 La dégradation de l'information
quatre points de clles-ci décrot assez lentement i fon ne diminue la préc-
sionquen temps (on abscisso)ou qu'on espace (en ordonnée). lest bien phis
cfficace dela diminuer pour les deux paramétres simultanément.
99> On répéte alors
Vexpérienceun grand
nombre defois:choix
d'une personne,
choix des points de
passage, comptage
du nombre de trajec:
toires compatibles.
Ht on observe alors
que, parmi les
2500essaisdece type
xalisés,95% des qua-
druplets ne corres-
pondent qu’aunseul
utilisateur. La connaissance des quatre points
de passage suffit donc dans ce cas a retrouver
une personne précise.
En résumé, cela veut dire que si vous savez
qu'une personne a passé des appels depuis chez
elle le matin vers 8 heures jde son liew de travail,
dont vousconnaissezlalocalisation géographique,
vvers 10 heures; du supermarché ot elle fait ses
courses &19 heures; et & nouveau de son domi-
40 La Recherche | pécemmns 2013-1402
Les serveurs de données de Google (ici prés d’Atlanta, aux Etats-
Unis) conservent les historiques de recherches des utilisateurs
»> senssibles. Une application pour un télé-
phone intelligent ou une tablette semble utile
et répondre & nos besoins, soit. Va-t-elle nous
faciliter la vie? Il suffi de cliquer sur le bouton
«Accepter les termes et conditions d’utilisa-
tion», et de profiter du service. tn petit clic, est
vite fait, souvent sans prendre le temps de lire
le long texte qui décrit comment et dans quel
In) vAdeMonioyeeal, but les données seront utilisées,
SinicRepas, 3, 1376,
[21 Apts Our
Publesion ep Repuion
ope Whitepape,
Februy2013
[B15.aaeman etal
Mobis '12,Pacesdngsol
the 10otnstoral
confrence en Mele
systermsand sens 201
Géolocalisation fréquente. Plus de la moitié
es applications gratuites demandent d’enregis:
trer la position géographique de l'utilisateur [2
(On remarque que beaucoup d'applications qui
nefournissentpas d'information en rapportavec
lalocalisation 'enregistrent quand méme: ceux
quiTont produite se constituent ainsi une base
de données des endroitsd’otleurapplication est
uilisée, cans toujours un but bien défini
Que peut-on alors faire pour protéger a vie
privée tout en profitant des nouveauxservices
développés surla base des données partagées?
Interdire aux sociétés d'enregistrer et d’utili
ser les données disponibles ne ferait quem
pécher d'utiliser les services auxquels nous
nous sommes rapidement habitués et qui se
fondent sur les données de chacun pour amé-
liorer leur efficacté
Une solution récemnment proposée par une
équipe del'universitédePrinceton et deslabora-
toires AT&T auxttats-Unisseraitde synthétiser
des données artifiielles, qui présenteraientles
memes caractéristiques queles données authen-
tiques,afin de pouvoir les rendre publiques sans
danger d’intrusion dansla vie privée}. Lutilité
de cette approche reste cependant imitée, puis-
que toute analyse faite sur les données de syn-
thése devrait tre vérifigesurles vraies données
pour étre validée. De plus, pour construire de
telles données de synthése, il faudrait deja die
poser de données authentiques pouren utiliser
les caractéristiques,
Le plus effcace, afin de continuer a utiliser
les services que la technologie actuelle permet
tout en préservant sa vie privée est finalernent
sans doute de recommander 4 l'utilisateur
applications et de réseaux sociaux de surfer
consciencieusement, de bien personnaliser ses
paramétres de confidentialité et de n’accep
ter de partager sa géolocalisation qu'avee des
partenaires de confiance. Notre banque en sait
souvent beaucoup surnous salaie, allocations
familiales, cotisation & un syndicat, factures
MayerSdhinboree 2013. sxamples ecodesource
Xk. Cie Big Dts, >HeniVedtes6ig snail pour
‘Revolt Tat Dazdenaziipsinyed, — lstdimeaton vee.
Tansom HowlWetive, _conipasecinerens Silla
Won annie Pager
ohn uray, 2013. > Jean Pere Male, Sergnié ene
2 fig Dts Geis Pesora, _Latplewptuwdestig jin 2012 tai 2013,
Tecnology fevew Daa hp /injurconig,_lechalenge Data or
Businss Roper mai2013. datareveluion catrella_Davelopmentegua
‘42-La Recherche DECEMBRE 2013-1482
tes contbution de
{0 équipesscentiiques.
> wor future. Le
projet européen Futur
\seledévloppement
Gestecmnologes de
Fnfrmaton ee a
{elacomprehersion|
Son activité utilisation
desig Data pourla sce
>hep fing orgi2-
Infolab- 2 Fondation
Inert rovselegénsaton
‘mina campagne nab
oursertbiler entropies
des donne.
Hela soct > htip:/idataveyes.com
> brtp(fhd.media.mit. LasoaetDatveyes presente
feduleHuman Dynamics etvenddesservcesde
LBbortoryde Mifconzece ual de donne,