Académique Documents
Professionnel Documents
Culture Documents
Vertigineux«bigdata»
Introduc)on Chaque seconde, la masse de données créées sur Internet par les smartphones,
ordinateurs et autres tablettes explose. Appelé «big data» par les experts
du Web, cet amas colossal est un marché prometteur et prodigieux
P
hotos, vidéos, sons, chiffres, teur business et analyse chez IBM. Le phé- phonie mobile, dont SFR. « Il dispose d’une
NS S
textes…Depuisla démocratisa- nomène a pris une ampleur sans précédent base de données clients de 20 millions
tion de l’Internet haut débit, ce ces deux dernières années.» Cette accéléra- d’abonnés. Toutes les données de localisa-
sont des milliards de données
quisontdéverséesparlesparti-
tion est principalement due à un change-
ment dans nos habitudes. L’apparition des
tion sont collectées et stockées. Elles ne sont
exploitéesque sile clientle souhaite», expli- SO NE
U
SU AN
culiers, les entreprises et réseauxsociauxmaisaussiladémocratisa- que-t-il. On peut, grâce au big data, lui
IT
CH
appellent ça le « big data », littéralement pectives de création et de partage de conte- son smartphone quand il passe à côté
R
« grosse donnée »… Ce vocable est un peu nu qu’ils offrent ont changé la donne. d’une galerie commerciale. Le fait que le
« marketing » : depuis dix-huit mois, pas Ces données, de plus en plus d’entrepri- prix de la capacité de calcul ait beaucoup
une semaine ne passe sans un séminaire ses cherchent à les exploiter. Car « elles baissé compte énormément: « Certaines
ou une nouvelle offre big data sur la planè- représentent une mine d’informations de ces techniques d’exploitation des don-
te high-tech. Mais il recouvre une réalité : potentiellement incroyable, à condition de nées, on les possède depuis un certain
RO S
ID
R
d’analyse habituels. gue de PWC, Zouheir Guedri. Habitués aux De fait, le « cloud computing», l’infor-
Tous les jours, ce sont 118 milliards de données dites « structurées» – textes, chif- matique dans les nuages, a fait beaucoup
SUR ATEU
l’Econometric Society en 2000.
mails qui sont envoyés à travers le monde, fres –, nos ordinateurs n’étaient, jusqu’à il pour le big data. Aujourd’hui, il est possi-
2,45 milliards de contenus différents qui y a peu de temps, pas aptes à analyser les ble de louer d’énormes capacités de calcul,
AND
sont postés sur Facebook. L’opérateur de vidéos, enregistrements de voix, sons, parfois pendant quelques heures seule-
télécommunications américain AT & T bruitsetautresimagesquenousnoussom- ment.A moindre coût : ces serveursen bat-
IS
transfère chaque jour 240 000 milliards mes mis à stocker de façon effrénée. teriesont fournispardes prestatairescom-
UTIL
d’octets de données! Des chiffres qui don- me IBM ou Amazon. Le big data « permet
nent le vertige et qui vont encore exploser.
A l’aube de l’an 2020, il y aura 10,4 zettaoc-
L’apparition presque de prédire l’avenir », affirme Gil-
bertGrenié. En moulinant les milliards de
des réseaux sociaux
UTILISATEURS
WORDPRESS
et les compteurs électriques peuvent être matiques ont mis au point des techniques Mais la manipulation à grande échelle
dotés de capteurs ou de cartes SIM. Pour empruntées au calcul scientifique pour de ces données pose aussi le problème de
CRÉ ITES
DE S
6H 45, L’HEURE DU RÉVEIL. Comme quasi- publicités qui semblent bien vous connaî- sur vos déplacements… en permanence!
ATI
ment la moitié des Français, vous possé- tre: elles proposent des voyages organi- 14 heures: retour au bureau. Une petite
exaoctets
ON
d’entre eux, vous ne l’avez pas éteint bodge! Le moteur de recherche a tout sim- mère avant de vous remettre au travail. A
durant la nuit. Grâce aux données émises plement scanné automatiquement votre la dernière minute, vous n’achetez pas le générées
sur le réseau par ce petit bijou de techno- e-mail, y a retrouvé des mots-clés et vous parfum qui vous tentait. Pourtant celui-ci depuis les premières
logie, votre opérateur sait où vous êtes, à a proposé de la publicité en conséquence revient vous hanter sous forme de publici- mesures jusqu’en 2003
quelle heure vous êtes rentré hier soir et sur ses autres plates-formes. té sur toutes les pages Internet que vous
même si vous avez dormi chez vous ! ouvrez par la suite. C’est simple, le site
9 heures: arrivée au bureau. Après une Publicité à toutes les pages que vous aviez visité a récolté des don-
AP OOG
sœur, qui connaît bien le pays. Quelques phone devrait vous aider. Pour que ça vous êtes pour que d’autres vous rejoi-
G
P
minutes plus tard, le visionnage d’une marche, vous avez accepté que Google gnent. Souriez, vous êtes traqué ! p
O
ST L
vidéo sur YouTube fait apparaître des vous géolocalise et récolte les données S. B. Il fallait Il faudra
E RE E
deux jours dix minutes
1o
Octet Kilo-octet (ko) Mégaoctet (Mo) Gigaoctet (Go) Téraoctet (To) Petaoctet (Po) Exaoctet (Eo) Zettaoctet (Zo) Yottaoctet (Yo)
1 000 octets 1 000 Ko 1 000 Mo 1 000 Go 1 000 Go 1 000 Po 1 000 Eo 1 000 Zo
SOURCES : DATAGIF/CNRS - INFOGRAPHIE LE MONDE * NSA : National Security Agency. Organisme gouvernemental des Etats-Unis, chargé du renseignement informatique
14 décryptages L’ŒIL DU MONDE 0123
Mercredi 26 décembre 2012
Vertigineux«bigdata»
Introduction Chaque seconde, la masse de données créées sur Internet par les smartphones,
ordinateurs et autres tablettes explose. Appelé «big data» par les experts
du Web, cet amas colossal est un marché prometteur et prodigieux
P
hotos, vidéos, sons, chiffres, teur business et analyse chez IBM. Le phé- phonie mobile, dont SFR. « Il dispose d’une
NS S
textes…Depuisla démocratisa- nomène a pris une ampleur sans précédent base de données clients de 20 millions
tion de l’Internet haut débit, ce ces deux dernières années.» Cette accéléra- d’abonnés. Toutes les données de localisa-
sont des milliards de données
quisontdéverséesparlesparti-
tion est principalement due à un change-
ment dans nos habitudes. L’apparition des
tion sont collectées et stockées. Elles ne sont
exploitéesque sile clientle souhaite», expli- SO NE
U
SU AN
culiers, les entreprises et réseauxsociauxmaisaussiladémocratisa- que-t-il. On peut, grâce au big data, lui
IT
CH
appellent ça le « big data », littéralement pectives de création et de partage de conte- son smartphone quand il passe à côté
R
« grosse donnée »… Ce vocable est un peu nu qu’ils offrent ont changé la donne. d’une galerie commerciale. Le fait que le
« marketing » : depuis dix-huit mois, pas Ces données, de plus en plus d’entrepri- prix de la capacité de calcul ait beaucoup
une semaine ne passe sans un séminaire ses cherchent à les exploiter. Car « elles baissé compte énormément: « Certaines
ou une nouvelle offre big data sur la planè- représentent une mine d’informations de ces techniques d’exploitation des don-
te high-tech. Mais il recouvre une réalité : potentiellement incroyable, à condition de nées, on les possède depuis un certain
RO S
ID
R
d’analyse habituels. gue de PWC, Zouheir Guedri. Habitués aux De fait, le « cloud computing», l’infor-
Tous les jours, ce sont 118 milliards de données dites « structurées» – textes, chif- matique dans les nuages, a fait beaucoup
SUR ATEU
l’Econometric Society en 2000.
mails qui sont envoyés à travers le monde, fres –, nos ordinateurs n’étaient, jusqu’à il pour le big data. Aujourd’hui, il est possi-
2,45 milliards de contenus différents qui y a peu de temps, pas aptes à analyser les ble de louer d’énormes capacités de calcul,
AND
sont postés sur Facebook. L’opérateur de vidéos, enregistrements de voix, sons, parfois pendant quelques heures seule-
télécommunications américain AT & T bruitsetautresimagesquenousnoussom- ment.A moindre coût : ces serveursen bat-
IS
transfère chaque jour 240 000 milliards mes mis à stocker de façon effrénée. teriesont fournispardes prestatairescom-
UTIL
d’octets de données! Des chiffres qui don- me IBM ou Amazon. Le big data « permet
nent le vertige et qui vont encore exploser.
A l’aube de l’an 2020, il y aura 10,4 zettaoc-
L’apparition presque de prédire l’avenir », affirme Gil-
bertGrenié. En moulinant les milliards de
des réseaux sociaux
UTILISATEURS
WORDPRESS
et les compteurs électriques peuvent être matiques ont mis au point des techniques Mais la manipulation à grande échelle
dotés de capteurs ou de cartes SIM. Pour empruntées au calcul scientifique pour de ces données pose aussi le problème de
CRÉ ITES
DE S
6H 45, L’HEURE DU RÉVEIL. Comme quasi- publicités qui semblent bien vous connaî- sur vos déplacements… en permanence!
ATI
ment la moitié des Français, vous possé- tre: elles proposent des voyages organi- 14 heures: retour au bureau. Une petite
exaoctets
ON
d’entre eux, vous ne l’avez pas éteint bodge! Le moteur de recherche a tout sim- mère avant de vous remettre au travail. A
durant la nuit. Grâce aux données émises plement scanné automatiquement votre la dernière minute, vous n’achetez pas le générées
sur le réseau par ce petit bijou de techno- e-mail, y a retrouvé des mots-clés et vous parfum qui vous tentait. Pourtant celui-ci depuis les premières
logie, votre opérateur sait où vous êtes, à a proposé de la publicité en conséquence revient vous hanter sous forme de publici- mesures jusqu’en 2003
quelle heure vous êtes rentré hier soir et sur ses autres plates-formes. té sur toutes les pages Internet que vous
même si vous avez dormi chez vous ! ouvrez par la suite. C’est simple, le site
9 heures: arrivée au bureau. Après une Publicité à toutes les pages que vous aviez visité a récolté des don-
AP OOG
sœur, qui connaît bien le pays. Quelques phone devrait vous aider. Pour que ça vous êtes pour que d’autres vous rejoi-
G
P
minutes plus tard, le visionnage d’une marche, vous avez accepté que Google gnent. Souriez, vous êtes traqué ! p
O
ST L
vidéo sur YouTube fait apparaître des vous géolocalise et récolte les données S. B. Il fallait Il faudra
E RE E
deux jours dix minutes
1o
Octet Kilo-octet (ko) Mégaoctet (Mo) Gigaoctet (Go) Téraoctet (To) Petaoctet (Po) Exaoctet (Eo) Zettaoctet (Zo) Yottaoctet (Yo)
1 000 octets 1 000 Ko 1 000 Mo 1 000 Go 1 000 Go 1 000 Po 1 000 Eo 1 000 Zo
SOURCES : DATAGIF/CNRS - INFOGRAPHIE LE MONDE * NSA : National Security Agency. Organisme gouvernemental des Etats-Unis, chargé du renseignement informatique
14 décryptages L’ŒIL DU MONDE 0123
Mercredi 26 décembre 2012
Vertigineux«bigdata»
Introduction Chaque seconde, la masse de données créées sur Internet par les smartphones,
ordinateurs et autres tablettes explose. Appelé «big data» par les experts
du Web, cet amas colossal est un marché prometteur et prodigieux
P
hotos, vidéos, sons, chiffres, teur business et analyse chez IBM. Le phé- phonie mobile, dont SFR. « Il dispose d’une
NS S
textes…Depuisla démocratisa- nomène a pris une ampleur sans précédent base de données clients de 20 millions
tion de l’Internet haut débit, ce ces deux dernières années.» Cette accéléra- d’abonnés. Toutes les données de localisa-
sont des milliards de données
quisontdéverséesparlesparti-
tion est principalement due à un change-
ment dans nos habitudes. L’apparition des
tion sont collectées et stockées. Elles ne sont
exploitéesque sile clientle souhaite», expli- SO NE
U
SU AN
culiers, les entreprises et réseauxsociauxmaisaussiladémocratisa- que-t-il. On peut, grâce au big data, lui
IT
CH
appellent ça le « big data », littéralement pectives de création et de partage de conte- son smartphone quand il passe à côté
R
« grosse donnée »… Ce vocable est un peu nu qu’ils offrent ont changé la donne. d’une galerie commerciale. Le fait que le
« marketing » : depuis dix-huit mois, pas Ces données, de plus en plus d’entrepri- prix de la capacité de calcul ait beaucoup
une semaine ne passe sans un séminaire ses cherchent à les exploiter. Car « elles baissé compte énormément: « Certaines
ou une nouvelle offre big data sur la planè- représentent une mine d’informations de ces techniques d’exploitation des don-
te high-tech. Mais il recouvre une réalité : potentiellement incroyable, à condition de nées, on les possède depuis un certain
RO S
ID
R
d’analyse habituels. gue de PWC, Zouheir Guedri. Habitués aux De fait, le « cloud computing», l’infor-
Tous les jours, ce sont 118 milliards de données dites « structurées» – textes, chif- matique dans les nuages, a fait beaucoup
SUR ATEU
l’Econometric Society en 2000.
mails qui sont envoyés à travers le monde, fres –, nos ordinateurs n’étaient, jusqu’à il pour le big data. Aujourd’hui, il est possi-
2,45 milliards de contenus différents qui y a peu de temps, pas aptes à analyser les ble de louer d’énormes capacités de calcul,
AND
sont postés sur Facebook. L’opérateur de vidéos, enregistrements de voix, sons, parfois pendant quelques heures seule-
télécommunications américain AT & T bruitsetautresimagesquenousnoussom- ment.A moindre coût : ces serveursen bat-
IS
transfère chaque jour 240 000 milliards mes mis à stocker de façon effrénée. teriesont fournispardes prestatairescom-
UTIL
d’octets de données! Des chiffres qui don- me IBM ou Amazon. Le big data « permet
nent le vertige et qui vont encore exploser.
A l’aube de l’an 2020, il y aura 10,4 zettaoc-
L’apparition presque de prédire l’avenir », affirme Gil-
bertGrenié. En moulinant les milliards de
des réseaux sociaux
UTILISATEURS
WORDPRESS
et les compteurs électriques peuvent être matiques ont mis au point des techniques Mais la manipulation à grande échelle
dotés de capteurs ou de cartes SIM. Pour empruntées au calcul scientifique pour de ces données pose aussi le problème de
CRÉ ITES
DE S
6H 45, L’HEURE DU RÉVEIL. Comme quasi- publicités qui semblent bien vous connaî- sur vos déplacements… en permanence!
ATI
ment la moitié des Français, vous possé- tre: elles proposent des voyages organi- 14 heures: retour au bureau. Une petite
exaoctets
ON
d’entre eux, vous ne l’avez pas éteint bodge! Le moteur de recherche a tout sim- mère avant de vous remettre au travail. A
durant la nuit. Grâce aux données émises plement scanné automatiquement votre la dernière minute, vous n’achetez pas le générées
sur le réseau par ce petit bijou de techno- e-mail, y a retrouvé des mots-clés et vous parfum qui vous tentait. Pourtant celui-ci depuis les premières
logie, votre opérateur sait où vous êtes, à a proposé de la publicité en conséquence revient vous hanter sous forme de publici- mesures jusqu’en 2003
quelle heure vous êtes rentré hier soir et sur ses autres plates-formes. té sur toutes les pages Internet que vous
même si vous avez dormi chez vous ! ouvrez par la suite. C’est simple, le site
9 heures: arrivée au bureau. Après une Publicité à toutes les pages que vous aviez visité a récolté des don-
AP OOG
sœur, qui connaît bien le pays. Quelques phone devrait vous aider. Pour que ça vous êtes pour que d’autres vous rejoi-
G
P
minutes plus tard, le visionnage d’une marche, vous avez accepté que Google gnent. Souriez, vous êtes traqué ! p
O
ST L
vidéo sur YouTube fait apparaître des vous géolocalise et récolte les données S. B. Il fallait Il faudra
E RE E
deux jours dix minutes
1o
Octet Kilo-octet (ko) Mégaoctet (Mo) Gigaoctet (Go) Téraoctet (To) Petaoctet (Po) Exaoctet (Eo) Zettaoctet (Zo) Yottaoctet (Yo)
1 000 octets 1 000 Ko 1 000 Mo 1 000 Go 1 000 Go 1 000 Po 1 000 Eo 1 000 Zo
SOURCES : DATAGIF/CNRS - INFOGRAPHIE LE MONDE * NSA : National Security Agency. Organisme gouvernemental des Etats-Unis, chargé du renseignement informatique
14 décryptages L’ŒIL DU MONDE 0123
Mercredi 26 décembre 2012
Vertigineux«bigdata»
Introduction Chaque seconde, la masse de données créées sur Internet par les smartphones,
ordinateurs et autres tablettes explose. Appelé «big data» par les experts
du Web, cet amas colossal est un marché prometteur et prodigieux
P
hotos, vidéos, sons, chiffres, teur business et analyse chez IBM. Le phé- phonie mobile, dont SFR. « Il dispose d’une
NS S
textes…Depuisla démocratisa- nomène a pris une ampleur sans précédent base de données clients de 20 millions
tion de l’Internet haut débit, ce ces deux dernières années.» Cette accéléra- d’abonnés. Toutes les données de localisa-
sont des milliards de données
quisontdéverséesparlesparti-
tion est principalement due à un change-
ment dans nos habitudes. L’apparition des
tion sont collectées et stockées. Elles ne sont
exploitéesque sile clientle souhaite», expli- SO NE
U
SU AN
culiers, les entreprises et réseauxsociauxmaisaussiladémocratisa- que-t-il. On peut, grâce au big data, lui
IT
CH
appellent ça le « big data », littéralement pectives de création et de partage de conte- son smartphone quand il passe à côté
R
« grosse donnée »… Ce vocable est un peu nu qu’ils offrent ont changé la donne. d’une galerie commerciale. Le fait que le
« marketing » : depuis dix-huit mois, pas Ces données, de plus en plus d’entrepri- prix de la capacité de calcul ait beaucoup
une semaine ne passe sans un séminaire ses cherchent à les exploiter. Car « elles baissé compte énormément: « Certaines
ou une nouvelle offre big data sur la planè- représentent une mine d’informations de ces techniques d’exploitation des don-
te high-tech. Mais il recouvre une réalité : potentiellement incroyable, à condition de nées, on les possède depuis un certain
RO S
ID
R
d’analyse habituels. gue de PWC, Zouheir Guedri. Habitués aux De fait, le « cloud computing», l’infor-
Tous les jours, ce sont 118 milliards de données dites « structurées» – textes, chif- matique dans les nuages, a fait beaucoup
SUR ATEU
l’Econometric Society en 2000.
mails qui sont envoyés à travers le monde, fres –, nos ordinateurs n’étaient, jusqu’à il pour le big data. Aujourd’hui, il est possi-
2,45 milliards de contenus différents qui y a peu de temps, pas aptes à analyser les ble de louer d’énormes capacités de calcul,
AND
sont postés sur Facebook. L’opérateur de vidéos, enregistrements de voix, sons, parfois pendant quelques heures seule-
télécommunications américain AT & T bruitsetautresimagesquenousnoussom- ment.A moindre coût : ces serveursen bat-
IS
transfère chaque jour 240 000 milliards mes mis à stocker de façon effrénée. teriesont fournispardes prestatairescom-
UTIL
d’octets de données! Des chiffres qui don- me IBM ou Amazon. Le big data « permet
nent le vertige et qui vont encore exploser.
A l’aube de l’an 2020, il y aura 10,4 zettaoc-
L’apparition presque de prédire l’avenir », affirme Gil-
bertGrenié. En moulinant les milliards de
des réseaux sociaux
UTILISATEURS
WORDPRESS
et les compteurs électriques peuvent être matiques ont mis au point des techniques Mais la manipulation à grande échelle
dotés de capteurs ou de cartes SIM. Pour empruntées au calcul scientifique pour de ces données pose aussi le problème de
CRÉ ITES
DE S
6H 45, L’HEURE DU RÉVEIL. Comme quasi- publicités qui semblent bien vous connaî- sur vos déplacements… en permanence!
ATI
ment la moitié des Français, vous possé- tre: elles proposent des voyages organi- 14 heures: retour au bureau. Une petite
exaoctets
ON
d’entre eux, vous ne l’avez pas éteint bodge! Le moteur de recherche a tout sim- mère avant de vous remettre au travail. A
durant la nuit. Grâce aux données émises plement scanné automatiquement votre la dernière minute, vous n’achetez pas le générées
sur le réseau par ce petit bijou de techno- e-mail, y a retrouvé des mots-clés et vous parfum qui vous tentait. Pourtant celui-ci depuis les premières
logie, votre opérateur sait où vous êtes, à a proposé de la publicité en conséquence revient vous hanter sous forme de publici- mesures jusqu’en 2003
quelle heure vous êtes rentré hier soir et sur ses autres plates-formes. té sur toutes les pages Internet que vous
même si vous avez dormi chez vous ! ouvrez par la suite. C’est simple, le site
9 heures: arrivée au bureau. Après une Publicité à toutes les pages que vous aviez visité a récolté des don-
AP OOG
sœur, qui connaît bien le pays. Quelques phone devrait vous aider. Pour que ça vous êtes pour que d’autres vous rejoi-
G
P
minutes plus tard, le visionnage d’une marche, vous avez accepté que Google gnent. Souriez, vous êtes traqué ! p
O
ST L
vidéo sur YouTube fait apparaître des vous géolocalise et récolte les données S. B. Il fallait Il faudra
E RE E
deux jours dix minutes
1o
Octet Kilo-octet (ko) Mégaoctet (Mo) Gigaoctet (Go) Téraoctet (To) Petaoctet (Po) Exaoctet (Eo) Zettaoctet (Zo) Yottaoctet (Yo)
1 000 octets 1 000 Ko 1 000 Mo 1 000 Go 1 000 Go 1 000 Po 1 000 Eo 1 000 Zo
SOURCES : DATAGIF/CNRS - INFOGRAPHIE LE MONDE * NSA : National Security Agency. Organisme gouvernemental des Etats-Unis, chargé du renseignement informatique
14 décryptages L’ŒIL DU MONDE 0123
Mercredi 26 décembre 2012
Vertigineux«bigdata»
Introduc)on Chaque seconde, la masse de données créées sur Internet par les smartphones,
ordinateurs et autres tablettes explose. Appelé «big data» par les experts
du Web, cet amas colossal est un marché prometteur et prodigieux
P
hotos, vidéos, sons, chiffres, teur business et analyse chez IBM. Le phé- phonie mobile, dont SFR. « Il dispose d’une
NS S
textes…Depuisla démocratisa- nomène a pris une ampleur sans précédent base de données clients de 20 millions
tion de l’Internet haut débit, ce ces deux dernières années.» Cette accéléra- d’abonnés. Toutes les données de localisa-
sont des milliards de données
quisontdéverséesparlesparti-
tion est principalement due à un change-
ment dans nos habitudes. L’apparition des
tion sont collectées et stockées. Elles ne sont
exploitéesque sile clientle souhaite», expli- SO NE
U
SU AN
culiers, les entreprises et réseauxsociauxmaisaussiladémocratisa- que-t-il. On peut, grâce au big data, lui
IT
CH
appellent ça le « big data », littéralement pectives de création et de partage de conte- son smartphone quand il passe à côté
R
« grosse donnée »… Ce vocable est un peu nu qu’ils offrent ont changé la donne. d’une galerie commerciale. Le fait que le
« marketing » : depuis dix-huit mois, pas Ces données, de plus en plus d’entrepri- prix de la capacité de calcul ait beaucoup
une semaine ne passe sans un séminaire ses cherchent à les exploiter. Car « elles baissé compte énormément: « Certaines
ou une nouvelle offre big data sur la planè- représentent une mine d’informations de ces techniques d’exploitation des don-
te high-tech. Mais il recouvre une réalité : potentiellement incroyable, à condition de nées, on les possède depuis un certain
RO S
ID
R
d’analyse habituels. gue de PWC, Zouheir Guedri. Habitués aux De fait, le « cloud computing», l’infor-
Tous les jours, ce sont 118 milliards de données dites « structurées» – textes, chif- matique dans les nuages, a fait beaucoup
SUR ATEU
l’Econometric Society en 2000.
mails qui sont envoyés à travers le monde, fres –, nos ordinateurs n’étaient, jusqu’à il pour le big data. Aujourd’hui, il est possi-
2,45 milliards de contenus différents qui y a peu de temps, pas aptes à analyser les ble de louer d’énormes capacités de calcul,
AND
sont postés sur Facebook. L’opérateur de vidéos, enregistrements de voix, sons, parfois pendant quelques heures seule-
télécommunications américain AT & T bruitsetautresimagesquenousnoussom- ment.A moindre coût : ces serveursen bat-
IS
transfère chaque jour 240 000 milliards mes mis à stocker de façon effrénée. teriesont fournispardes prestatairescom-
UTIL
d’octets de données! Des chiffres qui don- me IBM ou Amazon. Le big data « permet
nent le vertige et qui vont encore exploser.
A l’aube de l’an 2020, il y aura 10,4 zettaoc-
L’apparition presque de prédire l’avenir », affirme Gil-
bertGrenié. En moulinant les milliards de
des réseaux sociaux
UTILISATEURS
WORDPRESS
et les compteurs électriques peuvent être matiques ont mis au point des techniques Mais la manipulation à grande échelle
dotés de capteurs ou de cartes SIM. Pour empruntées au calcul scientifique pour de ces données pose aussi le problème de
CRÉ ITES
DE S
6H 45, L’HEURE DU RÉVEIL. Comme quasi- publicités qui semblent bien vous connaî- sur vos déplacements… en permanence!
ATI
ment la moitié des Français, vous possé- tre: elles proposent des voyages organi- 14 heures: retour au bureau. Une petite
exaoctets
ON
d’entre eux, vous ne l’avez pas éteint bodge! Le moteur de recherche a tout sim- mère avant de vous remettre au travail. A
durant la nuit. Grâce aux données émises plement scanné automatiquement votre la dernière minute, vous n’achetez pas le générées
sur le réseau par ce petit bijou de techno- e-mail, y a retrouvé des mots-clés et vous parfum qui vous tentait. Pourtant celui-ci depuis les premières
logie, votre opérateur sait où vous êtes, à a proposé de la publicité en conséquence revient vous hanter sous forme de publici- mesures jusqu’en 2003
quelle heure vous êtes rentré hier soir et sur ses autres plates-formes. té sur toutes les pages Internet que vous
même si vous avez dormi chez vous ! ouvrez par la suite. C’est simple, le site
9 heures: arrivée au bureau. Après une Publicité à toutes les pages que vous aviez visité a récolté des don-
AP OOG
sœur, qui connaît bien le pays. Quelques phone devrait vous aider. Pour que ça vous êtes pour que d’autres vous rejoi-
G
P
minutes plus tard, le visionnage d’une marche, vous avez accepté que Google gnent. Souriez, vous êtes traqué ! p
O
ST L
vidéo sur YouTube fait apparaître des vous géolocalise et récolte les données S. B. Il fallait Il faudra
E RE E
deux jours dix minutes
1o
Octet Kilo-octet (ko) Mégaoctet (Mo) Gigaoctet (Go) Téraoctet (To) Petaoctet (Po) Exaoctet (Eo) Zettaoctet (Zo) Yottaoctet (Yo)
1 000 octets 1 000 Ko 1 000 Mo 1 000 Go 1 000 Go 1 000 Po 1 000 Eo 1 000 Zo
SOURCES : DATAGIF/CNRS - INFOGRAPHIE LE MONDE * NSA : National Security Agency. Organisme gouvernemental des Etats-Unis, chargé du renseignement informatique
14 décryptages L’ŒIL DU MONDE 0123
Mercredi 26 décembre 2012
Vertigineux«bigdata»
Introduction Chaque seconde, la masse de données créées sur Internet par les smartphones,
ordinateurs et autres tablettes explose. Appelé «big data» par les experts
du Web, cet amas colossal est un marché prometteur et prodigieux
P
hotos, vidéos, sons, chiffres, teur business et analyse chez IBM. Le phé- phonie mobile, dont SFR. « Il dispose d’une
NS S
textes…Depuisla démocratisa- nomène a pris une ampleur sans précédent base de données clients de 20 millions
tion de l’Internet haut débit, ce ces deux dernières années.» Cette accéléra- d’abonnés. Toutes les données de localisa-
sont des milliards de données
quisontdéverséesparlesparti-
tion est principalement due à un change-
ment dans nos habitudes. L’apparition des
tion sont collectées et stockées. Elles ne sont
exploitéesque sile clientle souhaite», expli- SO NE
U
SU AN
culiers, les entreprises et réseauxsociauxmaisaussiladémocratisa- que-t-il. On peut, grâce au big data, lui
IT
CH
appellent ça le « big data », littéralement pectives de création et de partage de conte- son smartphone quand il passe à côté
R
« grosse donnée »… Ce vocable est un peu nu qu’ils offrent ont changé la donne. d’une galerie commerciale. Le fait que le
« marketing » : depuis dix-huit mois, pas Ces données, de plus en plus d’entrepri- prix de la capacité de calcul ait beaucoup
une semaine ne passe sans un séminaire ses cherchent à les exploiter. Car « elles baissé compte énormément: « Certaines
ou une nouvelle offre big data sur la planè- représentent une mine d’informations de ces techniques d’exploitation des don-
te high-tech. Mais il recouvre une réalité : potentiellement incroyable, à condition de nées, on les possède depuis un certain
RO S
ID
R
d’analyse habituels. gue de PWC, Zouheir Guedri. Habitués aux De fait, le « cloud computing», l’infor-
Tous les jours, ce sont 118 milliards de données dites « structurées» – textes, chif- matique dans les nuages, a fait beaucoup
SUR ATEU
l’Econometric Society en 2000.
mails qui sont envoyés à travers le monde, fres –, nos ordinateurs n’étaient, jusqu’à il pour le big data. Aujourd’hui, il est possi-
2,45 milliards de contenus différents qui y a peu de temps, pas aptes à analyser les ble de louer d’énormes capacités de calcul,
AND
sont postés sur Facebook. L’opérateur de vidéos, enregistrements de voix, sons, parfois pendant quelques heures seule-
télécommunications américain AT & T bruitsetautresimagesquenousnoussom- ment.A moindre coût : ces serveursen bat-
IS
transfère chaque jour 240 000 milliards mes mis à stocker de façon effrénée. teriesont fournispardes prestatairescom-
UTIL
d’octets de données! Des chiffres qui don- me IBM ou Amazon. Le big data « permet
nent le vertige et qui vont encore exploser.
A l’aube de l’an 2020, il y aura 10,4 zettaoc-
L’apparition presque de prédire l’avenir », affirme Gil-
bertGrenié. En moulinant les milliards de
des réseaux sociaux
UTILISATEURS
WORDPRESS
et les compteurs électriques peuvent être matiques ont mis au point des techniques Mais la manipulation à grande échelle
dotés de capteurs ou de cartes SIM. Pour empruntées au calcul scientifique pour de ces données pose aussi le problème de
CRÉ ITES
DE S
6H 45, L’HEURE DU RÉVEIL. Comme quasi- publicités qui semblent bien vous connaî- sur vos déplacements… en permanence!
ATI
ment la moitié des Français, vous possé- tre: elles proposent des voyages organi- 14 heures: retour au bureau. Une petite
exaoctets
ON
d’entre eux, vous ne l’avez pas éteint bodge! Le moteur de recherche a tout sim- mère avant de vous remettre au travail. A
durant la nuit. Grâce aux données émises plement scanné automatiquement votre la dernière minute, vous n’achetez pas le générées
sur le réseau par ce petit bijou de techno- e-mail, y a retrouvé des mots-clés et vous parfum qui vous tentait. Pourtant celui-ci depuis les premières
logie, votre opérateur sait où vous êtes, à a proposé de la publicité en conséquence revient vous hanter sous forme de publici- mesures jusqu’en 2003
quelle heure vous êtes rentré hier soir et sur ses autres plates-formes. té sur toutes les pages Internet que vous
même si vous avez dormi chez vous ! ouvrez par la suite. C’est simple, le site
9 heures: arrivée au bureau. Après une Publicité à toutes les pages que vous aviez visité a récolté des don-
AP OOG
sœur, qui connaît bien le pays. Quelques phone devrait vous aider. Pour que ça vous êtes pour que d’autres vous rejoi-
G
P
minutes plus tard, le visionnage d’une marche, vous avez accepté que Google gnent. Souriez, vous êtes traqué ! p
O
ST L
vidéo sur YouTube fait apparaître des vous géolocalise et récolte les données S. B. Il fallait Il faudra
E RE E
deux jours dix minutes
1o
Octet Kilo-octet (ko) Mégaoctet (Mo) Gigaoctet (Go) Téraoctet (To) Petaoctet (Po) Exaoctet (Eo) Zettaoctet (Zo) Yottaoctet (Yo)
1 000 octets 1 000 Ko 1 000 Mo 1 000 Go 1 000 Go 1 000 Po 1 000 Eo 1 000 Zo
SOURCES : DATAGIF/CNRS - INFOGRAPHIE LE MONDE * NSA : National Security Agency. Organisme gouvernemental des Etats-Unis, chargé du renseignement informatique
20 mai 2014 Presse Marketing
• La presse Marketing démarre un peu plus tard…
Big Data ?
Qu’est-ce qui est Hype en 2020 alors ?
Critiques du Big Data (source wikipedia)
• Déshumanisation
• Faille de sécurité
• « Vassalisation de la recherche scientifique par des sociétés
commerciales et leurs services de marketing »
• Raréfaction des occasions d’exposition des individus à des choses qui
n’auraient pas été pré-vues = assèchement de l’espace public
• Exacerbation de la fracture numérique
• Monopole exclusif ou commercial de certains jeux de mégadonnées
collectées par quelques grandes entreprises (GAFA)
Big Data vs Smart Data or Small Data
• les Big Data, ce sont des yo1aoctets (1024) de données !
• « Si, à la place d’un octet (unité numérique nécessaire pour coder un
caractère) nous prenons une seconde, une kiloseconde (c’est-à-dire 1 000 s)
représente 17 min, soit le temps de cuisson d’un (gros) œuf, une
mégaseconde représente 12 jours, c’est-à-dire les deux Sers du cycle d’une
mouche, d’œuf à adulte, une gigaseconde, 32 ans, soit le Sers d’une –
longue – vie d’humain. La téraseconde, 33 000 ans, nous amène à la dernière
glaciaSon, une pétaseconde à la moiSé de la période nous séparant des
derniers dinosaures, une exaseconde représente 7 fois l’âge de la planète, une
zeYaseconde 2 300 fois l’âge de l’univers, et la yoYaseconde 2,3 millions de
fois… » / P.Delort
• 56% des entreprises US ne savent pas comment <rer par< des Big
Data / Source : Gartner
Smart Data
SMART DATA = données, issues du Big Data et devenues intelligentes, agiles et faciles
à exploiter en respectant le principe des 5S :
• Stratégie
• Définir les bénéfices à venir grâce à une réflexion sur les usages concrets aMendus par les opéraNonnels.
• Sourcer (Si vous n’avez pas un usage iden<fié de vos données, laissez- les là où elles sont !)
• IdenNfier les sources de données : à l’intérieur du système d’informaNon (CRM, Service client, e-commerce-
système de caisse...) ou à l’extérieur (partenaires, open data, third party data..).
• Sélec<onner (choisir c’est s’enrichir !)
• SélecNonner des données réellement uNles et éviter de saturer l’ensemble du système d’informaNons qui
ne seront jamais uNlisées...
• Signifier (Les Datascien/sts = mathéma/ques et créa/vité)
• Transformer les données brutes en indicateurs plus faciles à manipuler grâce à des traitements spécialisés :
data quality, dédoublonnage, textmining, datamining...
• Symboliser
• la DatavisualisaNon permet de représenter des volumétries, des relaNons, des liens parfois abstraits.
Smart Data : se servir des données pour…
• Alimenter le pilotage stratégique
• Améliorer le marketing produit
• Animer le marketing relationnel
• Affiner le parcours client et les recommandations
• Anticiper avec le marketing prédictif
• Véracité
• fiabilité et à dimension qualitaSve des données.
• Traiter et gérer l’incerStude et les erreurs rencontrées dans certaines
données, représente un challenge de taille.
• Valeur
• les efforts et les invesSssements dans l'uSlisaSon et applicaSon Big Data n’ont
de sens que si elles apportent de la valeur ajoutée
Quand on aime… le modèle des 9V !
• Le Big Data est défini en fonction d’aspects fonctionnels
• Collecte
• Traitement
• Intégrité
• Visualisation
• Potentiel de la donnée
https://docs.microsoft.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’information
hUps://docs.microsoV.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’informa)on
https://docs.microsoft.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’informa)on
https://docs.microsoft.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’information
https://docs.microsoft.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’information
hUps://docs.microsoV.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’informa)on
https://docs.microsoft.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’informa)on
https://docs.microsoft.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’information
https://docs.microsoft.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’information
hUps://docs.microsoV.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
Nouveau processus de traitement de l’informa)on
https://docs.microsoft.com/fr-fr/azure/machine-learning/team-data-science-process/lifecycle-data
CEO D’après John Yeung
Valorisation des données par
fonction et par niveau de
Ta
ré
b
CFO CHRO COO CMO
le a
décision
tu
uc
ux
str
de
Prendre des décisions critiques
bo
CDO
No
dont l’issue est incertaine
rd
CIO
Besoins en termes décisionnels
Besoins en infrastructures SI
Managers seniors
Pla
Bu icat stio
nif Ge
sin ion n d
é
tur
es d e u
ruc
s I s SI
nt re
Générer des Affecter les bonnes Développer des Prédire les
-st
ell sso
mi
ige u
RH au bon poste
Se
nc rce
financiers produits marchés
e s
Managers juniors
Au es d
Ba
to e d
Données sur les objecXfs
s
é
ma o
tur
individuels employés
tis nné
uc
ati es
Str
on
FoncXon financière
RH Production Marketing
et comptables
Répercussions
sur le SI
FORET
Définitions : DataWhat ?
• Datawarehouse
• lieu de stockage intermédiaire des différentes données en vue de la constitution du système
d'information décisionnel (aussi appelé entrepôt de données).
• c’est le lieu unique de consolidation de l'ensemble des données de l'entreprises.
• Selon Bill Inmon, le créateur du concept :
• « Un datawarehouse est une collection de données thématiques, intégrées, non volatiles et historisées pour
la prise de décisions. »
• Datamart
• Le Datamart (littéralement magasin de données) désigne un sous-ensemble du datawarehouse
contenant les données d’un secteur particulier de l'entreprise (département, direction, service,
gamme de produit, etc.).
• On parle ainsi DataMart Marketing, DataMart Commercial, ...
• Datastore
• Un magasin de données est un référentiel générique qui désigne un espace pour stocker et
gérer des collections de données. Inclue non seulement les bases de données, mais également
des données plus simples tels que des fichiers et systèmes de fichiers, des e-mails, etc.
Cri)ques du modèle BI
• La construcSon d’un Datawarehouse est complexe
• il est construit sur mesure pour répondre aux besoins spécifiques des entreprises pour chaque
type de données et pour chaque mé<er.
• Développer une soluSon BI est un travail de longue haleine:
• le temps augmente drasNquement avec les besoins en indicateurs de l’organisaNon
• il faut aOendre jusqu’à plusieurs mois pour bénéficier des atouts de l’informaNque décisionnelle
• Un Datawarehouse est rigide :
• Après l’acquisiNon d’un Datawarehouse, il est rare que les uNlisateurs puissent la modifier à leur
guise pour y travailler de manière différente ou y intégrer de nouvelles foncNonnalités
• Alimenter un Datawarehouse s’avère une tâche complexe :
• pas simple pour les uNlisateurs finaux et elle nécessite des spécialistes :
• développeurs, concepteurs de flux ETL, ges6onnaires de base de données…
• C’est un référenXel de données permeUant de stocker une grande quanXté de données dans le format naXf pour
une durée indéterminée :
• BDDR, NoSQL, Fichiers (csv, xml, log, json…), Documents structurés (emails, pdf…), blob (images, audio, vidéo…)
• Toutes les données de l’entreprise y sont stockées :
• données brutes, y compris les copies et historiques des données système source et les données transformées
• Exemple de DataLake →Hadoop !
• Avantages : • Inconvénients :
• capacité de stockage de grosses volumétries de • difficulté de conserver un lac de données propre et
données organisé (chronophage et particulièrement onéreux à
• rapidité de stockage sans pré-traitement des données terme).
brutes • Le risque est de se retrouver avec une masse de données
massives et inexploitables. On parle alors de marécage de
• souplesse et polyvalence pour stocker différents données ou Data Swamp: c'est un état dégradé du Data Lake.
formats et sources de données • difficulté à maintenir une gouvernance des données
• rationalisation du stockage des données efficace
• réduction des coûts de stockage • temps nécessaire au traitement des données stockées à
• réduction du temps et du coût liés à la préparation les l'état brut
données (le format d’origine est conservé) • expertise requise pour rechercher, analyser et traiter les
• permet de : données de manière pertinente et créatrice de valeur,
• Garder un historique des données anciennes sur de longue souvent confiées aux Data Scientists
périodes. • sécurité, confidentialité, et problématiques liées aux
• Faciliter le partage, la mise à jour, l'utilisation des données, données personnelles et au respect des réglementations,
• D’éviter le silotage des données inhérente aux données, est toujours présente et d'autant
• Rechercher, analyser et corréler l'ensemble des données de plus importante que le Lac de données regroupe et
l'entreprise pour une meilleur analyse et création de valeur. conserve des données massives.
Défini)ons : DataHub
Source : datacenter-magazine.fr
• Selon le cabinet Gartner, “les requêtes de clients se référant aux Data Hubs ont augmenté de 20%
entre 2018 et 2019“.
• Le cabinet d’analystes a remarqué que “plus de 25% de ces requêtes relèvent en fait du concepts de data lake“…
• Le Data Hub est à la fois un système de gestion de données, une source de données fiable et un
système de référence pour les processus opérationnels et analytiques.
• Il centralise les données de l’entreprise qui sont essentielles pour toutes les applications et permet
un partage transparent des données entre les différents systèmes de stockage, tout en étant le point
unique de vérité pour l’initiative de gouvernance des données.
• Les data hubs fournissent des données de référence aux applications et aux processus des
entreprises. Ils sont également utilisés pour connecter les applications d’entreprise aux structures
analytiques telles que les Data Warehouses et les Data Lakes.
• Avantages :
• En permettant de regrouper toutes les données de façon centralisée, le hub de données facilite l’accès aux
données et leur utilisation. L’entreprise qui l’utilise gagne donc en flexibilité.
• Le hub de données permet par ailleurs de stocker les données et de les analyser de façon sécurisée. Enfin, au
sein de cette architecture, les données peuvent communiquer dans toutes les directions.
DataWarehouse vs DataLake
vs DataHub
Data Warehouse Data Lake Data Hub
Usage primaire Analytique et reporting Analytique, reporting et Machine Learning Processus Opérationnels
Type de données Structurées Structurées et non structurées Structurées
Gouvernance “après coup” du fait de l’utilisation des Pilier fondamental pour toutes les règles
Gouvernance Peu ou pas de gouvernance.
données opérationnelles existantes. d’application de la gouvernance des données.
Qualité de la donnée Haute Moyenne / faible Très haute
Nécessite un traitement / une préparation des Peut être la principale source de production de
données avant leur utilisation. L’accès aux utilisateurs données clés telles que les données master et les
Propose un accès en lecture seule à des données
Interactions des métier est principalement assuré par des rapports, données de référence. Offre des interfaces
agrégées et rapprochées par le biais de rapports, de
utilisateurs métier des tableaux de bord ou des requêtes ad-hoc. Utilisé ergonomiques pour la création, la gestion et la
tableaux de bord analytiques ou de requêtes ad-hoc.
pour préparer des ensembles de données pour le recherche de données.
Machine Learning.
En bref, les Data Warehouses et les Data Lakes sont des dispositifs de collecte de données qui existent pour soutenir l’analyse de données dans l’entreprise tandis que les Data Hubs
servent de médiateurs et de points de partage des données. Les data hubs ne sont pas uniquement axés sur les utilisations analytiques des données.
Exemples
Source majeure : Le Big Data – Que sais-je ? / P.Delort 2018
Séquenceurs d’ADN
• Le génome des humains est cons`tué de deux fois 3,4 milliards de
paires de bases, soit pour 2 bits, 1,7 gigaoctet de données
• Un séquenceur permet de décoder la suite de bases qui cons`tuent
l’ADN. De 2006 à 2016, le coût de séquençage du génome humain est
passé de 10 m $ à 1 k $, soit, divisé par 10 000
• La bataille des données contre le cancer est en cours, le centuplement
du volume stocké entre 2008 et 2013 pour les recherches de l’U900
en donne la mesure
Google et l’indexation de texte
• En 1996, Larry Page, encore à Standford, teste la possibilité de classer des sites web :
• il commence avec 15 millions de pages…
• Il ajoute l’algorithme pagerank dont l’efficacité croît avec le nombre de pages du Web, une analyse
des pages origines des liens retour, ainsi que de certains signaux (fréquence des mots, fonte,
majuscule, Ntre des pages…).
• C’est ceOe technologie qu’il développa avec Serguei Brin.
• N’étant pas parvenus à vendre ceYe technologie, ils créent Google en septembre 1998.
• En janvier 2000, Yahoo sous-traite à Google sa recherche, alors que les serveurs
conSennent déjà plus d’un milliard de pages
• Les données s’accumulant, Google a dû très tôt innover en infrastructure logicielle,
créant une gesSon d’index in-memory et Google File System (GFS) qui divise les fichiers
en segments de 64 Mo réparSs sur au moins trois disques en résilience aux
défaillances, relaSvement fréquentes quand le matériel acheté est le moins cher
possible… C’est l’ancêtre d’hadoop
IoT
• Deux anciens employés de Google ont fondé en 2006 Weatherbill (devenue The Climate Corporation), afin
de valoriser les informations publiées gratuitement par le National Weather Service américain.
• L’idée initiale était de vendre des assurances aux entreprises dont l’activité dépend des conditions météorologiques
• La société a resserré son activité sur les agriculteurs et s’est appuyée sur les 10 000 agents commercialisant
les assurances-récoltes de l’État fédéral.
• Rapidement, le volume des données centralisées par cette société a fortement crû :
• soixante années d’historique sur les récoltes, 15 téraoctets d’information sur la composition des terrains (maillage de 3 km2)
et un million de points relevés par les radars Doppler du réseau d’alerte aux cyclones, etc.
• Toutes ces informations ont permis de prédire avec une précision croissante les récoltes de maïs, soja et blé.
• En 2013, Monsanto, le géant de l’agrochimie et des semences a acquis The Climate Corporation et ajouté ses
téraoctets de données sur des centaines de milliers de semences et leur rendement.
• Monsanto propose aujourd’hui le produit Fieldscript supposé prévoir quelle semence pousse le mieux dans quel champ et
sous quelles conditions. Ce service est couplé avec l’utilisation de machines fabriquées par Precision Planting, firme acquise
par Monsanto en 2012. Ces machines ensemencent les graines adéquates, aux profondeurs et espacements adaptés aux
caractéristiques du sol et aux conditions climatiques… Les rendements pouvant être mesurés à la récolte avec une
moissonneuse également équipée de GPS.
• Sur cet « ensemencement prédictif », les agriculteurs rapportent une augmentation des rendements de 5 %
sur deux ans. Les fournisseurs de semence estiment qu’avec plus de données, certains rendements
pourraient augmenter de 25 %, c’est-à-dire bien davantage qu’avec toute autre technologie.
Google Flu Trends (GFT)
Search query topic Top 45 queries
n Weighted
Influenza complication 11 18.15
Cold/flu remedy 8 5.05
• La grippe tue annuellement entre 250 000 et 500 000 personnes. Le vaccin General influenza symptoms 5 2.60
de la grippe doit constamment s’adapter et, pour être efficace, doit Term for influenza 4 3.74
anXciper les mutaXons ou les suivre le plus rapidement possible. Specific influenza symptom 4 2.54
• Prendre en compte un réassorXment généXque est délicat, et les systèmes Symptoms of an influenza complication 4 2.21
de santé ont dû développer des disposiXfs d’alerte pour idenXfier les Antibiotic medication 3 6.23
épidémies et fabriquer les vaccins le plus rapidement possible. General influenza remedies 2 0.18
Symptoms of a related disease 2 1.66
• En 2009, Google est parXe des 50 millions de recherches (agrégat
hebdomadaire par État) les plus fréquentes. Puis chacun des 50 millions Antiviral medication 1 0.39
malades grippés chez les médecins du réseau SenXnel. Unrelated to influenza 0 0.00
Total 45 49.40
• Les 100 termes de recherche ayant la meilleure corrélaXon de Pearson
avec les données du CDC ont été classés et ont été comparés avec les
modèles en foncXon du nombre de ces requêtes.
• Ce modèle permet ainsi de détecter, en observant la fréquence
d’appariXon de certains termes dans les requêtes Google, le début de la
phase de propagaXon de la grippe en temps quasi réel, et ainsi de gagner
deux semaines sur le présent.
• Ce modèle a des limites :
• les recherches ne sont pas forcément effectuées par les personnes ressentant les
symptômes de la grippe, dès lors ce modèle n’est effec6f que sur une grande
popula6on ;
• pour la même cause, la précision géographique est faible ;
• des fausses alertes, causées par exemple par un rappel de médicament an6grippal,
sont possibles.
Les technologies
Stockage
Les bases de données « classiques »
• Les données sont stockées dans des BdD transac*onnelles qui s’u8lisent avec SQL :
• les données sont stockées par tables composées de lignes et colonnes
• des lignes idenGfiées uniquement par une clé primaire, des index en accélèrent l’accès ;
• des clés primaires et étrangères pour définir des rela9ons entre deux tables ;
• une uGlisaGon mulGuGlisateurs concurrents.
• La qualité des données est améliorée par :
• des contraintes sur les colonnes (valeur nulle interdite…)
• sur les lignes (pas de ligne dupliquée…)
• d’intégrité référenGelle (chaque clé étrangère
doit avoir une clé primaire…)
• et des transac8ons ACID, c’est-à-dire :
• atomique (exécutée en totalité ou pas du tout),
• cohérente (la base revient à un état cohérent),
• isolée (chacune est isolée des autres),
• durable (les logs d’exécuGon sont conservés).
MapReduce : quèsaco ?
• MapReduce, vient de Google et inverse un concept « traditionnel »
• envoyer les données aux unités de traitement
• car il est conçu pour
• envoyer le traitement aux unités de stockage
• MapReduce tire son avantage du faible coût des serveurs standards
• huit serveurs « standards » à huit cœurs et 128 Go de mémoire sont moins coûteux à
l’achat qu’un serveur à 64 cœurs et 1 To, ce qui favorise l’informatique distribuée,
répétitive quasiment à l’infini.
• Les réseaux (même à 10 Gb/s) ont des temps de latence moins bons que la mémoire,
…mais meilleurs que les disques !
• les communications entre serveurs se produisent souvent après agrégation forte des
données (total, moyenne…).
MapReduce (2)
• A permis à Google d’indexer le Web en coordonnant jusqu’à des centaines
de milliers de serveurs sur des tâches simples de comptage et d’agréga8on
en clé-valeur et suivant deux phases, « Map » pour la répar88on du travail
et « Reduce » pour l’agréga8on des résultats, selon le schéma suivant :
• fragmentaGon du fichier de données en M fichiers (de 16 à 64 Mo) et copie du
programme sur les serveurs ;
• l’un d’eux, le Master, assigne aux autres serveurs (les travailleurs), les M tâches Map
d’extracGon des couples clé-valeur du fichier et de transmission aux R tâches Reduce,
pour traitement et stockage.
• MapReduce prend aussi en charge les défaillances de machines :
• le Master interroge régulièrement (ping) les serveurs et, sans réponse, réparGt à
nouveau la tâche qui leur avait été a_ribuée.
• En fin de travail, il réaffecte les tâches des « traînards » éventuels à des travailleurs
de réserve.
• Pour quelques pourcents de serveurs peu uGlisés, cela peut parfois diminuer le délai
total de près de moiGé.
HDFS
• Hadoop est un framework qui s’appuie sur le système de fichier HDFS
(Hadoop Distributed File System)
• Un système de fichier est une façon d’organiser le stockage des informations
sur un support externe à la mémoire principale (en général disque dur)
• Il agit de concert avec les système d’exploitation de la machine à laquelle ce
support est connecté afin d’offrir un niveau basique d’accès aux données
• Il est en général invisible car on y accède via des logiciels intermédiaires :
• Qui connaît le nom du système de fichier de Windows (NTFS ou FAT), Mac (HFS/+/x),
Linux (ext4, zfs, btrfs…) ?
NoSQL
• Le terme Not only SQL (et pas No SQL) regroupe les BdD
organisées de manière structurée, mais autrement que
par des tables rela`onnelles
• Elles sacrifient certaines foncSonnalités des BdD classiques
(cohérence interne des données…) au profit de performances
sur forts volumes.
• Taxonomie :
• orientées colonnes (HBase, inspirée de BigTable ou Cassandra)
• orientées <clé-valeur> (Redis ou Memcached)
• orientées document (MongoDB ou CouchDB)
• orientées graphes (GraphBase, FlockDB, Neo4J)
• objet, grille de calcul et cloud, XML (EMC Documentum),
mulSdimensionnelles (Hypertable), mulSvaluées…
NoSQL : orienté colonnes Source : illustraData.com
• Ces BdD NoSQL sont celles se rapprochant le plus des BdD classiques (SGBDR).
• on y retrouve le principe de “table” avec des lignes et des colonnes, mais…
• Les colonnes sont dynamiques
• Au sein d’une même table deux individus peuvent ne pas avoir le même nombre de
colonnes car les valeurs nulles ne sont pas stockées (ce qui est le cas dans les SGBDR
relationnels).
• permet de libérer de la place de stockage et d’améliorer les performances de traitement car la
volumétrie de données à traiter est plus faible.
• on a plus tendance également à ne créer qu’une seule table contenant toutes les données (et donc
colonnes) dont on a besoin et non plus une multitude de tables comme c’est le cas dans les modèles
relationnels.
• Cette absence de ‘jointure’ entre les tables améliore également les performances.
• L’historisation des données se fait à la valeur et non pas à la ligne comme dans
les SGBDR cela empêche le stockage d’informations en doublon et de ce fait
allège considérablement la base de données et les temps de calcul.
NoSQL : orienté colonnes
• Avantages ? • Inconvénients ?
• Flexibilité • Non-adaptée aux données interconnectées
• Temps de traitement • Non-adaptée pour les données non-
• Non-stockage des valeurs null
structurées
• Historisation à la valeur
• Quel usage ?
• particulièrement adaptées pour stocker de très
nombreux évènements mis à jour très
régulièrement.
• Le suivi de colis (de nombreux évènements dont le
statut change : En préparation, en cours de
livraison, livré..)
• La récupération et l’analyse de données en temps
réel issues de capteurs, IOT etc…..
Source : illustraData.com
NoSQL :
• Inconvénients ?
• Pas de requêtes sur le contenu des objets stockés
• Non-conservation des relations entre les
orienté clé-valeur objets (elles ne sont pas faites pour les contextes
où la modélisation métier est complexe)
• Usages
• beaucoup utilisées en tant que cache, pour
• Elles se basent sur le principe de stockage d’une conserver les sessions d’un site web et plus
valeur associée à une clé unique généralement pour toutes les données que l’on ne
• La valeur associée à une clé peut être une simple souhaite conserver que pendant un certain laps de
chaine de caractère comme un document, ou temps, pouvant aller de quelques secondes à
encore un objet beaucoup plus complexe pouvant quelques jours.
contenir une multitude d’information • Exemple :
• Ces bases ne permettent que 4 opérations : • gestion de panier d’achat (Amazon)
• création : créer un nouveau couple (clé,valeur). • collecte d’événements (jeu en ligne
Selon la base choisie, la valeur peut être n’importe
quel objet.
• lecture : lire un objet en connaissant sa clé
• modification : mettre à jour l’objet associé à une clé
• suppression : supprimer un objet connaissant sa clé
• Avantages ?
• simplicité, scalabilité, disponibilité
• très bonnes performances
Source : illustraData
NoSQL : Orienté document
• Repose aussi sur le paradigme clé/valeur, mais celle-ci est un document avec
une structure arborescente :
• il contient une liste de champs, un champs est associé à une valeur qui peut elle même
être une liste…
• Ces documents sont principalement de type JSON ou XML
• Avantages
• Les documents sont structurés mais aucune définition de structure préalable n’est
nécessaire
• On peut requêter et manipuler ces documents, et notamment récupérer, via une seule
clé, un ensemble d’informations structurées de manière hiérarchique. Dans un
environnement relationnel, cette opération nécessite plusieurs jointures qui sont très
coûteuse en ressources.
• Inconvénients
• Elles ne sont ni adaptées pour les données interconnectées ni pour les données non-
structurées
• Usages
• Ce sont parmi les bases NoSQL les plus répandues notamment pour tout ce qui
concerne :
• Les données clients (Stockage de toutes les transactions et information du client au
sein d’un même document (même clef)).
• La gestion catalogue de produits
• Le Web analytics …
• Avantages
NoSQL : Orienté graphes • Adaptées aux objets complexes organisés en réseaux,
aux données présentant des dépendances fortes
• Permet d’appliquer les algorithmes de la théorie des
graphes et la mise en place de visualisa6on de graphes
• L’objectif est de stocker les données en s’appuyant sur des graphes • Beaucoup plus rapides que les autres systèmes de
qui incluent les notions de : stockage pour manipuler les données fortement
• noeuds qui ont chacun leur propre structure connectées
• relations entre les noeuds • Inconvénients
• propriétés (de noeuds ou de relations) • Non adaptées pour tous les autres contextes que celui
des “données fortement connectées”
• Ce modèle facilite la représentation du monde réel, ce qui le rend
particulièrement bien adapté au traitement des données des • Usages
réseaux sociaux et géographiques, et de toutes les données • Modélisa6on des réseaux sociaux (Twifer, Facebook…)
fortement connectées. • Moteur de recommanda6on (vous êtes intéressés par
• Pour récupérer les relations entre les éléments, de nombreuses jointures un objet car vos amis et des amis de vos amis le sont)
entre différentes tables sont nécessaires dans une base relationnelle, ce • Détec6on de la fraude (détec6on de réseaux de
qui complexifie les requêtes à mettre en place et augmente nettement les fraude)
temps de calculs comparé à une base Nosql graphe
• Données géo spa6ales (réseaux ferrés, etc.)
• Web séman6que, Biologie, etc.
Et le cloud dans tout ça ?
• Le cloud computing permet à l'utilisateur ou à l’entreprise d'utiliser
des ressources et services répartis dans le monde entier et liés par un
réseau, sans disposer matériellement de l'infrastructure informatique
correspondante, qui est, elle, hébergée chez le fournisseur de cloud.
• Le cloud computing est donc un service mutualisé et virtualisé, dont
le coût varie en fonction de l’utilisation réelle
• La facturation s’effectue en fonction du nombre de couches de
« services » externes utilisés (c’est pourquoi on trouve « aaS » - as a
Service - à la fin des acronymes définissant ces modèles
commerciaux)
Vocabulaire Cloud Source : Microsoft Azure - Gérez votre Système d'Information dans le Cloud / Philippe Païola
Le vocabulaire du Cloud
• Interne (On-Premise) :
• à part le réseau (internet) toutes les couches fonctionnelles sont
fournies et gérées au sein de l’entreprise
• IaaS :
• C'est le service de plus bas niveau. Il consiste à offrir un accès à
un parc informatique virtualisé. Des machines virtuelles sur
lesquelles le consommateur peut installer un système
d'exploitation et des applications. Le consommateur est ainsi
dispensé de l'achat de matériel informatique.
• PaaS :
• le système d'exploitation et les outils d'infrastructure sont sous
la responsabilité du fournisseur. Le consommateur a le contrôle
des applications et peut ajouter ses propres outils. Les systèmes
sont mutualisés et offrent une grande élasticité - capacité de
s'adapter automatiquement à la demande
• SaaS :
• des applications sont mises à la disposition des consommateurs.
Les applications peuvent être manipulées à l'aide d'un navigateur
Web ou installées de façon locative sur un PC, et le
consommateur n'a pas à se soucier d'effectuer des mises à jour,
d'ajouter des patches de sécurité et d'assurer la disponibilité du
service (exemple Gmail, Office365…)
• Mais encore :
• N(etwork)aaS, D(esktop)aaS, ST(orage)aaSn
C(ommunication)aaS, W(orkplace)aaS, M(obile)B(ackend)aaS
Les Acteurs
Les pionniers
• Les technologies autorisant le Big Data sont nées de la rencontre de besoins
nouveaux, de masses de données à exploiter et des capacités d’innovation
des sociétés majeures d’Internet : Google, Amazon, Facebook…
• Ces sociétés disposaient de données abondantes, générées gratuitement par leurs
utilisateurs et clients, et centrales à leur activité, car concernant souvent la vente ou
caractérisant leurs clients ou utilisateurs.
• Elles connaissaient également une culture d’innovation, car souvent nées
autour – voire dans – des universités de recherche américaines et se lançant
parfois grâce à des technologies qui en étaient issues.
• C’est sans doute pourquoi elles reprirent de nombreux points de management
spécifiques aux systèmes éducatifs comme le partage de ressources communes par des
acteurs autonomes ou un taux d’encadrement très faible.
• Ces points permirent à la culture de l’innovation de perdurer :
• description des logiciels dans des articles, dont forme et fond s’inspirent de la
recherche académique
• don à la communauté Open Source de logiciels, telle la BdD Cassandra que Facebook
donna à la fondation Apache en 2008…
Les suiveurs
• Durant la décennie 2001-2010, à l’exception d’Oracle avec Exadata en
2009, les acteurs majeurs de l’industrie du logiciel (IBM, Microsoft…)
étaient absents du domaine du Big Data.
• Le marché traditionnel des BdD transactionnelles connaissait toujours une
croissance à deux chiffres jusqu’à 2009 et la crise économique, et l’intérêt de
leur base de clientèle ne dépassait pas, pour le Big Data, une curiosité polie.
• Les raisons pour lesquelles ces acteurs historiques ont entamé une
vague de communication et d’acquisition (estimée à 25 Md $, dont 15
pour IBM, Microsoft, Oracle et SAP) au tournant de la décennie
reposent a minima sur la croissance de 10 % par an (double du reste)
du marché des logiciels spécialisés en analyse de données
• SAP acheta Business Objects en 2007 puis Sybase en 2010, KXEN en 2013.
Microsoft acquit Fast Track en 2008, IBM Netezza et EMC Greenplum en 2010,
Teradata Aster Data Systems en 2011, Oracle Endeca Technologies en 2011…
Les tendances
• Se dessine dans l’industrie du logiciel une triple évolution :
• Une amélioration de l’offre matérielle :
• Les firmes possédant une forte et ancienne expertise du matériel, le stockage pour EMC ou des
machines d’analyse de BdD massives pour Teradata, capitalisent sur leur expertise. Les
constructeurs moins focalisés sur le matériel créent des appliances, comme IBM avec sa BdD
DB2 dans Smart Analytics System.
• L’offre logicielle existante s’enrichit par des extensions « Big Data » :
• Les investissements de Microsoft, Oracle et IBM au cours de la vague de rénovation IT initiée en
2005 se chiffrent en milliards de dollars de R&D, marketing, acquisitions… qui sont à rentabiliser.
L’enjeu est double, continuer à vendre et faire évoluer la base installée de leurs produits et
progresser sur le segment en croissance du Big Data, quelle que soit la signification (plutôt large)
qu’ils lui donnent.
• L’offre Open Source, notamment en Machine Learning, devient importante
• avec des bibliothèques Python, comme Scikit-learn incluant outils d’apprentissage automatique
• étroitement connectées avec celles de traitement des données, comme NumPy,
• et les frameworks, comme TensorFlow (créé par Google Brain) ou Apache MXNet, dédiés aux
réseaux de neurones et conçus pour profiter des processeurs graphiques (GPU - Graphics
Processing Unit)
Le cloud du spectacle
• De nouveaux acteurs sont apparus depuis une dizaine
d’années :
• ils proposent, sur une base de services internes (Amazon Web
Services, AWS, largement leader en 2018, et Google Cloud Platform,
GCP) ou créés ad-hoc (Microsoft Azure, IBM, etc.) une offre autour
de machines virtuelles, standardisées, à gestion largement
automatisée – facturation comprise – et… à distance.
• Ces services incluent les « classiques » du Big Data
(MapReduce, etc.), ainsi que des produits jusqu’alors internes
(BigTable ou Spanner pour GCP) et connaissent une
étonnante croissance depuis 2015 sur le Machine Learning,
notamment avec TensorFlow sur GCP et MXNet sur AWS et
Azure.
• Des services plus spécifiques comme de traduction ou de
classification/reconnaissance d’image font partie de ces
offres dans les « nuages ».
• Ils tireront parti d’une formidable concentration de données, de ce
fait en fort volume, ainsi que de leur étiquetage « offert » par les
utilisateurs.
Ecosystèmes
• En pratique, les grands acteurs du Big Data offre un ensemble
cohérents de technologies pour couvrir une grande partie des besoins
fonctionnels liés au Big Data :
• Stockage
• Requêtage
• Analyse
• Visualisation
• On parle alors « d’écosystème » Big Data
Ecosystème Hadoop
• Comme on l’a vu plus tôt, hadoop a
été l’un des pionniers dans les
environnements technologiques de
développement du Big Data
• Il s’est étoffé d’outils au fur et à
mesure pour couvrir tous les besoins
fonctionnels
• En réalité hadoop est un framework
libre sans commercialisation propre
mais via les grands acteurs qui
contribuent à son développement
Ecosystème Amazon
• Amazon fait lui aussi partie des acteurs précoces qui ont développé des
infrastructure pour le Big Data avec des outils propres
Ecosystème IBM
• IBM arrivé plus tard sur le
marché et dans son optique
maintenant ancienne de
s’appuyer sur des briques
existantes en offrant leur propre
infrastructures
Ecosystème Azure
• Microsoft, de son côté a fait le
choix (comme à son habitude)
de développer une solution
propre qui capitalise sur ses
services éprouvés
• Comme c’est acteur majeur et
que nous avons un accord avec
Microsoft au niveau de l’ULR,
c’est cette plateforme que nous
utiliserons pour les TD
Ecosystèmes en interaction
• Il n’y a bien sûr pas de
séparation franche entre ces
différents écosystèmes et ils
agissent souvent en interaction
Pourquoi u<liser le Big Data ?
Intérêt du Big Data pour l’entreprise ? (2019)
Intérêt du Big Data pour l’entreprise ?
Quels bénéfices
clients du big
data en
marketing ?
Beaucoup de données
• IoT :
• Capteurs / RFID / Géolocalisation…
• Contenus :
• photos, vidéos, articles, avis / statuts, tweets
• Référentiels :
• third party data, open data…
• Comportements online anonymes :
• navigations, recherches sur moteurs…
• Comportements identifiés :
• réseaux sociaux, formulaires, jeux concours, transactions, achats e-commerce,
caisses, emailing, cartes de fidélité, SAV…
Bénéfices marketing (1/2)
• Marke<ng prédic<f • Web analy<cs
• Analyse des signaux faibles & cahier • OpSmisaSon de la créaSon de trafic
de tendances • PersonnalisaSon des messages publicitaires
• CréaSon de new business models • PersonnalisaSon de la navigaSon sans
• Veille et pilotage e-réputaSon idenSficaSon
• Compréhension et anScipaSon de • OpSmisaSon des parcours clients web
comportements et de parcours • Calcul de la valeur client & arbitrage des moyens
clients complexes • KPI suivis :
• coût du trafic, taux de conversion, taux de clic,
fréquence d'achats, taux de rebond, CA généré & ROI
des acNons par segment...
Bénéfices marketing (2/2)
Prévision • Prévision trafic en magasin : pour pourvoir ajuster les temps de présence de
- Anticiper les comportement de vos votre équipe et éviter les rushs et les moments « vides »
contacts • Prévision des ventes en fonction de la météo : pour optimiser votre stock
Optimisation • Linéaires et têtes de gondole : analyse croisée des ventes et de la position
- Optimiser les dépenses publicitaires et géographique des produits pour améliorer votre merchandising
toucher précisément les cibles • Impact ISA : analyse des résultats des campagnes print envoyées par voie
postale.
Comment exploiter
les données big data
en marketing
Exploita)on du Big Data en marke)ng
• Constat :
• Je suis loin des bonnes pratiques
• Mes données sont en silos
• Je n’exploite pas les comportements on line
• Le bad data me coûte cher (au R.U. 15% du budget marketing)
• L’efficacité des mes campagne diminue
Bonnes pra)ques
1. Réflexion stratégique
• Définissez votre stratégie Data
• Partagez une vision cible : Data / OuSls / RH /OrganisaSon / Process
• Formalisez une roadmap et un planning
2. Data sourcing (sélec`onnez les bonnes données)
• Mon SI (CRM, Achats, LogisSque, Paiements, Cartes, Abonnements, Tickets de caisse…)
• Le Web (Formulaires, Jeux concours, Réseaux sociaux, e-commerce, Parcours client,
NavigaSon…)
• Les retours de campagnes (Clicks, Visites, Coupons, Service client…)
Bonnes pratiques
3. Data quality (améliorer la qualité et enrichir les données)
• Référentiels, Cohérence, Transcodification, Enrichissement, Déduplication, Enregistrement
maître
4. Data Base (regrouper la connaissance client et les résultats des actions)
• Big Base Marketing Unique
5. Data Management (piloter, explorer, exploiter la base)
• Pilotage, reporting, segmentation, export
6. Marketing multicanal (améliorer, sur la durée, le ROI des actions)
• Exécution des campagnes relationnelles multicanal (e-mail, courrier / SMS, Mobile / Social…)
– les client reçoivent des messages personnalisés et interagissent (boucle de retour)
• Personnalisation parcours web (Navigation, Recommandation…)
• Retour vers le SI (données néttoyées)
• Etudes / Datamining (Score, typologie…)
Conclusion ?
Conclusion
• Le Big Data ce n’est pas seulement beaucoup de données mais aussi (et
peut-être surtout) des données variées, en perpétuelle évolu8on.
• Il a fallu adapter le SI à ces nouveaux types et volumes de données et de
nombreux acteurs sont apparus ou ont rejoint le mouvement
• La transforma8on du SI et des données disponibles a permis de susciter des
nouvelles consomma*on des données afin de proposer des services
toujours plus adaptés et générateur de valeurs
• La clef de ces nouveaux usages réside cependant dans la transforma*on
des modèles de données :
• on est passé d’un régime où la structuraGon des données était forte à une approche
inducGve où on essaye de faire « parler » les données grâce à la Data Science
Data Science :
les nouveaux métiers
Big Data Durable
Un oxymore ?
Le Big Data et le développement durable?
Vol. 27, No. 9, September 2018, pp. 1685–1695
ISSN 1059-1478|EISSN 1937-5956|18|2709|1685
DOI 10.1111/poms.12837
© 2017 Production and Operations Management Society
• Stocker et gérer le Big Data
How Sustainable Is Big Data?
Charles J. Corbett
• 2% (~rejets aviation) des émissions de CO2 et en progression…
UCLA Anderson School of Management, 110 Westwood Plaza, Box 951481, Los Angeles, California 90095-1481, USA,
he rapid growth of “big data” provides tremendous opportunities for making better decisions, where “better” can be
T defined using any combination of economic, environmental, or social metrics. This essay provides a few examples of
1 Introduction The data centers are housed with high computing servers
that consume a large amount of energy. According to a
The Information and Communication Technology (ICT) recent survey, approximately 8 million data centers around
industry has introduced the high resolution wireless sensor the world have been established in 20171. The centers in
technology which collects huge volumes of data every the U.S. consume more than 90 billion kWh of electricity
second [8, 57]. This information is used for large-scale big annually, which is equivalent to the energy obtained from
data applications such as military, astronomy, and health 34 large coal-fired power plants2. The power consumption
123
Plan
Plan du cours
• 3h CM : intro Big Data
• 4 séances : 1,5h CM + 3h TD
1. Analyse des données (Power BI)
2. Extraction d’information :
1. Apprentissage automatique
2. Règles d’associations
3. Réseaux (sociaux) > J.-L.Guillaume
Vos ques7ons ?