Lorsqu’on post une photo sur instagram, où vont-elle? Vous diriez qu'elle est sauvegardés
dans des bases de données, mais après avoir été sauvegardés, où vont-ils, ces données ne
sont pas conservées dans un tiroir et non plus archivées. Toutes les petites données sont
utilisées pour un but spécifique et ne sont plus des données plus lentes. Elles sont
maintenant appelées Big Data. Depuis des milliers d'années, l'homme consigner les détails et
les événements de sa vie de diverses manières, comme dessiner sur les murs et graver des
symboles dans des pierres jusqu'à l'écriture. Quel genre d'écriture? D’abord sur papier et
maintenant dans le digital (internet)./
Alors auparavant, nous stockions des informations sur des disquettes pour les transférer
d'un ordinateur à un autre. Plus tard, nous avons commencé à utiliser des CDs, puis des
disques durs, et nous avons continué à progresser jusqu'au moment de la mémoire flash
(USB). Mais aujourd'hui, nous sommes arrivés à l'ère du Cloud storage, qui stocke des
informations sur Internet, telles que Dropbox, iCloud, Google Drive et d’autres sites qui sont
devenus nos personnelles boîtes de stockage,
mais elles ne sont ni chez nous ni dans notre téléphones, mais dans des géants ordinateurs
contenant un grand espace de stockage. Cela nous a permis d'accéder à des informations à
tout moment et de n'importe où, ce qui a permis aux entreprises de savoir tout sur notre vie
personnelle (nous espionne). (Intro)
1989 : le scientifique anglais Tom Berners-Lee inventa le futur World Wide Web, voulant
faciliter le partage d’informations via un système hypertexte.
2005 :- Roger Moulagas de O’Reilly Media. Il utilisera ce terme pour faire référence à un
nombre de données tellement grand qu’il était impossible de gérer et de traiter avec les outils
de Business Intelligence actuels.
- En plus de ça, il a estimé que 90% de données récoltées depuis le début de l’humanité ont
été générés durant les 2 dernières années.
Avant c’était les employés des secteurs public et privé qui produisaient, stockaient et
analysaient le plus de données, sous forme des documents financiers, des fichiers personnels
et d’autres éléments concernant les clients, les achats et les ventes.
Mais, aujourd’hui, la plupart des producteurs de données dans le monde sont des gens
ordinaires, comme nous, vieux et jeunes, qui contribuent tous à cette énorme accumulation de
données.
si nous complétons toute cette production en une heure à peine, nous pouvons remplir 10
milliards de DVD. c-à-d si nous empilions tous ces DVD, ils atteindraient une hauteur de 90
km, vu que lorsqu'un avion vole d'une ville à une autre, il vole à une altitude de 12 km (vous
imaginez).
L’utilisation d’Internet n’étant pas la seule cause de cette production de données massive, la
plupart des machines et appareils qui nous entourent créent aussi des données lorsqu’ils
fonctionnent (comme les appareils GPS dans les voitures et les avions).
*En 2011, le McKinsey Global Institute propose la définition suivante : « Le Big Data
se réfère à un ensemble de données dont la taille va au-delà de la capacité des logiciels de
bases de données classiques à capturer, stocker, gérer et analyser ».
En 2013, le terme « Big Data » entre officiellement dans l’Oxford English Dictionary. Il est
défini comme « des données d’une très grande taille, dans la mesure où leur manipulation et
leur gestion entraînent d’importants challenges logistiques »
*Une autre source dont on ne peut se passer lorsqu’on parle de Big Data est l’ouvrage
de Mayer-Schönberger et Cukier, dans lequel les auteurs exposent le problème de la
manière suivante : « Le Big Data se réfère aux choses que nous pouvons faire à une large
échelle et qui ne peuvent pas être faites à une échelle moindre, pour extraire de nouvelles
connaissances ou créer de nouvelles formes de valeur, de façon à transformer les marchés,
les organisations, les relations entre les citoyens et les gouvernements, et encore d’autres ».
Les auteurs ajoutent que, selon eux, le Big Data est amené à modifier notre manière de vivre
et d’interagir avec le monde.
Volume : Qui dit données massives dit volumes allant du kilooctet au pétaoctets, dépassant
toute capacité de traitement rapide par le cerveau humain.
On fait Rappels sur les instruments de mesures des données :
(Définition)
Vélocité : Fréquence à laquelle les données sont générées, traitées et mises en réseau.
Cette fréquence étant de plus en plus élevée.
Nous sommes entourés de données tout autour de nous aujourd'hui, nos téléphones,
ordinateurs, waches, GPS de voitures, appareils de sport et bien d'autres produisent des
données.
Auparavant, les sociétés de campagne stockaient leurs données dans des bases de données.
Cependant, au tournant du millénaire, des sociétés géantes, comme Google, souffrent de
l’accumulation de données dans leurs ordinateurs, ce qui créait un problème en ralentissant la
récupération des données lors de la recherche d'informations. .
Google a fractionné ces données en plusieurs parties et les a stockées dans un ordinateur
distinct.
par exemple: les spécifications d'une voiture donnée sont classées en plusieurs catégories. Les
données relatives au moteur seront stockées dans un endroit différent de celui de l'extérieur
de la voiture.
Quant aux données concernant les spécifications intérieur de la voiture, elles seront également
stockées dans un endroit différent.
Lorsque vous lancez une recherche sur la voiture, le systhem rassemble toutes les
informations en une fraction de seconde et rassemble les informations complètes de manière
cohérente et vous les présente, ce système appelé Hadoop.
Aujourd'hui, la plupart des sites Web géants dans le monde utilisent Hadoop pour gérer leurs
données.
HADOOP, HDFS (Hadoop Distributed File System) : Hadoop est une plate-forme
informatique open-source de la fondation Apache, capable de gérer/traiter des Big data sur
une architecture distribuée. HDFS est le système de gestion de fichier de base qui supporte
Hadoop.
NOSQL : Technologie qui se différencie à la notion relationnelle des données, adaptée à des
données peu structurées (nombre dynamique de colonnes, document, graphes,…
Hadoop
Hadoop est un projet open source de la fondation Apache qui est constitué de plusieurs
composants (HDFS,MapReduce, Hive, …) , la figure suivante décrit les différents
composants du Framework :
- HDFS (Hadoop Distributed File System) système de fichiers distribués sur un ensemble de
nœud (serveurs). C’est un système tolérant aux fautes (malgré les pannes il continue à
fonctionner correctement).
- MapReduce, une technologie qui permet la parallélisation des traitements et qui s’effectue
en deux phases, la phase Map consiste en la division des traitements en sous-ensembles et
exécution en parallèle par chaque France, la phase Reduce se charge de collectée les réponses
des nœuds et les assemblent pour constituer le résultat.
- Hive, fournit un langage de haut niveau semblable a SQL, appelé HQL, pour
interagir avec un cluster hadoop, dans le but réaliser des analyses sur une masse
importante de données.
- Hbase, une base de données distribuée disposant d’un stockage structuré pour les
grandes tables. Hbase est une base de données orientée colonnes, elle fait partie des
BD NoSQL (Not only SQL).
- Pig, un système de traitement de gros volumes de données en utilisant la plateforme
Hadoop MapReduce, Il fournit les opérations de filtrage, jointure et classement des
données (conçu spécialement pour l’analyse de données).
Les méthodes qualitatives sont peu mises en cause dans le paysage des Big data. Elles
constituent la seule manière d’accéder à des coins de la réalité sociale peu numérisés, ou
dont les traces numériques sont privatisées par de grandes entreprises commerciales.
Les méthodes qualitatives peuvent nous aider à trancher sur la généralité des résultats
obtenus d’une analyse de données numériques qui, on le sait, ne répondent que rarement aux
critères classiques de représentativité statistique.
Les Méthodes quantitatives utilisées dans les sciences sociales est plus fortement impacté
par le développement des Big data. Il y a aussi l’entrée sur la scène de la machine Learning
comme instrument d’analyse, se prêtant bien au traitement non seulement des données
numériques, Mais aussi de données d’origine administrative (article d’É. Ollion et J.
Boelaert dans ce numéro) et même de données d’enquête,
La machine Learning attire d’autant plus l’attention que les modèles de régression. Comme
le disent É. Ollion et J. Boelaert, cette remise oblige les chercheurs à s’interroger plus en
profondeur, à faire des choix méthodologiques moins conventionnels et plus réfléchis.
Une piste de recherche prometteuse consiste à explorer les intersections possibles entre
machine Learning et autres méthodes, comme ont commencé à le faire les économistes
(Mullainathan et Spiess, 2017),
Les méthodes d'analyse des données pour le Big Data sont de trois types principaux :
- Les méthodes descriptives visent à mettre en évidence des informations présentes
mais cachées par le volume des données [Tuffery, 2014]. Parmi les techniques et
algorithmes utilisés dans l'analyse descriptive, on cite :
o Analyse factorielle (ACP et ACM)
o Méthode des centres mobiles
o Classification hiérarchique
o Classification neuronale
o Recherche d'association
- Les méthodes prédictives visent à extrapoler de nouvelles informations à partir des
informations présentes [Tuffery, 2014]. Cette technique fait appels à de l'intelligence
artificielle, les principales méthodes sont :
o Arbres de décision
o Réseaux de neurones
o Classification bayésienne
o Support Vector Machine (SVM)
o K-plus proches voisins (KNN)
- Les méthodes prescriptive visent à identifier et anticiper les actions /décisions les plus
optimales à prendre pour arriver à la situation voulue [Gaultier, 2015].
Transports :
- Contrôle du trafic : exploitation de données de tous types (GPS, Radars, sondes, etc..)
afin de fluidifier le trafic et d’évaluer précisément le temps de transport d’un point à un
autre,
- Planification des voyages : mise à disposition du citoyen de données jusque-là réservées
aux administrations (gagner du temps / réduire le coût),
- Systèmes de transport intelligents (ITS) : les applications des NTIC (Nouvelles Technologies
de l'Information et de la Communication) destinées au domaine des transports. Parmi les
thématiques d’actualité exposée durant le 20 ème congrès mondial des Systèmes de
Transport Intelligents3 nous citons comme exemple: les véhicules autonomes, les véhicules
coopératifs et les systèmes de positionnement par satellite.
Commerce
Lorsque vous allez dans un supermarché, achetez et vous avez terminé, pensez-vous que le
processus d'achat est terminé?
Non laissez-moi vous dire ce qui se passe après votre départ. chaque fois que vous payez
avec votre carte de crédit, des entreprises spécialisées se conforment compilent vos
données et analysent votre structure d’achat au moyen de factures, puis créent un fichier
personnel pour mieux comprendre vos habitudes.
Prenons walmart par exemple, l'une des plus grandes chaînes de supermarchés au monde
localisée en Amérique.
Ils peuvent savoir si une de leurs clientes est enceinte et quel mois de sa grossesse et si elle a
des problèmes de santé ou non, le tout simplement grâce à sa (structure de magasinage).
Elle reçoit donc des messages promotionnels et des offres en rapport avec ses besoins. alors
qu'est-ce qui se passe ensuite? Elle les achète immédiatement.
Santé
Il existe de grandes quantités de données massives produites par les institutions médicales,
telles que les cliniques et les laboratoires d'hôpitaux. Qui analysent des échantillons de sang
et de tissus. Chaque visite chez votre médecin entraîne des rapports médicaux, des examens
et des tests, toutes ces données étant transmises à des programmes les analysants de
manière approfondie.
Des réservoirs aux Big Data, les hôpitaux peuvent désormais créer un dossier médical
complet sur chaque patient, du jour de sa naissance à son décès.
Pouvez-vous imaginer que les grandes données ont contribué au traitement des patients
atteints de cancer?
Un groupe de médecins a rassemblé des données relatives à l'analyse de tissus prélevés chez
de nombreux patients atteints de cancer et les a entrées dans de vastes programmes
d'analyse et de gestion de données.
Le résultat est que ces programmes ont identifié 12 signes indiquant la présence de cellules
cancéreuses dans les tissus.
En ce qui concerne les médecins, ils n’ont découvert que 9 signes de présence de cancer
avant ces programmes.
Nous pouvons, pour simplifier, répertorier 4 catégories de métiers si non liés directement au
Big data :
-le CDO (Chief Data Officer) ;
*Puis diffuser la connaissance en interne des données (dans les grandes entreprises il y a des
gisements de données dans toutes les entités, mais
personne n’a de vision transversale). Optimiser les processus clés du métier
via la consommation de la donnée.
*Enfin, construire une équipe avec des profils différents pour réaliser cet
objectif.
- le data Stewart : c’est l’administrateur des données ;
Les data Stewart sont responsables de la mise en œuvre de la stratégie sur le terrain, ils vont
appliquer la gouvernance décidée par le CDO, et veiller à ce qu’elle soit suivie ; de même
pour ce qui est des bonnes pratiques et des cycles de vie.
- le data Scientist : c’est celui qui analyse la donnée à l’aide d’outils
statistiques et datamining complexes ;
Le data Scientist est un expert aux multiples compétences. Il maîtrise les outils statistiques et
le datamining pour pouvoir manipuler les données à sa guise. Enfn, il est capable de
comprendre les finesses d’un processus pour pouvoir se poser les bonnes questions tout en
suggérant des pistes de réponses.
- le data Analyst : c’est celui qui analyse les données pour ses besoins métiers
propres
Le data Analyst est également quelqu’un qui produit la valeur de la donnée. Il réceptionne une
partie du travail du data Scientist et le rapproche des autres reportings et des autres données
qu’il a en sa possession pour pouvoir faire son travail.
Nous avons vu que la révolution du Big Data implique de nombreux avantages et bienfaits :
d’une part, les entreprises connaissent mieux leurs clients et génèrent plus de bénéfices,
d’autre part, les consommateurs reçoivent des produits et services toujours plus adaptés à
leurs besoins.
Pour utiliser le Big Data pour son business, c’est bien, mais techniquement, ce n’est pas si
facile. Maintenant, en posons la question suivante : le Big Data présente-t-il des risques ?
Selon Mayer-Schönberger et Cukier, dans leur ouvrage (2013), écrivent que nous vivons
dans un
monde où « jamais autant de données n’ont été collectées et stockées à propos de chacun de
nous. Nous sommes constamment sous surveillance, que ce soit quand nous utilisons nos
cartes de crédits pour payer, nos téléphones pour communiquer ou nos numéros de sécurité
sociale pour nous identifier. En 2007, les médias anglais ont soulevé l’ironie du fait qu’il y
avait plus de 30 caméras de surveillance dans un rayon de 200 mètres autour de
l’appartement de Londres où George Orwell a écrit “1984”.
Avant même l’avènement d’Internet, des firmes spécialisées comme Equifax, Experian et
Acxiom collectaient, mettaient sous forme de tableaux et fournissaient l’accès à des
informations personnelles pour des centaines de millions de personnes dans le monde entier.
Internet a rendu le pistage plus facile, moins cher et plus utile. Et les agences
gouvernementales clandestines à trois lettres ne sont pas les seules à nous espionner. Amazon
surveille nos préférences d’achats et Google nos habitudes de navigation, pendant que
Twitter sait ce qui occupe nos esprits. Il semblerait que Facebook parviennent aussi à saisir
toutes ces informations, en plus de nos relations sociales. Les opérateurs mobiles ne savent
pas seulement à qui nous parlons, mais aussi qui est tout près de nous.
Avec le Big Data qui promet des connaissances valorisantes à ceux qui l’analysent, tous les
signes semblent pointer vers une montée d’autres rassemblements, stockages et réutilisations
de nos données personnelles. La taille et l’échelle des collections de données vont continuer à
augmenter à pas de géant au fur et à mesure que les coûts de stockage continuent à chuter et
que les outils analytiques deviennent plus puissants que jamais. Si l’ère d’Internet a menacé
notre vie privée, le Big Data la met-il encore plus en danger ? Est-ce cela le côté sombre du
Big Data ? » (Mayer-Schönberger & Cukier, 2013, p. 150-151,)
Voilà des questions qui font plutôt froid dans le dos… C’était le premier risque du Big Data
pour les libertés individuelles, soulevé par Mayer-Schönberger et Cukier : le Big Data
pourrait mettre en danger le respect de la vie privée. Selon eux, il existe deux autres risques
du Big Data pour les libertés individuelles :
- « La tendance à punir et à juger avant même que les individus n’aient agi, sur la base
de la simple présomption de ce qu’ils auraient pu faire, et enfin,
- La dictature des données, soit, pour ceux qui les exploitent, le fait de n’envisager que
les promesses qu’offrent ces données sans tenir compte de leurs limites.
Les entreprises sont visées mais pas seulement. Les Etats sont eux aussi susceptibles de
commettre de tels abus » (Chamaret, 2014, p. 96).
Atos (2014) a estimé pour 2015 une croissance du marché du Big Data de 6,4 milliards de
dollars dans le secteur des services financiers, soit 22 % de croissance annuelle. Selon l’étude
de la même firme, les organisations qui utilisent le mieux les Big Data analytics ont une
probabilité plus importante d’atteindre des performances financières élevées (x2), de prendre
des décisions beaucoup plus rapidement que leurs concurrents (x5), de mettre en œuvre ces
décisions comme désiré (x3) et d’utiliser toujours plus souvent le Big Data pour prendre de
nouvelles décisions (x2).