Vous êtes sur la page 1sur 14

Introduction :

Lorsqu’on post une photo sur instagram, où vont-elle? Vous diriez qu'elle est sauvegardés
dans des bases de données, mais après avoir été sauvegardés, où vont-ils, ces données ne
sont pas conservées dans un tiroir et non plus archivées. Toutes les petites données sont
utilisées pour un but spécifique et ne sont plus des données plus lentes. Elles sont
maintenant appelées Big Data. Depuis des milliers d'années, l'homme consigner les détails et
les événements de sa vie de diverses manières, comme dessiner sur les murs et graver des
symboles dans des pierres jusqu'à l'écriture. Quel genre d'écriture? D’abord sur papier et
maintenant dans le digital (internet)./

Alors auparavant, nous stockions des informations sur des disquettes pour les transférer
d'un ordinateur à un autre. Plus tard, nous avons commencé à utiliser des CDs, puis des
disques durs, et nous avons continué à progresser jusqu'au moment de la mémoire flash
(USB). Mais aujourd'hui, nous sommes arrivés à l'ère du Cloud storage, qui stocke des
informations sur Internet, telles que Dropbox, iCloud, Google Drive et d’autres sites qui sont
devenus nos personnelles boîtes de stockage,

mais elles ne sont ni chez nous ni dans notre téléphones, mais dans des géants ordinateurs
contenant un grand espace de stockage. Cela nous a permis d'accéder à des informations à
tout moment et de n'importe où, ce qui a permis aux entreprises de savoir tout sur notre vie
personnelle (nous espionne). (Intro)

1- L’origine du Big data :


1965 : le gouvernement américain créait le 1er data center pour stocker ses plus de 742
millions de déclarations de revenus et 175 millions d’empreintes digitales.

1989 : le scientifique anglais Tom Berners-Lee inventa le futur World Wide Web, voulant
faciliter le partage d’informations via un système hypertexte.

1990 : l’apparition de l’internet / avec une évolution du nombre de


mobiles connectés à Internet, les données évoluèrent d’une manière incroyable.

2005 :- Roger Moulagas de O’Reilly Media. Il utilisera ce terme pour faire référence à un
nombre de données tellement grand qu’il était impossible de gérer et de traiter avec les outils
de Business Intelligence actuels.

- Apache créa Hadoop, un Framework open-source permettant de faciliter la création


d’applications distribuées et échelonnables.
2- Pourquoi exist’il le Big data ?
ERIC SCHMIDT, CEO de Google a expliqué le Big data d’une manière simplifie, il a dit que
depuis la naissance de la terre, jusqu’en 2003 l’humanité a produit 5 milliard de gigabits de
dnnées sous format ( images, documents, music, books, et d’autres ..)

- En 2011, une production de 5 milliard de gigabits de données juste dans 2 jours.

- En 2013, 5 milliard de données a été produit dans chaque 10 min.

- En plus de ça, il a estimé que 90% de données récoltées depuis le début de l’humanité ont
été générés durant les 2 dernières années.

La question posée, qui produit tous ces données ?

Avant c’était les employés des secteurs public et privé qui produisaient, stockaient et
analysaient le plus de données, sous forme des documents financiers, des fichiers personnels
et d’autres éléments concernant les clients, les achats et les ventes.

Mais, aujourd’hui, la plupart des producteurs de données dans le monde sont des gens
ordinaires, comme nous, vieux et jeunes, qui contribuent tous à cette énorme accumulation de
données.

de nos jours, tout le monde possède un téléphone participe à l’accumulation de données de


manière déroutante.
Aujourd'hui, ils sont 3 milliards d'internautes, envoient 200 millions d'emails chaque minute,
twittent 20 millions chaque heure et mettent en ligne 100 000 heures de vidéo sur youtube
quotidiennement.

si nous complétons toute cette production en une heure à peine, nous pouvons remplir 10
milliards de DVD. c-à-d si nous empilions tous ces DVD, ils atteindraient une hauteur de 90
km, vu que lorsqu'un avion vole d'une ville à une autre, il vole à une altitude de 12 km (vous
imaginez).

L’utilisation d’Internet n’étant pas la seule cause de cette production de données massive, la
plupart des machines et appareils qui nous entourent créent aussi des données lorsqu’ils
fonctionnent (comme les appareils GPS dans les voitures et les avions).

3- Le Big Data selon des chercheurs et des professionnels


Selon Press (2014), le terme « Big Data » est utilisé pour la première fois par des
scientifiques de la NASA en décrivant le problème auquel ils font face au niveau de la
visualisation d’un très grand nombre de données sur leurs systèmes informatiques.

*En 2011, le McKinsey Global Institute propose la définition suivante : « Le Big Data
se réfère à un ensemble de données dont la taille va au-delà de la capacité des logiciels de
bases de données classiques à capturer, stocker, gérer et analyser ».

*Selon les chercheurs de McKinsey, cette définition est intentionnellement


subjective, dans le sens où tout est relatif. Ils définissent donc le Big Data comme ce qui sera
toujours au-delà de la puissance de nos technologies.

*La même année, Gantz et Reinsel de l’International Data Corporation (IDC)


proposent la définition suivante : « Les technologies Big Data décrivent une nouvelle
génération de technologies et d’architectures, conçues pour extraire économiquement de la
valeur à partir de très grands volumes d’une large variété de données, en permettant une
capture, une découverte et/ou une analyse à très grande vitesse » .

En 2013, le terme « Big Data » entre officiellement dans l’Oxford English Dictionary. Il est
défini comme « des données d’une très grande taille, dans la mesure où leur manipulation et
leur gestion entraînent d’importants challenges logistiques »

*Une autre source dont on ne peut se passer lorsqu’on parle de Big Data est l’ouvrage
de Mayer-Schönberger et Cukier, dans lequel les auteurs exposent le problème de la
manière suivante : « Le Big Data se réfère aux choses que nous pouvons faire à une large
échelle et qui ne peuvent pas être faites à une échelle moindre, pour extraire de nouvelles
connaissances ou créer de nouvelles formes de valeur, de façon à transformer les marchés,
les organisations, les relations entre les citoyens et les gouvernements, et encore d’autres ».
Les auteurs ajoutent que, selon eux, le Big Data est amené à modifier notre manière de vivre
et d’interagir avec le monde.

*Gartner, un des géants du conseil et de la recherche dans le domaine des techniques


avancées, définit le Big Data comme « des actifs d’information de grand volume, de haute
vitesse et de grande variété qui requièrent des outils innovants et rentables de traitement de
données et qui permettent une amélioration des connaissances, de la prise de décision et de
l’automatisation des processus » (Gartner, 2016.).

4- Les « V » du Big Data :


Le Big Data se caractérise par des termes qui commencent par la lettre « V ». Cependant, tous
ne sont pas d’accord sur le nombre de « V » qu’il faut considérer, si ce n’est qu’il y en au
moins trois.

Volume : Qui dit données massives dit volumes allant du kilooctet au pétaoctets, dépassant
toute capacité de traitement rapide par le cerveau humain.
On fait Rappels sur les instruments de mesures des données :

(Définition)

Vélocité : Fréquence à laquelle les données sont générées, traitées et mises en réseau.
Cette fréquence étant de plus en plus élevée.

Variété : Les données peuvent être textuelles, visuelles ou sonores, scientifiques ou


provenant de la vie courante, structurées ou non. D’où la nécessité de les analyser
automatiquement par des algorithmes pour en extraire des corrélations et des
connaissances (data mining) et, quelquefois, de les représenter sous forme visuelle
(data visualisation).
Valeur et Véracité, qui expriment le besoin de disposer de données fables,
pertinentes et significatives pour donner suffisamment de sens et d’intérêt
économique des analyses menées.

5- outils et technologies pour manier le Big Data :


(Les principaux outils informatiques utilisés)

Nous sommes entourés de données tout autour de nous aujourd'hui, nos téléphones,
ordinateurs, waches, GPS de voitures, appareils de sport et bien d'autres produisent des
données.

Alors, comment pouvons-nous gérer cette charge de données et comment pouvons-nous en


tirer profit?

Auparavant, les sociétés de campagne stockaient leurs données dans des bases de données.
Cependant, au tournant du millénaire, des sociétés géantes, comme Google, souffrent de
l’accumulation de données dans leurs ordinateurs, ce qui créait un problème en ralentissant la
récupération des données lors de la recherche d'informations. .

Comment Google a-t-il résolu ce problème?

Google a fractionné ces données en plusieurs parties et les a stockées dans un ordinateur
distinct.

par exemple: les spécifications d'une voiture donnée sont classées en plusieurs catégories. Les
données relatives au moteur seront stockées dans un endroit différent de celui de l'extérieur
de la voiture.

Quant aux données concernant les spécifications intérieur de la voiture, elles seront également
stockées dans un endroit différent.

Lorsque vous lancez une recherche sur la voiture, le systhem rassemble toutes les
informations en une fraction de seconde et rassemble les informations complètes de manière
cohérente et vous les présente, ce système appelé Hadoop.

Aujourd'hui, la plupart des sites Web géants dans le monde utilisent Hadoop pour gérer leurs
données.

A côté de ce système (HADOOP) il existe d’autres technologies en peut citez :

MAP REDUCE : Principe de programmation qui consiste à distribuer et paralléliser le


traitement sur plusieurs nœuds.

HADOOP, HDFS (Hadoop Distributed File System) : Hadoop est une plate-forme
informatique open-source de la fondation Apache, capable de gérer/traiter des Big data sur
une architecture distribuée. HDFS est le système de gestion de fichier de base qui supporte
Hadoop.
NOSQL : Technologie qui se différencie à la notion relationnelle des données, adaptée à des
données peu structurées (nombre dynamique de colonnes, document, graphes,…

HBase, Cassandra, MongoDB, NE04J,Couche DB, Redis : SGBD qui supportent


l’approche d’interrogation des données NOSQL.

SAS, Talend, R, Python : Outils et ou environnements de programmation et analyse adaptés


aux Big Data.

Cloud computing : Ensemble de processus permettant d’offrir un espace de stockage sous


forme de serveurs, accessibles à distance, sous forme de location. Utilile pour les entités
(entreprises) qui ne souhaitent pas investir dans les infrastructures de stockage.

Hadoop
Hadoop est un projet open source de la fondation Apache qui est constitué de plusieurs
composants (HDFS,MapReduce, Hive, …) , la figure suivante décrit les différents
composants du Framework :

- HDFS (Hadoop Distributed File System) système de fichiers distribués sur un ensemble de
nœud (serveurs). C’est un système tolérant aux fautes (malgré les pannes il continue à
fonctionner correctement).
- MapReduce, une technologie qui permet la parallélisation des traitements et qui s’effectue
en deux phases, la phase Map consiste en la division des traitements en sous-ensembles et

exécution en parallèle par chaque France, la phase Reduce se charge de collectée les réponses
des nœuds et les assemblent pour constituer le résultat.
- Hive, fournit un langage de haut niveau semblable a SQL, appelé HQL, pour
interagir avec un cluster hadoop, dans le but réaliser des analyses sur une masse
importante de données.
- Hbase, une base de données distribuée disposant d’un stockage structuré pour les
grandes tables. Hbase est une base de données orientée colonnes, elle fait partie des
BD NoSQL (Not only SQL).
- Pig, un système de traitement de gros volumes de données en utilisant la plateforme
Hadoop MapReduce, Il fournit les opérations de filtrage, jointure et classement des
données (conçu spécialement pour l’analyse de données).

6- Quelle démarche utilisée pour un projet Big data :

Les méthodes qualitatives sont peu mises en cause dans le paysage des Big data. Elles
constituent la seule manière d’accéder à des coins de la réalité sociale peu numérisés, ou
dont les traces numériques sont privatisées par de grandes entreprises commerciales.
Les méthodes qualitatives peuvent nous aider à trancher sur la généralité des résultats
obtenus d’une analyse de données numériques qui, on le sait, ne répondent que rarement aux
critères classiques de représentativité statistique.

Les Méthodes quantitatives utilisées dans les sciences sociales est plus fortement impacté
par le développement des Big data. Il y a aussi l’entrée sur la scène de la machine Learning
comme instrument d’analyse, se prêtant bien au traitement non seulement des données
numériques, Mais aussi de données d’origine administrative (article d’É. Ollion et J.
Boelaert dans ce numéro) et même de données d’enquête,

La machine Learning attire d’autant plus l’attention que les modèles de régression. Comme
le disent É. Ollion et J. Boelaert, cette remise oblige les chercheurs à s’interroger plus en
profondeur, à faire des choix méthodologiques moins conventionnels et plus réfléchis.

Une piste de recherche prometteuse consiste à explorer les intersections possibles entre
machine Learning et autres méthodes, comme ont commencé à le faire les économistes
(Mullainathan et Spiess, 2017),

7- Techniques d’analyse de données :

Les méthodes d'analyse des données pour le Big Data sont de trois types principaux :
- Les méthodes descriptives visent à mettre en évidence des informations présentes
mais cachées par le volume des données [Tuffery, 2014]. Parmi les techniques et
algorithmes utilisés dans l'analyse descriptive, on cite :
o Analyse factorielle (ACP et ACM)
o Méthode des centres mobiles
o Classification hiérarchique
o Classification neuronale
o Recherche d'association
- Les méthodes prédictives visent à extrapoler de nouvelles informations à partir des
informations présentes [Tuffery, 2014]. Cette technique fait appels à de l'intelligence
artificielle, les principales méthodes sont :
o Arbres de décision
o Réseaux de neurones
o Classification bayésienne
o Support Vector Machine (SVM)
o K-plus proches voisins (KNN)
- Les méthodes prescriptive visent à identifier et anticiper les actions /décisions les plus
optimales à prendre pour arriver à la situation voulue [Gaultier, 2015].

8- Tour d’horizon de l’impact du Big Data :


Le Big Data couvre de nombreux domaines d’applications telles que l’industrie, la
distribution, les banques, l’assurance, le transport, loisirs et le télécom. Des exemples sont
cités ci-dessous:

 Transports :
- Contrôle du trafic : exploitation de données de tous types (GPS, Radars, sondes, etc..)
afin de fluidifier le trafic et d’évaluer précisément le temps de transport d’un point à un
autre,
- Planification des voyages : mise à disposition du citoyen de données jusque-là réservées
aux administrations (gagner du temps / réduire le coût),
- Systèmes de transport intelligents (ITS) : les applications des NTIC (Nouvelles Technologies
de l'Information et de la Communication) destinées au domaine des transports. Parmi les
thématiques d’actualité exposée durant le 20 ème congrès mondial des Systèmes de
Transport Intelligents3 nous citons comme exemple: les véhicules autonomes, les véhicules
coopératifs et les systèmes de positionnement par satellite.

 Commerce
Lorsque vous allez dans un supermarché, achetez et vous avez terminé, pensez-vous que le
processus d'achat est terminé?

Non laissez-moi vous dire ce qui se passe après votre départ. chaque fois que vous payez
avec votre carte de crédit, des entreprises spécialisées se conforment compilent vos
données et analysent votre structure d’achat au moyen de factures, puis créent un fichier
personnel pour mieux comprendre vos habitudes.

Prenons walmart par exemple, l'une des plus grandes chaînes de supermarchés au monde
localisée en Amérique.
Ils peuvent savoir si une de leurs clientes est enceinte et quel mois de sa grossesse et si elle a
des problèmes de santé ou non, le tout simplement grâce à sa (structure de magasinage).
Elle reçoit donc des messages promotionnels et des offres en rapport avec ses besoins. alors
qu'est-ce qui se passe ensuite? Elle les achète immédiatement.

 Santé
Il existe de grandes quantités de données massives produites par les institutions médicales,
telles que les cliniques et les laboratoires d'hôpitaux. Qui analysent des échantillons de sang
et de tissus. Chaque visite chez votre médecin entraîne des rapports médicaux, des examens
et des tests, toutes ces données étant transmises à des programmes les analysants de
manière approfondie.

Comment pouvons-nous tirer profit de ces données?

Des réservoirs aux Big Data, les hôpitaux peuvent désormais créer un dossier médical
complet sur chaque patient, du jour de sa naissance à son décès.

De plus, grâce au développement de systèmes de gestion de données volumineuses, il est


plus facile de stocker et d'analyser en profondeur les données des patients. C'est ce qui
permet aux équipes de secours médicaux de sauver certains patients dans des situations
critiques et urgentes.

Pouvez-vous imaginer que les grandes données ont contribué au traitement des patients
atteints de cancer?

Un groupe de médecins a rassemblé des données relatives à l'analyse de tissus prélevés chez
de nombreux patients atteints de cancer et les a entrées dans de vastes programmes
d'analyse et de gestion de données.

Le résultat est que ces programmes ont identifié 12 signes indiquant la présence de cellules
cancéreuses dans les tissus.

En ce qui concerne les médecins, ils n’ont découvert que 9 signes de présence de cancer
avant ces programmes.

9- Nouveaux métiers du Big data :


La mise en place d’un projet Big Data au sein d’une entreprise implique des évolutions en
terme de modèles algorithmiques et statistiques. les entreprises seront amenées à envisager
l’embauche de nouveaux profils, capables de gérer de tels outils.

Nous pouvons, pour simplifier, répertorier 4 catégories de métiers si non liés directement au
Big data :
-le CDO (Chief Data Officer) ;

Son rôle est multiple:


*d’abord, contribuer à la stratégie de l’entreprise en s’appuyant sur les données, leur
gestion,

*Puis diffuser la connaissance en interne des données (dans les grandes entreprises il y a des
gisements de données dans toutes les entités, mais
personne n’a de vision transversale). Optimiser les processus clés du métier
via la consommation de la donnée.
*Enfin, construire une équipe avec des profils différents pour réaliser cet
objectif.
- le data Stewart : c’est l’administrateur des données ;
Les data Stewart sont responsables de la mise en œuvre de la stratégie sur le terrain, ils vont
appliquer la gouvernance décidée par le CDO, et veiller à ce qu’elle soit suivie ; de même
pour ce qui est des bonnes pratiques et des cycles de vie.
- le data Scientist : c’est celui qui analyse la donnée à l’aide d’outils
statistiques et datamining complexes ;
Le data Scientist est un expert aux multiples compétences. Il maîtrise les outils statistiques et
le datamining pour pouvoir manipuler les données à sa guise. Enfn, il est capable de
comprendre les finesses d’un processus pour pouvoir se poser les bonnes questions tout en
suggérant des pistes de réponses.
- le data Analyst : c’est celui qui analyse les données pour ses besoins métiers
propres
Le data Analyst est également quelqu’un qui produit la valeur de la donnée. Il réceptionne une
partie du travail du data Scientist et le rapproche des autres reportings et des autres données
qu’il a en sa possession pour pouvoir faire son travail.

Il utilise des outils de dashboarding, de visualisation de l’information et d’exploration de


l’information assez proches de ceux qu’il utilise pour de la Business Intelligence mais il les
applique différemment en fonction des données qu’on met à sa disposition et des enjeux
métiers auxquels il doit faire face.

10- Défis du Big data :


Nous vivons à une époque où tout ce que nous faisons est enregistré. Chaque détail de notre
vie; ce que nous achetons qui sont nos amis; quand dormons-nous et nous réveillons-nous;
quels sont nos goûts dans les films, la nourriture, le parfum des vêtements et tout. même nos
battements de cœur sont enregistrés à travers des programmes sportifs et des montres
électroniques.
Toutes ces données immenses sont rassemblées par des entreprises telles que Google,
Facebook, Apple et bien d’autres entreprises, afin de les utiliser dans la commercialisation de
produits et, éventuellement, de suggérer de nouveaux amis ou même de créer de nouvelles
idées et croyances.

Nous avons vu que la révolution du Big Data implique de nombreux avantages et bienfaits :
d’une part, les entreprises connaissent mieux leurs clients et génèrent plus de bénéfices,
d’autre part, les consommateurs reçoivent des produits et services toujours plus adaptés à
leurs besoins.

Pour utiliser le Big Data pour son business, c’est bien, mais techniquement, ce n’est pas si
facile. Maintenant, en posons la question suivante : le Big Data présente-t-il des risques ?

Selon Mayer-Schönberger et Cukier, dans leur ouvrage (2013), écrivent que nous vivons
dans un
monde où « jamais autant de données n’ont été collectées et stockées à propos de chacun de
nous. Nous sommes constamment sous surveillance, que ce soit quand nous utilisons nos
cartes de crédits pour payer, nos téléphones pour communiquer ou nos numéros de sécurité
sociale pour nous identifier. En 2007, les médias anglais ont soulevé l’ironie du fait qu’il y
avait plus de 30 caméras de surveillance dans un rayon de 200 mètres autour de
l’appartement de Londres où George Orwell a écrit “1984”.
Avant même l’avènement d’Internet, des firmes spécialisées comme Equifax, Experian et
Acxiom collectaient, mettaient sous forme de tableaux et fournissaient l’accès à des
informations personnelles pour des centaines de millions de personnes dans le monde entier.
Internet a rendu le pistage plus facile, moins cher et plus utile. Et les agences
gouvernementales clandestines à trois lettres ne sont pas les seules à nous espionner. Amazon
surveille nos préférences d’achats et Google nos habitudes de navigation, pendant que
Twitter sait ce qui occupe nos esprits. Il semblerait que Facebook parviennent aussi à saisir
toutes ces informations, en plus de nos relations sociales. Les opérateurs mobiles ne savent
pas seulement à qui nous parlons, mais aussi qui est tout près de nous.

Avec le Big Data qui promet des connaissances valorisantes à ceux qui l’analysent, tous les
signes semblent pointer vers une montée d’autres rassemblements, stockages et réutilisations
de nos données personnelles. La taille et l’échelle des collections de données vont continuer à
augmenter à pas de géant au fur et à mesure que les coûts de stockage continuent à chuter et
que les outils analytiques deviennent plus puissants que jamais. Si l’ère d’Internet a menacé
notre vie privée, le Big Data la met-il encore plus en danger ? Est-ce cela le côté sombre du
Big Data ? » (Mayer-Schönberger & Cukier, 2013, p. 150-151,)

Voilà des questions qui font plutôt froid dans le dos… C’était le premier risque du Big Data
pour les libertés individuelles, soulevé par Mayer-Schönberger et Cukier : le Big Data
pourrait mettre en danger le respect de la vie privée. Selon eux, il existe deux autres risques
du Big Data pour les libertés individuelles :
- « La tendance à punir et à juger avant même que les individus n’aient agi, sur la base
de la simple présomption de ce qu’ils auraient pu faire, et enfin,
- La dictature des données, soit, pour ceux qui les exploitent, le fait de n’envisager que
les promesses qu’offrent ces données sans tenir compte de leurs limites.
Les entreprises sont visées mais pas seulement. Les Etats sont eux aussi susceptibles de
commettre de tels abus » (Chamaret, 2014, p. 96).

Les grands changements à l’œuvre


Selon les scientifiques Turner et al. (IBM), « aujourd’hui, [le Big Data] est un impératif du
business et apporte des solutions aux challenges économiques les plus anciens pour les
banques et les entreprises des marchés financiers dans le monde entier. Les firmes de services
financiers tirent profit du Big Data pour transformer leurs processus, leur organisation et
bientôt, l’industrie entière »

Atos (2014) a estimé pour 2015 une croissance du marché du Big Data de 6,4 milliards de
dollars dans le secteur des services financiers, soit 22 % de croissance annuelle. Selon l’étude
de la même firme, les organisations qui utilisent le mieux les Big Data analytics ont une
probabilité plus importante d’atteindre des performances financières élevées (x2), de prendre
des décisions beaucoup plus rapidement que leurs concurrents (x5), de mettre en œuvre ces
décisions comme désiré (x3) et d’utiliser toujours plus souvent le Big Data pour prendre de
nouvelles décisions (x2).

Risque du Big data :

Le principal risque lié aux datas est la protection de la vie privée.

L’anonymisation des données est également un enjeu majeur.

La transparence dans l’utilisation des données collectées n’a jamais été


aussi importante.