Vous êtes sur la page 1sur 14

2019/2020

BIG DATA ET DATA MINING

Groupe GL 4 :

Ramdani Rayan

Rahmani Adel

Yahiaoui Ahcene

Master 1 Génie Logiciel


Table des matières
Table des matières
BIG DATA 2
Définition du Big Data : 2
Big Data : l’analyse de données en masse : 3
Les évolutions technologiques derrière le Big Data 4

La principale plateforme du Big Data : 4

Les principaux acteurs du marché Big Data : 6

Ce que l’on reproche au Big Data : 7

Data Mining :Exploration de données : 7


Définition 7
Fonctionnement du Data Mining : 7
Qu’est ce qu’un data mining ?: 8

Les composants du Data Mining : 8

Les méthodes de Data Mining : 9

Les secteurs du Data Mining et son utilité: 9

Fonctionnement du Data Mining : 10

Les Éléments majeurs du Data Mining: 10

Les 3 propriétés principales du Data Mining: 11

Différence entre Big Data et Data Mining : 12


Conclusion: 12

1
I. Big Data
L’explosion quantitative des données numériques a obligé les chercheurs à trouver de
nouvelles manières de voir et d’analyser le monde. Il s’agit de découvrir de nouveaux
ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et
la présentation des données. Ainsi est né le « Big Data ». Il s’agit d’un concept permettant
de stocker un nombre indicible d’informations sur une base numérique. Selon les archives
de la bibliothèque numérique de l’Association for Computing Machinery (ou ACM) dans des
articles scientifiques concernant les défis technologiques à relever pour visualiser les
« grands ensembles de données », cette appellation est apparue en octobre 1997.

1) Définition du Big Data :


Littéralement, ces termes signifient mégadonnées, grosses données ou encore données
massives. Ils désignent un ensemble très volumineux de données qu’aucun outil classique
de gestion de base de données ou de gestion de l’information ne peut vraiment travailler.
En effet, nous procréons environ 2,5 trillions d’octets de données tous les jours. Ce sont
les informations provenant de partout : messages que nous nous envoyons, vidéos que
nous publions, informations climatiques, signaux GPS, enregistrements des transactions
d’achatsen ligne et bien d’autres encore. Ces données sont baptisées Big Data ou volumes
massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi
Facebook et Google), ont été les tous premiers à déployer ce type de technologie, en
d’autres termes : le Big Data représente les données de grande taille (une collection de
données de grande taille qui croît de manière exponentielle avec le temps). Il est utilisé
pour faire référence à tout type de données difficiles à représenter à l’aide de méthodes
classiques telles que un systèmes de gestion de bases de données ou Microsoft Excel.
Cependant, aucune définition précise ou universelle ne peut être donnée au Big Data. Etant
un objet complexe polymorphe, sa définition varie selon les communautés qui s’y
intéressent en tant qu’usager ou fournisseur de services. Une approche transdisciplinaire
permet d’appréhender le comportement des différents acteurs : les concepteurs
et fournisseurs d’outils (les informaticiens), les catégories d’utilisateurs (gestionnaires,
responsables d’entreprises, chercheurs …).
Le big data ne dérive pas des règles de toutes les technologies, il est aussi un système
technique dual. En effet, il apporte des bénéfices mais peut également générer des
inconvénients.
L’arrivée du Big Data est maintenant présentée par de nombreux articles comme une
nouvelle révolution industrielle semblable à la découverte de la vapeur (début du
19e siècle), de l’électricité (fin du 19e siècle) et de l’informatique (fin du 20e siècle).
D’autres, un peu plus mesurés, qualifient ce phénomène comme étant la dernière étape de

2
la troisième révolution industrielle, laquelle  est en fait celle de « l’information ». Dans tous
les cas, le Big Data est considéré comme une source de bouleversement profond de la
société.

2) Big Data : l’analyse de données en masse


Inventé par les géants du web, le Big Data se présente comme une solution dessinée
pour permettre à tout le monde d’accéder en temps réel à des bases de données géantes. Il
vise à proposer un choix aux solutions classiques de bases de données et d’analyse (plate-
forme de Business Intelligence en serveur SQL…).
Selon le Gartner, ce concept regroupe une famille d’outils qui répondent à une triple
problématique dite règle des 3V. Il s’agit notamment d’un Volume de données considérable
à traiter, une grande Variété d’informations (venant de diverses sources, non-structurées,
organisées, Open…), et un certain niveau de Vélocité à atteindre, autrement dit de
fréquence de création, collecte et partage de ces données.

3
3) Les évolutions technologiques derrière le Big Data  
Les créations technologiques qui ont facilité la venue et la croissance du Big Data peuvent
globalement être catégorisées en deux familles : d’une part, les technologies de stockage,
portées particulièrement par le déploiement du Cloud Computing. D’autre part, l’arrivée
de technologies de traitement ajustées, spécialement le développement de nouvelles bases
de donnes adaptes aux données non-structurées (Hadoop) et la mise au point de modes de
calcul à haute performance (MapReduce).
Il existe plusieurs solutions qui peuvent entrer en jeu pour optimiser les temps de
traitement sur des bases de données géantes à savoir :
Les bases de données NoSQL (comme MongoDB, Cassandra ou Redis), les infrastructures du
serveur pour la distribution des traitements sur les nœuds et le stockage des données en
mémoire :
La première solution permet d’implémenter les systèmes de stockage considérés comme
plus performants que le traditionnel SQL pour l’analyse de données en masse (orienté
clé/valeur, document, colonne ou graphe).
La deuxième est aussi appelée le traitement massivement parallèle. Le Framework Hadoop
en est un exemple. Celui-ci combine le système de fichiers distribué HDFS, la
base NoSQL HBase et l’algorithme MapReduce. 
Quant à la dernière solution, elle accélère le temps de traitement des requêtes.

4) La principale plateforme du Big Data :


À l’heure actuelle, Hadoop est la principale plateforme du Big Data. Utilisé pour le stockage
et le traitement d’immenses volumes de données, ce framework logiciel et ses différents
composants sont utilisés par de très nombreuses entreprises pour leurs projets Big Data.

i.

Hadoop définition

4
Hadoop est un framework logiciel open source permettant de stocker des données, et de
lancer des applications sur des grappes de machines standards. Cette solution offre un espace
de stockage massif pour tous les types de données, une immense puissance de traitement et
la possibilité de prendre en charge une quantité de tâches virtuellement illimitée. Basé sur
Java, ce framework fait partie du projet Apache, sponsorisé par Apache Software Foundation.

Grâce au
framework MapReduce, il permet de traiter les immenses quantités de données. Plutôt que
de devoir déplacer les données vers un réseau pour procéder au traitement, MapReduce
permet de déplacer directement le logiciel de traitement vers les données.
En 2008, Yahoo proposa Hadoop sous la forme d’un projet Open Source. Aujourd’hui, le
framework et son écosystème de technologies sont gérés et maintenus par l’association non
lucrative Apache Software Foundation, une communauté mondiale de développeurs de
logiciels et de contributeurs.
Après quatre ans de développement au sein de la communauté Open Source, Hadoop 1.0 fut
proposé au public à partir de novembre 2012 dans le cadre du projet Apache, sponsorisé par
la Apache Software Foundation. Depuis lors, le framework n’a cessé d’être développé et mis à
jour.

La version
deuxième version Hadoop 2 a permis d’améliorer la gestion de ressource et la planification.
Elle comporte une option de système fichier à haute disponibilité, et prend en charge

5
Microsoft Windows et d’autres composants afin d’étendre la polyvalence du framework pour
le traitement et l’analyse de données. Hadoop est actuellement proposé en version 2.6.5.
ii. Pourquoi Hadoop est important ?
Les avantages apportés aux entreprises par Hadoop sont nombreux. Grâce à ce framework
logiciel, il est possible de stocker et de traiter de vastes quantités de données rapidement.
Face à l’augmentation en hausse du volume de données et à leur diversification,
principalement liée aux réseaux sociaux et à l’internet des objets, il s’agit d’un avantage non
négligeable.
De même, le modèle de calcul distribué d’Hadoop permet de traiter rapidement le Big Data.
Plus le nombre de nœuds de calcul utilisés est important, plus la puissance de traitement est
élevée. Les données et les applications traitées sont protégées contre les échecs hardware.
Si un nœud tombe en panne, les tâches sont directement redirigées vers d’autres nœuds
pour s’assurer que le calcul distribué n’échoue pas. De multiples copies de toutes les
données sont stockées automatiquement. 
Contrairement aux bases de données relationnelles traditionnelles, il est inutile de traiter les
données au préalable avant de les stocker. Il est possible de stocker autant de données que
vous le souhaitez et décider plus tard de la manière de les utiliser. Ceci regroupe les données
non structurées comme le texte, les images et les vidéos.
iii. les principaux usages d’Hadoop en entreprise:
Hadoop est utilisé par de nombreuses entreprises en guise de plateforme Big Data
 Le stockage low-cost et l’archive de données.
  La découverte et l’analyse.
 Prendre en charge le stockage de données dans le format original.
 Complémenter les Data Warehouses.
 Moteur de recommandations.
 Stocker les transactions des objets connectés.

5) Les principaux acteurs du marché Big Data :


La filière Big Data en  a attiré plusieurs. Ces derniers se sont positionnés rapidement dans
divers secteurs. Dans le secteur IT, on retrouve les fournisseurs historiques de solutions IT
comme Oracle, HP, SAP ou encore IBM Il y a aussi les acteurs du Web dont Google,
Facebook, ou Twitter. Quant aux spécialistes des solutions Data et Big Data, on peut citer
MapR, Teradata, EMC ou Hortonworks. CapGemini, Sopra, Accenture ou Atos sont des
intégrateurs, toujours des acteurs principaux dans les méga données. Dans le secteur de
l’analytique, comme éditeurs BI, on peut citer SAS, Micro-strategy et Qliktech. Cette filière
comporte aussi des fournisseurs spécialisés dans l’analytique comme Datameer ou Zettaset.

6
En parallèle à ces principaux participants, de nombreuses PME spécialisées dans le Big Data
sont apparues.

6) Ce que l’on reproche au Big Data


La plupart des critiques concernent la protection des données. Les grandes bases de données
permettent aux entreprises et aux marques de mieux adapter leurs stratégies marketing.
Néanmoins, il est aussi possible d’établir des profils d’utilisateurs précis grâce aux données
utilisées pour le ciblage. Les personnes responsables de la protection des données voient
cela comme une atteinte à la vie privée des internautes. Celui qui travaille avec le Big Data
doit renseigner les clients et les utilisateurs de son site sur sa politique d’utilisation des
données
Une autre critique est la « dictature des données ». En effet, le domaine des données
massives fait face à ce qu’on appelle en anglais les « big players ». Il s’agit d’entreprises qui
travaillent depuis un certain nombre d’années avec des données et qui en font des bénéfices
(comme Google et d’autres moteurs de recherche). Ainsi, ces sociétés ont un monopole en
matière de données. Cette souveraineté est souvent critiquée et qualifiée d’atteinte à la vie
privée à grande échelle. En effet, si aucune règle claire sur a protection des données
personnelles n’est établie et compte tenu de l’anonymisation de ces informations
récupérées, il n’est pas étonnant qu’une utilisation abusive des données des internautes soit
possible.

II. Data Mining  :Exploration de données  :


1. Définition :
Forage de données, explorations de données , fouilles de données ou encore extraction de
connaissances à partir de données, ce sont les traductions possibles du Data Mining en
Français. En règle générale, le terme Data Mining désigne l’analyse de données depuis
différentes perspectives et le fait de transformer ces données en informations utiles, en
établissant des relations entre les données ou en repérant des patterns.
Ces informations peuvent ensuite être utilisées par les entreprises pour augmenter un chiffre
d’affaires ou pour réduire des coûts. Elles peuvent également servir à mieux comprendre une
clientèle afin d’établir de meilleures stratégies marketing.
2. Fonctionnement du Data Mining :
Le Data Mining repose sur des algorithmes complexes et sophistiqués permettant de
segmenter les données issus de disciplines scientifiques diverses telles que les statistiques,
l'intelligence artificielle ou l'informatique, pour construire des modèles à partir des données,
c'est-à-dire trouver des structures intéressantes ou des motifs selon des critères fixés au

7
préalable, et d'en extraire un maximum de connaissances. Le Data Mining est également
surnommé Knowledge Discovery
3. Qu’est ce qu’un data mining ?
Les logiciels Data Mining font partie des outils analytiques utilisés pour l’analyse de données.
Ils permettent aux utilisateurs d’analyser des données sous différents angles, de les
catégoriser, et de résumer les relations identifiées. Techniquement, le Data Mining est le
procédé permettant de trouver des corrélations ou des patterns entre de nombreuses bases
de données relationnelles.
4. Les composants du Data Mining :
a) Données
Les données sont des faits, des nombres, ou des textes pouvant être traités par un
ordinateur. Parmi ces données, on distingue :
 Les données opérationnelles ou transactionnelles telles que les données
de ventes, de coûts, d’inventaire, de tickets de caisse ou de comptabilité.
 Les données non opérationnelles, telles que les ventes industrielles, les
données prévisionnelles, les données macro-économiques.
 Les métadonnées, à savoir les données concernant les données elles-
mêmes, telles que les définitions d’un dictionnaire de données.
b) Informations
Les patterns, associations et relations entre toutes ces données permettent d’obtenir des
informations. Par exemple, l’analyse des données de transaction d’un point de vente permet
de recueillir des informations sur les produits qui se vendent, et à quel moment ont lieu ces
ventes.
c) Savoir
Les informations peuvent être converties en savoir à propos de patterns historiques ou des
tendances futures. Par exemple, l’information sur les ventes au détail d’un supermarché
peut être analysée dans le cadre d’efforts promotionnels, pour acquérir un savoir au sujet
des comportements d’acheteurs. Ainsi, un producteur peut déterminer quels produits
doivent faire l’objet d’une promotion à l’aide du Data Mining.

8
5. Les méthodes de Data Mining :
On dénombre cinq variétés du Data Mining :
 Association : chercher des patterns au sein desquelles un événement est
lié à un autre événement.
 Analyse de séquence : chercher des patterns au sein desquelles un
événement mène à un autre événement plus tardif.
 Classification : chercher de nouvelles patterns, quitte à changer la façon
dont les données sont organisées.
 Clustering : trouver et documenter visuellement des groupes de faits
précédemment inconnus.
 Prédiction : découvrir des patterns de données pouvant mener à des
prédictions raisonnables sur le futur. Ce type de data mining est aussi
connu sous le nom d’analyse prédictive.
6. Les secteurs du Data Mining et son utilité :
Le Data Mining est actuellement principalement utilisé par les entreprises focalisées sur les
consommateurs, dans les secteurs du commerce au détail, de la finance, de la
communication, ou du data mining marketing. Les techniques de Data Mining sont
également utilisées dans différents secteurs de recherche, tels que les mathématiques, la
cybernétique ou la génétique.
Grâce au Data Mining on peut :
 Suggestions de produits.

9
 Analyse d’images.
 Permettre aux consommateurs de contrôler leur empreinte numérique.
 Empêcher l’évasion fiscale avec le Data Mining.
 Augmenter le chiffre d’affaire des entreprise.
 Recruter les meilleurs employés.

7. Fonctionnement du Data Mining :


Le Data Mining assure la jonction entre les systèmes transactionnels et les systèmes
analytiques. Les logiciels de Data Mining analysent les relations et les patterns des données
de transactions stockées en se basant sur des requêtes d’utilisateurs. Plusieurs types de
logiciels analytiques sont disponibles : statistiques, Machine Learning, et réseaux neuronaux.
En général, on dénombre quatre types de relations :
 Classes: Les données stockées sont utilisées pour localiser les données en
groupes prédéterminés. Par exemple, une chaîne de restaurant peut miner
les données d’achat des clients pour déterminer quand ont lieu les visites
des clients et quelles sont leurs commandes habituelles. Cette information
peut être utilisée pour augmenter le trafic en proposant des menus
quotidiens.
 Clusters: Les données sont regroupées par rapport à des relations logiques
ou aux préférences des clients. Par exemple, les données peuvent être
minées pour identifier des segments de marché ou des affinités de clients.
 Associations: Les données peuvent être minées pour identifier des
associations.
 Patterns séquentielles: Les données sont minées pour anticiper les patterns
de comportements et les tendances. Par exemple, un vendeur
d’équipement extérieur peut prédire les probabilités qu’un sac à dos soit
acheté en se basant sur les achats de sac de couchage et de chaussures de
randonnée d’un client.

8. Les Éléments majeurs du Data Mining :


Le Data Mining repose sur cinq éléments majeurs :
 L’extraction, la transformation, et le chargement de données
transactionnelles sur le système de Data Warehouse.
 Le stockage et la gestion de données dans un système de base de données
multidimensionnel.

10
 Fournir l’accès aux données aux analystes de business et aux professionnels
des technologies informatiques.
 Analyser les données grâce à un logiciel applicatif.
 Présenter les données sous un format utile, comme un graphique ou un
tableau.

9. Les 3 propriétés principales du Data Mining


On dénombre 3 propriétés principales du Data Mining:
 La découverte automatique de patterns
Le Data Mining repose sur le développement de modèles. Un modèle utilise un algorithme
pour agir sur un ensemble de données. La notion de découverte automatique se réfère à
l’exécution de modèles de Data Mining. Les modèles de Data Mining peuvent être utilisés
pour miner les données sur lesquelles ils sont bâtis, mais la plupart des types de modèles
peuvent être généralisés à de nouvelles données. Le processus permettant d’appliquer un
modèle à de nouvelles données est appelé scoring.
 La prédiction de résultats probables
De nombreuses formes de Data Mining sont prédictives. Par exemple, un modèle peut
prédire un résultat basé sur l’éducation et d’autres facteurs démographiques. Les prédictions
ont une probabilité associée. Certaines formes de Data Mining prédictif génèrent des règles,
qui sont les conditions pour obtenir un résultat. Par exemple, une règle peut spécifier qu’une
personne dotée d’un bachelor et vivant dans un quartier précis a une probabilité d’avoir un
meilleur salaire que la moyenne régionale.

 La création d’informations exploitables


Le Data Mining permet de dégager des informations exploitables de larges volumes de
données. Par exemple, un planificateur urbain peut utiliser un modèle pour prédire le revenu
en se basant sur les données démographiques pour développer un plan pour les ménages à
bas revenu. Une agence de location de voiture peut utiliser un modèle pour identifier des
segments de consommateurs afin de créer une promotion ciblant les clients à forte valeur.

11
III. Différence entre Big Data et Data Mining  :
Big data et Data mining sont deux concepts différentes. Les deux concernent l’utilisation des
grands ensembles de données pour gérer la collecte ou la création de rapports destinés aux
entreprises ou à d’autres destinataires.
Data mining implique de trouver des modèles intéressants à partir de jeux de données. Big
data implique le stockage et le traitement à grande échelle (souvent à l’échelle d’un
datacenter ) de grands ensembles de données. Ainsi, data mining fait partie du big data(par
exemple, la recherche de modèles d’achat à partir de journaux d’achats volumineux). Toutes
les tâches du Big Data ne sont pas des opérations du data mining (par exemple, indexation à
grande échelle). Toutes les tâches de data mining ne font pas partie du Big Data (par
exemple, l’exploration de données sur un petit fichier pouvant être effectué sur un seul
nœud).

Table de comparaison
Data Mining Big Data

Il se base principalement sur de Il se base principalement sur de


Définition nombreux détails nombreuses relations entre les données

C’est une technique d’analyse de C’est un concept plutot qu’un terme


Définition données précis

Principalement pour la prise de Tableaux de bord et mesures


Résultats décision stratégique prédictives

Types de Données structurées, base de données Données structurées, semi-structurées


données relationnelle et dimensionnelle. et non structurées (en NoSQL)

Vue C’est une vue rapprochée des données C’est la grande image des données

Il exprime « qu’en est-il des


Les données données? » Il exprime « pourquoi des données? »

Principalement l’analyse statistique, se Principalement l’analyse des données,


concentre sur la prédiction et la l’accent est mis sur la prévision et la
découverte de facteurs commerciaux à découverte de facteurs commerciaux à
Analyse petite échelle. grande échelle.

IV. Conclusion  :

12
Data Mining et le Big Data traitent les données mais de différentes manières. La
différence réside dans la façon dont les données sont interprétées. Le Data Mining et le
Big Data traitent des quantités énormes de données.

13

Vous aimerez peut-être aussi