Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Groupe GL 4 :
Ramdani Rayan
Rahmani Adel
Yahiaoui Ahcene
1
I. Big Data
L’explosion quantitative des données numériques a obligé les chercheurs à trouver de
nouvelles manières de voir et d’analyser le monde. Il s’agit de découvrir de nouveaux
ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et
la présentation des données. Ainsi est né le « Big Data ». Il s’agit d’un concept permettant
de stocker un nombre indicible d’informations sur une base numérique. Selon les archives
de la bibliothèque numérique de l’Association for Computing Machinery (ou ACM) dans des
articles scientifiques concernant les défis technologiques à relever pour visualiser les
« grands ensembles de données », cette appellation est apparue en octobre 1997.
2
la troisième révolution industrielle, laquelle est en fait celle de « l’information ». Dans tous
les cas, le Big Data est considéré comme une source de bouleversement profond de la
société.
3
3) Les évolutions technologiques derrière le Big Data
Les créations technologiques qui ont facilité la venue et la croissance du Big Data peuvent
globalement être catégorisées en deux familles : d’une part, les technologies de stockage,
portées particulièrement par le déploiement du Cloud Computing. D’autre part, l’arrivée
de technologies de traitement ajustées, spécialement le développement de nouvelles bases
de donnes adaptes aux données non-structurées (Hadoop) et la mise au point de modes de
calcul à haute performance (MapReduce).
Il existe plusieurs solutions qui peuvent entrer en jeu pour optimiser les temps de
traitement sur des bases de données géantes à savoir :
Les bases de données NoSQL (comme MongoDB, Cassandra ou Redis), les infrastructures du
serveur pour la distribution des traitements sur les nœuds et le stockage des données en
mémoire :
La première solution permet d’implémenter les systèmes de stockage considérés comme
plus performants que le traditionnel SQL pour l’analyse de données en masse (orienté
clé/valeur, document, colonne ou graphe).
La deuxième est aussi appelée le traitement massivement parallèle. Le Framework Hadoop
en est un exemple. Celui-ci combine le système de fichiers distribué HDFS, la
base NoSQL HBase et l’algorithme MapReduce.
Quant à la dernière solution, elle accélère le temps de traitement des requêtes.
i.
Hadoop définition
4
Hadoop est un framework logiciel open source permettant de stocker des données, et de
lancer des applications sur des grappes de machines standards. Cette solution offre un espace
de stockage massif pour tous les types de données, une immense puissance de traitement et
la possibilité de prendre en charge une quantité de tâches virtuellement illimitée. Basé sur
Java, ce framework fait partie du projet Apache, sponsorisé par Apache Software Foundation.
Grâce au
framework MapReduce, il permet de traiter les immenses quantités de données. Plutôt que
de devoir déplacer les données vers un réseau pour procéder au traitement, MapReduce
permet de déplacer directement le logiciel de traitement vers les données.
En 2008, Yahoo proposa Hadoop sous la forme d’un projet Open Source. Aujourd’hui, le
framework et son écosystème de technologies sont gérés et maintenus par l’association non
lucrative Apache Software Foundation, une communauté mondiale de développeurs de
logiciels et de contributeurs.
Après quatre ans de développement au sein de la communauté Open Source, Hadoop 1.0 fut
proposé au public à partir de novembre 2012 dans le cadre du projet Apache, sponsorisé par
la Apache Software Foundation. Depuis lors, le framework n’a cessé d’être développé et mis à
jour.
La version
deuxième version Hadoop 2 a permis d’améliorer la gestion de ressource et la planification.
Elle comporte une option de système fichier à haute disponibilité, et prend en charge
5
Microsoft Windows et d’autres composants afin d’étendre la polyvalence du framework pour
le traitement et l’analyse de données. Hadoop est actuellement proposé en version 2.6.5.
ii. Pourquoi Hadoop est important ?
Les avantages apportés aux entreprises par Hadoop sont nombreux. Grâce à ce framework
logiciel, il est possible de stocker et de traiter de vastes quantités de données rapidement.
Face à l’augmentation en hausse du volume de données et à leur diversification,
principalement liée aux réseaux sociaux et à l’internet des objets, il s’agit d’un avantage non
négligeable.
De même, le modèle de calcul distribué d’Hadoop permet de traiter rapidement le Big Data.
Plus le nombre de nœuds de calcul utilisés est important, plus la puissance de traitement est
élevée. Les données et les applications traitées sont protégées contre les échecs hardware.
Si un nœud tombe en panne, les tâches sont directement redirigées vers d’autres nœuds
pour s’assurer que le calcul distribué n’échoue pas. De multiples copies de toutes les
données sont stockées automatiquement.
Contrairement aux bases de données relationnelles traditionnelles, il est inutile de traiter les
données au préalable avant de les stocker. Il est possible de stocker autant de données que
vous le souhaitez et décider plus tard de la manière de les utiliser. Ceci regroupe les données
non structurées comme le texte, les images et les vidéos.
iii. les principaux usages d’Hadoop en entreprise:
Hadoop est utilisé par de nombreuses entreprises en guise de plateforme Big Data
Le stockage low-cost et l’archive de données.
La découverte et l’analyse.
Prendre en charge le stockage de données dans le format original.
Complémenter les Data Warehouses.
Moteur de recommandations.
Stocker les transactions des objets connectés.
6
En parallèle à ces principaux participants, de nombreuses PME spécialisées dans le Big Data
sont apparues.
7
préalable, et d'en extraire un maximum de connaissances. Le Data Mining est également
surnommé Knowledge Discovery
3. Qu’est ce qu’un data mining ?
Les logiciels Data Mining font partie des outils analytiques utilisés pour l’analyse de données.
Ils permettent aux utilisateurs d’analyser des données sous différents angles, de les
catégoriser, et de résumer les relations identifiées. Techniquement, le Data Mining est le
procédé permettant de trouver des corrélations ou des patterns entre de nombreuses bases
de données relationnelles.
4. Les composants du Data Mining :
a) Données
Les données sont des faits, des nombres, ou des textes pouvant être traités par un
ordinateur. Parmi ces données, on distingue :
Les données opérationnelles ou transactionnelles telles que les données
de ventes, de coûts, d’inventaire, de tickets de caisse ou de comptabilité.
Les données non opérationnelles, telles que les ventes industrielles, les
données prévisionnelles, les données macro-économiques.
Les métadonnées, à savoir les données concernant les données elles-
mêmes, telles que les définitions d’un dictionnaire de données.
b) Informations
Les patterns, associations et relations entre toutes ces données permettent d’obtenir des
informations. Par exemple, l’analyse des données de transaction d’un point de vente permet
de recueillir des informations sur les produits qui se vendent, et à quel moment ont lieu ces
ventes.
c) Savoir
Les informations peuvent être converties en savoir à propos de patterns historiques ou des
tendances futures. Par exemple, l’information sur les ventes au détail d’un supermarché
peut être analysée dans le cadre d’efforts promotionnels, pour acquérir un savoir au sujet
des comportements d’acheteurs. Ainsi, un producteur peut déterminer quels produits
doivent faire l’objet d’une promotion à l’aide du Data Mining.
8
5. Les méthodes de Data Mining :
On dénombre cinq variétés du Data Mining :
Association : chercher des patterns au sein desquelles un événement est
lié à un autre événement.
Analyse de séquence : chercher des patterns au sein desquelles un
événement mène à un autre événement plus tardif.
Classification : chercher de nouvelles patterns, quitte à changer la façon
dont les données sont organisées.
Clustering : trouver et documenter visuellement des groupes de faits
précédemment inconnus.
Prédiction : découvrir des patterns de données pouvant mener à des
prédictions raisonnables sur le futur. Ce type de data mining est aussi
connu sous le nom d’analyse prédictive.
6. Les secteurs du Data Mining et son utilité :
Le Data Mining est actuellement principalement utilisé par les entreprises focalisées sur les
consommateurs, dans les secteurs du commerce au détail, de la finance, de la
communication, ou du data mining marketing. Les techniques de Data Mining sont
également utilisées dans différents secteurs de recherche, tels que les mathématiques, la
cybernétique ou la génétique.
Grâce au Data Mining on peut :
Suggestions de produits.
9
Analyse d’images.
Permettre aux consommateurs de contrôler leur empreinte numérique.
Empêcher l’évasion fiscale avec le Data Mining.
Augmenter le chiffre d’affaire des entreprise.
Recruter les meilleurs employés.
10
Fournir l’accès aux données aux analystes de business et aux professionnels
des technologies informatiques.
Analyser les données grâce à un logiciel applicatif.
Présenter les données sous un format utile, comme un graphique ou un
tableau.
11
III. Différence entre Big Data et Data Mining :
Big data et Data mining sont deux concepts différentes. Les deux concernent l’utilisation des
grands ensembles de données pour gérer la collecte ou la création de rapports destinés aux
entreprises ou à d’autres destinataires.
Data mining implique de trouver des modèles intéressants à partir de jeux de données. Big
data implique le stockage et le traitement à grande échelle (souvent à l’échelle d’un
datacenter ) de grands ensembles de données. Ainsi, data mining fait partie du big data(par
exemple, la recherche de modèles d’achat à partir de journaux d’achats volumineux). Toutes
les tâches du Big Data ne sont pas des opérations du data mining (par exemple, indexation à
grande échelle). Toutes les tâches de data mining ne font pas partie du Big Data (par
exemple, l’exploration de données sur un petit fichier pouvant être effectué sur un seul
nœud).
Table de comparaison
Data Mining Big Data
Vue C’est une vue rapprochée des données C’est la grande image des données
IV. Conclusion :
12
Data Mining et le Big Data traitent les données mais de différentes manières. La
différence réside dans la façon dont les données sont interprétées. Le Data Mining et le
Big Data traitent des quantités énormes de données.
13