Vous êtes sur la page 1sur 4

########################################Chapitre 1:############################

**********Intoduction********************
Parmis les sources des données massives (données n'est pas claire et non structuré
en Peta octet) : les réseaux sociaux et les réseaux de captuers (IoT, smart city),
l'architecture en génerale est une architecture client serveur, ou le client envoie
des données qui vont etre traiter au niveau du serveur.On parle de stockage qui
utilise des bases de données relationelle mais il ne sont pas capable de stocker
les données massives car ile gére une quantité de données limité et claire stocker
dans des tables.
Les données massive sont stocker dans le cloud ou les serveurs. Le big data et le
cloud ne sont pas néécessairement lié, et chaqu'n peut fonctionner sans l'autre.
On peut utilisé cloud privé, public, ou hébride pour stocker les données. Et il
existe avant le big data.

***Sources des données


Capteurs utilisées dans IoT,meteo...
Messages sur social media
Images/video publiés en ligne
Enregistrement des achat en ligne
Signaux GPS de telehone
fichiers log
....
***<on génere 2,5 trillions octet par jours de données
***90% d'eux sont créer dans les dernier 2 années, et 90% d'eux sont non structuré,
et sont un mélange des données utiles et non utiles.
****use of big data :
it sepose sur les données des utilisateurs pour génrer des d&cisions, des réponses
automatique, elle peut augementé le ventesdes produits, détecter les clients en
danger depasser à un concurrent, détections d'emmotions.

*prevention de fraude sans big data*************prevention de fraude avec big data*


utilisation des systemes basé sur les régles | Un systéme sophistiqué
d'apprentisage automatique ou d'analyse prédictive
si la carte utilisé à asile appartient à |
un utilisateur de paris il vont l'appeler |

renseignement de sécurié : big data peut nous aider à décter les pirates et cyber
attaquants, en anaymasnt les fichier log on peut prédire les attaques.

*les données sont stocker dans des data ware house sous forme des entrpot de
données, ils sont cabale de stocker des diffrents types de données. Mais en les
utilisent plus car ils pose beaucoup de problémes :
Ils sont chere et demandent beaucoup de matérielle et ils ne donnent pas
toujours les performances souhaités.

*Afin de résoudre ce probléme :


les entrepries utilise une soultion big data open source autant Hadoop pour
remplacre les entrepots de donées.
Les solutions Hadoop offre des performances plus rapides tout en réduisant
les fraits de license et d'autres couts.

*Utilisation de BIg data :


Moteurs de recommandation
Analyse et réponse des réseaux sociaux et ventes
Internet des objets

*Les défis de big data :


La qualité des données : les données désordonnées incohérentes et
incompélte . Les données sales couts chere à nettoyer (600B$/year)
La découverte : il est difficile d'analyser kes péta-octet des données à
l'aide des algorithmes pour génre des idées/modéles/concusion...
Stockage des données : Ou stocker?, le systeme de stockage doit etre
facilement évoluer vers le haut ou le bas à la demande (HDFS)
Analytique : l'anlyse est difficile car en ne connait pas le type de données
(img, vid, text..)
Sécurité : Données massives, et en doit iclure l'autentification
d'utilisatuers et le cryptage de ses do nnées

******************************Notion de big data**********************************


Un ensemble de technologie, d'architecture d'outils et de procédures permettant à
une organisation de capter, traiter et analyser de larges quantités et contenus
hétérogènes et changeant et d'en atraire les informations pertinentes à un cout
accessible.
****Pourquoi on l'utilise :
On ne peut pas traiter et stocker les données massive dans des architectures
traditionelle

S2 :
il existe 3 types de données :
*structré : données stockés clair et netoyer bien définis, et stocker dans
les SGBDR relationelle ou bien orienté objet(oracle, postcry), ce sont des données
sous forme des table. On utilise les requetes SQL CROUD (CREATE READ INSERT UPDATE
DELETE)
*semi structué : stocker dans des fichers xml(et devient des base de données)
ou json(comme un tableau).
*non structuré : n'ayant pas une format spécifique, vient des different
sources comme les capteurs, réseaux sociaux, ficher log.... Peut etre stocker. Il
ont un traitement spécifique. On utilise le language NoSQL.

Ecosysteme haadop est un frame work libre et open source ecrit en java, contient un
ensemble de bibileotheques. Sert a crée des application distribuées.
Architecture traditionnelle est une architacture client serveur, et l'architecture
big data est distrubuées càd les données vont etre stocker d'une maniére
distribuées, et ls client sont remplacer par les clusters. La duplication des
données dans le scluster permet de ne pas perdre les données. Mais il existe une
similation de tout ce qu'on put faire dans l'archi traditionelle dans l'archi big
data.

scoop : permet d'eporter et importer les bases de données relationnelles SGBDR.


Map reduce permet de traiter les donnes d'une maniére distribuées.
Spark : fait le traitement des données en streaming.
Kafka : Collection des données au pret de plusieurs sources.
HDFS : un composant haadop qui permet de stokcer les données, mais ce n'est pas un
base de données
yarn : composant de gestion des neouds et clusters, gerer le stockage et artibuer
les meta données pour les HDFS.
****************************************Révision**********************************

*Utilisation d'Apache Kafka : systeme d'ingestion, diffusion, messagerie.


*Qui permet de gérer les données, on l'utilise pour éviter la collisions des
données, son role principalee est le collecte des données.
*Ile est basé sur les architectures distrubiées, a la place des neoudes il ya les
brokers, et contient aussi les topic, les producer(ils collecte les données) et
consummers(ils sont les systeme de traitement et de stockage comme ex:Spark,
MapReduce, HDFS...).
*Ils est résilient : il a de la résistance/tolerance contre les pannes, car il
utilise plusieurs brokers et plusieurs partitions, et il est utilise le facteur de
réplication.
*dons les broker il existe des topics, chaque topic peut appartient à une partition
ou plus, topic est un message qui vient du producteur
*Broker joue le role de leader et les autres sont des followers, si le leader tombe
en panne un des folllowers va prendre sont place. Le role de leader est de gérer le
systeme.
*gestion de consomation des partition par les consommateur ce fait comme suit,
kafka enregistre la consomation de chaque partition à l'aide d'off set, offset est
l'identifioant du topic avec la partition, il identifie quel consomateur va
consommer quelle partie.
*Apache kafka est immuable, on ne peut pas modifié les partie aprés avoir créer les
topics et les partitions, mais on peut ajouter et lire les partitionns. la lecture
commence de la plus ancienne vers la plus nouvelle.
*Architectures Kafka : Peer to Peer : les données vient d'une seule source
(producteur) vers un seuls consomateur, quand le message est consommeé il va etre
supprimer de Kafka, et publish subscribe, càb les producteurs vont publier les
message et les subsecrivbes vont consommer plusieurs en parallele.
Kafka n'est pas capable de gerer plusieurs messages à la fois donc il utilise
Zookeeper, ensemble ils mantient l'information de configuration.

*systémes de traitement sont spark et MapReduce.

*Zookeper : Quand plusieurs tpics vient à la fois dans un systeme distrubué, apache
kafka est n'est pas capable de génrer les offset de chaque topic,

les propriétés de base : acide, base(bisically available softstate(on peut modifer


la base de données) eventually), cap.
hardsate : on doit changer la base de données à chaque transaction(COMMIT)
Hbase stocke les données eroner mais le traiement va etre effectué au niveau des
traiteur.
Identification des fichier Hfile se fait par les lignes.
Hbase est composé de trois tyes de serveurs : region server (lire et écrire les
données), HBase Hamster(gére l’affectation des région), Zookeepper(maintenace t
cordination des clusters).
ous les données Hbase sont stocker dans des HDFS.
Hbase est une base de données, utilise language NOSQL, fonction avec hadoop, à
l’interieur de SQL il existe plusieurs types de nases de données
HDFS vs Hbase : HDFS n'est pas une base de données et on ne peut pas utiliser les
opérations SQL

Vous aimerez peut-être aussi