Académique Documents
Professionnel Documents
Culture Documents
**********Intoduction********************
Parmis les sources des données massives (données n'est pas claire et non structuré
en Peta octet) : les réseaux sociaux et les réseaux de captuers (IoT, smart city),
l'architecture en génerale est une architecture client serveur, ou le client envoie
des données qui vont etre traiter au niveau du serveur.On parle de stockage qui
utilise des bases de données relationelle mais il ne sont pas capable de stocker
les données massives car ile gére une quantité de données limité et claire stocker
dans des tables.
Les données massive sont stocker dans le cloud ou les serveurs. Le big data et le
cloud ne sont pas néécessairement lié, et chaqu'n peut fonctionner sans l'autre.
On peut utilisé cloud privé, public, ou hébride pour stocker les données. Et il
existe avant le big data.
renseignement de sécurié : big data peut nous aider à décter les pirates et cyber
attaquants, en anaymasnt les fichier log on peut prédire les attaques.
*les données sont stocker dans des data ware house sous forme des entrpot de
données, ils sont cabale de stocker des diffrents types de données. Mais en les
utilisent plus car ils pose beaucoup de problémes :
Ils sont chere et demandent beaucoup de matérielle et ils ne donnent pas
toujours les performances souhaités.
S2 :
il existe 3 types de données :
*structré : données stockés clair et netoyer bien définis, et stocker dans
les SGBDR relationelle ou bien orienté objet(oracle, postcry), ce sont des données
sous forme des table. On utilise les requetes SQL CROUD (CREATE READ INSERT UPDATE
DELETE)
*semi structué : stocker dans des fichers xml(et devient des base de données)
ou json(comme un tableau).
*non structuré : n'ayant pas une format spécifique, vient des different
sources comme les capteurs, réseaux sociaux, ficher log.... Peut etre stocker. Il
ont un traitement spécifique. On utilise le language NoSQL.
Ecosysteme haadop est un frame work libre et open source ecrit en java, contient un
ensemble de bibileotheques. Sert a crée des application distribuées.
Architecture traditionnelle est une architacture client serveur, et l'architecture
big data est distrubuées càd les données vont etre stocker d'une maniére
distribuées, et ls client sont remplacer par les clusters. La duplication des
données dans le scluster permet de ne pas perdre les données. Mais il existe une
similation de tout ce qu'on put faire dans l'archi traditionelle dans l'archi big
data.
*Zookeper : Quand plusieurs tpics vient à la fois dans un systeme distrubué, apache
kafka est n'est pas capable de génrer les offset de chaque topic,