Académique Documents
Professionnel Documents
Culture Documents
TDI 11
LE BIG DATA
Big Data
http://www.universmaghreb.com/wp-content/uploads/2012/11/logo-ofpptmaroc.gif
Sommaire
Introduction.....................................................................................................2
Dfinition du Big Data......................................................................................2
Caractristiques du Big Data.......................................................................3
La vlocit................................................................................................3
Le volume.................................................................................................3
1
Big Data
La varit.................................................................................................4
Les dimensions de lusage du Big Data........................................................4
La totalit.................................................................................................4
La frquence.............................................................................................4
La dpendance.........................................................................................4
Lexploration.............................................................................................4
Lexistence du Big Data...............................................................................4
Stockage de donnes...............................................................................5
Puissance de traitement...........................................................................6
Disponibilit des donnes........................................................................7
Technologies utiliss avec le Big Data.............................................................8
Hadoop.........................................................................................................8
Map/Reduce.................................................................................................8
Big Data en Pratique........................................................................................9
Recherche scientifique.................................................................................9
Gouvernements............................................................................................9
Secteur Priv................................................................................................9
Webographie..................................................................................................11
Big Data
Introduction
Laube du dveloppement technologique que connait le 21 me sicle a donn
plusieurs opportunits aux entreprises, elle leurs a permis damliorer leur
savoir-faire des choses. Ils ont dornavant une plus grande chance dinnover
et dominer leurs marchs respectifs sils utilisent des moyens adquats.
Ceci cr une nouvelle forme de comptition : chaque entreprise essaye
dutiliser tout ce qui dernier et moderne, la fois pour avancer et pour ne
pas ramer derrire la mode. Le succs des entreprises dpend dsormais de
leur capacit rester jour. On parle de veille technologique.
Selon une tude performe par le Bureau Europen de Brevetage,
approximativement, 80% des informations techniques et scientifiques
peuvent tre extraits des documents de brevets seuls. Ces brevets sont aussi
une source unique dinformations puisquils sont rcolts, numriss,
groups et publis selon une norme convenue au niveau international ; en
plus, ils permettent doffrir un point de vu comptitif des points forts et
stratgies utiliss par les comptiteurs.
Depuis que le systme des brevets fut tablit, plus de 60 millions
applications de brevets ont t publis. Il serait donc impossible de trouver
et analyser des documents pertinents manuellement, et par consquent, on
a d voir plusieurs nouveaux outils qui le permettent apparaitre dans le
march et qui furent instantanment adopts. Ces outils, entre autres,
forment dans ce quon appelle le Big Data.
Big Data
La vlocit
Le Big Data se caractrise avec la vitesse. Selon IBM, on gnre chaque jour
2,5 quintillions doctets de donnes chaque jour ; plus de 12 Traoctets de
tweet, plus de 25 Traoctets de contenu Facebook et 144000 heures de
vidos sont uploads sur Youtube chaque jour.
Big Data
On ne parle plus de donns par lot ou en gros, mais dun flux constant et
rapide de donnes, dit Streaming de donnes.
Le volume
Le Big Data sont gnralement massifs en taille, tellement quon ne peut pas
les stocker dans un seul disque dur. On ne parle pas ici de traoctets ni de
exaoctets mais pltot de ztaoctets (1021 octets)
La varit
Le Big Data sont varis, que a soit de type ou de contenu, on peut y avoir
des textes et documents tout comme on peut y trouver des images, du son
ou des vidos. Les donnes ne sont plus homognes et donc moins aptes
dtre structurs.
La totalit
Une personne a un dsire pour traiter et analyser les donnes disponibles, il
veut trouver la corrlation et la causation des choses, il veut sinspirer et il
veut tout savoir.
La frquence
Une personne dsire augmenter ses taux danalyse pour objectif de gnrer
plus de certitude et dintelligence.
La dpendance
Une personne a besoin de balancer son investissement dans les technologies
qui existes et qui pourraient exister. Trouver ce qui lui permettrait de mieux
faire ce quil fait bien ou le faire avec moins deffort. On parle de capacit
dadopter de nouvelles techniques.
Big Data
Lexploration
Une personne applique des approches analytiques tout. Il veut voir et
essayer toutes les alternatives et juger ce qui rpondrait mieux ses
requtes.
Stockage de donnes
Le stockage de donnes numrique sest vu rapidement accroitre grce aux
nouvelles technologies, et, selon Hilbert et Lpez, est largement adopt vers
les annes 2000 au lieu de supports de stockages analogiques (cahiers et
classeurs, filmes, cassettes) vu sa portabilit et sa compacit.
Les disques durs modernes peuvent atteindre en taille jusqu 8 traoctets
chacun, un seul peut stocker toute la discographie musicale sur terre.
Analogiques
Numriques
Big Data
Puissance de traitement
Tout comme la capacit de stockage, la puissance de traitement de donnes
a augment considrablement dans les dernires annes. La vitesse des
processeurs et devenue un point de vente dans beaucoup de diffrents
appareils et est dj capable de traiter toute sortes de donnes.
Big Data
PC
Serveurs
Tlphones et Smartphones
Calculatrices de poche
Super-ordinateurs
Big Data
La disponibilit des donnes chez les organisations et entreprises selon les secteurs
Fabrications discrets
Gouvernement
Communications et mdia
Traitement de matires
Banques
Soins de sant
Scurit
Services professionels
Ventes
Education
Assurance
Transportation
Ventes en gros
Utilits
Ressources industrielles
Services de consommateur
Construction
Hadoop
Hadoop est un framework (un ensemble doutils) permettant de faire
marcher des applications au niveau de larges clusters qui consistent de
plusieurs machines consommatrices.
Principalement, le Hadoop fait repartir des donnes, et attribut chaque
partie une unit de traitement. Autrement dit, au lieu de ramener les
donnes vers une unit de traitement (serveurs, processeurs), il ramne
plusieurs de cette dernire vers les donnes. On appelle ce processus la
distribution de donnes.
9
Big Data
Map/Reduce
Comme mentionn ci-dessus, le Map/Reduce est un algorithme qui sert
sparer les donnes en plusieurs parties minuscules qui peuvent tre trait
par des processeurs uniques. Mais il change tellement de concepts de
programmation quil est devenu plus quun simple outil, mais tout un
paradigme une manire de penser : Les programmeurs dalgorithmes
traitant les donnes crivent tout leurs code avec Map/Reduce comme axe
principale.
Le Map/Reduce consiste, dans une analogie simple, faire une table de
matire de toutes les donnes disponibles. Il indique quelles donnes chaque
serveur contient. Comme , si lun des units de traitement devait utiliser
des donnes non-disponible chez lui, il pourra, grce Hadoop, les
demander spcifiquement en utilisant la la table de matires gnre par
Map/Reduce.
Recherche scientifique
Le Large Hadron Collider utilise plus de 150 millions de capteurs qui
enregistrent un taux de 40 fois par secondes. Les expriences qui
consistent de collisions de noyaux, seffectuent environs 600 millions de fois
par seconds, filtrs, comptent vers 100 collisions dintrt par seconde. Le
LHC seul compte plus de 200 ptaoctets de donnes chaque anne.
Le Square Kilometer Array est un tlescope qui consiste de millions
dantennes et qui est d 2024. Ces antennes sont prvues de ramasser 14
xaoctets de donnes et enregistrer un ptaoctet chaque jour.
10
Big Data
Gouvernements
En 2012, Ladministration de Barack Obama a annonc linitiative de
Recherche et Dveloppement en Big Data, pour explorer combien le Big Data
peut tre utilis pour rsoudre les problmes du gouvernement. Linitiative
est compose de 84 programmes de Big Data diffrents distribus travers
six dpartements.
Le gouvernement amricain est propritaire des six meilleurs superordinateurs au monde.
Le Data Center des Utah (UDC) est un centre de donns actuellement en
construction par la Agence de Scurit Nationale des tats-unis (NSA). Une
fois fini, il pourra stocker et traiter un grand nombre de donnes rcolts par
la NSA sur internet. Le montant exact de stockage est inconnu mais des
communiqus indiquent que a se comptera en xaoctets.
Secteur Priv
11
Big Data
Webographie
1. Big Data for enterprise
http://www.oracle.com/us/products/database/big-data-for-enterprise-519135.pdf
2. Big Data
https://www.ida.gov.sg/~/media/Files/Infocomm
%20Landscape/Technology/TechnologyRoadmap/BigData.pdf
12