Vous êtes sur la page 1sur 13

ISTA Sala al Jadida

TDI 11

LE BIG DATA

Big Data

TDI 11 | ISTA Sala al Jadida

RAPPORT RDIG PAR :


ALAOUI OUSSAIL
BARNOU MERIAM
DERMOUMI SAD
EL BNAOUI MOUHAMMED-ALI
HOURRI SARA
MOURCHID MOHAMED KAMAL
RABAI HICHAM

http://www.universmaghreb.com/wp-content/uploads/2012/11/logo-ofpptmaroc.gif

Sommaire
Introduction.....................................................................................................2
Dfinition du Big Data......................................................................................2
Caractristiques du Big Data.......................................................................3
La vlocit................................................................................................3
Le volume.................................................................................................3
1

Big Data

TDI 11 | ISTA Sala al Jadida

La varit.................................................................................................4
Les dimensions de lusage du Big Data........................................................4
La totalit.................................................................................................4
La frquence.............................................................................................4
La dpendance.........................................................................................4
Lexploration.............................................................................................4
Lexistence du Big Data...............................................................................4
Stockage de donnes...............................................................................5
Puissance de traitement...........................................................................6
Disponibilit des donnes........................................................................7
Technologies utiliss avec le Big Data.............................................................8
Hadoop.........................................................................................................8
Map/Reduce.................................................................................................8
Big Data en Pratique........................................................................................9
Recherche scientifique.................................................................................9
Gouvernements............................................................................................9
Secteur Priv................................................................................................9
Webographie..................................................................................................11

Big Data

TDI 11 | ISTA Sala al Jadida

Introduction
Laube du dveloppement technologique que connait le 21 me sicle a donn
plusieurs opportunits aux entreprises, elle leurs a permis damliorer leur
savoir-faire des choses. Ils ont dornavant une plus grande chance dinnover
et dominer leurs marchs respectifs sils utilisent des moyens adquats.
Ceci cr une nouvelle forme de comptition : chaque entreprise essaye
dutiliser tout ce qui dernier et moderne, la fois pour avancer et pour ne
pas ramer derrire la mode. Le succs des entreprises dpend dsormais de
leur capacit rester jour. On parle de veille technologique.
Selon une tude performe par le Bureau Europen de Brevetage,
approximativement, 80% des informations techniques et scientifiques
peuvent tre extraits des documents de brevets seuls. Ces brevets sont aussi
une source unique dinformations puisquils sont rcolts, numriss,
groups et publis selon une norme convenue au niveau international ; en
plus, ils permettent doffrir un point de vu comptitif des points forts et
stratgies utiliss par les comptiteurs.
Depuis que le systme des brevets fut tablit, plus de 60 millions
applications de brevets ont t publis. Il serait donc impossible de trouver
et analyser des documents pertinents manuellement, et par consquent, on
a d voir plusieurs nouveaux outils qui le permettent apparaitre dans le
march et qui furent instantanment adopts. Ces outils, entre autres,
forment dans ce quon appelle le Big Data.

Dfinition du Big Data


Le Big Data, littralement Grosses Donnes, aussi appel Megadonnes, est
vague comme terme singulier; il dsigne une accumulation gigantesque,
voire infinie de toute sorte donnes souvent non structures. Un ensemble
de donns dont la croissance est tellement rapide, et qui sont tellement
massifs, brutes et dsorganiss, quil est pratiquement impossible de les
capturer, stocker, grer ou analyser grce aux outils traditionnels de gestion
de base de donnes.
LIDC (International Data Corporation), un bureau de conseil, analyse et
tudes amricain, spcialis en veille technologique, tlcommunication et
3

Big Data

TDI 11 | ISTA Sala al Jadida

technologies de consommateurs, dcrit les Big Data comme tant une


nouvelle gnration de technologies et darchitectures conus pour extraire
des valeurs conomiques partir de grands volumes de donnes varis,
permettant une grande vlocit de capture, de dcouverte et danalyse.

Caractristiques du Big Data


Le Big Data se distingue avec 3 caractristiques principales, souvent appels
les 3 Vs du Big Data:

La vlocit
Le Big Data se caractrise avec la vitesse. Selon IBM, on gnre chaque jour
2,5 quintillions doctets de donnes chaque jour ; plus de 12 Traoctets de
tweet, plus de 25 Traoctets de contenu Facebook et 144000 heures de
vidos sont uploads sur Youtube chaque jour.

Big Data

TDI 11 | ISTA Sala al Jadida

On ne parle plus de donns par lot ou en gros, mais dun flux constant et
rapide de donnes, dit Streaming de donnes.

Le volume
Le Big Data sont gnralement massifs en taille, tellement quon ne peut pas
les stocker dans un seul disque dur. On ne parle pas ici de traoctets ni de
exaoctets mais pltot de ztaoctets (1021 octets)

La varit
Le Big Data sont varis, que a soit de type ou de contenu, on peut y avoir
des textes et documents tout comme on peut y trouver des images, du son
ou des vidos. Les donnes ne sont plus homognes et donc moins aptes
dtre structurs.

Les dimensions de lusage du Big Data


On aurait pu laisser toutes ces donnes saccumuler sans quon y prte trop
dimportance, mais on ne le fait pas : en tant qutres humain, on se
retrouve obliger de profiter au maximum de tout ce quon a. Mais on peut
diffrer de la manire dont on interagit avec les Big Data. On nomme cidessous 4 raisons pour lesquels une personne serait intresse au Big Data :

La totalit
Une personne a un dsire pour traiter et analyser les donnes disponibles, il
veut trouver la corrlation et la causation des choses, il veut sinspirer et il
veut tout savoir.

La frquence
Une personne dsire augmenter ses taux danalyse pour objectif de gnrer
plus de certitude et dintelligence.

La dpendance
Une personne a besoin de balancer son investissement dans les technologies
qui existes et qui pourraient exister. Trouver ce qui lui permettrait de mieux
faire ce quil fait bien ou le faire avec moins deffort. On parle de capacit
dadopter de nouvelles techniques.

Big Data

TDI 11 | ISTA Sala al Jadida

Lexploration
Une personne applique des approches analytiques tout. Il veut voir et
essayer toutes les alternatives et juger ce qui rpondrait mieux ses
requtes.

Lexistence du Big Data


Il ya 3 raison pour lesquels le Big Data peut exister aujourdhui:
1. Laugmentation de la capacit de stockage.
2. Laugmentation de la puissance de traitement.
3. La disponibilit de donnes.

Stockage de donnes
Le stockage de donnes numrique sest vu rapidement accroitre grce aux
nouvelles technologies, et, selon Hilbert et Lpez, est largement adopt vers
les annes 2000 au lieu de supports de stockages analogiques (cahiers et
classeurs, filmes, cassettes) vu sa portabilit et sa compacit.
Les disques durs modernes peuvent atteindre en taille jusqu 8 traoctets
chacun, un seul peut stocker toute la discographie musicale sur terre.

Adoption de supports de stockage numriques

Analogiques

Numriques

Selon lIDC, 130 xaoctets de donnes ont t cres et stocks en 2005, et


ce nombre a mont exponentiellement 1227 xaoctets en 2010, selon la
6

Big Data

TDI 11 | ISTA Sala al Jadida

SINTEF, une organisation de recherche scientifique, ce nombre a encore


mont 4400 xaoctets.

Donns gnrs et stock

Donns gnrs et stocks, en xaoctets

Puissance de traitement
Tout comme la capacit de stockage, la puissance de traitement de donnes
a augment considrablement dans les dernires annes. La vitesse des
processeurs et devenue un point de vente dans beaucoup de diffrents
appareils et est dj capable de traiter toute sortes de donnes.

Big Data

TDI 11 | ISTA Sala al Jadida

Evolution des processeurs au cours des annes (en gnral)

Millions d'Instructions par second

Evolutions des processeurs au cours des annes (en dtail)

PC

Serveurs

Consoles de jeux vidos

Tlphones et Smartphones

Calculatrices de poche

Super-ordinateurs

Disponibilit des donnes


Il ft une re o les donnes devaient tre gnres par les employs des
entreprises, dornavant, avec linternet, les utilisateurs eux-mmes entrent
leurs propres donnes. Ya mmes les machines qui sont entrain de collecter
des donns 24/7.
Les organisations de tous secteurs ont au moins 100 traoctets de donnes
stocks. Aux tats-Unis, plusieurs ont plus dun ptaoctet de donnes.
8

Big Data

TDI 11 | ISTA Sala al Jadida

La disponibilit des donnes chez les organisations et entreprises selon les secteurs

Fabrications discrets

Gouvernement

Communications et mdia

Traitement de matires

Banques

Soins de sant

Scurit

Services professionels

Ventes

Education

Assurance

Transportation

Ventes en gros

Utilits

Ressources industrielles

Services de consommateur

Construction

Selon la SINTEF, plus de 90% de toutes les donnes au monde, ont t


gnr dans les deux dernires annes. Dont une bonne partie fut cre par
les utilisateurs partout sur Internet.

Technologies utiliss avec le Big Data


tant massif, Big Data ne peut tre trait avec les processus traditionnels, on
a d donc introduire de nouveaux concepts et technologies pour stocker,
grer et traiter ces donnes. Parmi ces outils, on trouve deux qui sont plus
rpandus et plus utiliss dans le march, souvent en conjonction : Hadoop et
Map/Reduce.

Hadoop
Hadoop est un framework (un ensemble doutils) permettant de faire
marcher des applications au niveau de larges clusters qui consistent de
plusieurs machines consommatrices.
Principalement, le Hadoop fait repartir des donnes, et attribut chaque
partie une unit de traitement. Autrement dit, au lieu de ramener les
donnes vers une unit de traitement (serveurs, processeurs), il ramne
plusieurs de cette dernire vers les donnes. On appelle ce processus la
distribution de donnes.
9

Big Data

TDI 11 | ISTA Sala al Jadida

Il fourni aux applications dune manire transparente aux applications la


fois la fiabilit et le mouvement de donnes. Il utilise un systme de fichier
de distribu HDFS permettant un transfre de donnes rapide et sans
couture.
Pour accomplir son travail, le Hadoop dpend fortement sur un algorithme de
rpartition de donnes comme le Map/Reduce.

Map/Reduce
Comme mentionn ci-dessus, le Map/Reduce est un algorithme qui sert
sparer les donnes en plusieurs parties minuscules qui peuvent tre trait
par des processeurs uniques. Mais il change tellement de concepts de
programmation quil est devenu plus quun simple outil, mais tout un
paradigme une manire de penser : Les programmeurs dalgorithmes
traitant les donnes crivent tout leurs code avec Map/Reduce comme axe
principale.
Le Map/Reduce consiste, dans une analogie simple, faire une table de
matire de toutes les donnes disponibles. Il indique quelles donnes chaque
serveur contient. Comme , si lun des units de traitement devait utiliser
des donnes non-disponible chez lui, il pourra, grce Hadoop, les
demander spcifiquement en utilisant la la table de matires gnre par
Map/Reduce.

Big Data en Pratique


Alors que la majorit des activits au march jusqu maintenant ne font
quexprimenter et tudier les technologies du Big Data, plusieurs sont dj
oprationnels et contribuent leurs secteurs respectifs.

Recherche scientifique
Le Large Hadron Collider utilise plus de 150 millions de capteurs qui
enregistrent un taux de 40 fois par secondes. Les expriences qui
consistent de collisions de noyaux, seffectuent environs 600 millions de fois
par seconds, filtrs, comptent vers 100 collisions dintrt par seconde. Le
LHC seul compte plus de 200 ptaoctets de donnes chaque anne.
Le Square Kilometer Array est un tlescope qui consiste de millions
dantennes et qui est d 2024. Ces antennes sont prvues de ramasser 14
xaoctets de donnes et enregistrer un ptaoctet chaque jour.
10

Big Data

TDI 11 | ISTA Sala al Jadida

Alors que le gnome humain a d prendre 10 annes tudier et traiter, on


peut le faire maintenant en moins dune journe.
Le centre de simulation du climat de la NASA (Le NCCS), stock 32 ptaoctets
dobservations et simulation de climat.

Gouvernements
En 2012, Ladministration de Barack Obama a annonc linitiative de
Recherche et Dveloppement en Big Data, pour explorer combien le Big Data
peut tre utilis pour rsoudre les problmes du gouvernement. Linitiative
est compose de 84 programmes de Big Data diffrents distribus travers
six dpartements.
Le gouvernement amricain est propritaire des six meilleurs superordinateurs au monde.
Le Data Center des Utah (UDC) est un centre de donns actuellement en
construction par la Agence de Scurit Nationale des tats-unis (NSA). Une
fois fini, il pourra stocker et traiter un grand nombre de donnes rcolts par
la NSA sur internet. Le montant exact de stockage est inconnu mais des
communiqus indiquent que a se comptera en xaoctets.

Secteur Priv

Ebay utilise deux Datacenters 7.5 ptaoctets et 40 ptaoctets, ainsi

quun cluster Hadoop de 40 ptaoctets pour les recherches,


recommandations et marketing.
Facebook gre plus de 40 billions de photos de ses utilisateurs.
Amazon.com gre des millions doprations chaque jour, ainsi que les
requtes de plus dun demi-million the vendeurs tierces.
Windermere Real Estate, une agence dimmobilier amricaine, utilise
les signaux GPS d peu prs 100 millions de conducteurs pour aider les gens
trouver un domicile proche leurs activits quotidiennes.
Selon des estimations, le volume de donnes gres par les
entreprises partout dans le monde, double chaque 1,2 anne.

11

Big Data

TDI 11 | ISTA Sala al Jadida

Webographie
1. Big Data for enterprise
http://www.oracle.com/us/products/database/big-data-for-enterprise-519135.pdf
2. Big Data
https://www.ida.gov.sg/~/media/Files/Infocomm
%20Landscape/Technology/TechnologyRoadmap/BigData.pdf

3. Big Data tutorial


http://www.planetdata.eu/sites/default/files/presentations/Big_Data_Tutorial_part4.pdf

4. Big Data: Big Opportunities to Create Business Value


http://www.emc.com/microsites/cio/articles/big-data-big-opportunities/LCIABigData-Opportunities-Value.pdf

5. Patrick Schwerdtfeger What is Big Data? Big Data Explained


https://www.youtube.com/watch?v=c4BwefH5Ve8

6. Digital Universe Expands at an Alarming Rate


http://www.cioinsight.com/it-strategy/storage/slideshows/digital-universeexpands-at-an-alarming-rate.html

7. Wikipedia Big Data


http://en.wikipedia.org/wiki/Big_data

8. SAS What is Big Data


http://www.sas.com/en_us/insights/big-data/what-is-big-data.html

9. Martin Hilbert and Priscila Lpez The Worlds Technological Capacity


to Store, Communicate, and Compute Information
http://www.sciencemag.org/content/332/6025/60.full

12

Vous aimerez peut-être aussi