Vous êtes sur la page 1sur 9

Abalo Awadi K.

Data Scientiste Junior

Intoduction à Big Data et Machine learning

Table des matières ¶


1. Généralités sur : données, informations et connaissances
2. Big Data: C’est Quoi?
3. Sources de Big Data
4. Caractéristiques du Big Data
5. Plate-forme de Big Data

Généralités sur : données, informations et connaissances


Donnée: enregistrement d’une observation, objet, fait destiné à être interprété, traité par
l’homme.

La donnée est généralement objective

Exemples :
température =35°
âge = 2 mois

Information: signification attachée à la donnée ou à un ensemble de données


par association.
L’information est généralement subjective, définie selon un contexte

Exemples:

(température=35°) : temps chaud


(âge=2 mois) : nourrisson

Une connaissance est une information nouvelle, apprise par association d’informations de base, de
règles, de raisonnement, d’expérience, d’expertise, etc.

La donnée est généralement objective, peut être subjective.


Exemple :
temps chaud et enfant nourrisson alors risque de déshydratation

Le BIG DATA: C’est Quoi?


Le Big Data, veut dire littéralement:
grosses données,
méga données, ou
données massives.

Il désigne l’ensemble de données devenu si volumineux qu’il dépasse:

l’intuition,
les capacités humaines d’analyse,
et remet en cause l’utilisation des outils informatiques classiques.

Big Data: Plusieurs définitions


le Big Data, Mega données en français et une combinaison de données structurées semi-structuré
et non structurées collectés par des organisations qui peuvent être exploiter pour obtenir des
informations et utilisé dans des projets d'apprentissage automatique appeler machine learning de
modélisation prédictive et d'autres applications analytique avances

« Données de très grande taille, dont la manipulation et gestion présentent des enjeux du point de
vue logistiques»

« Englobe tout terme pour décrire toute collection de données tellement volumineuse et complexe
qu’il devient difficile de la traiter en utilisant des outils classiques de traitement d’applications»

« collections de données dont la taille dépasse la capacité de capture, stockage, gestion et analyse
des systèmes de gestion de bases de données classiques»

rôle du Big Data


Les Entreprise utilise la masse de données accumulé dans leur système pour

améliorer leur opération


fournir un meilleur service à la clientèle
créer des campagnes de marketing personnalisé mais souvent foireuses basé sur les préférences
spécifique des clients et
en fin augmenter la rentabilité

Des entreprises qui utilisent le Big Data detienent un avantage concurrentiel potentiel sur celles qui ne
le font pas car elles sont en mesure de prendre des décisions commercial plus rapide et plus éclairé à
condition d'utiliser les données efficacement.

Par exemple

Le Big Data peut fournir aux entreprises des informations précieuses sur leurs clients qui peuvent être
utilisés pour affiner les campagnes et les techniques de marketing afin d'augmenter l'engagement des
clients et les taux de conversion

En outre l'utilisation du Big Data permet aux entreprises de se concentrer sur le client les données
historiques et en temps réel peuvent être utilisés pour évaluer l'évolution des préférences des
consommateurs ce qui permet aux entreprises d'actualiser et d'améliorer leur stratégie de marketing et de
me répondre au désir et au besoin des clients

Les chercheurs en médecine utilise également le Big Data pour identifier les facteurs de risque des
maladies et les médecins pour aider à diagnostiquer les maladies et symptômes chez les patients .

dans le secteur de l'énergie le Big Data aide les compagnies pétrolières et gazières à identifier les
emplacements de forage potentiel et à surveiller l'exploitation des pipeline

de même les services publics les utilise pour suivre les réseaux électriques

les sociétés de services financiers utilise le Big Data pour la gestion des risques et l'analyse en temps réel
des données du marché

les fabricants et les sociétés de transport s'appuie dessus pour gérer leur chaîne d'approvisionnement et
optimiser les itinéraires de livraison

les pouvoirs publics utilise également ses données pour les intervention d'urgence la prévention de la
criminalité et les initiatives de ville intelligente les fameuses Smart City

- Moi qu'est ce que le big Data ma permit de faire ??

Big Data: Sources?


D'ou proviennent les données

Les données proviennent d'une myriade de différents tels que

les systèmes de transaction commerciale


les bases de données clients
les dossiers médicaux
la navigation sur Internet
les applications mobiles
les réseaux sociaux
la recherche scientifique
les données généré par des machines et
les capteurs de données en temps réel utilisé dans les environnements de l'Internet des Objets

Évolution de la technologie
Par exemple:

Explosion des volumes de données générées par le hadware:

Internet des objets


Appareils mobiles
Capteurs utilisés pour collecter les Informations:
climatiques
Trafics
Consommation
Images numériques et vidéos
Signaux GPS de téléphones mobiles

Essor des applications sociales


Par exemple:

Explosion des volumes de données générées sur le web,


web mobile
Réseaux sociaux : Facebook, Twitter,..
Moteurs de recherche : Google, Yahoo, Bing
Sites commerciaux
Systèmes d’information des entreprises

Disponibilité, ouverture des données

Open data : données ouvertes au grand public

Gouvernement
Industries
Services : transports, météo, …

Les Caractéristiques du Big Data

Les données volumineuse sont souvent caractérisé par les trois V


Ces caracteristique ont été indentifié pour la premières fois par Doug Laney(Analyse Chez Meta Group
Inc en 2001)

Les 3V: Volume, Variété et Vitesse

Volume ou volumétrie (Volume)

Volumes de données croissants de tous types, qui se comptent en téraoctets ou même en pétaoctets

Variété (Variety)

Gérer la complexité de plusieurs types de données et de schémas structurés ou non structurés


texte, données de capteurs, son, vidéo, logs, …

Vitesse ou vélocité (Velocity)

Parfois, les données doivent être saisies et traitées au fur et à mesure de leur collection

*Plus récemment plusieurs autres V on été ajoutées aux différents description du Big Data notamment *

la véracité
la valeur et
la variabilité

Bien que le Big Data ne possède pas un volume spécifique de données l'utilisation du Big Data
implique souvent des

téraoctet,
des petaoctet et
même des exaoctet de données capturer au fil du temps

Le volume
le volume est la caractéristique la plus souvent cité du Big Data un environnement de données
volumineuse ne doit pas nécessairement contenir une grande quantité de données mais la plupart le fond
en raison de la nature des données qui sont recueillies et stocker. Les clics, les recherches et les systèmes
de traitement des flux sont parmi les sources qui produisent généralement des volumes massif de données
de manière continue**

Volume ou volumétrie : Grande quantité de données

Le volume correspond à la masse d’informations produite


chaque seconde.
Données produites depuis le début jusqu’en fin 2008 équivalent
maintenant à celles qui sont générées
chaque minute.
Dans le monde des affaires, le volume de données collecté chaque
jour est d’une importance vitale.

Exemple de chiffres: volumes de données exponentiels

Variété: Sources diverses des données

variété de types de données dont les suivantes:


- Les données structurées dans les bases de données basé sur le langage SQL qui es
t un langage informatique normalisé servant à exploiter des bases de données relat
ionnelles,

- Donneés non structurées tel que les fichiers textes et documents conservés dans
des clusters hadoop ou des systèmes de base de données NoSQL. hadoop est un frame
work libre et Open Source écrit en Java destiné à faciliter la création d'applicat
ion distribuer et scalable permettant aux applications de travailler avec des mill
iers de nœud et des petaoctet données

- Les données semi-structurées tels que les journeaux des serveux web ou des donné
es en continues

Toutes les variétés peuvent être stokés dans un lac de données : hadoop, ou service de stochage dans
le clusters (Amazone S3)

Vitesse ou vélocité: Rapidité des flux de données

La Volocité fait référence à la vitesse à laquelle les données sont générées et doivent être traitées et
Analysés.

ou encore

Vitesse ou vélocité: Rapidité des flux de données


La vélocité équivaut à la rapidité de l’élaboration et du
déploiement des nouvelles
données. Par exemple, si on diffuse des messages sur les réseaux sociaux, ils
peuvent
devenir « viraux » et se répandre en un rien de temps. Il s’agit d’analyser les données
au décours
de leur lignée (appelé parfois analyse en mémoire) sans qu’il soit
indispensable que ces informations
soient entreposées dans une base de données.

Les 3 V supplémentaires : Véracité et Valeur

Valeur (Value)
La valeur ajoutée des données ou des informations extraites
Sans une réelle valeur, ce n’est qu’un gaspillage de ressources

Véracité (Veracity)

La qualité et la précision des données sont aussi importantes


Comment se trouver dans un déluge de hashtags ?
Comment gérer les données partielles ou incomplètes ?

variabilité

Enfin, à quelle vitesse la structure de vos données change-t-elle? Et à quelle fréquence la forme de vos
données change-t-elle?
L’important est d’établir si la structure contextuelle du flux de données est régulière et
fiable même dans des conditions d’imprévisibilité extrême. La variabilité définit la nécessité d’obtenir des
données significatives en tenant compte de toutes les circonstances possibles.
C’est particulièrement le cas lorsque la collecte de données repose sur le traitement de la langue. Brian
Hopkins, analyste principal de Forrester, a cité le supercalculateur Watson comme un excellent exemple de
cela. Pour participer au jeu télévisé Jeopardy, Watson devait «disséquer une réponse dans son sens et […]
pour déterminer quelle était la bonne question». Les mots n’ont pas de définitions statiques et leur signification
peut varier énormément dans le contexte.

Big Data: Plate-forme Hadoop

La conception d'une architecture big data répond d'abord à la question de savoir comment stocker pur
et simplement mes données brutes. Il s'agit pour être plus spécifique de répondre aux 3 questions
suivantes:

Où stocker les données ?


Selon quel format ?
Selon quelle hiérarchie ?

Dans les chapitre suivant nous allons:

Chapitre 2 : Collecte des données sur le web

Chapitre 3 : Stocker les données collectées en utilisant les solutions SQL et NoSQL (MySQL, Elasticsearch,
Kibana)

Vous aimerez peut-être aussi