Académique Documents
Professionnel Documents
Culture Documents
Objectifs de la session
• Cette session d'introduction au Big Data permet d'aborder d'un point de vue pratique l'utilisation
d'une architecture Big Data pour réaliser des analyses de données (Analytics).
• Seront mis en avant les problématiques de volumétrie, variété, vélocité (les fameux "V" du Big
Data).
• Une deuxième session plus pragmatique présentera l'environnement Hadoop, un des Framework
open source de stockage et de traitement distribués. Seront abordés le système de fichier
distribué HDFS, les principes de traitement distribué Map/Reduce, mais aussi, brièvement
l'écosystème d'outils autour de Hadoop.
3
Agenda
1. Introduction
5. Conclusion
4
5
Données structurées
Les données qui peuvent être stockées dans une base de données relationnelle (SGBDR) au
format table avec des lignes et des colonnes sont appelées données structurées. Les
données structurées souvent générées par les entreprises présentent un degré élevé
d'organisation et peuvent être facilement traitées à l'aide d'outils d'exploration de données
et peuvent être interrogées et récupérées à l'aide du champ de clé primaire. Des exemples
de données structurées comprennent les détails des employés et les transactions
financières.
16
Des exemples de données non structurées incluent la vidéo, l'audio, les images, les e-mails,
les fichiers texte et les publications sur les réseaux sociaux. Les données non structurées
résident généralement sur des fichiers texte ou des fichiers binaires. Les données qui
résident dans des fichiers binaires n'ont pas de structure interne identifiable, par exemple,
audio, vidéo et images. Les données qui résident dans des fichiers texte sont des e-mails,
des publications sur les réseaux sociaux, des fichiers PDF et des documents de traitement
de texte.
17
Données semi-structurées
Les données semi-structurées sont celles qui ont une structure mais qui ne rentrent pas
dans la base de données relationnelle. Les données semi-structurées sont organisées, ce qui
facilite leur analyse par rapport aux données non structurées. Les formats JSON et XML sont
des exemples de données semi-structurées.
Exemple: Fichier XML qui représente les détails d'un employé dans une organisation.
• Répartir les données sur plusieurs machines (jusqu’à plusieurs millions d’ordinateurs)
dans des Data Centers
▫ système de fichiers spécial permettant de ne voir qu’un seul espace pouvant contenir
des fichiers gigantesques et/ou très nombreux (HDFS),
▫ bases de données spécifiques (HBase, Cassandra, ElasticSearch).
• Traitements du type « Map-Reduce » :
▫ algorithmes faciles à écrire,
▫ exécutions faciles à paralléliser.
22
Serveur « lame »
Chacun de ces serveurs lames (blade computer) ou rack server peut ressembler à ceci (4
CPU multi-cœur, 1 To de RAM, 24 To de disques rapides, 5000€, prix et technologie en
constante évolution):
Il semble que Google utilise des ordinateurs assez basiques, peu chers mais
extrêmement nombreux (𝟏𝟎𝟔 ), consulter Wikipédia.
24
Machines connectées
• Toutes ces machines sont connectées entre elles afin de partager l’espace de stockage
et la puissance de calcul.
• Le Cloud (qu’on a déjà abordé) est un exemple d’espace de stockage distribué : des
fichiers sont stockés sur différentes machines, généralement en double pour prévenir
une panne.
• L’exécution des programmes est également distribuée : ils sont exécutés sur une ou
plusieurs machines du réseau.
• Un cluster de machines a deux objectifs clés:
▫ Augmentation de la puissance de traitement (scalability)
▫ Augmentation de la disponibilité (high availability)
25
26
Valeur
➔ Valeur, Visualisation, . . .
27
▫ Toute entreprise qui prévoit d’utiliser ces volumes de données massifs doit
donc développer des solutions Big Data Analytics pour gérer la quantité et
le volume de data à stocker et traiter.
28
• Le Variété
▫ La Variété désigne la multiplicité des types de données disponibles.
Auparavant, les data étaient majoritairement des données structurées,
faciles à classer et organiser. Aujourd’hui, de nombreuses data non-
structurée comme les données textuelles sont générées à chaque seconde.
▫ Pour utiliser le Big Data il faut donc être en mesure d’identifier tous les
différents types de données générées, ingérées et stockées dans
l’écosystème numérique de l’entreprise.
30
• Le Véracité
▫ La Véracité est un élément indispensable des 5V du Big Data. Elle désigne
à la fiabilité de la data qui est essentielle pour pouvoir en tirer profit et la
transformer en information utilisable dans l’entreprise.
▫ Cette notion des 5V désigne donc le fait nettoyer les données (data
cleansing) et faire en sorte qu’elles soient exactes, prêtes à l’emploi et
utilisées à des fins business dans le processus décisionnel.
31
• Le Vertu
▫ Un 6ème V est apparu dans certaines littératures en relation avec l’éthique sur
l’exploitation des données (personnelles) et un durcissement sur la
réglementation des données personnes (ex. CDP au Sénégal, CNIL en France).
▫ Cette 6ème caractéristique essentielle à ce concept des 5 V du Big Data : la Vertu.
▫ La vertu fait référence aux réglementations en matière de confidentialité et de
conformité des data. L’aspect éthique et le respect des normes en vigueur
concernant les données sont cruciaux pour traiter les informations tout en se
conformant aux réglementations telles que le RGPD en Europe. C’est pourquoi la
Vertu fait désormais partie des éléments clés qui caractérisent le Big Data.
33
Changements
• Quelques problèmes à adresser:
▫ fausses corrélations
▫ Difficultés à évaluer les modèles
▫ estimation et tests
▫ pas de contrôle sur la production des données
▫ temps d'analyse (qualité des données)
▫ outils classiques ne savent pas traiter les grands Volumes
▫ récence, représentativité des données
➔ Il est à noter que « Massive n'est pas Meilleure, et les Algorithmes dans
tout cela ? -Big, Rich and Right Data- »
34
Nouvelle science ?
4ème révolution/paradigme…etc.
35
Representation
Movement
Interpretation
Extrapolation
Prescription
43
Outils (1/2)
46
Outils (2/2) [Source: KDnuggets' Association Matrix Heat Map for top
10 most popular data mining tools]
▪ Logiciels d'informatique
décisionnelle s'intègrent petit
a petit aux environnements
Big Data (Data Loader for
Hadoop de SAS).
▪ Librairies Python, R gratuites
disponibles... et utilisables
sous Hadoop et Spark.
47
Schéma synthétique du
cycle de vie des données.
49
50
• La dimension des donnés massives: Le Big Data attire l'attention du monde entier et peuvent être mieux
décrites en utilisant les 3V (Volume, Vélocité, Variété). Chaque dimension présente à la fois des défis et des
opportunités pour la gestion des données pour faire avancer la prise de décision. Les 3V représentent un défi
lié au travail avec le Big Data. Le volume met l'accent sur les problèmes de stockage, de mémoire et de
capacité d'un système informatique et nécessite l'accès à un cloud informatique.
• Contexte technologique: Il existe de nombreux défis liés à l'utilisation et à la mise en œuvre du Big Data. Ainsi,
l'un des principaux problèmes est l'incompatibilité des infrastructures informatiques et des architectures de
données. Les systèmes et logiciels informatiques doivent pouvoir stocker, analyser et extraire des informations
utiles à partir des données disponibles (structurées, semi-structurées et non structurées). Les entreprises les
plus performantes comprennent les limites de la technologie derrière leurs opérations de Big Data et
reconnaissent l'importance de combiner l'analyse avec une bonne compréhension du contexte, une bonne
intuition pour l'industrie et une attitude critique envers les informations dérivées des données.
56
Les défis incluent non seulement les contextes précédents, mais également d'autres problèmes liés à
l'évolutivité, à l'hétérogénéité, à la qualité, à la rapidité, à la sécurité et à la confidentialité.
57
• Evolutivité: La gestion de volumes de données importants et en augmentation rapide est un problème difficile
depuis de nombreuses décennies. Dans le passé, ce défi était atténué par le fait que les processeurs
devenaient plus rapides, conformément à la loi de Moore, pour nous fournir les ressources nécessaires pour
faire face à des volumes croissants de données. Les difficultés de l'analyse Big Data proviennent de sa grande
échelle ainsi que de la présence de données mixtes basées sur des modèles ou des règles différents (données
de mélanges hétérogènes) dans les données collectées et stockées. En particulier, dans le cas de données
complexes de mélanges hétérogènes, les données ont non seulement plusieurs modèles et règles, mais de
manière caractéristique, les propriétés des modèles varient considérablement.
58
• Sécurité: La grande majorité des données provient des nombreux appareils et machines qui se rapportent les
uns aux autres et à ceux qui les exécutent. Des chaînes d'assemblage des usines de fabrication aux avions de
passagers en vol, des millions d'octets de données sont générés puis analysés. Certaines des données
capturées sont des informations personnelles et, à ce titre, des modèles de sécurité de pointe et de gestion
responsable doivent être utilisés pour s'assurer que ces informations sont sûres et correctement utilisées.
• Confidentialité: Les progrès de l'analyse du Big Data nous ont apporté des outils pour extraire et corréler ces
données, ce qui faciliterait beaucoup la violation des données. Cela rend le développement des applications
Big Data un must sans oublier les exigences des principes de confidentialité et des recommandations
réglementaires. Le procès suivant le défi NETFLIX est un exemple frappant où la liaison des données fournies
aux critiques de films IMDB a permis si possible d'identifier certains utilisateurs.
59
Conclusion
• Le terme Big Data est utilisé lorsque la quantité de données qu'une organisation doit gérer atteint un
volume critique qui nécessite de nouvelles approches technologiques en termes de stockage, de
traitement et d'utilisation. Le volume, la vitesse et la variété sont généralement les trois critères
utilisés pour qualifier une base de données de «Big data».
• Le Big Data marque un tournant majeur dans l'utilisation des données et est un puissant vecteur de
croissance et de rentabilité. Une compréhension globale des données d’une entreprise, de son
potentiel et des méthodes d’analyse peut être un nouveau vecteur de performance. Le Big Data est un
terme large désignant généralement de très grandes collections de données qui compliquent les outils
d'analyse pour leur exploitation et leur gestion.
• Des méthodes bien choisies et bien mises en œuvre pour la collecte et l'analyse des données sont
essentielles pour mieux comprendre les données. D'une autre manière, chaque donnée raconte une
histoire et l'analyse des données, en particulier les méthodes statistiques associées au développement
d'outils informatiques, reconstitue cette histoire pour révéler le message sous-jacent.
• Cela s’accompagne par l’apparition de nouveaux métiers et challenges spécifiquement dédiés au Big
Data.
60
Bibliographie
https://www.solutions-numeriques.com/emploi/data-science-et-ia-7-
500-creations-nettes-demploi-a-venir-dans-la-branche-numerique/
https://christophesaintcarats.wordpress.com/2016/07/05/technologie-
big-data-les-4-v-et-son-importance/
https://en.wikipedia.org/wiki/Google_data_centers
https://www.talend.com/fr/resources/5v-big-
data/#:~:text=utilis%C3%A9es%20quasiment%20instantan%C3%A9me
nt.-,V%C3%A9racit%C3%A9,information%20utilisable%20dans%20
https://hadoop.apache.org/
61
Questions ?
Contactez-nous:
tinembaye@gmail.com
@tinepapa (twitter)