Vous êtes sur la page 1sur 49

Faculté des Sciences et Techniques de Tanger

Département Génie Informatique

L’Ingénierie ontologique MODULE


et les techniques d’Intelligence ArtificielleBIG
: ARCHITECTURE pour DATA
la modélisation d’un système e-
Learning adaptatif orienté compétences

LSI– 2023/2024
Faculté des Sciences et Techniques de Tanger
Département Génie Informatique

Plan du cours
• Introduction: Fondements de BIG DATA
L’Ingénierie ontologique et les techniques d’Intelligence Artificielle pour la modélisation d’un système e-
• Cours1: Ecosystème Hadoop
Learning adaptatif orienté compétences
• Cours2: HDFS (Hadoop Distributed File System)
• Cours3: Map Reduce
• Cours4: YARN (Yet Another Resource Negociator)
• Cours5: Spark
• Cours6: SGBD No SQL (Hbase, Hive, Impala ...)

LSI– 2023/2024
Faculté des Sciences et Techniques de Tanger
Département Génie Informatique

Plan des Ateliers


• Atelier1: Installation de l’image Cloudera
• Atelier2:
L’Ingénierie ontologique et les techniques d’Intelligence
Manipulation de Artificielle
système de pour
Learning adaptatif orienté compétences
la modélisation
fichier HDFS d’un système e-

• Atelier3: Manipulation de Map Reduce


• Atelier4: Manipultaion de Apache Spark
• Atelier5: Manipulation de SGBD Hbase
• Atelier6: Manipulation de SGBD NoSQL (Hive, Impala… )

LSI– 2023/2024
Faculté des Sciences et Techniques de Tanger
Département Génie Informatique

Fondements de BIG DATA


L’Ingénierie ontologique et les techniques d’Intelligence Artificielle pour la modélisation d’un système e-
Learning adaptatif orienté compétences

LSI– 2023/2024
Introduction

Big Data: l’univers digital en perpétuelle


croissance
I- Introduction

Le Big Data représente une évolution majeure pour les entreprises,


et impacte radicalement la gestion des données.
5
CH1 Introduction et fondamentales de Big Data

DIVERSITE ET VOLUME DES SOURCES DE DONNEES

VOLUMES
Chaque jour, 2,5 trillions d’octets de données sont générés.
Prévision d’une croissance de 800% des quantités de données à traiter d’ici
à 5 ans.
DIVERSITE DES SOURCES
capteurs, medias sociaux, images, vidéos, achats en lignes, signaux GPS …

6
CH1 Introduction et fondamentales de Big Data

Big Data: l’univers digital en perpétuelle croissance

90% 80% 20%


des données du des données du des données
monde ont été créés monde aujourd'hui disponibles peuvent
au cours des deux est non structurée être traitées par des
dernières années systèmes traditionnels

1 in 2 83%
les chefs d'entreprise n'ont 83% des PDG ont cité BI et
pas accès aux données analytics dans le cadre de leur
dont ils ont besoin plan visionnaire

7
CH1 Introduction et fondamentales de Big Data

Big Data et complexité dans les soins de santé

1 in 5
L'information
médicale double un diagnostic estimé inexact ou
tous les 5 ans, dont incomplet
une grande partie
est non structurée 1.5 million
des erreurs dans la façon dont les
81% des médecins médicaments sont prescrits, délivrés et
déclarent passer 5 pris aux États-Unis chaque année
heures ou moins Entre 44,000 et 98,000
par mois à lire des
revues médicales Nombre d'Américains qui meurent
chaque année d'erreurs médicales
évitables dans les hôpitaux seulement
=> Adapter sa technologie ainsi que sa stratégie est aujourd’hui
indispensable
8
CH1 Introduction et fondamentales de Big Data

Migration et Changement
Data warehouse vers les Big Data

9
CH1 Introduction et fondamentales de Big Data

BI traditionnelle

Mécanismes d'extraction, L'analyse multidimensionnelle


de transfert et de consolidation des données

Centralisation des données Reporting

10
CH1 Introduction et fondamentales de Big Data

Data warehouse vs Business intelligence

11
CH1 Introduction et fondamentales de Big Data

Migration et Changement

Changement de processus Changement Changement


de production de compétences d’architecture

Big Data Process Data Scientist

12
CH1 Introduction et fondamentales de Big Data

BIG DATA: Mesures de stockage

13
CH1 Introduction et fondamentales de Big Data

BIG DATA: Mesures de stockage

14
CH1 Introduction et fondamentales de Big Data
Besoin en BIG DATA

15
CH1 Introduction et fondamentales de Big Data

Domaines d’Application du BIG DATA

16
CH1 Introduction et fondamentales de Big Data

ADAPTABILITE

Dans ce nouveau contexte, les méthodes de traitement de ces données


(capture, stockage, recherche, partage, analyse, visualisation)
doivent être redéfinies car l’ensemble de ces données deviennent
difficilement manipulables par les outils classiques.

Il faux s’adapter aux nouveau contexte


Big data ainsi que ces outils !
17
CH1 Introduction et fondamentales de Big Data

Solutions de stockage de DATA


De nombreuses solutions de stockage de la data existent, et ces
dernières sont complémentaires.

Des solutions dites “non Big Data”, ayant un stockage “non-distribué”


(un seul serveur pour stocker et analyser les données) :

les Systèmes de Gestion de Bases de Données Relationnelles


(SGBRD) non-distribuées

En solution “Big Data”, ayant un stockage “distribué” (plusieurs


serveurs pour stocker et analyser les données) :
• Distributions Hadoop (stockage fichiers)
• Bases NewSQL pour le in-memory
• Bases NoSQL (Not Only SQL): clé/valeur
• Bases NoSQL: orientées colonnes
• Bases NoSQL: orientées documents
• Bases NoSQL: orientées graphes

18
CH1 Introduction et fondamentales de Big Data

Solutions de stockage de DATA

19
CH1 Introduction et fondamentales de Big Data

Utiliter des ETL en Big Data

• Il s'agit d'une technologie informatique permettant d’effectuer des


synchronisations (Extraction Transformation Chargement) d’une source de
données vers une autre (entrepôts de données)

• Pour la récupération des données, plusieurs outils présents sur le marché


depuis longtemps qui sont principalement des ETL (outils d’extraction,
de transformation et de chargement des données) ou des ELT (Outils
d’extraction, de chargement puis de transformation de données).

• Ces outils se sont adaptés au contexte « Big Data » en proposant des


connexions aux principales nouvelles bases et en se positionnant
davantage comme des ELT sur ces problématiques de Big Data.

20
CH1 Introduction et fondamentales de Big Data

Utilité des ETL en Big Data

• Les ETL peuvent générer du code qui sera traité par la plateforme “Big
Data”, afin d’exploiter la puissance de cette dernière.

• De nouvelles solutions ETL telles que Syncsort ou Hurence ont été


conçues pour des environnements distribués.

• Des modules Open Sources sont également disponibles pour la


récupération des données tels que Kafka ou Flink mais aussi pour
l’analytics en temps réel tels que Spark et Storm.

21
CH1 Introduction et fondamentales de Big Data

Solutions d’analyse de données

• Niveau analytics les outils d’analyse reconnus sur le marché


permettent l’interaction avec le monde du Big Data : SAS, R et SPSS

• De nouveaux outils facilitant notamment la phase de préparation de


données, tels que Dataiku.

• Ils existent également d’autres outils qui sont spécialisés pour certains
types d’analyse comme le text mining ou l’analyse des réseaux
sociaux.

22
CH1 Introduction et fondamentales de Big Data

Visualisation de DATA

• De nombreux outils de visualisation sont présents sur le marché.


proposés depuis longtemps, faits principalement pour le reporting de
masse tels que Business Object ou OBIEE.

• Des outils permettant de mettre en place des tableaux de bords plus


dynamiques comme Qlikview et MicroStrategy.

• Certains outils comme Tableau Software ou TIBCO Spotfire essaient


de donner le plus possible la main aux utilisateurs, afin qu’ils puissent
consulter et analyser eux mêmes leurs données, et ce, sans posséder
de compétences techniques particulières.

• Des librairies Java script permettent également de faire de très belles


visualisations mais nécessitent des compétences en scripting.

23
CH1 Introduction et fondamentales de Big Data

Exemple de plate-forme Big Data Pratique

24
CH1 Introduction et fondamentales de Big Data

BIG DATA?

 Les big data ou mégadonnées désignent


l'ensemble des données numériques produites
par l'utilisation des nouvelles technologies à des
fins personnelles ou professionnelles.

 Date d’apparition comme terme : 1997 (D’après


ACM Association for Computing Machinery)

 Gartner décrivait les 4 V:

 Volume de données de plus en massif ; (50ZB


en 2020)
25
CH1 Introduction et fondamentales de Big Data

BIG DATA?

Variété de ces données qui peuvent être brutes, non


structurées ou semi-structurées (80% des données
du monde sont non structurées);

Vélocité qui désigne le fait que ces données sont


produites, récoltées et analysées en temps réel. (504
millions de tweets par jour ou 184 milliards par
an)
Véracité qui évoque la nécessité de vérifier la
crédibilité de la source et la qualité du contenu afin
de pouvoir exploiter ces données. (1 chef
d'entreprise sur 3 ne fait pas confiance aux
données qu'il utilise pour prendre des décisions)
26
CH1 Introduction et fondamentales de Big Data

BIG DATA?

27
CH1 Introduction et fondamentales de Big Data

BIG DATA : Motivations

Depuis déjà des années on cherchait une solution


qui permettait d’abord comment transmettre les
données entre les applications distribués ?

Big Data , on peut dire est une panoplie des outils


qui permettent de répondre à un ensemble de
problématiques

28
CH1 Introduction et fondamentales de Big Data

BIG DATA : Solution des problèmes

• Stocker une grande quantité de données d’une


manière sure et sécurisée
• Tolérance de panne
• Haute disponibilité
• Traiter et analyser les données d’une manière
distribuée en vue d’extraire la connaissance (la
valeur)
• Traitement en Streaming

29
CH1 Introduction et fondamentales de Big Data

BIG DATA?

30
CH1 Introduction et fondamentales de Big Data

BIG DATA: 3V

31
CH1 Introduction et fondamentales de Big Data

BIG DATA: 5V

32
CH1 Introduction et fondamentales de Big Data

BIG DATA?

33
CH1 Introduction et fondamentales de Big Data

BIG DATA?
The 42 V’s of Big Data and Data Science (2017)

34
CH1 Introduction et fondamentales de Big Data

BIG DATA: Exemple de problème

Nous désirons traiter en temps réel les données relatives à un vol d’avion
entre 8h et 12h => traitement en temps (Streaming Kafka) => Tableau de
bord en temps réel
35
CH1 Introduction et fondamentales de Big Data

BIG DATA: Exemple dans la vie courante

36
CH1 Introduction et fondamentales de Big Data

BIG DATA: Exemple dans la vie courante

37
CH1 Introduction et fondamentales de Big Data

BIG DATA: Exemple dans la vie courante

38
CH1 Introduction et fondamentales de Big Data

Ecosystème du Big Data : Apache Hadoop

39
CH2 Architectures Big Data usuelles

Batch processing / Stream Processing


Temps Réel BATCH

40
CH2 Architectures Big Data usuelles

Batch processing / Stream Processing

 2 classes de traitement:
1. Batch: Les traitements vont analyser l’ensemble des données
disponibles à un instant T.
 Tant que des données seront présentes les traitements vont se
poursuivre et l’on aura un résultat cohérent et accessible
uniquement à la fin des traitements.

41
CH2 Architectures Big Data usuelles

Batch processing / Stream Processing

1. Batch (Caractéristiques et fonctionnement)

 Données en entrée : fichiers, résultat d’une requête (HDFS, Sqoop,...).


 Résultats : les résultats ne seront disponibles qu’à la fin des traitements.
 Exemple d’implémentation : MapReduce, Flink, Tez, Spark

 Les données sont d’abord sélectionnées par un traitement principal


et souvent unique.
 Les données sont distribuées entre différents nœuds afin d’être
traitées.
 Une fois les données traitées par l’ensemble des nœuds un traitement
réalise les opérations globales:
 tri,
 agrégation,
42
CH2 Architectures Big Data usuelles

Batch processing / Stream Processing

1. 2 : Batch Incrémentale :Possibilité de découper les données en entrée


 Prise en compte les nouvelles données sans la nécessité de retraiter
l’ensemble des données déjà traitées.

43
CH2 Architectures Big Data usuelles

Batch processing / Stream Processing

2 : Temps Réel
2.1Micro-Batch:
 Un résultat est produit toutes les n secondes.
 EXEMPLE:

2.2 Streaming :
 Chaque entrée est traitée immédiatement
et produit un résultat.
 EXEMPLE :.

44
CH1 Introduction et fondamentales de Big Data

Batch processing / Stream Processing

45
CH1 Introduction et fondamentales de Big Data

Batch processing / Stream Processing

46
CH1 Introduction et fondamentales de Big Data

Batch processing / Stream Processing

47
CH1 Introduction et fondamentales de Big Data

Ecosystème du Big Data

48
CH1 Introduction et fondamentales de Big Data

Ecosystème du Big Data

49

Vous aimerez peut-être aussi