Vous êtes sur la page 1sur 17

BIG DATA

Workshop n°1: Synthèse

Réalisé par : Encadré par :


Mlle. Bouchhar Maryam M. El HAJJI Mohamed
BIG DATA
THE 5WH

BIG
DATA
WHO ?
WHO ?

l’expression ‘Big Data’ est apparue en 1997 dans la bibliothèque


numérique de l’ACM(Association for Computing Machinery), dans un
article scientifique sur les défis technologiques à relever
pour visualiser les grands ensembles de données, le Big Data est utilisé
par des diverses organisations et des entreprises , des chercheurs et des
individues qui gèrent et traitent ces données.
WHAT ?
WHAT ?

Le big data désigne les technologies et les stratégies mises en œuvre


pour traiter des énormes volumes de données hétérogènes afin de
créer la valeur.
WHERE ?
WHERE ?

Big Data sont collectées à partir d’une large variété de sources dans le
monde entier, notamment les systèmes de transactions (Système de
paiement en ligne, système de réservation de billets, système de point
de vente (POS),etc.), les sites web, les plateformes de médias sociaux,
les capteurs.
WHEN ?
WHEN ?

• Génération continue de données et accumulation.


• Données historiques et données en temps réel
WHY ?
WHEY ?

le big data facilite la prise de décisions au sein d’une entreprise,


augmente la réactivité, la productivité, analyse le comportement des
clients, diffuse des offres personnalisées, relève les nouvelles
tendances, améliore-la consommation/clients, on l’utilise également
dans le domaine de la recherche médicale.
HOW ?
HOW ?
• Définir l’objectif que vous souhaite atteindre.
• Identifier les données externes et internes nécessaires pour atteindre
votre objectif.
• Mise en place d’une solution pour l’exploitation du big data(Traiter
et analyser à l’aide des technologies et des outils tel que Hadoop ,
Spark, les bases de données non SQL , les algorithmes de machine
learning)
• Le processus implique la collecte, le stockage, le traitement et la
visualisation des données.
2. Mots clés liés au Big data :

Vélocité : Dans le contexte de big data les données sont collectées et générées en temps réels, donc la vélocité détermine la
rapidité dont laquelle les données sont transmises et traitées.
Variété : la diversité des types de données collectées, les données peuvent être structurées, semi-structurées ou non
structurées.
Hadoop : Hadoop est un framework logiciel dédié au stockage et au traitement de larges volumes de données. Apache
Hadoop repose sur quatre principaux modules ( le Hadoop Distributed File System (HDFS), le YARN (Yet Another
Resource Negotiator), MapReduce, Hadoop Common)
Cloud Computing: Le cloud computing est une technologie permettant de stocker les données ou d’accéder à des services
informatiques via internet. Au lieu de stocker les données sur son propre ordinateur, le cloud permet de les stocker sur les
serveurs du Data Center d’un fournisseur de cloud comme AWS, Microsoft Azure ou Google Cloud.’
Apache Spark : C’est un moteur analytique permet de traiter simultanément d’importants volumes de données et
d’applications d’analyse de données dans des clusters informatiques distribués.2
3. Suggestions:
Mook courses : IBM: Big Data, Hadoop, and Spark Basics
Tutorial videos: Big Data Hadoop Tutorial Videos | Simplilearn [2023 Updated]
4. Case study : APIXIO
 Quel problème le Big Data aide-t-il à résoudre ?

Les données massives (big data) dans le domaine de la santé contribuent à résoudre le défi consistant à gérer les
informations médicales et cliniques non structurées.. Le problème réside dans la nature non structurée des données, qui se
présentent sous divers formats et modèles, stockées dans différents systèmes, ce qui rend l'extraction d'informations
précieuses complexe.
 Comment le Big Data est-il utilisé en pratique pour résoudre le problème ?

L'utilisation du big data en pratique consiste à extraire, analyser et donner du sens aux données cliniques non structurées
présentes dans les dossiers de santé électroniques (DSE). Des techniques telles que la reconnaissance optique de caractères
(OCR) sont utilisées pour rendre les données accessibles. Les données sont ensuite analysées à l'aide de méthodologies de
traitement de texte, d'apprentissage automatique et de traitement du langage naturel. Ces données permettent de créer des
modèles de patients individuels et d'extraire des informations pour la personnalisation des soins de santé.
 Quels ont été les résultats ?

• Les ordinateurs se sont clairement révélés bien plus performants que les êtres humains lorsqu'il s'agit d'analyser les
dossiers médicaux des patients.. Ils peuvent lire deux à trois fois plus de dossiers par heure par rapport à un examen
manuel.
• Les ordinateurs améliorent également la précision de l'examen, offrant une amélioration pouvant atteindre 20 % par
rapport à un examen manuel effectué par un codeur.
• Les ordinateurs peuvent détecter des lacunes dans la documentation des patients, identifiant des cas où une maladie
chronique a été notée sans qu'une évaluation ou un plan récent ne soit disponible.
• Les avantages de l'utilisation de l'informatique dans l'analyse des données de santé incluent une meilleure gestion des
soins, une réduction des coûts et une amélioration des résultats pour les patients.

Vous aimerez peut-être aussi