Seance 1

Visualisation des
Données
2023/2024
2022/2024
Objectifs
Objectifs du cours
Cette leçon va vous aider à :
Comprendre les concepts : DA, DS, ML
Data, obtenir Data
Le concept de pré-traitement
Visualiser les données avec Python
2
Plan
Le Plan du cours :
Introduction et Vocabulaire
Défintion des données
Pré-processing
Visualiser les données
Bibiothèques de python
3
Introduction
Introduction
Introduction
L'analyse de données se fond sur la collecte, l'organisation et de
la maintenance des données, ainsi que de l'utilisation des
statistiques, de la programmation et d'autres techniques pour
obtenir des informations à partir des données. Le rôle del’ analyse
de données est de repérer les tendances et d’aider à résoudre les
problèmes. Des exemples d'analyse de données dans le
commerce de détail incluent le suivi des commandes, les
fonctionnalités de recommandation et l'identification des
emplacements des magasins.
Les analystes de données ont tendance à répondre aux
demandes des décideurs plutôt que de piloter le processus
décisionnel.
4
44
Introduction
Introduction
Introduction
Science Des données utilise la programmation, les
mathématiques et les statistiques pour obtenir des informations et
piloter la stratégie organisationnelle.
Les data scientists maîtrisent parfaitement l'apprentissage
automatique, la modélisation des données et l'utilisation
d'algorithmes pour automatiser les processus. Étant donné que
les données significatives sont spécifiques à un domaine, les
data scientists doivent également posséder une expertise dans
le domaine, une compréhension de leur secteur ou de leur
entreprise, pour fournir un contexte aux données avec lesquelles
ils travaillent.
Par exemple, la recherche en science des données dans le
domaine de la santé peut orienter les diagnostics, aider à 5
prévenir les maladies ou apprendre aux ordinateurs à lire les55
radiographies ou les IRM.
Introduction
Introduction
Introduction
Les data scientists travaillent en étroite collaboration avec les
responsables des ventes et du marketing, du développement de
produits, des technologies de l'information, de la finance et des
entreprises pour aider à identifier les tendances, repérer les
problèmes, comprendre le comportement des consommateurs et
présenter des solutions qui soutiennent la prise de décision
stratégique.
6
66
Introduction
Introduction
Introduction
Qu’en est-il de Machine Learning ? Souvent, les termes science
des données et Machine Learning sont utilisés de manière
interchangeable. C’est parce que cette dernière consiste à «
apprendre à partir des données ». Lors de l’application
d’algorithmes de ML l’algorithme détecte des modèles et utilise «
ce qu’il a appris » sur de nouvelles données.
7
77
Introduction
Introduction
Machine Learning
Par exemple, nous voulons savoir si une personne paiera ses

dettes. Heureusement, nous disposons d’un ensemble de données
important sur différentes personnes qui ont payé ou non leur
dettes. Nous avons également collecté d'autres données (en créant
des profils de clients) telles que l'âge, la tranche de revenus, la
localisation et la profession. Lorsque nous appliquons l’algorithme
de ML approprié, le système apprend à partir des données. Nous
pouvons alors saisir de nouvelles données (nouvelles informations
d'un nouveau candidat) et l’algorithme va nous informer est ce que
le client est solvable ou non
8
88
Saisie des données Introduction
Introduction
Production des rapports
Graphique
Data
Les données se présentent sous de

nombreuses formes, mais peuvent
généralement être considérées comme le
résultat d’une expérience (social,
physique,aléatoire,...)
9
99
Introduction
Graphique
Data
10
1010
Introduction
Graphique
Data
Les Données sont souvent stockés dans un

tableau ou une feuille de calcul. Une
convention statistique consiste à désigner
des variables
-souvent appelés Attributs (Features) sous
forme de colonnes et les éléments
individuels (ou unités) sous forme de lignes.
C'est utile de penser à trois types de colonnes
dans une telle feuille de calcul :
11
1111
Introduction
Introduction
Data
1. La première colonne est généralement une colonne d'identifiant
ou d'index, où chaque unité/ligne reçoit un nom ou un identifiant
unique.
2. Certaines colonnes (features) peuvent correspondre au plan
d'expérimentation, précisant par exemple à quel groupe
expérimental appartient l'unité. Souvent, les entrées de ces
colonnes sont déterministes ; c'est-à-dire qu'ils restent les mêmes
si l'expérience devait être répétée.
3. D'autres colonnes représentent les mesures observées de
l'expérience. Habituellement, ces mesures présentent une
variabilité ; c'est-à-dire qu'ils changeraient si l'expérience devait
être répétée.
12
1212
Introduction
Introduction
Type pour Data
Nous pouvons généralement classer les features comme
quantitatives ou qualitatives.

Les features quantitatives possèdent une « quantité numérique »,
telle que la taille, l'âge, le prix, etc., et peuvent être continues ou
discrètes.

Les features quantitatives continues prennent des valeurs dans
une plage continue de valeurs possibles, telles que la hauteur, la
tension; de telles caractéristiques traduisent l'idée que les
mesures peuvent toujours être effectuées avec plus de précision.

Les features quantitatives discrètes ont un nombre compté de
possibilités, nombre des étudaints dans une classe, nombre de
goutes d’un médicament
13
1313
Introduction
Introduction
Type pour Data
Les features qualitatives n'ont pas de signification numérique, mais
leurs valeurs possibles peuvent être divisées en un nombre fixe de
catégories:
{M, F} pour le sexe ou {bleu, noir, marron, vert} pour la couleur des
yeux.
Pour cette raison, ces caractéristiques sont également appelées
catégorielles.
Une règle simple est la suivante : cela n’a pas de sens de faire une
moyenne des données, elle est catégorique.
Par exemple, on ne peut pas calculer la moyenne de la couleur des
yeux. Bien sûr, il est toujours possible de représenter des données
catégorielles avec des nombres,
tels que 1 = bleu, 2 = noir, 3 = marron,
14
mais ces nombres n'ont aucune signification quantitative. Les1414
caractéristiques catégorielles sont souvent appelées facteurs.
Pre-precessing
Introduction
Format des données
Les données doivent être dans le bon format pour les rendre
utilisables à des fins d'analyse et à d'autres fins. Ensuite, les
données doivent être traitées correctement afin que nous puissions
y appliquer des algorithmes et nous assurer que nous effectuons
une analyse appropriée.(voir le fichiers: iris2.ipynb et graph1.ipynb)
15
1515
Pre-precessing
Introduction
Données non equilibrées
Les ensembles de données déséquilibrés sont ceux dans lesquels

il existe une forte asymétrie dans la répartition des classes, par
exemple
1 : 100 classe minoritaire
2 : 10 000 classe majoritaire.
Ce biais dans l’ensemble de données de formation peut influencer

de nombreux algorithmes d’apprentissage automatique, conduisant
certains à ignorer complètement la classe minoritaire. C’est un
problème car c’est généralement la classe minoritaire sur laquelle
les prédictions sont les plus importantes.
(fichier: umbalanced.ipynb)
16
1616
Pre-precessing
Introduction
Une approche pour résoudre le problème du déséquilibre des

classes consiste à rééchantillonner de manière aléatoire l'ensemble
de données de formation. Les deux principales approches pour
rééchantillonner aléatoirement un ensemble de données
déséquilibré consistent:

à supprimer des exemples de la classe majoritaire, appelé

sous-échantillonnage (undersampling).

à dupliquer des exemples de la classe minoritaire, appelé
suréchantillonnage (oversampling).
17
1717
Pre-precessing
Introduction
Le suréchantillonnage aléatoire implique la duplication aléatoire

d'exemples de la classe minoritaire et leur ajout à l'ensemble de
données de formation.
Les exemples de l'ensemble de données de formation sont

sélectionnés au hasard avec remplacement. Cela signifie que des
exemples de la classe minoritaire peuvent être choisis et ajoutés
plusieurs fois au nouvel ensemble de données de formation « plus
équilibré » ; ils sont sélectionnés dans l'ensemble de données
d'entraînement d'origine, ajoutés au nouvel ensemble de données
d'entraînement, puis renvoyés ou « remplacés » dans l'ensemble
de données d'origine, ce qui leur permet d'être à nouveau
sélectionnés. 18
1818
Pre-precessing
Introduction
Cette technique peut être efficace pour les algorithmes

d'apprentissage automatique qui sont affectés par une distribution
asymétrique et où plusieurs exemples en double pour une classe
donnée peuvent influencer l'ajustement du modèle. Cela pourrait
inclure des algorithmes qui apprennent de manière itérative les
coefficients, comme les réseaux de neurones artificiels qui utilisent
la descente de gradient stochastique. Cela peut également affecter
les modèles qui recherchent une bonne répartition des données,
tels que les machines à vecteurs de support et les arbres de
décision.
19
1919
Pre-precessing
Introduction
Cette technique peut être utile d'ajuster la distribution des

classes cibles. Dans certains cas, la recherche d’une distribution
équilibrée pour un ensemble de données gravement déséquilibré
peut amener les algorithmes concernés à surajuster la classe
minoritaire, entraînant une augmentation des erreurs de
généralisation. L'effet peut être de meilleures performances sur
l'ensemble de données d'entraînement, mais de moins bonnes
performances sur l'ensemble de données d'exclusion ou de test.
20
2020
Pre-precessing
Introduction
Le sous-échantillonnage aléatoire implique une sélection aléatoire
d'exemples de la classe majoritaire à supprimer de l'ensemble de
données d'entraînement.
Cela a pour effet de réduire le nombre d'exemples dans la classe
majoritaire dans la version transformée du jeu de données
d'entraînement. Ce processus peut être répété jusqu'à ce que la
répartition des classes souhaitée soit atteinte, par exemple un
nombre égal d'exemples pour chaque classe.
21
2121
Pre-precessing
Introduction
Cette approche peut être plus adaptée aux ensembles de données
où il existe un déséquilibre de classe, même si un nombre
suffisant d'exemples dans la classe minoritaire, un modèle aussi
utile peut être adapté.
Une limite du sous-échantillonnage est que les exemples de la

classe majoritaire qui peuvent être utiles, importants ou peut-être
critiques pour définir une frontière de décision solide sont
supprimés. Étant donné que les exemples sont supprimés de
manière aléatoire, il n’existe aucun moyen de détecter ou de
préserver des exemples « bons » ou plus riches en informations
provenant de la classe majoritaire.
22
2222
Pre-precessing
Introduction
Des résultats intéressants peuvent être obtenus en combinant à la
fois un suréchantillonnage et un sous-échantillonnage aléatoires.
Par exemple, un léger suréchantillonnage peut être appliqué à la
classe minoritaire pour améliorer le biais en faveur de ces
exemples, tout en appliquant également un léger sous-
échantillonnage à la classe majoritaire pour réduire le biais sur
cette classe.
Cela peut entraîner une amélioration des performances globales

par rapport à l’exécution de l’une ou l’autre technique de manière
isolée.
23
2323
Pre-precessing
Introduction
Par exemple, si nous disposions d'un ensemble de données avec
une distribution de classe de 1 : 100, nous pourrions d'abord
appliquer un suréchantillonnage pour augmenter le rapport à 1 : 10
en dupliquant des exemples de la classe minoritaire, puis appliquer
un sous-échantillonnage pour améliorer encore le rapport à 1 : 2
en supprimer des exemples de la classe majoritaire.
Cela pourrait être implémenté en utilisant un apprentissage

déséquilibré en utilisant un RandomOverSampler avec
sampling_strategy défini sur 0,1 (10 %), puis en utilisant un
RandomUnderSampler avec un sampling_strategy défini sur 0,5
(50 %). Par exemple:
24
2424
Pause-réflexion
Avez-vous des questions ?
25
Références
1)https://mrmint.fr/naive-bayes-classifier
2) Nathan Carter, "Data Science for
Mathematicians", CRC Press
Taylor & Francis Group, 2021.
3)Joel Grus, "Data Science from Scratch",
Published by O’Reilly Media, 2015
4)JINGLI REN & HAIYAN WANG,
"MATHEMATICAL METHODS IN DATA
SCIENCE", Elsevier Science Press, 2023
26

Seance 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Seance 1

Transféré par

Droits d'auteur :

Formats disponibles

Visualisation des

Cette leçon va vous aider à :

Comprendre les concepts : DA, DS, ML

Data, obtenir Data

Visualiser les données avec Python

Défintion des données

Visualiser les données

Par exemple, nous voulons savoir si une personne paiera ses

Les données se présentent sous de

Les Données sont souvent stockés dans un

Les ensembles de données déséquilibrés sont ceux dans lesquels

Ce biais dans l’ensemble de données de formation peut influencer

Une approche pour résoudre le problème du déséquilibre des

Le suréchantillonnage aléatoire implique la duplication aléatoire

Les exemples de l'ensemble de données de formation sont

Cette technique peut être efficace pour les algorithmes

Cette technique peut être utile d'ajuster la distribution des

Une limite du sous-échantillonnage est que les exemples de la

Cela peut entraîner une amélioration des performances globales

Cela pourrait être implémenté en utilisant un apprentissage

Avez-vous des questions ?

Vous aimerez peut-être aussi