Académique Documents
Professionnel Documents
Culture Documents
Seance 1
Seance 1
Données
2023/2024
2022/2024
Objectifs
Objectifs du cours
Le concept de pré-traitement
2
Plan
Le Plan du cours :
Introduction et Vocabulaire
Pré-processing
Bibiothèques de python
3
Introduction
Introduction
Introduction
L'analyse de données se fond sur la collecte, l'organisation et de
la maintenance des données, ainsi que de l'utilisation des
statistiques, de la programmation et d'autres techniques pour
obtenir des informations à partir des données. Le rôle del’ analyse
de données est de repérer les tendances et d’aider à résoudre les
problèmes. Des exemples d'analyse de données dans le
commerce de détail incluent le suivi des commandes, les
fonctionnalités de recommandation et l'identification des
emplacements des magasins.
Les analystes de données ont tendance à répondre aux
demandes des décideurs plutôt que de piloter le processus
décisionnel.
4
44
Introduction
Introduction
Introduction
Science Des données utilise la programmation, les
mathématiques et les statistiques pour obtenir des informations et
piloter la stratégie organisationnelle.
Les data scientists maîtrisent parfaitement l'apprentissage
automatique, la modélisation des données et l'utilisation
d'algorithmes pour automatiser les processus. Étant donné que
les données significatives sont spécifiques à un domaine, les
data scientists doivent également posséder une expertise dans
le domaine, une compréhension de leur secteur ou de leur
entreprise, pour fournir un contexte aux données avec lesquelles
ils travaillent.
Par exemple, la recherche en science des données dans le
domaine de la santé peut orienter les diagnostics, aider à 5
prévenir les maladies ou apprendre aux ordinateurs à lire les55
radiographies ou les IRM.
Introduction
Introduction
Introduction
Les data scientists travaillent en étroite collaboration avec les
responsables des ventes et du marketing, du développement de
produits, des technologies de l'information, de la finance et des
entreprises pour aider à identifier les tendances, repérer les
problèmes, comprendre le comportement des consommateurs et
présenter des solutions qui soutiennent la prise de décision
stratégique.
6
66
Introduction
Introduction
Introduction
Qu’en est-il de Machine Learning ? Souvent, les termes science
des données et Machine Learning sont utilisés de manière
interchangeable. C’est parce que cette dernière consiste à «
apprendre à partir des données ». Lors de l’application
d’algorithmes de ML l’algorithme détecte des modèles et utilise «
ce qu’il a appris » sur de nouvelles données.
7
77
Introduction
Introduction
Machine Learning
8
88
Saisie des données Introduction
Introduction
Production des rapports
Graphique
Data
9
99
Saisie des données Introduction
Introduction
Production des rapports
Graphique
Data
10
1010
Saisie des données Introduction
Introduction
Production des rapports
Graphique
Data
11
1111
Introduction
Introduction
Data
1. La première colonne est généralement une colonne d'identifiant
ou d'index, où chaque unité/ligne reçoit un nom ou un identifiant
unique.
2. Certaines colonnes (features) peuvent correspondre au plan
d'expérimentation, précisant par exemple à quel groupe
expérimental appartient l'unité. Souvent, les entrées de ces
colonnes sont déterministes ; c'est-à-dire qu'ils restent les mêmes
si l'expérience devait être répétée.
3. D'autres colonnes représentent les mesures observées de
l'expérience. Habituellement, ces mesures présentent une
variabilité ; c'est-à-dire qu'ils changeraient si l'expérience devait
être répétée.
12
1212
Introduction
Introduction
Type pour Data
Nous pouvons généralement classer les features comme
quantitatives ou qualitatives.
Les features quantitatives possèdent une « quantité numérique »,
telle que la taille, l'âge, le prix, etc., et peuvent être continues ou
discrètes.
Les features quantitatives continues prennent des valeurs dans
une plage continue de valeurs possibles, telles que la hauteur, la
tension; de telles caractéristiques traduisent l'idée que les
mesures peuvent toujours être effectuées avec plus de précision.
Les features quantitatives discrètes ont un nombre compté de
possibilités, nombre des étudaints dans une classe, nombre de
goutes d’un médicament
13
1313
Introduction
Introduction
Type pour Data
Les features qualitatives n'ont pas de signification numérique, mais
leurs valeurs possibles peuvent être divisées en un nombre fixe de
catégories:
{M, F} pour le sexe ou {bleu, noir, marron, vert} pour la couleur des
yeux.
Pour cette raison, ces caractéristiques sont également appelées
catégorielles.
Une règle simple est la suivante : cela n’a pas de sens de faire une
moyenne des données, elle est catégorique.
Par exemple, on ne peut pas calculer la moyenne de la couleur des
yeux. Bien sûr, il est toujours possible de représenter des données
catégorielles avec des nombres,
tels que 1 = bleu, 2 = noir, 3 = marron,
14
mais ces nombres n'ont aucune signification quantitative. Les1414
caractéristiques catégorielles sont souvent appelées facteurs.
Pre-precessing
Introduction
Format des données
Les données doivent être dans le bon format pour les rendre
utilisables à des fins d'analyse et à d'autres fins. Ensuite, les
données doivent être traitées correctement afin que nous puissions
y appliquer des algorithmes et nous assurer que nous effectuons
une analyse appropriée.(voir le fichiers: iris2.ipynb et graph1.ipynb)
15
1515
Pre-precessing
Introduction
Données non equilibrées
Introduction
Données non equilibrées
17
1717
Pre-precessing
Introduction
Données non equilibrées
Introduction
Données non equilibrées
19
1919
Pre-precessing
Introduction
Données non equilibrées
20
2020
Pre-precessing
Introduction
Données non equilibrées
Le sous-échantillonnage aléatoire implique une sélection aléatoire
d'exemples de la classe majoritaire à supprimer de l'ensemble de
données d'entraînement.
Cela a pour effet de réduire le nombre d'exemples dans la classe
majoritaire dans la version transformée du jeu de données
d'entraînement. Ce processus peut être répété jusqu'à ce que la
répartition des classes souhaitée soit atteinte, par exemple un
nombre égal d'exemples pour chaque classe.
21
2121
Pre-precessing
Introduction
Données non equilibrées
Cette approche peut être plus adaptée aux ensembles de données
où il existe un déséquilibre de classe, même si un nombre
suffisant d'exemples dans la classe minoritaire, un modèle aussi
utile peut être adapté.
Introduction
Données non equilibrées
Des résultats intéressants peuvent être obtenus en combinant à la
fois un suréchantillonnage et un sous-échantillonnage aléatoires.
Par exemple, un léger suréchantillonnage peut être appliqué à la
classe minoritaire pour améliorer le biais en faveur de ces
exemples, tout en appliquant également un léger sous-
échantillonnage à la classe majoritaire pour réduire le biais sur
cette classe.
23
2323
Pre-precessing
Introduction
Données non equilibrées
Par exemple, si nous disposions d'un ensemble de données avec
une distribution de classe de 1 : 100, nous pourrions d'abord
appliquer un suréchantillonnage pour augmenter le rapport à 1 : 10
en dupliquant des exemples de la classe minoritaire, puis appliquer
un sous-échantillonnage pour améliorer encore le rapport à 1 : 2
en supprimer des exemples de la classe majoritaire.
25
Références
1)https://mrmint.fr/naive-bayes-classifier
2) Nathan Carter, "Data Science for
Mathematicians", CRC Press
Taylor & Francis Group, 2021.
3)Joel Grus, "Data Science from Scratch",
Published by O’Reilly Media, 2015
4)JINGLI REN & HAIYAN WANG,
"MATHEMATICAL METHODS IN DATA
SCIENCE", Elsevier Science Press, 2023
26