Aaa Seance 02 Preparation Des Données

Préparation et structuration des données
Table des matières

1. Pourquoi la préparation des données ? .............................................................................................. 2
2. Collecte et intégration des données.................................................................................................... 2
3. Nettoyage des données ....................................................................................................................... 3
4. Transformation des données............................................................................................................... 4
4.1. Discrétisation en utilisant le groupement .................................................................................... 4
4.2. Normalisation ............................................................................................................................... 4
4.2.1. Mise à l’échelle min-max ....................................................................................................... 4
4.2.2. Coupure ................................................................................................................................. 5
4.2.3. Mise à l’échelle logarithmique .............................................................................................. 5
4.2.4. Le Z-score ............................................................................................................................... 6
4.3. Binarisation ................................................................................................................................... 6
4.4. Créations de nouvelles caractéristiques ................................................................................... 7
4.5. Représentation one-hot ........................................................................................................... 7
5. Réduction des données ....................................................................................................................... 7
5.1. Agrégation de cubes de données ................................................................................................. 8
5.2. Réduction des dimensions............................................................................................................ 8
5.3. Compression des données............................................................................................................ 9
5.4. Réduction de la numéroté ............................................................................................................ 9
5.5. Usage de la discrétisation ............................................................................................................. 9
5.6. Usage de la hiérarchie des concepts ............................................................................................ 9
6. Structuration des données pour l’apprentissage automatique ........................................................ 10
6.1. Annotation des données pour l’apprentissage automatique .................................................... 10
6.1.1. Approche 1 - Annotation interne ........................................................................................ 11
6.1.2. Approche 2 - L’externalisation (Outsourcing) ..................................................................... 11
6.1.3. Approche 3 - Crowdsourcing ............................................................................................... 11
6.1.4. Approche 4 - Données synthétiques ................................................................................... 12
6.1.5. Approche 5 - Par programmation........................................................................................ 12
6.2. Echantillonnage pour l’apprentissage automatique .................................................................. 12
6.2.1. Sous-échantillonnage .......................................................................................................... 13
6.2.2. Sur-échantillonnage............................................................................................................. 14
6.2.3. Ré-échantillonnage en ensembles de données équilibrées ................................................ 14
6.2.4. Ré-échantillonnage en ensembles de données avec ratios ................................................ 14
6.3. Fractionnement des données pour l’apprentissage automatique ............................................. 15
1/15
1. Pourquoi la préparation des données ?
Dans le monde réel, les données brutes sont rarement de bonne qualité ce qui rend parfois l’étape
d’analyse de données ou d’application des modèles de science de données difficile ou impossible
dans certains cas.
La préparation des données, parfois appelée « pré-traitement des données », est donc cruciale
car pendant cette étape, les données brutes sont nettoyées et structurées en vue de l'étape
suivante du traitement des données.
Pendant cette phase de préparation, les données brutes sont vérifiées avec soin afin de déceler
d'éventuelles erreurs.
En général, la préparation des données vise l’un ou plusieurs des objectifs suivants :
- Avoir des données de qualité et donc sans erreur

- Avoir moins de données : les méthodes de science de données peuvent apprendre plus
rapidement (suppression des données erronées et des attributs inutiles)
- Fournir les données conformes aux entrées des modèles de science de données qu’on désire
mettre en œuvre (type de données, format, nombre de variables, …)
- Retenir les attributs les plus pertinents pour atteindre l’objectif de l’étude (meilleure précision
et meilleure généralisation par les modèles)
2. Collecte et intégration des données
Quand on veut collecter des données dans le but d’appliquer une approche de science de
données, souvent, on a besoin de combiner des données de différentes sources :
- Données structurées : Bases de données, Fichiers de tabulateurs (CSV, …).
- Données semi-structurées : XML, JSON, …
- Données non structurées : documents textes, images, métadonnées, …
2/15
Il faut, tout d’abord, vérifier l’intégrité des données:
- Vérifier que les fichiers XML sont conformes à leurs définitions XSD
- Vérifier que les séparateurs des colonnes dans les fichiers CSV sont correctes (point-virgule ou
virgule et pas les deux au même temps).
Quand on joint deux schémas de données, on doit vérifier:

- Problème de nommage : il se peut qu’on ait des données identiques avec des nominations
différentes. Par exemple, si on veut joindre deux tables de données b1 et b2 qui ont deux
attributs avec le même sens mais différents noms b1.numero_client et b2.client_id, on doit
unifier les noms des attributs.
- Conflits de valeurs : les valeurs des attributs provenant de sources différentes sont
représentées différemment. Par exemple, une source de données qui représente la taille
en cm et une autre qui représente la taille en pouces.
- Redondance : les attributs qu’on peut déduire des autres, les enregistrements identiques.
- Le même attribut défini avec des types différents
3. Nettoyage des données
Les problèmes rencontrés dans les données peuvent être:
- Valeurs omises (données non disponibles) : des échantillons (enregistrements) avec des
caractéristiques (attributs) sans valeurs.
Les causes, entre autres, peuvent être : le mauvais fonctionnement de l’équipement, les
incohérences avec d’autres données et donc supprimées, non saisies car non (ou mal)
comprises, ou encore considérées peu importantes au moment de la saisie
- Échantillons dupliqués
- Des mauvaises annotations. Par exemple, un annotateur humain marque un échantillon
comme “chat” or l’étiquette correcte est “chien” ou encore une incohérence dans les
conventions de nommage
- Bruit dans les données. Qui peut être causé par instrument de mesure défectueux, un
problème de saisie ou un problème de transmission
Pour régler ces problèmes, on peut appliquer les stratégies suivantes :
- Valeurs omises :
 Suppression des lignes ou des exemples qui ont des valeurs manquantes
 Saisie manuelle des valeurs manquantes
 Remplacement par une constante globale. Par exemple, “inconnu” pour les valeurs
nominales ou “0” pour les valeurs numériques.
 Remplacement par la moyenne dans le cas des valeurs numériques, en préférence de la
même classe.
 Remplacement par la valeur la plus fréquente dans le cas des valeurs nominales.
 Remplacement par la valeur la plus probable.
- Échantillons dupliqués : suppression des doublons pour en retenir un seul
3/15
- Bruit (erreur ou variance aléatoire d’une variable mesurée):
 Détection automatique des valeurs suspectes (outlier) et vérification humaine.
 Binning ou Bucketing (groupement des données par classe)
 Clustering pour détecter les exceptions
 Lisser les données par des méthodes de régression.
4. Transformation des données
4.1. Discrétisation en utilisant le groupement
La discrétisation est le fait de convertir les caractéristiques quantitatives continues en

caractéristiques nominales ou ordinales. L’ensemble des valeurs de l’attribut quantitatif est divisé
en intervalles. Ensuite, les étiquettes des intervalles sont utilisées à la place des valeurs associées.
On peut par exemple appliquer la discrétisation sur les notes aux examens A (15-20), B (12-14), C
(9-11), D (6-8), F (0-5).
Cette technique est également utilisée pour simplifier l’exploitation des données dans certains
types d’algorithmes. Par exemple, un modèle de science de données comme le classifieur naïf
bayésien multinomial, utilise des attributs de type nominal.
4.2. Normalisation
4.2.1. Mise à l’échelle min-max
La mise en échelle min-max transforme chaque valeur numérique x vers une autre valeur
x’ ∈ [0, 1] en utilisant la valeur minimale et la valeur maximale dans les données. Cette
normalisation conserve la distance proportionnelle entre les valeurs d’une caractéristique.
La mise à l’échelle min-max est un bon choix si ces deux conditions sont satisfaites :
 On connait les limites supérieure et inférieure approximatives des valeurs de la caractéristique
concernée (avec peu ou pas de valeurs aberrantes).
 Les valeurs sont presque uniformément réparties sur cette plage ( [min, max] ).
Un bon exemple est l’âge. La plupart des valeurs d’âge se situent entre 0 et 90, et qui sont
distribuées sur toute cette plage.
4/15
En revanche, utiliser cette normalisation sur le revenu est une mauvaise chose. Un petit nombre
de personnes ont des revenus très élevés. Si on applique cette normalisation, la plupart des gens
seraient réduits à une petite partie de l’échelle.
Cette normalisation offre les avantages suivants:
 Eviter le problème des valeurs non définies lorsqu’une valeur dépasse la limite de précision en
virgule flottante pendant l’entraînement.
 Ramener plusieurs caractéristiques à la même échelle afin que l’algorithme d’apprentissage ne
favorise pas les attributs qui ont un plus large intervalle de valeurs que les autres.
4.2.2. Coupure
S’il existe des valeurs aberrantes dans les extrémités d’une caractéristique, on applique une
coupure max avec une valeur α et/ou min avec une valeur β.
Par exemple, dans le graphe suivant, qui illustre le nombre de cambres par personnes, on
remarque qu’au delà de 4 les valeurs sont très basses. La solution est d’appliquer une coupure
max de 4.
4.2.3. Mise à l’échelle logarithmique
Cette transformation est utile lorsqu’un petit ensemble de valeurs ont plusieurs points, or la
plupart des valeurs ont moins de points. Elle sert à compresser la plage des valeurs.
Par exemple, la distribution du nombre d’évaluations par film. En abscisse on a x le nombre

d’évaluations et en ordonnée le nombre y de films qui ont été évalué x fois. Dans le schéma
suivant, la plupart des films ont moins d’évaluations.
5/15
4.2.4. Le Z-score
Le Z-score est utilisé pour assurer que la distribution d’une caractéristique ait une moyenne nulle
et un écart type = 1. C’est utile quand il y a quelques valeurs aberrantes, mais pas si extrême qu’on
a besoin d’appliquer une coupure.
Dans certains ouvrages, cette transformation n’est pas classifiée comme une “normalisation” mais
comme étant une “standardisation”. Cela est due au fait qu’elle transforme l’ancienne distribution
à une distribution normale.
Étant donnée une caractéristique avec des valeurs x, les nouvelles valeurs x’ peuvent être exprimé
par x, la moyenne des valeurs μ et leurs écart type σ.
4.3. Binarisation
Il existe des cas où on n’a pas besoin des fréquences (nombre d’occurrences) d’une caractéristique
pour créer un modèle; on a besoin seulement de savoir si cette caractéristique a apparue une fois
au moins pour un échantillon. Dans le cas général, on veut vérifier si la fréquence a dépassé un
certain seuil a ou non. Dans ce cas, on binarise les valeurs de cette caractéristique.
Par exemple, si on veut construire un système de recommandation de chansons, on va

simplement avoir besoin de savoir si une personne est intéressée ou a écouté une chanson en
particulier. Cela n’exige pas le nombre de fois qu’une chanson a été écoutée mais, plutôt, les
différentes chansons que cette personne a écoutées.
6/15
4.4. Créations de nouvelles caractéristiques
Dans l’apprentissage automatique supervisé, en général, on veut modéliser la sortie (classes

discrètes ou valeurs continues) en fonction des valeurs de caractéristiques en entrée.
Par exemple, une équation de régression linéaire simple peut modéliser la sortie y en se basant
sur les caractéristiques xi et leurs poids correspondants wi comme suit:
Dans ce cas, on a modélisé la sortie en se basant sur des entrées indépendantes l’une de l’autre.
Cependant, souvent dans plusieurs scénarios réels, il est judicieux d’essayer également de
capturer les interactions entre les caractéristiques. Donc, on peut créer de nouvelles
caractéristiques en multipliant les anciennes deux à deux (ou encore plus). Notre équation de
régression linéaire sera comme suit:
4.5. Représentation one-hot
Cette représentation peut être utile lorsqu’on veut convertir les données d’entrée en vecteurs. On
suppose qu’on a des données qualitatives (catégorielles) qui prennent une valeur dans un
ensemble fini Ω. Par exemple :
- le sexe d’une personne : Ω={‘femme’, ‘homme’}

- la réponse à un sondage : Ω={‘oui’, ‘non’, ‘peut-être’}
- un mot : Ω={‘le’, ‘la’, ... }
On convertit sous une forme vectorielle appelée one-hot, un vecteur de taille |Ω|, initialement
rempli de zéros. Ensuite, on associe à chaque position dans le vecteur, une valeur de l’ensemble Ω,
et on assigne la valeur 1 à la position de la valeur observé.
5. Réduction des données
Des techniques de réduction de données peuvent être appliquées pour obtenir une représentation
réduite de l'ensemble de données qui est beaucoup plus petit en volume, tout en conservant un
taux important d’information utile.
7/15
Dans la pratique, ce qui est réduit c’est le nombre d'enregistrements/exemples ou le nombre
d'attributs ou de dimensions tout en gardant à l'esprit que les données réduites doivent produire
les mêmes résultats (ou presque) que les données d'origine.
Ainsi, l'exploration sur l'ensemble de données réduit devrait être plus simple, rapide et efficace
tout en produisant les mêmes (ou presque les mêmes) résultats analytiques.
Il y a plusieurs stratégies de réduction des données.
5.1. Agrégation de cubes de données
Un cube de données est généralement utilisé pour agréger les données sous une forme plus
simple et pour interpréter facilement les données. Il est particulièrement utile lors de la
représentation de données avec des dimensions comme certaines mesures des besoins d’une
entreprise.
Chaque dimension d'un cube représente certaines caractéristiques de la base de données, par
exemple, les ventes quotidiennes, mensuelles ou annuelles. Les données incluses dans un cube de
données permettent d'analyser presque tous les chiffres pour pratiquement tous les clients, les
agents de vente, les produits et bien plus encore.
Ainsi, un cube de données peut aider à établir des tendances et à analyser les performances ;
résumer les données de manière à ce que les données résultantes résument les ventes totales par
an ou par décennie au lieu de mensuelle ou trimestrielle.
5.2. Réduction des dimensions
Cette stratégie est appliquée pour :
- réduire les attributs redondants

- réduire les attributs fortement corrélés (ceux qu’on peut déduire à partir d’autres)
- représenter les données dans un espace à peu de dimensions (c’est le cas des techniques
d’analyse factorielle comme ACP ou SVD)
Les techniques d’analyse factorielle s'appliquent sur des données qu'on peut représenter par un
tableau et tentent de répondre à la question : tenant compte des ressemblances des individus et
des liaisons entre attributs/variables, est-il possible de résumer toutes les données par un nombre
restreint de valeurs sans perte d'information importante ?
8/15
5.3. Compression des données
La compression de données ou codage de source est l'opération informatique consistant à

transformer une suite de bits A en une suite de bits B plus courte pouvant restituer les mêmes
informations, ou des informations voisines, en utilisant un algorithme de décompression
5.4. Réduction de la numéroté
Dans cette technique de réduction, les données réelles sont remplacées par des modèles
mathématiques ; au lieu de stocker les données réelles, on stocke les paramètres du modèle qui
approche le plus possible la distribution des données.
On peut également stocker les informations relatives aux méthodes non paramétriques telles que
le clustering ou l’histogramme des valeurs. Une donnée dans ce cas, est représentée par sa classe
ou l’intervalle auquel cette dernière appartient.
Revoir la figure sur le clustering et la régression de la section 3 (Netoyage des données).
5.5. Usage de la discrétisation
Des techniques de discrétisation des données sont utilisées pour diviser les attributs de nature
continue en données avec des intervalles. Les valeurs numériques sont remplacées par des
étiquettes de petits intervalles. Ainsi, les résultats des modèles de science de données sont
affichés de manière concise et facilement compréhensible.
Exemple : Les âges des humains peuvent être discrétisés en classes d’intervalles
]0, 20], ]20, 30], ]30, 40], ]40, 50], ]50, 60], ]60, 70], ]70, 80], ]80, 200]
5.6. Usage de la hiérarchie des concepts
En considérant la hiérarchie des concepts, pour réduire les dimensions, on peut remplacer chaque
donnée par un de ses ascendants dans la hiérarchie.
Par exemple, dans le cas de localisation géographique on peut choisir de retenir les villes au lieu
des quartiers ou districts ou arrondissement. Ou même la région au lieu de ville.
9/15
6. Structuration des données pour l’apprentissage automatique
Considérons un projet de science de données qui nécessite que nous appliquons un modèle de
classification supervisé.
Pour que ce projet soit réalisé, il est nécessaire d’avoir un ensemble d’enregistrements/exemples
qui sont décrits chacun par un ensemble d’attributs ou variables et le but est de prédire la classe à
laquelle appartient chacun des enregistrements.
Dans ce contexte, les variables explicatives sont les variables/attributs qui permettent de décrire
les enregistrements et la variable expliquée est l’attribut classe dont on doit prédire la valeur pour
chaque enregistrement/exemple.
Quelques exemples de problèmes de classification :
- Classer les opérations de prêts (sera remboursé ou pas) en fonction des caractéristiques de
l’emprunteur et du prêt
- Classer des CV par compétence en fonction de leur contenu
- Classer automatiquement les images d’objets
6.1. Annotation des données pour l’apprentissage automatique
De manière générale, l'objectif de la classification supervisée est principalement de définir des

règles permettant de classer des objets dans des classes à partir de variables qualitatives ou
quantitatives caractérisant ces objets.
Pour cela, il est nécessaire de disposer au départ d'un échantillon dit d'apprentissage dont le
classement est connu (données annotées ou étiquetées). Cet échantillon est utilisé pour
l'apprentissage des règles de classement.
Dans cette sous-section, nous parlons des mécanismes mis en place pour l’annotation ou
l’étiquetage des enregistrements (attribution des classes aux différents enregistrements).
L’annotation des données est l’une des importantes tâches dans l’apprentissage automatique. Si
les données sont mal annotées, la performance de notre système d’apprentissage va diminuer.
10/15
6.1.1. Approche 1 - Annotation interne
Dans cette approche, on annote les données avec sa propre équipe.
Avantages :
- Capacité à suivre le progrès : On peut vérifier le progrès de son équipe pour assurer qu’elle
respecte le calendrier du projet
- Bonne qualité : On peut vérifier la qualité de quelques données pendant l’annotation, identifier
les annotateurs qui n’offrent pas une bonne qualité et guider la tâche en donnant des
instructions sur les mauvais et les bons exemples qu’il faut suivre.
Inconvénients :
- L’annotation est trop lente : plus on gagne en qualité, plus on perd en temps.
En résumé, cette approche est recommandée pour les entreprises qui ont suffisamment de
ressources humaines, financières et du temps.
6.1.2. Approche 2 - L’externalisation (Outsourcing)
Si on ne dispose pas d’une équipe qualifiée pour l’annotation (pourtant l’annotation n’exige pas
une grande expertise) ou on n’a pas assez de ressources humaines, on peut embaucher des
travailleurs indépendants (freelancers). Ce qui nécessite :
- Préparer les données et fixer le temps exigé pour les annoter

- Diviser les données en sous ensembles en supposant que ce temps est suffisant pour qu’une
personne puisse terminer l’annotation d’un sous-ensemble
- Publier des offres d’emploi sur les médias sociaux (LinkedIn) et plateforme de freelance.
Avantages :
- On connait ceux qu’on a embauchés ; on peut vérifier leurs compétences à l’aide de tests et on
peut contrôler leur travail.
Inconvénients :
- On doit préparer des instructions détaillée sur le processus d’annotation pour que les
annotateurs puissent comprendre comment faire la tâche correctement.
- On aura besoin de plus de temps pour soumettre et vérifier les tâches terminées.
- On doit créer un flux de travail: une interface qui aide les annotateurs.
6.1.3. Approche 3 - Crowdsourcing
Si on ne veut pas gaspiller plus de temps pour recruter des gens et suivre leurs travaux, on peut
toujours utiliser des plateformes de crowdsourcing. Ce sont des plateformes qui gèrent un grand
nombre de contributeurs offrant la main d’œuvre à la demande. Ils offrent des interfaces
graphiques simples à utiliser pour créer des tâches d’annotation. Parmi les plateformes, on peut
citer: Amazon Mechanical Turk (MTurk) et Clickworker.
Il y a deux types de crowdsourcing :
- Explicite : En demandant directement des contributions

- Implicite : En intégrant des tâches sous d’autres formes afin de motiver les participants - Tâches
inévitables (ex : reCAPTCHA), -Jeux ayant des objectifs (ex : jeu ESP)
11/15
Avantages :
- Des résultats rapides
- Coûts abordables
Inconvénients :
- La qualité des annotations: lorsque le revenu quotidien dépend du nombre de tâches
accomplies, les gens essayent de terminer le plus nombre possible de tâche. Les plateformes de
crowdsourcing utilisent des mesures de gestion de la qualité pour faire face à ce problème.
- On doit préparer des instructions détaillée sur le processus d’annotation pour que les
annotateurs puissent comprendre comment faire la tâche correctement.
6.1.4. Approche 4 - Données synthétiques
Cette approche consiste à générer des données qui imitent les données réelles en termes de
paramètres essentiels définis par un utilisateur. Les données synthétiques sont produites par un
modèle génératif construit et validé sur un jeu de données original. Par exemple, générer des
visages pour la reconnaissance faciale.
Avantages :
- Gain de temps et de couts
- L’utilisation de données non sensibles: parfois, il faut demander la permission pour utiliser
certaines données
Inconvénients :
- La nécessité pour le calcul haute performance
- Problèmes de qualité des données: Les données synthétiques peuvent ne pas ressembler aux
données réelles
6.1.5. Approche 5 - Par programmation
Cette approche consiste à écrire des programmes qui annotent les données automatiquement. Le
problème, ici, est qu’on a pu écrire une fonction pour annoter automatiquement les données. A
quoi, donc, sert l’apprentissage automatique si notre système va apprendre cette même fonction?
En général, on peut utiliser cette approche pour enrichir les données (ajouter plus d’échantillons).
Par exemple, on peut utiliser un algorithme de regroupement (clustering) pour avoir des groupes;
ensuite, on annote quelques échantillons dans chaque groupe et on généralise.
Avantages :
- Moins d’annotation manuelle
Inconvénients :
- Précision faible des étiquettes
6.2. Echantillonnage pour l’apprentissage automatique
Lorsqu’on a l’ensemble des données annotées, il est nécessaire d’y extraire l’échantillon dit
d'apprentissage qui est utilisé pour l'apprentissage des règles de classement.
12/15
Dans la classification, les données d’entraînement peuvent avoir des classes avec des proportions
asymétriques. Les classes qui constituent une grande (petite) proportion de données sont
appelées classes majoritaires (minoritaires) respectivement.
Le degré de déséquilibre peut aller de léger à extrême, comme le montre le tableau suivant :
Par exemple, dans le cas de la détection de fraude, les cas positifs (il y a un fraude) sont rares par
rapport au cas négatif (pas de fraude). On va finir par une distribution de données comme dans le
schéma suivant (200 négatifs et 1 positif).
Lors de la phase d’entrainement, le système va prendre plus de temps à apprendre le cas négatif
(pas de fraude) que le cas positif. Même si on a ce problème, on essaye d’entrainer notre système.
Si le modèle ne donne pas de bons résultats lors du test, on doit régler ça.
6.2.1. Sous-échantillonnage
Le sous-échantillonnage équilibre le jeu de données en réduisant la taille de la classe majoritaire.

Cette méthode est utilisée lorsque la quantité de données est suffisante, donc on peut supprimer
des échantillons de la classe majoritaire au hasard. Cela peut aider le système à converger
rapidement et, aussi, préserver l’espace de stockage du modèle généré. Dans l’exemple
précédent, on peut diminuer la taille des négatifs 10 fois pour avoir 20 échantillons.
13/15
Pour calibrer le modèle, on peut aussi donner un poids élevé aux scores générés par la classe sous-
échantillonnée.
6.2.2. Sur-échantillonnage
Le sur-échantillonnage équilibre le jeu de données en augmentant la taille de la classe minoritaire.

Cette méthode est utilisée lorsque la quantité de données est insuffisante. On peut augmenter la
taille de la classe minoritaire en utilisant plusieurs techniques :
- Répétition : réplication aléatoire des échantillons de la classe minoritaire

- Techniques de bootstrap
- SMOTE (Synthetic Minority Over-Sampling Technique)
6.2.3. Ré-échantillonnage en ensembles de données équilibrées
Dans ce cas, on peut créer plusieurs ensembles de données en divisant la classe majoritaire sur
plusieurs ensembles et fusionnant la classe minoritaire avec chaque ensemble. Ensuite, on peut
entrainer plusieurs modèles sur ces ensembles.
6.2.4. Ré-échantillonnage en ensembles de données avec ratios
On peut, aussi, créer plusieurs ensembles de données en jouant sur le ratio entre la classe
minoritaire et la classe majoritaire et entrainer plusieurs modèles sur ces ensembles.
14/15
6.3. Fractionnement des données pour l’apprentissage automatique
L’échantillon d’apprentissage est utilisé pour l'apprentissage des règles de classement du modèle
de classification supervisée. Ensuite, il est nécessaire d'étudier la fiabilité de ces règles pour les
comparer à ceux d’autres modèles ou pour les appliquer.
Dans le cas d’apprentissage supervisé, il ne faut pas entrainer et tester le modèle sur les mêmes
données. Le système doit être testé sur des données qu’il n’a pas encore rencontrées pour tester
s’il a bien généralisé à partir des données qu’il a déjà vues. Donc, on a besoin de diviser notre
ensemble de données sur deux sous-ensembles :
- Données d’entrainement avec une majorité des échantillons (70-80%)

- Données de test avec une minorité des échantillons (30-20%)
Lors du fractionnement, il faut prendre en considération ces deux conditions :
- Les données de test sont suffisantes pour avoir des résultats significatifs.
- Les données de test sont représentatives. Il ne faut pas prendre un ensemble avec des
caractéristiques différentes de celles des données d’entrainement.
Parfois, lorsqu’on teste notre modèle et on rend compte qu’il donne des résultats médiocres, on
veut refaire la phase d’entrainement en changeant les paramètres de notre système. En faisant ça
plusieurs fois, notre modèle sera ajusté aux données de test. Pour faire face à ce problème, on
peut créer un troisième ensemble pour la validation. Le processus d’apprentissage sera alors
comme suit :
1- Entrainer le système sur l’ensemble des données d’entrainement pour avoir un modèle
2- Tester le modèle sur l’ensemble des données de validation
- Si la performance est bonne, aller vers l’étape suivante
- Sinon, changer les paramètres de votre système et refaire l’étape précédente
3- Tester le modèle sur l’ensemble de test pour calculer la performance de votre système et
comparer avec les autres systèmes existants.
15/15

Aaa Seance 02 Preparation Des Données

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Aaa Seance 02 Preparation Des Données

Transféré par

Droits d'auteur :

Formats disponibles

Préparation et structuration des données

Table des matières

- Avoir des données de qualité et donc sans erreur

2. Collecte et intégration des données

Quand on joint deux schémas de données, on doit vérifier:

3. Nettoyage des données

Les problèmes rencontrés dans les données peuvent être:

Pour régler ces problèmes, on peut appliquer les stratégies suivantes :

- Échantillons dupliqués : suppression des doublons pour en retenir un seul

4. Transformation des données

4.1. Discrétisation en utilisant le groupement

La discrétisation est le fait de convertir les caractéristiques quantitatives continues en

4.2.1. Mise à l’échelle min-max

Cette normalisation offre les avantages suivants:

4.2.3. Mise à l’échelle logarithmique

Par exemple, la distribution du nombre d’évaluations par film. En abscisse on a x le nombre

Par exemple, si on veut construire un système de recommandation de chansons, on va

Dans l’apprentissage automatique supervisé, en général, on veut modéliser la sortie (classes

4.5. Représentation one-hot

- le sexe d’une personne : Ω={‘femme’, ‘homme’}

5. Réduction des données

Il y a plusieurs stratégies de réduction des données.

5.1. Agrégation de cubes de données

5.2. Réduction des dimensions

Cette stratégie est appliquée pour :

- réduire les attributs redondants

La compression de données ou codage de source est l'opération informatique consistant à

5.4. Réduction de la numéroté

Revoir la figure sur le clustering et la régression de la section 3 (Netoyage des données).

5.5. Usage de la discrétisation

5.6. Usage de la hiérarchie des concepts

Quelques exemples de problèmes de classification :

6.1. Annotation des données pour l’apprentissage automatique

De manière générale, l'objectif de la classification supervisée est principalement de définir des

Dans cette approche, on annote les données avec sa propre équipe.

6.1.2. Approche 2 - L’externalisation (Outsourcing)

- Préparer les données et fixer le temps exigé pour les annoter

6.1.3. Approche 3 - Crowdsourcing

Il y a deux types de crowdsourcing :

- Explicite : En demandant directement des contributions

6.1.4. Approche 4 - Données synthétiques

6.1.5. Approche 5 - Par programmation

6.2. Echantillonnage pour l’apprentissage automatique

Le sous-échantillonnage équilibre le jeu de données en réduisant la taille de la classe majoritaire.

Le sur-échantillonnage équilibre le jeu de données en augmentant la taille de la classe minoritaire.

- Répétition : réplication aléatoire des échantillons de la classe minoritaire

6.2.3. Ré-échantillonnage en ensembles de données équilibrées

6.2.4. Ré-échantillonnage en ensembles de données avec ratios

- Données d’entrainement avec une majorité des échantillons (70-80%)

Lors du fractionnement, il faut prendre en considération ces deux conditions :

Vous aimerez peut-être aussi