Vous êtes sur la page 1sur 13

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique

Université de la Manouba

Institut supérieur des Arts Multimédias

Sélection des Variables en


Statistiques et Analyse de Données

Elaborée par :
Nourhene Jaouadi
Wejden Homri

Date d’évaluation 11/12/2023


Introduction
L'introduction au problème de la sélection des variables est cruciale pour établir
le contexte et l'importance de ce processus dans le domaine de l'analyse de
données. La sélection des variables, également connue sous le nom de feature
sélection, joue un rôle fondamental dans la modélisation statistique et
l'apprentissage automatique. Ce processus vise à identifier les variables les plus
significatives ou informatives parmi un ensemble de données, contribuant ainsi à
simplifier les modèles, améliorer la précision des prédictions et réduire les
risques de surajustement.

L'importance de la sélection des variables réside dans sa capacité à optimiser les


performances des modèles en éliminant les caractéristiques redondantes,
bruitées ou peu informatives, ce qui conduit à des analyses plus efficientes et
interprétables. Dans le cadre de l'analyse de données, cette démarche revêt une
importance particulière en raison de sa capacité à rationaliser la complexité des
modèles, à accroître leur généralisation et à améliorer la compréhension des
relations entre les variables.

Le présent rapport a pour objectif d'explorer les diverses méthodes de sélection


des variables, en mettant particulièrement l'accent sur leur implémentation
pratique en utilisant le langage de programmation Python. En comprenant ces
méthodes et en les appliquant de manière appropriée, les analystes de données et
les scientifiques peuvent affiner leurs modèles, renforcer la robustesse de leurs
résultats et, ultimement, tirer des conclusions plus fiables à partir des ensembles
de données complexes. Ce rapport servira donc de guide pratique pour ceux qui
souhaitent approfondir leurs connaissances et compétences dans le domaine
crucial de la sélection des variables.
Partie 1 : Théorie de la sélection des variables :

1.1 Fondements statistiques :


 Concepts statistiques liés à la sélection des variables :

La sélection des variables repose sur plusieurs fondements statistiques qui visent
à identifier les caractéristiques les plus informatives et significatives d'un
ensemble de données. Voici quelques-uns des fondements statistiques essentiels
dans le contexte de la sélection des variables :

1. Variable dépendante et variable indépendante : Dans le contexte de la


modélisation statistique, la variable dépendante est celle que l'on cherche
à prédire ou à expliquer, tandis que les variables indépendantes,
également appelées variables explicatives, sont les caractéristiques
utilisées pour effectuer cette prédiction.
2. Réduction de la dimensionnalité : La sélection des variables est souvent
motivée par le besoin de réduire la dimensionnalité des données. En
statistique, la dimensionnalité fait référence au nombre de variables dans
un ensemble de données. La réduction de la dimensionnalité vise à
extraire les caractéristiques les plus importantes tout en éliminant celles
qui apportent peu d'information.
3. Multicolinéarité : La multicolinéarité survient lorsque deux ou plus de
variables sont fortement corrélées entre elles. Ceci peut poser des
problèmes lors de la modélisation statistique, car cela peut rendre difficile
l'attribution d'effets individuels à chaque variable. La sélection des
variables permet de traiter ce problème en éliminant les variables
redondantes.
4. Surajustement (overfitting) : La sélection des variables vise à éviter le
surajustement, un phénomène dans lequel un modèle s'adapte trop
précisément aux données d'entraînement, perdant ainsi sa capacité à
généraliser sur de nouvelles données. En éliminant les variables inutiles
ou nuisibles, la sélection des variables contribue à créer des modèles plus
simples et plus généralisables.
5. Critères d'information : Les critères d'information, tels que le critère
d'information d'Akaike (AIC) ou le critère d'information bayésien (BIC),
sont des outils statistiques utilisés pour comparer différents modèles. Ils
prennent en compte à la fois la qualité de l'ajustement du modèle et la
complexité du modèle. La sélection des variables peut être guidée par ces
critères pour identifier le modèle optimal.
6. Tests de significativité : Les tests statistiques, tels que les tests t ou les
tests F, peuvent évaluer la significativité des coefficients des variables
dans un modèle. Ces tests aident à déterminer si une variable a un impact
significatif sur la variable dépendante

7. Tests statistiques :Des tests statistiques spécifiques peuvent être utilisés


pour évaluer la pertinence individuelle des variables. Par exemple, des
tests de signification peuvent aider à déterminer si l'effet d'une variable est
statistiquement différent de zéro, contribuant ainsi à la sélection des
variables les plus significatives.
8. Validation croisée : La validation croisée est une technique qui divise
l'ensemble de données en sous-ensembles d'entraînement et de test pour
évaluer la performance du modèle. Elle est souvent utilisée pour évaluer
l'efficacité des méthodes de sélection des variables en mesurant leur
impact sur la généralisation du modèle.

 Justification de l'importance de la sélection des variables dans la


modélisation statistique :

La sélection des variables joue un rôle crucial dans la modélisation


statistique pour plusieurs raisons essentielles. Voici quelques
justifications de l'importance de la sélection des variables dans ce
contexte :
1. Simplicité du modèle : En éliminant les variables inutiles ou
redondantes, la sélection des variables contribue à la simplification du
modèle. Un modèle plus simple est plus facile à interpréter, à
communiquer et à utiliser, ce qui est crucial pour la prise de décision et
la compréhension des relations entre les variables.
2. Amélioration de la généralisation : En éliminant les variables non
informatives, la sélection des variables contribue à créer des modèles
plus généraux. Cela permet au modèle de mieux généraliser sur de
nouvelles données, réduisant ainsi le risque de surajustement aux
données d'entraînement.
3. Économie de ressources : La modélisation statistique avec un nombre
réduit de variables nécessite moins de ressources computationnelles.
Cela peut être crucial dans des applications où l'efficacité de calcul est
un facteur limitant, notamment dans des domaines tels que l'analyse de
données volumineuses ou en temps réel.
4. Amélioration de la précision : En éliminant les variables bruitées ou
peu informatives, la sélection des variables peut améliorer la précision
des prédictions du modèle. Cela est particulièrement important dans
des domaines tels que la prédiction et la classification, où la qualité des
résultats est cruciale.
5. Optimisation des ressources de collecte de données : La collecte de
données peut être coûteuse en termes de temps et de ressources. La
sélection des variables aide à concentrer les efforts de collecte sur les
caractéristiques les plus importantes, optimisant ainsi l'utilisation des
ressources.
6. Interprétabilité accrue : Les modèles avec moins de variables sont
plus faciles à interpréter. Une sélection judicieuse des variables permet
de se concentrer sur les facteurs les plus pertinents, facilitant ainsi la
communication des résultats et la compréhension des mécanismes
sous-jacents.
 En résumé, la sélection des variables est un processus stratégique qui vise
à améliorer la qualité, l'efficacité et l'interprétabilité des modèles
statistiques. Elle contribue à créer des modèles plus simples, plus
généraux et plus adaptés à la prise de décision dans divers domaines
d'application.

1.2 Méthodes de sélection des variables :

Il existe plusieurs méthodes de sélection des variables, chacune avec ses


avantages et ses inconvénients. Voici quelques-unes des méthodes les plus
couramment utilisées :

Méthodes basées sur les filtres :

Corrélation : Cette méthode évalue la corrélation entre chaque variable


indépendante et la variable dépendante. Les variables fortement corrélées avec la
cible sont sélectionnées.
Test statistique univarié : Des tests statistiques, tels que le test t ou le test du
chi carré, sont utilisés pour évaluer l'importance de chaque variable
indépendante individuellement par rapport à la variable dépendante.

Méthodes basées sur les enveloppes :

Sélection avant-modélisation : Les méthodes comme la recherche avant-arrière


(forward-backward) ajoutent ou éliminent séquentiellement des variables en
fonction de leur contribution à la performance du modèle.

Sélection ensembliste : Des algorithmes d'ensembliste, tels que le


RandomForest, peuvent être utilisés pour évaluer l'importance des variables en
se basant sur le critère Gini ou l'entropie.

Méthodes intégratives (Wrapper methods) :

Sélection par recherche exhaustive : Évalue toutes les combinaisons possibles


de variables pour trouver le meilleur sous-ensemble en fonction d'un critère
prédéfini, souvent la performance du modèle.

Méthodes récursives : Élimine ou ajoute séquentiellement des variables en


fonction de leur contribution à la performance du modèle.

Méthodes basées sur la régularisation :

Régression Lasso (L1) :Utilise une pénalité L1 pour forcer certains coefficients
de variables à devenir nuls, effectuant ainsi une sélection automatique des
variables.

Régression Ridge (L2) : Introduit une pénalité L2 pour réduire l'importance de


certaines variables sans les éliminer complètement.

Méthodes d'analyse de composantes principales (ACP) :

ACP : Réduit la dimensionnalité des données en transformant les variables


d'origine en un ensemble de variables non corrélées appelées composantes
principales. Les premières composantes peuvent être utilisées comme variables
sélectionnées.

Méthodes basées sur les scores d'importance :

Importance des caractéristiques (feature importance) : Les modèles


d'apprentissage automatique, tels que les arbres de décision ou les Random
Forest, attribuent des scores d'importance aux variables, facilitant ainsi la
sélection des caractéristiques les plus influentes.

Méthodes basées sur l'information mutuelle :

Information mutuelle : Mesure la dépendance entre deux variables et peut être


utilisée pour évaluer l'importance de chaque variable par rapport à la variable
cible.

Méthodes basées sur les réseaux de neurones :

Réseaux de neurones autoencodeurs : Les autoencodeurs sont utilisés pour


apprendre des représentations comprimées des données, où seules les
caractéristiques les plus informatives sont conservées.

1.3 Critères de sélection :

Les critères de sélection des variables sont des principes ou des mesures utilisés
pour déterminer quelles variables inclure ou exclure dans un modèle statistique
ou d'apprentissage automatique. Ces critères visent à identifier les
caractéristiques les plus pertinentes et informatives pour améliorer la
performance, l'interprétabilité ou la généralisation du modèle. Voici quelques-
uns des critères de sélection des variables couramment utilisés :

- Critère d'information (AIC, BIC) : Ces critères évaluent la qualité


d'ajustement du modèle tout en pénalisant la complexité. Des valeurs plus
basses d'AIC ou de BIC indiquent généralement un meilleur modèle.
- Importance des caractéristiques (feature importance) : Dans les
modèles d'apprentissage automatique, comme les Random Forest, les
caractéristiques sont attribuées des scores d'importance. Les variables
avec des scores plus élevés sont considérées comme plus importantes.
- P-valeur : Les tests statistiques génèrent des p-valeurs qui mesurent la
probabilité que l'effet observé soit dû au hasard. Des p-valeurs faibles
suggèrent une plus grande signification statistique.
- Corrélation avec la variable cible : La corrélation entre chaque variable
indépendante et la variable dépendante peut être utilisée comme critère de
sélection. Des corrélations plus fortes indiquent une relation plus
importante.
- Réduction de la dimensionnalité : La réduction de la dimensionnalité,
telle que l'analyse en composantes principales (ACP), peut être utilisée
comme critère pour sélectionner un sous-ensemble de variables tout en
préservant l'information globale.
- Taux de variation expliqué (R²) : Dans le contexte de la régression, le
coefficient de détermination R² mesure la proportion de la variation dans
la variable dépendante qui est expliquée par le modèle.
- Critère de stabilité : Certains critères évaluent la stabilité des variables
sélectionnées par rapport à différentes subdivisions de l'ensemble de
données.
- Critère de validation croisée : La performance d'un modèle sur des
ensembles de données de validation croisée peut servir de critère de
sélection. Un modèle qui généralise bien sur différentes partitions des
données est préféré.
- Critères de régularisation (L1, L2) : Dans les méthodes de
régularisation, comme la régression Lasso (L1) et la régression Ridge
(L2), les critères de pénalisation sont utilisés pour favoriser la sélection de
variables importantes tout en contrôlant la complexité du modèle.
- Critères subjectifs : Parfois, des critères subjectifs basés sur la
connaissance du domaine peuvent être utilisés. Cela peut inclure
l'expertise d'un professionnel pour évaluer la pertinence d'une variable
dans le contexte spécifique de l'étude.

Partie 2 : Implémentation en Python :


2.1 Introduction à Python pour l'analyse de données :
La présentation des bibliothèques Python couramment utilisées pour l'analyse de
données est une étape importante pour comprendre les outils disponibles dans
l'écosystème Python. Voici une brève description de quelques-unes des
bibliothèques les plus fréquemment utilisées dans ce domaine :

Pandas :
Description : Pandas est une bibliothèque puissante pour la manipulation et
l'analyse des données. Elle offre des structures de données flexibles, notamment
les DataFrames, qui permettent de travailler avec des données tabulaires de
manière efficace. Pandas facilite l'importation, le nettoyage, l'exploration et la
manipulation des données.

NumPy :
Description : NumPy est une bibliothèque fondamentale pour le calcul
numérique en Python. Elle introduit des tableaux multidimensionnels (ndarrays)
qui offrent des opérations vectorisées et des fonctions mathématiques avancées.
NumPy est largement utilisé pour effectuer des calculs efficaces sur des données
numériques.

Matplotlib :
Description : Matplotlib est une bibliothèque de visualisation qui permet de
créer des graphiques statiques de haute qualité. Elle offre un contrôle précis sur
l'apparence des graphiques et prend en charge une variété de types de tracés.
Matplotlib est souvent utilisé conjointement avec Pandas et NumPy pour
visualiser les données.

Seaborn :
Description : Seaborn est une bibliothèque de visualisation de données basée
sur Matplotlib. Elle simplifie la création de graphiques attrayants en fournissant
des fonctions haut niveau pour des tracés statistiques complexes. Seaborn est
souvent utilisé pour explorer la relation entre différentes variables dans les
données.

 Ces bibliothèques sont souvent utilisées ensemble dans le cadre de projets


d'analyse de données en Python. Pandas est utilisé pour manipuler et
préparer les données, NumPy pour les calculs numériques, Matplotlib
pour la visualisation de base, et Seaborn pour des tracés statistiques plus
avancés. En les combinant, les analystes de données peuvent effectuer des
tâches complexes d'exploration et de présentation des données.
2.2 Exemple de jeu de données :
https://drive.google.com/file/d/1lrROnXEB5b55IznkdDKKCK9rZgOCuETK/view

Cet ensemble de données provient d’une extraction fournie par un Institut du


diabète.

L'objectif de cet ensemble est de construire un outil permettant de réaliser un


diagnostic positif ou négatif de la présence d'un diabète chez un patient.
Plusieurs contraintes ont été placées sur la sélection de ces instances dans la
base de données d'origine (bien plus volumineuse). En particulier, tous les
patients ici sont des femmes âgées d'au moins 21 ans.

Les ensembles de données comprennent plusieurs variables prédictives


médicales et la variable cible « Outcome » dont la valeur 1 signifie que la
patiente est diabétique et la valeur 0 qu'il ne l'est pas.
Les variables prédictives comprennent le nombre de grossesses que le patient a
eues, son IMC, son taux d'insuline, son âge, etc.
Chaque ligne représente un patient et les colonnes sont :

 Grossesses : nombre de fois où la patiente a déjà été enceinte


 Glucose : concentration en glucose plasmatique 2 heures dans un test de
tolérance au glucose par voie orale
 BloodPressure : pression artérielle diastolique (mm Hg)
 SkinThickness : épaisseur du pli cutané des triceps (mm)
 Insuline : insuline sérique de 2 heures (mu U / ml)
 IMC : indice de masse corporelle (poids en kg / (taille en m) ^ 2)
 DiabetesPedigreeFunction : Fonction pédigrée du diabète
 Age : âge (ans)
 Outcome : Variable de classe dont les états sont soit 1 (diabète), soit 0
(non diabète).

2.3 Application en Python :

analyse_pour_présiction_du_diabète.ipynb
2.4 Visualisation des résultats
Les résultats montrent que ["l'arbre de décision"] a obtenu le meilleur taux
d'exactitude, dépassant les autres approches. Cependant, il est important de
souligner que le choix du modèle dépend de divers facteurs, y compris la nature
des données et les préférences spécifiques. L'utilisation d'un arbre de décision
pour la classification peut être un exemple pertinent pour illustrer la sélection de
variables. La sélection de variables consiste à choisir un sous-ensemble des
caractéristiques disponibles qui sont les plus informatives pour le modèle, tout
en réduisant la dimensionnalité du problème. Cela peut aider à améliorer les
performances du modèle, à réduire le surajustement (overfitting), et à accélérer
le processus d'entraînement. Nous avons utilisée un arbre de décision pour
prédire le diabète en fonction de certaines caractéristiques, nous pouvons
considérer ce modèle comme une démonstration de la sélection de variables. Les
caractéristiques les plus importantes, selon l'arbre de décision, sont celles qui
sont utilisées pour prendre des décisions plus haut dans l'arbre, c'est-à-dire celles
qui contribuent le plus à la séparation des classes.

L'exemple de code que nous avons fourni utilise un arbre de décision pour
classer les patients en fonction de caractéristiques telles que l'âge, la glycémie
(glucose), la pression artérielle, etc. Nous pouvons poursuivre en analysant
l'importance des caractéristiques après l'entraînement de l'arbre de décision. Par
exemple, dans scikit-learn, nous pouvons accéder aux attributs
< feature_importances_ >de notre modèle pour obtenir l'importance de chaque
variable.
Conclusion
En conclusion, la sélection des variables est une étape cruciale dans le
processus d'analyse de données et de modélisation statistique. Ce
processus vise à identifier les caractéristiques les plus pertinentes et
informatives d'un ensemble de données, tout en éliminant celles qui
peuvent introduire du bruit, de la redondance, ou rendre le modèle trop
complexe. Plusieurs méthodes et critères sont disponibles pour guider
cette sélection en fonction du contexte spécifique de l'analyse.
La sélection des variables offre plusieurs avantages significatifs. Elle
permet non seulement de simplifier les modèles en éliminant les
caractéristiques superflues, mais aussi d'améliorer la généralisation en
réduisant le risque de surajustement. En outre, elle contribue à économiser
des ressources computationnelles, à améliorer l'interprétabilité des
modèles, et à faciliter la communication des résultats.
Cependant, il est important de noter que la sélection des variables n'est
pas une approche universelle et peut dépendre du contexte spécifique de
l'analyse. Certains critères, tels que les critères d'information ou la
validation croisée, peuvent guider le processus de sélection de manière
objective, tandis que l'expertise du domaine peut également jouer un rôle
dans des situations plus subjectives.
En fin de compte, la sélection des variables doit être abordée avec
prudence, en tenant compte des objectifs spécifiques de l'analyse, des
caractéristiques des données et des compromis entre la simplicité et la
performance du modèle. En combinant judicieusement les méthodes de
sélection des variables et en évaluant les résultats à la lumière des critères
pertinents, les analystes peuvent créer des modèles robustes, interprétables
et adaptés aux besoins de leur analyse de données.
Bibliographie

https://cedric.cnam.fr/vertigo/Cours/ml/tpSelectionVariables.html
http://www.mickaeltits.be/Python_Data_Science/

Vous aimerez peut-être aussi