Académique Documents
Professionnel Documents
Culture Documents
Vous êtes engagé par l'une des principales chaînes d'information CNBE qui souhaite analyser les
récentes élections. Cette enquête a été menée auprès de 1525 électeurs avec 9 variables. Vous devez
construire un modèle pour prédire pour quel parti un électeur votera sur la base des informations
données, pour créer un sondage de sortie qui aidera à prédire la victoire globale et les sièges occupés
par un parti particulier.
1.1 Lire l'ensemble des données. Effectuez les statistiques descriptives et vérifiez la condition de la
valeur nulle. Rédigez une conclusion à ce sujet. (4 points)
La première étape de l'analyse consiste à importer toutes les bibliothèques nécessaires. Nous
devons ensuite charger l'ensemble des données fournies. Pour connaître les entrées de l'ensemble
des données, nous avons utilisé head()
Le résultat ci-dessus nous permet de déduire qu'il y a au total 10 colonnes avec 1525 entrées dans
chaque colonne. Les types de données de toutes les variables sont des nombres entiers, à
l'exception de "vote" et "sexe" qui sont des objets.
Pour aller plus loin, nous pouvons supprimer la colonne "unnamed", qui ne pourra pas être
analysée.
Après avoir supprimé les "non nommés", notre ensemble de données aura l'aspect suivant
Le nombre de valeurs dupliquées est très faible, nous pouvons donc les supprimer et
continuer.
Analyse multivariée : elle est effectuée pour comprendre les interactions entre les différents
champs de l'ensemble de données (ou pour trouver des interactions entre plus de 2 variables).
Ex:- Diagramme de paires et diagramme de dispersion 3D.
Analyse univariée :
Histogramme :
1. Economique.cond.National :
Analyse multivariée :
Carte de chaleur :
Sur la base de la précision des résultats des données d'entraînement et de test, le modèle
peut être utilisé. Les valeurs de précision et de rappel sont également bonnes.
Modèle 2 : LDA
Nous avons d'abord appliqué le modèle LDA et ajusté l'ensemble des données. Ensuite, nous
avons prédit l'entraînement et le test des données.
Précision du train :
Précision du test :
Matrice de confusion et de classification pour l'ensemble d'apprentissage :
MODÈLE 3 : KNN
Sur la base de notre étude, nous avons compris que le modèle KNN a une bonne précision pour les
ensembles d'apprentissage et de test avec un bon score de précision.
Après la modélisation et l'ajustement de l'ensemble des données, les valeurs de prédiction sont les
suivantes :
1.6 Model Tuning, Bagging (Random Forest devrait être appliqué pour Bagging), et Boosting. (7
points)
Ada Boosting
Le score de prédiction pour l'ensemble d'entraînement ainsi que sa précision et la matrice de confusion
de l'ada boosting sont les suivants :
Le score de prédiction pour l'ensemble de test ainsi que sa précision et la matrice de confusion de l'ada
boosting sont les suivants :
LE RENFORCEMENT DU GRADIENT :
Matrice de performance sur l'ensemble des données de la formation
ARBRE DE DÉCISION :
FORÊT ALÉATOIRE :
1.7 Mesures de performance : Vérifier les performances des prédictions sur les ensembles de
formation et de test à l'aide de la précision, de la matrice de confusion, de la courbe ROC et
du score ROC_AUC pour chaque modèle. Modèle final : Comparez les modèles et indiquez
quel modèle est le meilleur/optimisé.
RÉGRESSION LOGISTIQUE :
Matrice de confusion :
AUC sur Test et train et courbe ROC :
LDA :
MODÈLE KNN :
Parmi tous les modèles, le gradient boosting affiche une précision élevée de 89 % pour l'ensemble
d'apprentissage et de 84 % pour l'ensemble de test. La précision et le rappel sont également bons
avec le gradient boosting.
Déduction :
Les variables les plus importantes sont "Hague" et "Blair". 4 étoiles ont été attribuées à Blair et 2 à
Hague.
Problème 2 :
Dans ce projet particulier, nous allons travailler sur les corpus inauguraux du nltk en
Python. Nous examinerons les discours suivants des présidents des États-Unis
d'Amérique :
1. Le président Franklin D. Roosevelt en 1941
2. Le président John F. Kennedy en 1961
3. Président Richard Nixon en 1973
Nombre de caractères :
Nombre de mots :
Nombre de phrases :
Kennedy :
Nombre de caractères :
Nombre de mots :
Nombre de phrases :
Nixon :
Nombre de caractères :
Nombre de mots :
Nombre de phrases :
2.2 Supprimez tous les mots vides des trois discours. - 3 Points
2.3 Quel est le mot qui revient le plus souvent dans le discours d'investiture de chaque président ?
Mentionnez les trois premiers mots (après avoir supprimé les mots vides).
Rosevelt :
Kennedy :
Les mots les plus souvent utilisés sont "world,sides.new".
Nixon :
Les mots les plus fréquents sont "America, Peace, World" (Amérique, paix, monde).