Vijaya ML

Problème 1 :
Vous êtes engagé par l'une des principales chaînes d'information CNBE qui souhaite analyser les
récentes élections. Cette enquête a été menée auprès de 1525 électeurs avec 9 variables. Vous devez
construire un modèle pour prédire pour quel parti un électeur votera sur la base des informations
données, pour créer un sondage de sortie qui aidera à prédire la victoire globale et les sièges occupés
par un parti particulier.
1.1 Lire l'ensemble des données. Effectuez les statistiques descriptives et vérifiez la condition de la
valeur nulle. Rédigez une conclusion à ce sujet. (4 points)
EDA (analyse exploratoire des données)
La première étape de l'analyse consiste à importer toutes les bibliothèques nécessaires. Nous
devons ensuite charger l'ensemble des données fournies. Pour connaître les entrées de l'ensemble
des données, nous avons utilisé head()
Le résultat ci-dessus nous permet de déduire qu'il y a au total 10 colonnes avec 1525 entrées dans
chaque colonne. Les types de données de toutes les variables sont des nombres entiers, à
l'exception de "vote" et "sexe" qui sont des objets.
Pour aller plus loin, nous pouvons supprimer la colonne "unnamed", qui ne pourra pas être
analysée.
Après avoir supprimé les "non nommés", notre ensemble de données aura l'aspect suivant
Description des données :
Vérification des doublons :
Nombre total de valeurs dupliquées = 8
Le nombre de valeurs dupliquées est très faible, nous pouvons donc les supprimer et
continuer.
2. Effectuer des analyses univariées et bivariées. Faire des données exploratoires

l'analyse. Vérifier les valeurs aberrantes.
Analyse univariée et contrôle des valeurs aberrantes

L'analyse exploratoire des données est principalement réalisée à l'aide des méthodes suivantes :
Analyse univariée : fournit des statistiques sommaires pour chaque champ de l'ensemble de
données brutes (ou) un résumé d'une seule variable. Ex:- CDF,PDF,Box plot.
Analyse bivariée : elle est effectuée pour trouver la relation entre chaque variable de l'ensemble
de données et la variable cible d'intérêt (ou) en utilisant deux variables et en trouvant la relation
entre elles.
Analyse multivariée : elle est effectuée pour comprendre les interactions entre les différents
champs de l'ensemble de données (ou pour trouver des interactions entre plus de 2 variables).
Ex:- Diagramme de paires et diagramme de dispersion 3D.
Analyse univariée :
Histogramme :
1. Economique.cond.National :
Analyse multivariée :
Carte de chaleur :
Il n'y a pas de corrélation entre les variables.
Préparation des données :

1. Encoder les données (ayant des valeurs de chaîne) pour la modélisation. La mise à l'échelle
est-elle nécessaire ou non ? Fractionnement des données : Diviser les données en formation
et en test (70:30). Encodage de l'ensemble de données .
La mise à l'échelle est nécessaire pour le modèle KNN.

1.4 Appliquer la régression logistique et l'analyse discriminante linéaire. (4 points)
MODÈLE 1 : RÉGRESSION LOGISTIQUE
Nous devons appliquer la régression logistique et ajuster le modèle.

Prédiction des données de formation et de test.
Après la prédiction, nous devons déterminer la précision des données de formation et de

test.
Ensemble de formation Précision :
Ensemble de tests Précision :
Matrice de confusion et de classification pour les données d'apprentissage :

Matrice de confusion et de classification pour les données de test :
Sur la base de la précision des résultats des données d'entraînement et de test, le modèle
peut être utilisé. Les valeurs de précision et de rappel sont également bonnes.
Modèle 2 : LDA
Nous avons d'abord appliqué le modèle LDA et ajusté l'ensemble des données. Ensuite, nous
avons prédit l'entraînement et le test des données.
Précision du train :
Précision du test :
Matrice de confusion et de classification pour l'ensemble d'apprentissage :
Matrice de confusion et de classification pour l'ensemble de test :
Le modèle LDA présente également de bonnes valeurs de précision et d'exactitude.

1.5 Appliquer le modèle KNN et le modèle Naïve Bayes. Interprétez les résultats. (4 points)
MODÈLE 3 : KNN
KNN et adaptation des données d'apprentissage
Prédiction de l'entraînement et du test :
Précision pour l'ensemble de la formation :
Précision pour l'ensemble des tests :
Matrice de confusion et de classification pour l'ensemble d'apprentissage :

Matrice de confusion et de classification pour l'ensemble de test :
Sur la base de notre étude, nous avons compris que le modèle KNN a une bonne précision pour les
ensembles d'apprentissage et de test avec un bon score de précision.
MODÈLE NAÏF DE BAYES :
Après la modélisation et l'ajustement de l'ensemble des données, les valeurs de prédiction sont les
suivantes :
Ensemble de formation Précision :
Ensemble de tests Précision :

Classification et matrice de confusion pour les données d'apprentissage :
Classification et matrice de confusion pour les données de test :
1.6 Model Tuning, Bagging (Random Forest devrait être appliqué pour Bagging), et Boosting. (7
points)
Ada Boosting
Le score de prédiction pour l'ensemble d'entraînement ainsi que sa précision et la matrice de confusion
de l'ada boosting sont les suivants :
Le score de prédiction pour l'ensemble de test ainsi que sa précision et la matrice de confusion de l'ada
boosting sont les suivants :
LE RENFORCEMENT DU GRADIENT :
Matrice de performance sur l'ensemble des données de la formation
Matrice des performances sur l'ensemble des données de test :
ARBRE DE DÉCISION :

Matrice de performance sur l'ensemble des données de test :
FORÊT ALÉATOIRE :

MISE EN SAC :
Matrice de performance sur l'ensemble des données de la formation :
1.7 Mesures de performance : Vérifier les performances des prédictions sur les ensembles de
formation et de test à l'aide de la précision, de la matrice de confusion, de la courbe ROC et
du score ROC_AUC pour chaque modèle. Modèle final : Comparez les modèles et indiquez
quel modèle est le meilleur/optimisé.
RÉGRESSION LOGISTIQUE :
Matrice de confusion :
AUC sur Test et train et courbe ROC :
LDA :
Matrice de confusion et de classification :

COURBE AUC ET ROC :
MODÈLE KNN :
Classification et matrice de confusion :

AUC et ROC CURVE :
MODÈLE NAÏF DE BAYES :
Matrice de confusion et de classification :

AUC et courbe ROC :
Comparaison des modèles :
Parmi tous les modèles, le gradient boosting affiche une précision élevée de 89 % pour l'ensemble
d'apprentissage et de 84 % pour l'ensemble de test. La précision et le rappel sont également bons
avec le gradient boosting.
Déduction :
Les variables les plus importantes sont "Hague" et "Blair". 4 étoiles ont été attribuées à Blair et 2 à
Hague.
Problème 2 :
Dans ce projet particulier, nous allons travailler sur les corpus inauguraux du nltk en
Python. Nous examinerons les discours suivants des présidents des États-Unis
d'Amérique :
1. Le président Franklin D. Roosevelt en 1941
2. Le président John F. Kennedy en 1961
3. Président Richard Nixon en 1973
(Conseil : utilisez .words(), .raw(), .sent() pour extraire les chiffres)

2.1 Trouver le nombre de caractères, de mots et de phrases pour les documents
mentionnés.
Roosevelt :
Nombre de caractères :
Nombre de mots :
Nombre de phrases :
Kennedy :
Nombre de mots :
Nombre de phrases :
Nixon :
Nombre de mots :
Nombre de phrases :
2.2 Supprimez tous les mots vides des trois discours. - 3 Points
2.3 Quel est le mot qui revient le plus souvent dans le discours d'investiture de chaque président ?
Mentionnez les trois premiers mots (après avoir supprimé les mots vides).
Rosevelt :
Le mot national est le plus fréquent.
Kennedy :
Les mots les plus souvent utilisés sont "world,sides.new".
Nixon :
Les mots les plus fréquents sont "America, Peace, World" (Amérique, paix, monde).

Vijaya ML

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Vijaya ML

Transféré par

Droits d'auteur :

Formats disponibles

Problème 1 :

EDA (analyse exploratoire des données)

Description des données :

Vérification des doublons :

Nombre total de valeurs dupliquées = 8

2. Effectuer des analyses univariées et bivariées. Faire des données exploratoires

Analyse univariée et contrôle des valeurs aberrantes

Il n'y a pas de corrélation entre les variables.

Préparation des données :

La mise à l'échelle est nécessaire pour le modèle KNN.

MODÈLE 1 : RÉGRESSION LOGISTIQUE

Nous devons appliquer la régression logistique et ajuster le modèle.

Après la prédiction, nous devons déterminer la précision des données de formation et de

Ensemble de formation Précision :

Ensemble de tests Précision :

Matrice de confusion et de classification pour les données d'apprentissage :

Matrice de confusion et de classification pour l'ensemble de test :

Le modèle LDA présente également de bonnes valeurs de précision et d'exactitude.

KNN et adaptation des données d'apprentissage

Prédiction de l'entraînement et du test :

Précision pour l'ensemble de la formation :

Précision pour l'ensemble des tests :

Matrice de confusion et de classification pour l'ensemble d'apprentissage :

MODÈLE NAÏF DE BAYES :

Ensemble de formation Précision :

Ensemble de tests Précision :

Classification et matrice de confusion pour les données de test :

Matrice des performances sur l'ensemble des données de test :

Matrice de performance sur l'ensemble des données de la formation

Matrice de performance sur l'ensemble des données de la formation

Matrice des performances sur l'ensemble des données de test :

Matrice de performance sur l'ensemble des données de la formation :

Matrice des performances sur l'ensemble des données de test :

Matrice de confusion et de classification :

Classification et matrice de confusion :

MODÈLE NAÏF DE BAYES :

Matrice de confusion et de classification :

Comparaison des modèles :

(Conseil : utilisez .words(), .raw(), .sent() pour extraire les chiffres)

Le mot national est le plus fréquent.

Vous aimerez peut-être aussi