Vous êtes sur la page 1sur 2

Encadrant : Pr.

Mohammed Harfaoui
Projet N° :1
1. But du projet.
Le but du projet est d’apprendre à programmer en python en utilisant un notebook et les
librairies de calcul scientifique. Ce projet se fera en utilisant le langage de programmation
Python. C’est un langage de haut niveau, facile à prendre en main, et qui, surtout, bénéficie
d’énormément de librairies/bibliothèques très utiles déjà écrites. Comme le but est de savoir
programmer en python et utiliser librairies/bibliothèques.

Pour simplifier les choses, on utilisera ce qui s’appelle un notebook : c’est un fichier qu’on va
ouvrir dans un navigateur web et où on va écrire et exécuter le code (Python est un
langage interprété, donc il n’y a pas de compilation nécessaire). Cette s’appelle Jupyter
Notebook.

Les notebooks Jupyter sont des cahiers électroniques qui, dans le même document, peuvent
rassembler du texte, des images, des formules mathématiques et du code informatique
exécutable. Ils sont manipulables interactivement dans un navigateur web.

Initialement développés pour les langages de programmation Julia, Python et R (d'où le nom
Jupyter), les notebooks Jupyter supportent près de 40 langages différents.

La cellule est l'élément de base d'un notebook Jupyter. Elle peut contenir du texte formaté au
format Markdown ou du code informatique qui pourra être exécuté.

2. Objectifs du Projet.

L’objectif de ce projet est de réaliser une analyse en composantes principales avec le


langage de programmation python. Vous allez procéder en deux étapes :

2.1. Implémenter chacune des étapes permettant de réaliser l’ACP,

2.2. Utiliser des librairies existantes,

2.3. Faire une ACP normée en appliquant les formules directement.

3. Travail à faire.

Il est parfois difficile de décider quel véhicule acheter, avec quelles caractéristiques et avec
quelle énergie car il arrive que l’on ait une mauvaise surprise en se retrouvant avec un
véhicule qui ne correspond pas vraiment à ce que l’on attendait. Ce qui rend intéressant à
étudier ce sujet à l’aide de l’analyse en composantes principales.

On va utiliser un jeu de données, à partir du site et qui nous amène à la fin de cette
étude “analyse en composantes principales” voir si le prix de la voiture est fortement
1
corrélé surtout, avec les caractéristiques qui décrivent la puissance de la voiture .On
va mieux expliqué par les graphiques et les analyses en répondant aux questions
suivantes et utilisant le jeu de données « gmi_2_auto_p1»  :

1. Charger les données, isoler les données numériques et la classe des individus.
2. Normaliser les données numériques (centrer et réduire).
3. Estimer la matrice des corrélations de deux façons : En appliquant la formule, et
avec la commande convenable en python,
4. Extraire les valeurs propres et vecteurs propres avec la commande (np.linalg.eig).
Dessiner l’éboulis des valeurs propres.
5. Estimer l’inertie des valeurs propres et dire combien d’axes factoriels retenir?
6. Faire une projection des individus en 2D (axe factoriel 1 et axe factoriel 2), en
colorant les points en fonction des classes des individus.
7. Faire une projection des individus en 3D (axe factoriel 1, axe factoriel 2, axe
factoriel 3). Interpréter les résultats. (scores, qualité de représentations et
contributions aux axes)
8. Faire une projection des variables sur le cercle des corrélations. Interpréter les
résultats. (Saturations, contributions et qualités de représentation des variables).

Le jeu de données qui comporte 18 individus (modèles voitures) et 11 variables qui


sont réparties comme suit:

- 8 variables quantitatives actives:


CYL: cylindrée (cm3)
PUISS: puissance (ch)
PUISS F: puissance fiscale (CV)
V_MAX: vitesse maximale (km/h)
CM: consommation mixte (l/100 km)
LOG: longueur (cm)
R_POIDS_PUIS
LARG: largeur(cm)
V0_100: temps d’accélération de 0 à 100 km/h (s).

- 2 Individus illustratifs
Peugeot 604, Peugeot 304 S

-3 Liste des variables illustratives


PRIX: prix de la voiture
CARB : Carburant,
ORG : Origine

9. Bien visualiser les variables, les individus, les variables et les individus
illustratifs.

NB :
− On pourra réaliser plusieurs scénarios d’analyses pour mieux situer les relations
entre les variables.

− Un rapport d’une dizaine de pages fera l’affaire.

− Vous devez joindre à votre dossier le code source (.ipynb pour Python) et les
captures d’écrans.


2