Vous êtes sur la page 1sur 10

Dans ce rapport on va interpréter les résultats obtenues de l’étude faite sur un jeu

données qui contient des individus qui sont des personnes.


Chaque individu est caractérisé par plusieurs variables qui sont :
L’âge : De la visite
La taille : en cm
Le sexe : Homme femme
Poids : en kg
Le tabac : 0 – 1 - 2
Le paqan : paquets de cigarettes
Le sport : activité sportive
La mesure : en mm
On change donc de repères,
On réduit donc le nombre de dimension,
Au lieu de représenter un ensemble des individus avec plusieurs
dimensions on le réduit donc.
Objectif principal de l’ACP est de traiter en avance les données avant
d’appliquer la régression logistique et les modèles de prédiction il faut
donc protéger l’information.
L’information on la constate à partir de la corrélation
On maximise donc l’information
Les dimensions nouvelles doivent contenir plus que 60  de l’information
Plus l’information est maximale le plan factoriel est plus représentatif
Notre programme d’ACP :
Changer les variables descendent le premier axe contient le plus grand
volume d’information.
On peut aussi à travers l’ACP savoir les variables qu’on peut éliminer on
nettoie donc les variables et les individus
Pour savoir les variables indépendantes qu’on puisse éliminer
Ce sont les variables qui ne sont pas bien représentées sur les deux axes
qui contiennent la plupart des informations
Par exemple si le 1 er et le 2eme axe contiennent 80 de l’information et
j’ai une variable mal représentée sur les deux axes j’élimine donc la
variable du jeu de données

I. Statistique descriptive :
Summary :

Les statistiques sommaires fournies renseignent sur la répartition des


variables « SEXE », « AGE », « taille » et « poids » dans le jeu de
données.
Pour savoir les individus qu’on puisse éliminer il faut :
Dans ce projet on va tout d’abord appliquer les statistiques
descriptives :
Qui contient SUMMARY des données
Résultats
Pour la variable « SEXE », il apparaît que la valeur minimale est 1, le
premier quartile est également aussi à 1 la médiane est 2,
la moyenne est de 1,518, le troisième quartile est de 2 et la valeur
maximale est de 2.
 Cela suggère que la majorité des les observations dans cet ensemble
de données sont de sexe féminin.

Pour la variable «AGE», sa valeur minimale est 22, ainsi 25% des
individus ont un  âge <= 30 ans, la médiane qui représente 50% d’eux
dépasse 39,5 ans , la moyenne de cette variable est 39,45 ans,
le troisième quartile qui a comme pourcentage 75% est de 48 ans et la
valeur maximale est 64 ans.
 Cela suggère que les âges des individus dans l'ensemble de données
sont répartis de manière relativement uniforme.

Pour la variable «taille», la valeur minimale est 150,0 cm , le premier


quartile qui a 25% de l’échantillon est de 160,0 cm , la médiane avec un
pourcentage de 50% dépasse 169,0 cm , la moyenne est de 168,7 cm, alors
le troisième quartile (75%) est 176,0 cm et la valeur maximale est de 187,0
cm.
 Cela suggère que la majorité des individus dans l'ensemble de
données avoir une taille proche de la médiane.

Pour la variable « poids », la valeur minimale est 43,00, le premier


quartile est 57,00, la médiane est 68,00, la moyenne est 67,80,
le troisième quartile est 75,75 et la valeur maximale est 115,00.
 Cela suggère que la majorité des individus dans l'ensemble de
données avoir un poids proche de la médiane

Pour la variable « Tabac », la valeur minimale, le premier quartile est et la


médiane sont nuls d’où on constate que ces individus ne fument pas , alors
la moyenne est 0,52 ≈ 1 des personnes ont arrêté de fumer ,
le troisième quartile qui égale à 1 représente 75% des fumeurs et la
valeur maximale qui représente 100% égale à 2 .
 Cela suggère que la majorité des individus dans l'ensemble de
données sont des fumeurs

Pour la variable « paqan », la valeur minimale est 1,00, le premier quartile


est 5,00, la médiane est 10,00, la moyenne est 13,95 ,
le troisième quartile est 20,00 et la valeur maximale est 45,00.
 Cela suggère que la majorité des individus dans l'ensemble de
données consomment un nombre important de paquets/année

Pour la variable « SPORT », la valeur minimale , le premier quartile, la


médiane et la moyenne sont nuls c’est-à-dire que ces individus ne
pratiquent aucune activité physique , alors ceux de le troisième quartile et
la valeur maximale pratiquent cette activité puisqu’ils sont égaux à 1 .
 Cela suggère que la majorité des individus dans l'ensemble de
données exercent des activités physiques.
Pour la variable « mesure», la valeur minimale est 0,40 mm, le premier
quartile est 0,47mm , la médiane est 0,50 mm , la moyenne est 0,53 mm ,
le troisième quartile est 0,57 mm et la valeur maximale est 0,82 mm .
 Cela suggère que la majorité des individus dans l'ensemble de
données avoir des mesures importantes de l’intima-média.

Pour la variable «alcool», la valeur minimale est nulle , le premier quartile


est 1,00 , la médiane est 1,00 , la moyenne est 0,93 , le troisième quartile
est 1,00et la valeur maximale est 2,00.
 Cela suggère que la majorité des individus dans l'ensemble de
données consomment régulièrement l’alcool.

 La distribution du « SEXE» est négativement asymétrique, car la portion


gauche de la boîte est plus longues que du côté droit d’où la médiane
située au sommet de la boîte .
Ainsi qu’on remarque l’absence des données aberrantes.
 La distribution de « AGE» est approximativement symétrique, car les
deux moitiés de la boîte sont de longueurs sensiblement égales. C’est la
distribution la plus concentrée, car l’écart interquartile est de 18 .
Ainsi qu’on remarque l’absence des données aberrantes.
 Distribution de «taille» est approximativement symétrique, car les deux
moitiés de la boîte sont de longueurs sensiblement égales. C’est la
distribution la plus concentrée, car l’écart interquartile est de 16 .
Alors qu’on remarque l’absence des données aberrantes.
 La distribution de « poids» est positivement asymétrique car la portion
droite de la boîte droite est plus longue qu’à gauche de la médiane au
contraire de la moustache droite.
Les observations sur le poids qui ont une valeur supérieur aux max de la boite à
moustache (101 Kg) sont considérées aberrantes .Donc il faut supprimer les
lignes ou se trouvent ces données.
 La distribution du «tabac» est positivement asymétrique, car la portion
gauche de la boîte et la moustache sont située en bas avec une médiane
nulle .
Ainsi qu’on remarque l’absence des données aberrantes.
 La distribution du «SPORT» on observe le 3éme quartile est au
maximum de la moustache et le 1er quartile est à son minimum avec une
médiane nulle .
Ainsi qu’on remarque l’absence des données aberrantes.
 La distribution du «mesure» est positivement asymétrique, car la portion
droite de la boîte et la moustache droite sont plus longues qu’à gauche de
la médiane.
Les observations sur la variable mesure qui ont une valeur supérieur aux max de
la boîte (≈ 0,71 mm) sont considérées aberrantes .Donc il faut supprimer les
lignes ou se trouvent ces données.

I. ACP :

On supprime les variables quantitatives :


On applique le test de bartlet avec deux entrées pour tester si les données sont
réductibles ou non.

On utilise la library( psych) qui contient kmo

Bartlet reçoit en paramètre Matrice de corrélation cor() Et le nombre d’individus

Apres on vient appliquer :

Si p-value < alpha on rejette l’hypothèse nulle Et on accepte l’hypothèse


alternative

On lie p-value = 6.890236e-36

Apres vient le test de KMO pour confirmer les résultats

ACP attire un ensemble d’information importantes .

On remarque si la variable globale dépasse 60%

Si elle la dépasse on applique l’ACP, sinon on passe au kmo partiels de chaque


variable .

Ceux avec un coefficient inférieur à 60 on l’élimine du jeu de données et on le ré


exécute, parce que la variable qui a le coefficient inferieur à 60% augmente de
KMO global.

On remarque qu’après avoir appliquer le test de KMO qu’on a les coefficients


partiels de quelques variables sont inférieurs à 60% notamment le tabac la
mesure l’alcool et le sport par contre les autres on a coefficient supérieur à 0 .6
On doit donc supprimer une des 4 variables tester une autre fois et déduire les
nouveaux coefficients.
On applique le critère de coude pour le choix des axes et des dimensions on
remarque clairement que à partir de la dimension 3 la courbe chute pour
atteindre des valeurs presque égales.
On constate donc que les 3 premières dimensions sont suffisantes pour
représenter le maximum des variables importantes
On remarque que pour toutes les variables les arcs sont proches du cercle ce qui
veut dire que leurs cos² est proche de 1 avec une qualité supérieure à 0.5
On remarque que les variables
(Taille,poids)
(Poids ,tabac)
( tabac ,age) ont un angle petit entre-eux proche de 0 donc des variables sont
corrélés positivement lorsque une augmente l'autre également .
Pour les variables (sexe,poids)
Et (sexe ,taille) on remarque que l'angle est grand ce qui veut dire que les
variables sont corrélées négativement lorsque une augmente l'autre diminue
On remarque après avoir exécuter summary que les 5 dimensions peuvent être
réduites à 2 parceque 60% existe dans l'intervalle des 2 premières dimensions 60
€ [45.512,71.582]

Les cos² >0.5 sont considérés comme bonnes qualités .

Vous aimerez peut-être aussi