Vous êtes sur la page 1sur 5

📊

Analyse factorielle
"décrire de façon automatique les principales dimensions de variabilité" en Analyse en Composantes Principales
(ACP) en examinant les charges factorielles les plus élevées.

Lorsque vous effectuez une ACP, vous obtenez plusieurs composantes principales, chacune représentant une combinaison
linéaire des variables d'origine. Ces composantes principales sont ordonnées par leur capacité à expliquer la variance dans
les données, de la première composante principale (CP1) expliquant le plus de variance à la deuxième (CP2), la troisième
(CP3), et ainsi de suite.

Pour "décrire de façon automatique les principales dimensions de variabilité," vous pouvez faire ce qui suit :

1. Identifier les charges factorielles élevées : Pour chaque composante principale, examinez les charges factorielles (ou
poids) attribuées à chaque variable d'origine. Les charges factorielles indiquent la contribution de chaque variable à cette
composante. Les variables avec des charges élevées, qu'elles soient positives ou négatives, sont celles qui ont le plus
d'influence sur cette composante. En général, les charges factorielles supérieures à 0,5 ou inférieures à -0,5 sont
considérées comme significatives.

2. Nommez les composantes : Donnez un nom ou une interprétation à chaque composante principale en fonction des
variables ayant les charges factorielles les plus élevées. Par exemple, si la CP1 est fortement influencée par la puissance
du moteur, la consommation de carburant et la vitesse maximale, vous pourriez l'appeler "Composante Puissance."

3. Résumez l'information : Pour chaque composante principale, résumez les variables clés qui la caractérisent. Cela vous
permet de comprendre en quoi consiste chaque dimension de variabilité.

4. Interprétez les composantes : Une fois que vous avez nommé et résumé les composantes, interprétez ce qu'elles
signifient du point de vue de vos données. Par exemple, si la CP1 représente la performance des voitures en termes de
puissance, de consommation de carburant et de vitesse, vous pourriez conclure que les voitures avec des valeurs
élevées sur la CP1 sont plus puissantes, plus gourmandes en carburant et plus rapides.

En résumé, "décrire de façon automatique les principales dimensions de variabilité" en ACP signifie attribuer des significations
aux composantes principales en fonction des variables qui les influencent le plus, les nommer en conséquence et résumer
ces interprétations. Cela permet de synthétiser et de comprendre plus facilement la structure sous-jacente des données sans
avoir à examiner chaque charge factorielle individuellement.

L'analyse factorielle est une technique précieuse qui permet de synthétiser de vastes ensembles de données en utilisant des
représentations graphiques. Son objectif principal est de réduire les dimensions d'un tableau de données, offrant ainsi une
visualisation des liens entre individus et variables dans des espaces de dimensions plus restreintes. Selon la nature et la
façon dont les données sont encodées, différentes méthodes d'analyse factorielle sont appliquées, notamment l'Analyse en
Composantes Principales (ACP), l'Analyse Factorielle des Correspondances (AFC) et l'Analyse des Correspondances
Multiples (ACM)

La méthode AFC :
Objet : L’AFC permet de résumer et de visualiser un tableau de contingence ( c’est un tableau qui croisant deux variables
qualitative.)

Analyse factorielle 1
L’objectif de l’AFC est d’étudier la relation entre deux variables , étudier l’écart à l’indépendance entres les deux
variables.
Pour cela , l’AFC cherche à :

Comparer les profile ligne entre eux

Comparer les profils colonnes entre eux

Mettre en évidence les associations entre les modalités lignes et les modalités colonnes.

L’écart à l’indépendance est mesuré par la métrique ( la décomposition orthogonale) du khi-deux (χ2 ).

2.2 ) Exemple : Croisement de deux variables Tableau de contingence

CSP \ Filières Droit Sciences Médecine IUT

Expert Agri 80 99 65 58

Patron 168 137 208 62

Cadre Sup 470 400 876 69

Ingénieur 145 133 135 54

Ouvrier 166 193 127 129

L’indice desLignes = k et celui des colonnes = l 


Au croisement de la lignek et de la colonnel nous avons le nombre d’individus (étudiants) prenant la modalité k de la
1ere variable et l de la 2nde
origine sociale
Pourquoi croiser ?
L’une des variable peut amener de l’information sur l’autre
Exemple: Influence de la CSP sur le choix des filières
Questions simples pour caractérisé la relation entre les deux variables :
1. Structure des filières choisie selon la CSP appelé Profile ligne.
2. Différence et ressemblances des structures de choix selon les catégorie socio-pro c-à-d la distance = mesurée par la
métrique du khi-deux (χ2 ).
3. Structure des CSP des parents selon les filières
4. Association entre modalité ligne et modalité colonnes :
—> Qui choisit quoi ?
—> Qui est choisi par qui ?
Notions-Tableau de contingence :
Nous observons deux variables X(filière) et Y(CSP) dans une population (EMIA) composée de n individus (étudiants).
Tableau des fréquences conjointes:
Le tableau de contingence est représenté par le tableau des fréquences conjointes :
fkl = nnkl 

—> nkl est l’effectif conjoint de la modalité k de Y et de la modalité l de X 
Tableau des fréquences conjointes

y\x x_1 .. .. .. xl .. .. .. xL somme

Y_1 f_1

:: :: :: ::

Y_k .. .. .. fkl .. .. .. fk.

:: :: :: ::

Y_K .. .. .. f.l .. .. .. n=1

L
—> fk = ∑l=1 fkl : fréquence marginale de la modalité ligne k
​ ​ ​

K
—>fk = ∑k=1 fkl : fréquence marginale de la modalité colonne l
​ ​ ​

2.3 Analyse: Plan


Analyse des profils lignes :

Analyse factorielle 2
On appel profile ligne la répartition en pourcentage, suivant les modalité colonnes (l), des individus prenant la
modalité (k).

Analyse des profils colonnes :


On appel profil colonne (l)la répartition en pourcentage, suivant les modalités lignes (k), des individus présentant
la modalité (l).

Remarque : Les profile lignes et les profils colonnes sont représentés sous forme de tableau.

On appel profil ligne moyenne la distribution marginale des modalité colonnes(l): c’est la distribution marginal de
la variable filière.

💡 profil ligne moyenne = dernière ligne du tableau des profils lignes

On appel profile colonnes moyenne la distribution marginale des modalités lignes(k): c’est la distribution
marginale de la variable CSP (catégorie socio-professionnel).

💡 profil colonne moyenne = dernière colonne du tableau des profils colonnes

Exemple <<données Université>> :


Donnée:
Le jeu de donnée représente le nombres d’étudiante des universités française par discipline et par cursus selon le sexe
lors de l’années 2007/2008. Le tableau croise les variables qualitatives Disciplines et Niveau-Sexe. Il comprend en ligne
les 10 disciplines de l’université et en colonnes les croisement des variables niveaux ( Licence, Master, Doctorat) et Sexe
(Homme, Femme). Le jeu de donnée présente de plus par Disciplines du nombres total d’étudiants par niveau, par sexe
et du total global.

Méthode:
L’AFC est appliquer entre une variable disciplines et le croisement de deux variables Niveau-sexe.
But de cette etude
le but de cette est d’avoir une image de l’université. Pour cela il sagit specifiquement de mesure :
—> Quelles sont les discipline pour lesquels le profiles des étudiants est le mêmes ?
—> Quelles sont disciplines privilégiées par les femmes (resp.les hommes) ?

—> Quelles sont les disciplines pour lesquelles les études sont les plus longues ?
Etape de l’analyse : traitement de l’exemple et interprétation des résultats

1. Importer le jeu de donnée :

Analyse factorielle 3
ne fais pas parti
Régression Simple
Elle s’écrit sous forme indicé :
Pour estimer les paramètres il consistes à minimiser la somme des carrés des écarts : la différence entre la variable à
expliqué et la droite de régression
min = sum(Yi -B0
une fois les paramètre estimés noté : Bo et B1 on obtient
Remarque : L’analyse des résidus est primordiale car elle permet de vérifier l’ajustement individuelle du modèle ( point
aberrant ) et l’ajustement global en vérifiant par exemple s’il n’y a pas de structure

###---- Importer les données ----###


ozone <- read.table("G:/Mon Drive/Licence_3/ozone.txt",
header = TRUE)

> summary(reg)

Call:
lm(formula = maxO3 ~ T12, data = ozone)

Residuals:
Min 1Q Median 3Q Max
-38.079 -12.735 0.257 11.003 44.671

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -27.4196 9.0335 -3.035 0.003 **
T12 5.4687 0.4125 13.258 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.57 on 110 degrees of freedom


Multiple R-squared: 0.6151, Adjusted R-squared: 0.6116
F-statistic: 175.8 on 1 and 110 DF, p-value: < 2.2e-16

On obtient : Une matrice coefficient qui contient pour chaque paramètre (chaque ligne 4 colonnes :

Son estimation (colonne Estimate):

Son écart-type estimé (std. Error)

la valeur observe de la statistique du test d’hypothèse Ho : Bi et H1: B1 (t value)

la probabilité critique donne pour la statistique du test sous Ho, la probabilité de dépasser les valeurs estimer

Les coefficients sont estimer par B0= -27.42 et B1 = 5.5

Les tests de significativité des coefficients du modèle donnent ici des probabilité critique 0.003 et 2.2e-16 . Ainsi,
l’hypothèse (H0) de chacun des tests est rejetée au profit de l’hypothèse alternative(H1).
la probabilité critique inférieure à 5% indique la constante B0 doit apparaitre dans le modèle.

La probabilité critique inférieur à 5 pour la pente indique une liaison significative entre maxO3 et T12.

Residual standard error: 17.57 on 110 degrees of freedom


Multiple R-squared: 0.6151, Adjusted R-squared: 0.6116
F-statistic: 175.8 on 1 and 110 DF, p-value: < 2.2e-16

Le Résumer de l’étape d’estimation fait figurer l’estimation de l’écart-type résiduel (sigma) qui vaut ici 17.57 ainsi que le
nombre de degré de liberté (ddl = n-k avec n=le nombre d’observation, k= le nombre de variable) associer à n-2 = 110.
La valeur du R2 est également donné ainsi que le R2 -ajusté
La valeur du R2 est assez élevée (R2 = 0.61)se qui signifie la relation linéaire entre les deux variable. En d’autre terme
61% de la variabilité de la concentration journalière d’ozone est expliquer par la température à 12h

Analyse factorielle 4
La dernier ligne surtout utile en régression multiple indique le résultat du test de comparaison entre le modèle n’utilisant
que la constante comme variable explicative
Analyse des résidus

Analyse factorielle 5

Vous aimerez peut-être aussi