Académique Documents
Professionnel Documents
Culture Documents
Analyse factorielle
"décrire de façon automatique les principales dimensions de variabilité" en Analyse en Composantes Principales
(ACP) en examinant les charges factorielles les plus élevées.
Lorsque vous effectuez une ACP, vous obtenez plusieurs composantes principales, chacune représentant une combinaison
linéaire des variables d'origine. Ces composantes principales sont ordonnées par leur capacité à expliquer la variance dans
les données, de la première composante principale (CP1) expliquant le plus de variance à la deuxième (CP2), la troisième
(CP3), et ainsi de suite.
Pour "décrire de façon automatique les principales dimensions de variabilité," vous pouvez faire ce qui suit :
1. Identifier les charges factorielles élevées : Pour chaque composante principale, examinez les charges factorielles (ou
poids) attribuées à chaque variable d'origine. Les charges factorielles indiquent la contribution de chaque variable à cette
composante. Les variables avec des charges élevées, qu'elles soient positives ou négatives, sont celles qui ont le plus
d'influence sur cette composante. En général, les charges factorielles supérieures à 0,5 ou inférieures à -0,5 sont
considérées comme significatives.
2. Nommez les composantes : Donnez un nom ou une interprétation à chaque composante principale en fonction des
variables ayant les charges factorielles les plus élevées. Par exemple, si la CP1 est fortement influencée par la puissance
du moteur, la consommation de carburant et la vitesse maximale, vous pourriez l'appeler "Composante Puissance."
3. Résumez l'information : Pour chaque composante principale, résumez les variables clés qui la caractérisent. Cela vous
permet de comprendre en quoi consiste chaque dimension de variabilité.
4. Interprétez les composantes : Une fois que vous avez nommé et résumé les composantes, interprétez ce qu'elles
signifient du point de vue de vos données. Par exemple, si la CP1 représente la performance des voitures en termes de
puissance, de consommation de carburant et de vitesse, vous pourriez conclure que les voitures avec des valeurs
élevées sur la CP1 sont plus puissantes, plus gourmandes en carburant et plus rapides.
En résumé, "décrire de façon automatique les principales dimensions de variabilité" en ACP signifie attribuer des significations
aux composantes principales en fonction des variables qui les influencent le plus, les nommer en conséquence et résumer
ces interprétations. Cela permet de synthétiser et de comprendre plus facilement la structure sous-jacente des données sans
avoir à examiner chaque charge factorielle individuellement.
L'analyse factorielle est une technique précieuse qui permet de synthétiser de vastes ensembles de données en utilisant des
représentations graphiques. Son objectif principal est de réduire les dimensions d'un tableau de données, offrant ainsi une
visualisation des liens entre individus et variables dans des espaces de dimensions plus restreintes. Selon la nature et la
façon dont les données sont encodées, différentes méthodes d'analyse factorielle sont appliquées, notamment l'Analyse en
Composantes Principales (ACP), l'Analyse Factorielle des Correspondances (AFC) et l'Analyse des Correspondances
Multiples (ACM)
La méthode AFC :
Objet : L’AFC permet de résumer et de visualiser un tableau de contingence ( c’est un tableau qui croisant deux variables
qualitative.)
Analyse factorielle 1
L’objectif de l’AFC est d’étudier la relation entre deux variables , étudier l’écart à l’indépendance entres les deux
variables.
Pour cela , l’AFC cherche à :
Mettre en évidence les associations entre les modalités lignes et les modalités colonnes.
L’écart à l’indépendance est mesuré par la métrique ( la décomposition orthogonale) du khi-deux (χ2 ).
Expert Agri 80 99 65 58
—> nkl est l’effectif conjoint de la modalité k de Y et de la modalité l de X
Tableau des fréquences conjointes
Y_1 f_1
:: :: :: ::
:: :: :: ::
L
—> fk = ∑l=1 fkl : fréquence marginale de la modalité ligne k
K
—>fk = ∑k=1 fkl : fréquence marginale de la modalité colonne l
Analyse factorielle 2
On appel profile ligne la répartition en pourcentage, suivant les modalité colonnes (l), des individus prenant la
modalité (k).
Remarque : Les profile lignes et les profils colonnes sont représentés sous forme de tableau.
On appel profil ligne moyenne la distribution marginale des modalité colonnes(l): c’est la distribution marginal de
la variable filière.
On appel profile colonnes moyenne la distribution marginale des modalités lignes(k): c’est la distribution
marginale de la variable CSP (catégorie socio-professionnel).
Méthode:
L’AFC est appliquer entre une variable disciplines et le croisement de deux variables Niveau-sexe.
But de cette etude
le but de cette est d’avoir une image de l’université. Pour cela il sagit specifiquement de mesure :
—> Quelles sont les discipline pour lesquels le profiles des étudiants est le mêmes ?
—> Quelles sont disciplines privilégiées par les femmes (resp.les hommes) ?
—> Quelles sont les disciplines pour lesquelles les études sont les plus longues ?
Etape de l’analyse : traitement de l’exemple et interprétation des résultats
Analyse factorielle 3
ne fais pas parti
Régression Simple
Elle s’écrit sous forme indicé :
Pour estimer les paramètres il consistes à minimiser la somme des carrés des écarts : la différence entre la variable à
expliqué et la droite de régression
min = sum(Yi -B0
une fois les paramètre estimés noté : Bo et B1 on obtient
Remarque : L’analyse des résidus est primordiale car elle permet de vérifier l’ajustement individuelle du modèle ( point
aberrant ) et l’ajustement global en vérifiant par exemple s’il n’y a pas de structure
> summary(reg)
Call:
lm(formula = maxO3 ~ T12, data = ozone)
Residuals:
Min 1Q Median 3Q Max
-38.079 -12.735 0.257 11.003 44.671
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -27.4196 9.0335 -3.035 0.003 **
T12 5.4687 0.4125 13.258 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
On obtient : Une matrice coefficient qui contient pour chaque paramètre (chaque ligne 4 colonnes :
la probabilité critique donne pour la statistique du test sous Ho, la probabilité de dépasser les valeurs estimer
Les tests de significativité des coefficients du modèle donnent ici des probabilité critique 0.003 et 2.2e-16 . Ainsi,
l’hypothèse (H0) de chacun des tests est rejetée au profit de l’hypothèse alternative(H1).
la probabilité critique inférieure à 5% indique la constante B0 doit apparaitre dans le modèle.
La probabilité critique inférieur à 5 pour la pente indique une liaison significative entre maxO3 et T12.
Le Résumer de l’étape d’estimation fait figurer l’estimation de l’écart-type résiduel (sigma) qui vaut ici 17.57 ainsi que le
nombre de degré de liberté (ddl = n-k avec n=le nombre d’observation, k= le nombre de variable) associer à n-2 = 110.
La valeur du R2 est également donné ainsi que le R2 -ajusté
La valeur du R2 est assez élevée (R2 = 0.61)se qui signifie la relation linéaire entre les deux variable. En d’autre terme
61% de la variabilité de la concentration journalière d’ozone est expliquer par la température à 12h
Analyse factorielle 4
La dernier ligne surtout utile en régression multiple indique le résultat du test de comparaison entre le modèle n’utilisant
que la constante comme variable explicative
Analyse des résidus
Analyse factorielle 5