Introduction aux
Statistiques
Citation :
Introduction aux statistiques - © 1996, Ramousse R.,
Le Berre M. & Le Guelte L.
Lorsque l’on doit traiter des tableaux complexes de données, réunissant des ensembles de
variables nombreuses et souvent de typologie diverse (analyses multivariées), les méthodes de la
statistique uni- ou bivariée ne conviennent plus. une nouvelle approche du traitement et de
l’interprétation doit être envisagée.
Les analyses factorielles trouvent tout leur intérêt pour la compréhension des tableaux de grande
dimensions (plusieurs dizaines ou centaines de lignes et de colonnes) que les traitements
statistiques classiques ne peuvent interpréter de façon globale.
Le point de départ est la nature des problèmes posés par l’utilisateur. Si on classait ces
problèmes, on distinguerait trois catégories : les problèmes de description, ceux de structuration,
et ceux d’explication avec ou sans une modélisation.
Cette classification n’est pas systématique et un utilisateur peut avoir des besoins touchant un ou
plusieurs de ces trois aspects.
Examinons brièvement comment chacun de ces problèmes peut se présenter dans la réalité.
6.1.1.1. La description
Il s’agit du cas où l’on essaie de décrire un phénomène sans avoir d’idées a priori sur les résultats
qui peuvent apparaître. On dispose, par exemple, d’une population où chacun des sujets est
caractérisé par un certain nombre de variables, toutes de même importance et jouant toutes le
même rôle. Pour la description, on peut citer l’analyse en composantes principales (ACP),
l’analyse des correspondances (AFC),
6.1.1.2. La structuration
6.1.1.3. L’explication
Les variables n’ont pas la même importance et ne jouent pas le même rôle. On est en face d’un
problème d’"explication" dès que l’on cherche à construire le schéma explicatif d’un phénomène
en utilisant d’autres phénomènes. Le but recherché peut être éventuellement la modélisation, ceci
afin d’avoir la possibilité de prévoir un résultat jusque-là imprévisible ou presque.
Pour l’explication et/ou la modélisation, on peut citer toutes les techniques dites explicatives ou
de reconnaissance des formes : les techniques de régression, l’analyse discriminante.
Cette classification n’est pas systématique, une même technique peut toucher plusieurs types de
problèmes. Les trois types de techniques sont complémentaires.
Les tableaux initiaux peuvent contenir des données qualitatives et/ou quantitatives.
Deux variantes :
http://www.cons-dev.org/elearning/stat/multivarie/6-1/6-1.html#Anchor-56896 2/3
07/01/2019 Les Analyses Factorielles
• Données continues : elles sont issues de mesures (taille, poids, âge, quantité de nourriture, taux
d’hormones, quantité de nitrates, valeurs du pH, etc.) ;
Ce sont des données descriptives qui définissent des catégories. Exemple : Sexe (mâle, femelle),
avoir les yeux bleus ou noirs ou gris, etc.
Elles peuvent se coder pour créer un tableau. Elles peuvent être codées en chiffres à valeurs
arbitraires (1 et 2 par exemple, mais pourrait être aussi bien 0 et 1). Dans ce codage arbitraire, il
n’y a pas de relation d’ordre entre les nombres (codage minéralogique ou téléphonique).
2. lorsqu’il y a de grandes différences entre unités des variables, on peut remplacer chaque
mesure en la divisant par une quantité (valeur maximum, valeur normale, moyenne, écart-type
de la variable) ;
3. lorsque les échelles de mesure diffèrent, on peut retrancher la moyenne et diviser par l’écart-
type. On obtient des valeurs centrées réduites;
Les techniques utilisées ne conduisent pas au même résultat et dépendent de la nature des
données.
Signalons que, pour une ACP, les variables doivent obligatoirement être disposées en colonnes
et les observations en lignes, alors que pour une AFC, cela est indifférent.
Dans chacun de ces cas, le nombre de mesures (individus) doit, pour une question de bon sens,
être supérieur au nombre de variables (mesurer 10 fois une centaine de variables biologiques est
moins fiable que mesurer 100 fois une dizaine de variables). Malheureusement, on ne peut pas
donner de limite. En règle générale, les méthodes d’analyse multivariées sont utiles
principalement pour l’interprétation des tableaux de grandes dimensions.
http://www.cons-dev.org/elearning/stat/multivarie/6-1/6-1.html#Anchor-56896 3/3