Académique Documents
Professionnel Documents
Culture Documents
Introduction
L’analyse typologique
Conclusion
Introduction
En se basant sur ce que nous avons vu au cours de l'analyse des données durant ce semestre
avec monsieur JAHIDI. Nous pouvons légitimement parler de ce qu’est l’analyse factorielle, c’
est une technique statistique aujourd’hui surtout utilisée pour dépouiller des enquêtes : elle
permet, quand on dispose d’une population d’individus pour lesquelles on possède de
nombreux renseignements concernant les opinions, les pratiques et le statut (sexe, âge, etc.),
d’en donner une représentation géométrique, c'est-à-dire en utilisant un graphique qui
permet de voir les rapprochements et les oppositions entre les caractéristiques des individus.
Cette technique est déjà centenaire : elle a été créée en 1904 par le psychologue anglais
Charles Spearman (inventeur également du coefficient de corrélation de rang), dans le but de
mesurer l’intelligence. Sa technique porte le nom aujourd’hui d’analyse factorielle des
psychologues. D’autres techniques d’analyse factorielle seront développées ensuite : l’analyse
en composantes principales (souvent abrégée en ACP) et une variété de celle-ci l’analyse
factorielle des correspondances (AFC), crée dans les années 1960 par Jean-Paul Benzécri. Du
fait de l’essor de l’informatique, cette dernière technique est devenue une technique
standard, intégrée dans les grands logiciels statistiques internationaux (SAS, SPSS).
Dans le contexte actuel de la mondialisation, il est naturel de nous interroger sur les liens
entre l’ouverture au commerce extérieur et la croissance économique, et pas que, de ce que
représente le solde de la balance commerciale, qui est ce qui vient impacter le dit solde pour
décider au cours d’une période donnée de l’excédent ou du déficit de notre balance
commerciale. Et qu’est-ce que ça pourra bien signifier ? Nous présenterons avec un peu plus
de détails ce que nous comptons faire dans les prochaines pages. Notre travail sera articulé
en trois grands axes : En premier lieu , nous allons présenter notre terrain d’étude , en second
nous allons traiter les résultats de notre analyse en composantes principales et les interpréter
et puisqu’il existe irréfutablement un impact positif et significatif de l’ouverture au commerce
extérieur sur la croissance économique d’un pays, Nous allons pouvoir positionner les pays en
question en fonction de leurs indicateurs de commerce à la toute fin, et en dernier lieu nous
passerons à l’analyse typologique .
L’analyse en composantes principales
Ci-après, nous allons décrire au travers de la moyenne et de l’écart type les dix variables
retenues dans notre étude :
Nous allons interpréter deux variables au choix tout en commençant par :
338270,35 : cette moyenne est la résultante de la somme de toutes les observations, divisée
par le nombre d’observations, en moyenne un pays importe 338270,35 millions de biens.
499434,91 : Cet écart-type mesure la dispersion des données par rapport à la moyenne.
Nous allons calculer le coefficient de variation pour décider du degré de dispersion de mes
données en matière des importations. Pour se faire, nous avons divisé la moyenne sur
l’écart-type et trouvé : 67,8%. Plus l’écart type est grand, plus l’erreur type de la moyenne
est élevée et moins l’estimation de la moyenne des importations est précise.
-17363,968 : La majorité écrasante des pays ressortent déficitaires en fin d’année, lorsque le
taux de couverture est inférieur à 100%, on dit que le solde commercial est négatif, on peut
déduire que notre base de données contient un nombre considérable de soldes déficitaires.
Donc on peut comprendre qu’en moyenne, un pays est déficitaire de 17363,968 millions.
Serbie
Maroc
Inde
Brésil
Canada
Allemagne
Belgique
France
Chypre
Pologne
Suisse
Arabie Saoudite
Mexique
Suede
Espagne
Colombie
Russie
Royaume-unis
Turquie
Liban
Italie
Etats unis
Finlande
Paraguay
Uruguay
Equateur
Luxembourg
Pays bas
Lettonie
Autriche
On peut dire que les états unis importent une quantité notable par rapport aux autres pays
ce qui montre sa forte dépendance, vient en second lieu l’Allemagne et puis le Royaume-
Unis. Les importations du Maroc sont très minimes en les comparant avec ces gigantesques.
Ci-dessous notre brut tableau de qualité de représentation, ainsi que notre premier indice
KMO et notre premier tableau de variance totale expliquée :
Désormais nous ne parlons que de huit variables, après élimination de la croissance annuelle
des importations et des exportations des biens et services.
3- Vérification des conditions de l’utilisation de l’analyse en composantes
principales :
La première question à poser est la suivante : Les données sont-elles factorisables ?
Pour répondre à cette question, il faut d’abord observer les corrélations des variables, puis
l’indice KMO (Kaiser-Meyer-Olkin), sans manquer le test de sphéricité de Bartlett.
Pour juger si notre base de données s’apprête à une analyse en composantes principales,
elle doit satisfaire au moins deux de ces trois conditions.
• Matrice de corrélation :
Analysons la matrice de corrélation :
Si plusieurs variables sont corrélées (la valeur propre > 0,5), la factorisation est possible. Si
plusieurs variables ne sont pas corrélées, auquel cas, la factorisation n’est pas conseillée.
Comme on peut le constater dans la matrice, la plupart des variables présentent de fortes
corrélations (>0,5), une analyse en composantes principales s’avère donc intéressante.
Il convient aussi de d’observer l’indice KMO qui doit obligatoirement tendre vers 1, étant
supérieur à 0,5, autrement la factorisation n’est pas possible. Notre KMO est égal à 0,539 :
Un résultat misérable comme c’est clairement écrit au-dessous mais acceptable. Il nous
indique que les corrélations entre nos indicateurs sont d’une qualité passable.
• 1ère règle : selon la règle de Kaiser seules les composantes aux valeurs propres
supérieures à 1 sont retenues.
• 2ème règle : le nombre d’axes est choisie en fonction de la restitution minimale de
l’information désirée.
Nous les conservons donc pour l'analyse. Le premier facteur explique à lui seul 55,661 % de
la variance totale des 8 variables de l'analyse. Mis en communs, les deux facteurs
permettent d'expliquer 90,411% de la variance. Comme le troisième facteur n'explique pas
suffisamment de variance, il n’est pas retenu.
• Qualité de représentation :
Ce tableau présente la qualité d’extraction pour chaque variable. Les extractions sont
obtenues grâce à la sommation de cos² des 2 composantes. L’extraction de cette table indique
pour chaque variable la part de la variance expliquée par la solution à 2 composantes. En
parcourant les valeurs, on peut remarquer qu’elles sont très proches de 1, à l’exception de la
balance commerciale. Plus la valeur de l’extraction est proche de 1, plus la variable qui lui
correspond est mieux représentée.
• Matrice de composantes :
Cette matrice contient les poids des variables sur chaque facteur. Ces poids sont en fait la
corrélation entre la variable et le facteur. Ils servent à interpréter le rôle de chaque variable
dans la définition de chaque facteur. Ils indiquent donc le degré de correspondance entre la
variable et le facteur. Plus le poids est élevé, plus la variable est représentative du facteur.
De manière générale, le premier facteur extrait est celui qui explique le plus de variance et est
donc la meilleure combinaison possible de variables. Le deuxième facteur représente une
combinaison moins optimale.
L’interprétation ici est basée sur la recherche des variables qui sont le plus fortement corrélées
avec chaque composante, c’est-à-dire les variables qui s’éloignent de zéro dans leur direction
positive ou négative tout en se rapprochant de (1 ; -1).
Règle empirique : une variable n’est significative que si sa contribution est d’au moins 0.50.
➢ Selon la matrice des composantes, on peut déduire que les variables : Importations de
biens USD, Exportations de biens USD, Importations de services USD, Exportations de
services USD et Balance commerciale hors services USD sont fortement corrélées et mieux
représentées par la composante une, et les variables : Importations de biens et services en %
du PIB, Exportations de biens et services en % du PIB et Commerce extérieur en % du PIB
sont mieux représentées par la composante deux.
Chaque point représente une variable. Sur notre diagramme la première composante
principale est fortement corrélée avec quatre variables. Cette composante augmente avec
l’augmentation des exportations de services USD, Importations de services USD, Exportations
de biens USD, Importations de biens USD. Cela indique que ces quatre variables varient
ensemble. La deuxième composante augmente avec trois variables, ces derniers ont des
saturations élevées sur le deuxième facteur et ne sont aucunement corrélées avec les
indicateurs de la première composante. Ce que nous avons relevés lors de cette étape est que
nos variables sont à peu près les mêmes, on note une différence qu’au niveau de la forme,
nous avons parlé d’exportations en millions sur la première composante et d’exportations en
% du PIB en deuxième composante : Autrement dit la contribution des exportations à la
croissance économique d’un pays. Ce que nous avons retenu est le suivant : Du point de vue
de la technique, c’est correct mais le sens n’y est pas vraiment. Nous allons veiller sur le bon
choix et la diversité de nos variables prochainement.
On donne un sens à un axe grâce à une recherche lexicale à partir des coordonnées des
variables et des individus. Ce sont les éléments extrêmes qui concourent à l’élaboration des
axes. On peut donner au premier axe le nom « Les exportations et importations des biens et
services » et le deuxième « La contribution des exportations et des importations des biens et
services à la croissance économique » pour faciliter la lecture du diagramme.
Pour chaque axe retenu et chaque nuage, on regarde : Quelles sont les variables qui
participent le plus à la formation de l’axe, et quels sont les individus qui participent le plus à
la formation de l’axe.
- Les pays qui sont situés à droite : le niveau des importations et exportations de biens et
services de ces pays est élevé, plus le pays s’éloigne du zéro plus il exporte et importe plus,
plus il se rapproche du zéro plus il exporte et importe moins par rapport aux autres pays qui
sont situés tout comme le pays en question à droite du diagramme, prenons l’exemple des
états unis qui exporte et importe beaucoup plus que les autres pays, d’ailleurs nous pouvons
bien le constater sur l’histogramme que nous avons présenté au début, suivi par l’Allemagne
que nous considérons aussi l’un des pays les plus exportateurs et importateurs de biens
comme de services.
- Les pays situés à gauches : les exportations et les importations de ces pays sont faibles, on
peut dire qu’ils sont indépendants mais comme nous pouvons le constater, nos pays ne sont
pas très loin du zéro, ce qui est tout à fait normal puisqu’il n’existe pas de pays qui
s’autosuffit, qui puisse répondre à tous ces besoins, fermé sur lui-même. On prend l’exemple
du Chypre, on peut dire que c’est le pays le plus indépendant et qui exporte et importe le
moins par rapport aux autres.
-Les pays qui sont situés en haut : Sur la base de la matrice des représentations, la grande
contribution des exportations et importations à la croissance économique des pays situés en
haut est irréfutable, plus le pays s’éloigne du zéro plus son ouverture sur les autres pays, ses
échanges contribuent massivement à l’augmentation de sa croissance économique, prenons
l’exemple du remarquable Luxembourg, qui saute aux yeux, ses échanges contribuent
amplement à l’augmentation de son produit intérieur brut annuel, viennent juste après, les
Pays-Bas et la Belgique.
-Les pays qui sont situés en bas : la contribution des exportations et importations à la
croissance économique des pays qui se trouvent en bas est faible, pas forcément du fait qu’ils
exportent et importent des quantités minimes par rapport aux autres, comme on peut le
constater clairement, il y a des pays qui sont situés à droite du diagramme donc le volume de
leurs échanges est assez élevé mais pourtant l’impact des ces derniers sur le PIB est faible.
L’analyse typologique
L’analyse typologique a pour but de regrouper les individus en un nombre restreint de classes
homogènes en partant d’un ensemble de variables.
Il faut d’abord choisir une méthode d’agrégation, nous on choisit la méthode de Ward qui
cherche à minimiser l’inertie inter-classe afin d’obtenir des classes les plus homogènes
possibles.
Ce tableau indique que le fichier contient 31 individus (N=31) et que le fichier ne contient
pas de donnée manquante.
2. Matrice de proximité :
La matrice de proximité présente les distances qui séparent les individus.
Les distances sont calculées par paire d’individus.
Dans notre cas ces individus sont les différents pays, et donc plus la distance entre deux
individus (entre 2 pays) est faible plus on peut facilement les agréger.
On peut par exemple agréger le Maroc et Albanie (0.116) ou le Canada et Espagne (0.302)
dans la même catégorie.
1 18 19 ,015 0 0 3
2 27 31 ,048 0 0 13
3 13 18 ,090 0 1 18
4 17 23 ,140 0 0 9
5 1 9 ,198 0 0 7
6 15 29 ,312 0 0 10
7 1 14 ,439 5 0 10
8 2 6 ,589 0 0 12
9 17 21 ,766 4 0 14
10 1 15 ,972 7 6 15
11 25 28 1,244 0 0 21
12 2 11 1,547 8 0 17
13 20 27 1,880 0 2 22
14 17 24 2,362 9 0 22
15 1 26 2,864 10 0 23
16 10 16 3,381 0 0 20
17 2 12 3,969 12 0 21
18 8 13 4,565 0 3 23
19 4 22 5,883 0 0 25
20 5 10 7,241 0 16 26
21 2 25 8,877 17 11 24
22 17 20 11,082 14 13 25
23 1 8 13,299 15 18 24
24 1 2 19,688 23 21 27
25 4 17 27,763 19 22 27
26 3 5 38,786 0 20 28
27 1 4 55,999 24 25 28
28 1 3 85,077 27 26 29
29 1 30 147,758 28 0 30
30 1 7 240,000 29 0 0
La chaîne des agrégations donne des informations sur les individus combinés à chaque étape
du processus de classification hiérarchique.
EX : Les individus 18 et 19 regroupés à l’étape 1. Un de ces deux individus a ensuite été classé
à l’étape 3.
La première étape, les deux observations les plus proches sont fusionnées pour former une
classe et ainsi de suite, la fusion pouvant se faire entre les classes, entre une classe et une
observation.
Étape 1 : les observations 18 et 19 sont regroupées dans une même nouvelle classe C1.
Étape 2 : les observations 27 et 31 sont regroupées dans une même nouvelle classe C2.
Étape 3 : l’observation 13 est regroupée avec l’observation 18 donc rejoint également la classe
C1.
On suit les mêmes étapes jusqu’à la fin du tableau et on obtient nos classes d’individus.
On fait l’agrégation des classes les plus proches possibles, on arrête d’agréger une fois que
nous trouvions un saut important.
4. Observation :
La stalactite permet de savoir les observations qu’on obtiendra d’après le nombre de classes
désiré.
5. Arbre hiérarchique :
L’arbre hiérarchique permet de montrer la composition des différentes classes, ainsi que
l’ordre dans lequel elles ont été formées.
Classe 1 : Uruguay, Equateur, Colombie, Brésil, Paraguay, Liban, Maroc, Albanie, Finlande,
Turquie, Russie, Arabie saoudite, Canada, Italie, Espagne, Mexique.
Classe 2 : Belgique, Pays bas, Lettonie, Serbie, Chypre, Autriche, Pologne, Suède, Suisse,
France, Royaume-Unis, Inde, Allemagne.
Classe 3 : Luxembourg
Classe 4 : Etats-Unis
Conclusion