Vous êtes sur la page 1sur 40

Office National Des Aéroports

Académie Internationale Mohammed VI de l’Aviation Civile

Rapport
Projet analyse de données avec SPSS

Customer_dbase

Encadré par : Imane AHDIL

Projet réalisé par :

Mohammed EL KORCHI
Halima BOUMIDOUM
Amina AMRANI
Khalil ALAMI
Ilias CHOUMA
Bouhcine AIT ABBOU

8 novembre 2021
Table des matières

1 Statistique descriptive univariée 5

1.1 Lecture de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Analyse univarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Cas pratique de l’analyse univarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.1 Pour la variable : Gender . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.2 Pour la variable : Jobcat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3.3 Pour la variable : Age . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.4 Pour la variable : Années d’éducation . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3.5 Pour la variable : marital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 Statistique descriptive bivariée 15

2.1 Deux variables qualitatives (tableau de contingence) . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.1 Statiquement / : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.2 Graphiquement / : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Analyse de données multivariée 24

3.1 Analyse en Composantes Principales (ACP) . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1.1 La spécification des paramètres de l’analyse . . . . . . . . . . . . . . . . . . . . . . 24

1
3.1.2 Les résultats de l’Analyse en Composantes Principales . . . . . . . . . . . . . . . . 27

3.2 Analyse Factorielle des Correspondances (AFC) . . . . . . . . . . . . . . . . . . . . . . . . 32

3.2.1 Le tableau des correspondances : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2.2 Profils lignes et profils colonnes : . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2.3 Récapitulatif : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2.4 Caractéristiques des points lignes et caractéristiques de points colonnes : . . . . . . 37

3.2.5 Représentation graphique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3 Analyse Factorielle des Correspondances Multiple (AFCM) . . . . . . . . . . . . . . . . . . 39

2
Table des figures

1.1 Vue des variables sous SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Taleau statistique pour la variale Gender . . . . . . . . . . . . . . . . . . . . . . . 10

1.3 Graphe circulaire représentant le gendre des clients . . . . . . . . . . . . . . . . . 10

1.4 Taleau statistique pour la variale Jobcat . . . . . . . . . . . . . . . . . . . . . . . 11

1.5 Histogramme des effectifs représentant les catégorie d’emploi des clients . . . . . 11

1.7 Histogramme des effectifs représentant l’age des clients . . . . . . . . . . . . . . . 12

1.6 Taleau statistique pour la variale Age . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.9 Histogramme des effectifs représentant les années d’éducation des clients . . . . . 13

1.8 Taleau statistique pour la variale ed . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.10 Taleau statistique pour la variale marital . . . . . . . . . . . . . . . . . . . . . . . 14

1.11 Graphe circulaire représentant situation matrimoniale des clients . . . . . . . . . . 14

2.1 Tableau croisé Sexe * Membre d’un parti politique . . . . . . . . . . . . . . . . 17

2.2 Tableau du Khi-carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3 Diagramme nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1 La spécification des paramètres de l’analyse . . . . . . . . . . . . . . . . . . . . . 26

3.2 Extraction des facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3
3.3 Matrice de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.4 Qualité de représentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.5 Variance totale expliquée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.6 Matrice des composantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.7 Graphique factoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.8 Figure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.9 La spécification des paramètres de l’analyse . . . . . . . . . . . . . . . . . . . . . 31

3.10 Tableau des correspondances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.11 Tableau profils lignes et Tableau profils colonnes . . . . . . . . . . . . . . . . . . 34

3.12 Tableau Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.13 Tableau caractéristiques des points lignes . . . . . . . . . . . . . . . . . . . . . . 37

3.14 Tableau caractéristiques des points colonnes . . . . . . . . . . . . . . . . . . . . . 37

3.15 Répartition des individus de la population par catégorie d’emploi et niveau d’éducation 38

4
Chapitre 1

Statistique descriptive univariée

L’analyse univariée est une analyse utilisée sur une variable dans le but de découvrir et
d’identifier les caractéristiques de la variable. Cette analyse est la technique d’analyse la plus
élémentaire qui est souvent utilisée dans divers types de recherche.

Étant donné qu’une seule variable est analysée, les résultats de l’analyse univariée ne peuvent
et ne doivent pas être conclus avec d’autres variables. Cette analyse est souvent assimilée à une
analyse descriptive car elle ne donne qu’une description d’une variable sans l’intervention d’autres
variables.

1.1 Lecture de données

Nous allons, à partir de la base de données customer_dbase.sav, étudier les divers aspects liés
aux clients. Nous allons traiter un tableau de 5000 individus représentant les clients d’une entreprise
et de 32 variables que nous allons décrire ci-après :
— custid : Identifiant Client.
— region : Indicateur géographique
— townsize : Taille de la ville
— gender : sexe
— age : Age en années
— ed : années d’éducation
— jobcat : Catégorie d’emploi
— empcat : Nombre d’années chez l’employeur actuel (catégorie)
— ...

5
1.2 Analyse univarié

Dans cette partie, nous allons faire une analyse univariés sur 6 variables, qui sont :

— gender : une variable qualitative qui décrit le sexe des clients.


— age : une variable quantitative qui décrit l’Age des clients.
— ed : une variable qualitative qui représente les années d’éducation.
— income : une variable quantitative qui décrit le salaire des clients.
— jobcat : une variable qualitative qui représente les catégories d’emploi
— marital : une variable qualitative qui représente la Statut marital.

et voici l’ensemle des variables de notre base de données sous le logiciel SPSS :

Figure 1.1 – Vue des variables sous SPSS

6
Pour Effectuer une analyse univariée, on doit suivre les étapes suivantes Sous SPSS :
1. Choisissez Analyser > Statistiques descriptives > Fréquences

2. Choisir la variable à analyser, ici, c’est la variable Age.

7
3. Cliquez sur statistiques pour choisissez ce que vous voulez analyser, puis cliquez sur
continuer :
— Si la variable est quantitative, le tableau comporte moyenne, écart-type, médiane,
25ème et 75ème percentile, minimum et maximum ; et le graphique représente alors la
distribution de la variable sous la forme d’un histogramme.

— Si la variable est qualitative, le tableau donne l’effectif de chaque classe ; et le graphique


représente la répartition dans chaque classe sous la forme d’un graphique en barre ou
un graphique circulaire.

8
4. Cliquez sur le graphique, Choisissez le graphique convenable, puis cliquez sur continuer :

9
1.3 Cas pratique de l’analyse univarié

1.3.1 Pour la variable : Gender

Figure 1.2 – Taleau statistique pour la variale Gender

La représentation graphique de la variable gender :

Figure 1.3 – Graphe circulaire représentant le gendre des clients

Remarque 1. On remarque que l’effectif des femmes et des hommes sont presque égaux.

10
1.3.2 Pour la variable : Jobcat

Figure 1.4 – Taleau statistique pour la variale Jobcat

La représentation graphique de la variable Jobcat :

Figure 1.5 – Histogramme des effectifs représentant les catégorie d’emploi des clients

Remarque 2. Parmi les 5 catégories d’emploi, on remarque que « Commercial » et « Profession


libérale » sont les plus dominant.

11
1.3.3 Pour la variable : Age

Figure 1.7 – Histogramme des effectifs représentant l’age des clients

Le histogramme suivant porte sur la va-


riable AGE de la base Customer_.sav

La distribution de l’âge n’a pas de petites


valeurs, car seulement les adultes pouvaient par-
ticiper à l’étude. On remarque une « queue »
vers les valeurs plus élevées. Si on avait à don-
ner un âge « typique » pour cet échantillon, il
serait probablement entre 40 et 50 ans, car c’est
là que se situent la majorité des observations.

Remarque 3. On en déduit que l’âge moyenne


des clients est : 47 ans et l’âge le plus fréquents
est : 18 ans.

Figure 1.6 – Taleau statistique pour la variale Age

12
1.3.4 Pour la variable : Années d’éducation

Figure 1.9 – Histogramme des effectifs représentant les années d’éducation des clients

La distribution du nombre d’années de


scolarité est relativement différente. Les valeurs
débutent à « 0 » et bloquent à « 20 ». Le nombre
d’années « typique » pour cette distribution est
14 en raison du pic accentué dans cette zone.

Remarque 4. On remarque que la moyenne


d’années d’étude des clients est 14 ans.

Figure 1.8 – Taleau statistique pour la variale ed

13
1.3.5 Pour la variable : marital

Figure 1.10 – Taleau statistique pour la variale marital

La représentation graphique de la variable gender :

Figure 1.11 – Graphe circulaire représentant situation matrimoniale des clients

Remarque 5. On remarque que 51.98% des clients sont non marrie(e), et 48.02% sont marrie(e).

14
Chapitre 2

Statistique descriptive bivariée

L’objectif de cette partie est d’étudier sur une même population de n individus, deux caractères
différents X et Y et de rechercher s’il existe un lien entre ces deux variables. Chacune des deux
variables peut être, soit quantitative, soit qualitative.

2.1 Deux variables qualitatives (tableau de contingence)

Hypothèse du Travail : On essaie de déterminer s’il y a un lien entre le sexe et l’engagement


dans un parti politique. Pour cela, nous utiliserons les deux variables qualitatives «sexe» et «membre
d’un parti politique».

Dans un premier temps, nous nous intéresserons au croisement entre la variable " sexe" qui
peut prendre 2 valeurs possibles {Homme, Femme} et la variable " membre d’un parti politique",
qui peut prendre 2 modalités {Oui : si la personne fait partie d’un parti politique, Non : si non}

Dans l’encadré [num Encadré], nous présentons les résultats obtenus avec le logiciel SPSS à
partir de la commande Tableaux croisés.

Le cheminement pour parvenir à la fenêtre principale


de dialogue pour la commande d’un tableau croisé est :

15
Dans le premier rectangle de droite (Ligne), nous devons faire glisser la variable indépendante,
ici, c’est la variable «sexe». Dans le deuxième rectangle de droite (Colonne), il faut introduire la
variable dépendante : «membre d’un parti politique». Le troisième rectangle servira, dans les
tableaux à triples entrées, à insérer une variable de contrôle.

Pour afficher les pourcentages : – en ligne, – en colonne, – total ligne et total colonne. On
utilise la commande Cellules puis en les activant comme suite :

16
Voici le tableau croisé Sexe * Membre d’un parti politique :

Figure 2.1 – Tableau croisé Sexe * Membre d’un parti politique

Nous avons cinq informations dans la première cellule du tableau. Voyons ces informations :

1. Le premier nombre comprend l’effectif réel de la population, soit 1541 personnes de sexe
masculin qui ont répondu « Non » à la question, « Êtes-vous membre d’un parti politique ?
»
2. Le premier pourcentage, 62,1%, est le résultat de la lecture en ligne : 1541/2482 = 0,62
c’est-à-dire ; 62,1% des hommes ne font pas partie d’un parti politique.
3. Le deuxième pourcentage, 49,8%, est le résultat de la lecture en colonne : 1541/3093 =
0,498 c’est-à-dire ; 49,8% de ceux qui ont répondu « non » sont de sexe masculin.
4. Le troisième pourcentage renvoie au total de la population ; ainsi, 1541/5000 = 0,308 c’est-
à-dire, 30,8% des répondantes ne sont pas membres d’un parti politique.
5. Le troisième nombre, est le résidu, c’est-à-dire,l’écart entre l’effectif réel (observé) et
l’effectif théorique : 1541 – 1535,4 = 5,6

17
Nous calculons par la suite le coefficient de contingence, à partir de la commande Statistiques

Voici le résultat :

Dans ces deux tableaux SPSS, il y a 3 résultats importants :

— Le nombre de sujet de l’échantillon N = 5000.


— La valeur du coefficient de contingence, ici, 0.005
— La valeur de Signification approximée, dans ce cas-ci, 0.743

Le premier résultat - 0.005 - mesure le degré de co-occurrence entre les variables (sexe) et
(membre d’un parti politique) dons notre échantillon N = 5000.
Remarque 6. 0 équivaut à une absence de lien, alors que si Valeur = 1, lien est parfait.

18
Remarque 7. Par convention, on dira que la relation entre deux variables quelconques est :

— parfaite si la valeur de C = 1
— très forte si C > 0,8.
— forte si C se situe entre 0,5 et 0,8.
— faible si C se situe entre 0 et 0.2.
— pas de relation si C = 0

Le second résultat - 0.743 - est un seuil de signification (ou valeur de probabilité) obtenu au
moyen d’un test d’hypothèse. Ce test permet de décider si ce lien - 0,005 - est significatif ou non.
(si la valeur de test est inférieure à 0,05 (5%) donc résultat significatif. Ici ce n’est pas le cas.)

Commentaire 1. L’analyse des données de la présente recherche montre qu’il n’existe aucune
relation entre le sexe des sujets et l’engagement dans un parti politique (C = 0,005, p = 0,743)

Pour conclure sur la relation entre ces deux variables, nous allons utiliser le test khi2 .
Sous SPSS : Analyse > Statistiques descriptives > Tableaux croisés > Statistiques > khi-carrés.

19
Et voici donc le tableau de khi-carrés :

Figure 2.2 – Tableau du Khi-carrés

Dans ce tableau, il y a 3 résultats importants :

— Le résultat du test ou Valeur de khi-carrés = 0,108


— Le ddl ou degré de liberté, ici ddl = 1
— Signification asymptotique, dans ce cas-ci 0,743 (> 0,5 càd ; non significative)

Conclusion. La différence entre les deux groupes {Hommes, Femmes} n’est donc pas significative
[khi-deux = 0,108 ; ddl = 1 ; p = 0,743]. On peut donc conclure que le sexe n’influence pas
l’engagement dans un parti politique.

20
2.2 Deux variables quantitatives

Hypothèse du Travail : Certains étudiants affirmaient que d’appartenir à une famille nom-
breuse était un critère défavorable pour réaliser des études longues (supérieures). Pour vérifier cette
affirmation, nous allons examiner la dépendance entre les deux variables quantitatives : X = nombre
d’années d’étude et Y = nombre de personnes dans le foyer.

2.2.1 Etude statistique :

Dans un premier temps, nous nous intéresserons au coefficient du corrélation.

Sous SPSS : Analyse > Corrélation > Bivariées > Pearson

21
Voici donc le résultat de notre test de corrélation :

Dans ce tableau de corrélation, il y a deux résultats importants :


— Le résultat du test de corrélation ou Corrélation de Pearson (r), ici 0,023
— La valeur du test de la pente ou Sig. (bilatérale), dans ce cas-ci 0,101

Commentaire 2. Le premier résultat - 0,023 - mesure le degré de liaison linéaire entre les variables
(X) et (Y) de votre échantillon. (dans ce cas ; la liaison est faible, 0,023 < 0,2)

Commentaire 3. Le second résultat - 0,101 - est obtenu au moyen d’un test d’hypothèse (probabilité
de commettre l’erreur). Ce test permet de décider si ce lien - ici 0,023 - est significatif, autrement
dit si la corrélation observée entre X et Y existe ou non. (10% supérieure à 0,05 : non significative)

22
2.2.2 Etude Graphique :

Dans le cadre d’une corrélation linéaire, on résume graphiquement la dispersion d’un nuage
de points par une droite.

Sous SPSS : Boite dialogue ancienne version > Dispersion/Points > Dispersion simple

Figure 2.3 – Diagramme nuage de points

Commentaire 4. Pente de la droite croissante, donc la tendance est positive : plus le nombre des
années d’éducation augmente, plus le nombre de personnes dans le foyer augmente.[Pente très
faible (résultat non significative)]

Conclusion. Les probabilités sont supérieures à 5%, notamment pour notre population de N=5000.
Dans ce cas on peut conclure que si l’on est un enfant, que l’on soit issu d’une famille « nombreuse
» ou non la répartition selon la durée des études n’est pas significativement différente. L’effet est
donc particulièrement inexistant.

23
Chapitre 3

Analyse de données multivariée

3.1 Analyse en Composantes Principales (ACP)

L’analyse en composante principales (ACP) est une analyse statistique descriptive multi variée
qu’on applique a un ensemble de variables initiales qu’on veut réduire en quelques facteurs ou
composantes (nouvelles variables). Elle consiste à synthétiser les donnes issues d’un croisement
entre plusieurs variables numériques.

ACP vise a identifier le grand nombre de variables initiales ou les items présentant un coefficient
de corrélation relativement important qui peuvent être regroupes entre eux en vue de faciliter leur
interprétation et leur donner un sens.

3.1.1 La spécification des paramètres de l’analyse

Afin d’afficher la boîte de dialogue principale de la procédure FACTOR, on sélectionne partir


du menu principal les options suivantes : Analyse > Dimention Reduction > Factor

On sélectionne, par la suite, les variables numériques choisies pour l’ACP (minimum : 2
variables) parmi celles figurant dans notre base de données Customer_dbase en les transférant

24
dans la liste des Variables à l’aide du bouton.

Il suffit alors de cliquer sur le bouton OK pour effectuer une analyse factorielle avec les
paramètres prévus par défaut. On obtient alors le listage de la structure initiale, la matrice des
corrélations variables-facteurs et les statistiques concernant la structure finale.

Remarque 8. Puisque l’ACP ne se fait qu’avec des variables quantitatives, on ne va choisir que
des variables ‘’scale”.

Afin de choisir les statistiques optionnelles de la procédure FACTOR, on clique sur les boutons
Rotation, Scores ... pour ouvrir les boîtes de dialogue secondaires permettant d’effectuer ces choix.

25
(a) Rotation des facteurs (b) Coordonnées factorielles

Figure 3.1 – La spécification des paramètres de l’analyse

On veut faire l’analyse en deux dimensions, c’est pourquoi on choisit deux vecteurs :

Figure 3.2 – Extraction des facteurs

26
3.1.2 Les résultats de l’Analyse en Composantes Principales

Commençons d’abord avec la matrice de corrélation :

Figure 3.3 – Matrice de corrélation

On voit beaucoup de valeurs significatives dans ce tableau, d’où une ACP est éligible. On peut
aussi voir ceci dans la plupart des valeurs d’extraction.

Figure 3.4 – Qualité de représentation

27
Malheureusement, vue les grands nombres de variables on n’est arrivé qu’a une variance totale
de 66.302% avec deux facteurs :

Figure 3.5 – Variance totale expliquée

On va classer les variables selon leurs relations avec les deux composantes de l’ACP :

Figure 3.6 – Matrice des composantes

28
+ -
Nnmas 1
Ldhf
+ -
Namvldm
Mldm
Nvhf
Sfldm
Sfhf
Aaldhf (b) Axe factoriel du CP2
Camd
(a) Axe factoriel du CP1

Table 3.1 – Axes factoriels

Remarque 9. Pour la variable "équipement hors forfait", elle a presque la même valeur pour les
deux composantes, on va donc l’ignorer.

Figure 3.7 – Graphique factoriel

1. Abréviation des noms des variables.

29
Variable Libellé
tenure nombre de mois avec service
longten longue distance hors forfait
tollmon nombre d’appel numéro vert dernier mois
tollten numéro vert hors forfait
equipten équipement hors forfait
cardten carte d’appel hors forfait
wireten sans fil hors forfait
longmon appel longue distance dernier mois.
equipmon matériel lors du dernier mois
wiremon sans fil lors du dernier mois
cardmon carte d’appel mois dernier

Table 3.2 – Signification des variables

Essayant maintenant d’interpréter les résultats :

Intérpretation

On voit par exemple que plus le "nombre de mois avec service" est grand plus les appels "longue
distance hors forfait" sont grands. Et dans toutes les variables de la première composante, sont toutes
corrélées positivement entre eux. Ces variables indiquent donc la probabilité d’un consommateur
d’être hors forfait selon les types d’appels qu’il fait.

30
Dans l’exemple suivant, on représente les données qu’on a selon les deux facteurs résultant de
l’ACP. On représente en couleur si les gens sont des retraites ou non :

Figure 3.8 – Figure

On voit que pour les gens non retraite, il ’y a une distribution ou c’est impossible de déterminer
une tendance, alors que pour les gens retraites, la plupart eux tendent vers la partie négative de la
première composante.

(a) Rotation des facteurs (b) Coordonnées factorielles

Figure 3.9 – La spécification des paramètres de l’analyse

31
3.2 Analyse Factorielle des Correspondances (AFC)

L’analyse factorielle des correspondances (AFC)est une méthode de description statistique sur
un tableau de contingence AFC qui s’applique à 2 variables qualitatives. Elle sert à décrire et à
hiérarchiser les relations statistiques qui peuvent exister entre les individus et des variables dans un
tableau rectangulaire de données.

Sa méthode consiste en la réduction de la dimension en effectuant la décomposition factorielle


des nuages de points associés aux profils lignes et aux profils colonnes du tableau de contingence
croisant les modalités des deux variables.

Dans cette partie on cherche à réaliser une AFC sur un tableau croisé entre la variable "Catégorie
d’emploi" et "Niveau d’éducation" (qui sont bien sur deux variables qualitatives) pour vérifier s’il
existe des correspondances entre leurs modalités. On recherchera, en outre, des ressemblances, des
différences, des proximités entre individus et entre les modalités de nos deux variables qualitatives.

Pour entamer notre analyse on procède comme suit sur SPSS :

32
On génère ainsi :

3.2.1 Le tableau des correspondances :

L’AFC s’applique essentiellement à des tableaux de contingence (qui est un moyen particulier
de représenter simultanément deux caractères observés sur une même population) représenté de
la manière suivante :

Figure 3.10 – Tableau des correspondances

Intérpretation

De ce tableau on peut dire que le total des personnes exerçant la profession d’un commercial et
ayant un niveau bac +3/4 est de 383 personnes.de même par exemple pour les artisans ayant un
niveau bac qui sont au total 147 personnes.

33
3.2.2 Profils lignes et profils colonnes :

Le tableau de contingence ci-dessus n’est pas très gros. Par conséquent, il est facile d’inspecter
et d’interpréter visuellement les profils des lignes et des colonnes :

Figure 3.11 – Tableau profils lignes et Tableau profils colonnes

Intérpretation

Du tableau de profils lignes on peut déduire par exemple que 17,9% des personnes ayant un niveau
bac+3/4 appartiennent à la catégorie d’emploi de service.

34
h Remarque 3.2.1:
— Pour aboutir aux résultats du profil ligne i :
On divise chaque terme de la ligne i par l’effectif de la ligne li.
ni1 nij
... ... (3.1)
ni ni

Avec i le nombre de la ligne correspondante et nij : Nombre d’observations ayant


la modalité xi de x et yj de y.
— Si les deux variables qualitatives «Catégorie d’emploi» et «Niveau d’éducation»
étaient indépendantes, les profils lignes seraient tous identiques.

35
3.2.3 Récapitulatif :

Figure 3.12 – Tableau Récapitulatif

Intérpretation

La dépendance des deux variables en question se traduit à l’aide du tableau récapitulatif ci-dessus
en exploitant la valeur du test khi-deux (qui va nous servir à pour évaluer s’il existe une dépendance
significative entre les catégories des lignes et des colonnes.)

Pour déterminer si les variables sont indépendantes, on analyse la signification du test. En général,
un seuil de signification (noté alpha ou α)de 0,05 fonctionne bien. Un seuil de signification de 0,05
indique 5% de risque de conclure à tort qu’il existe une association.

De ce fait à partir de la valeur issue du tableau récapitulatif 0, 167a (avec a désigne le degré de
liberté) pour la signification du test de khi-deux on confirme la dépendance entre les deux
variables en question et on rejette l’hypothèse nulle.

Aussi bien qu’on peut déduire l’inertie (la quantité d’information en valeur) contenue dans chaque
axe, le pourcentage d’inertie expliqué ainsi que la proportion cumulée. Dans ce cas ; l’inertie
expliquée est de 100%.

36
3.2.4 Caractéristiques des points lignes et caractéristiques de points colonnes :

Ce tableau qui permet de donner pour chaque attribut le score dans la dimension (les coordon-
nées de chaque modalité sur les deux axes), l’inertie (la quantité d’information en valeur contenue
dans chaque axe ) et la contribution.

Figure 3.13 – Tableau caractéristiques des points lignes

Intérpretation

Par exemple pour la modalité commercial on peut savoir son positionnement par rapport aux deux
axes à partir du tableau ci-dessus ainsi ses coordonnées sont 0,283 par rapport au premier axe et
−0, 138 par rapport au premier axe.

Figure 3.14 – Tableau caractéristiques des points colonnes

37
3.2.5 Représentation graphique :

On effectue la décomposition factorielle des nuages de points associés aux profils lignes et aux
profils colonnes du tableau de contingence pour obtenir la représentation graphique correspondante
à notre cas d’étude.

Ainsi on obtient ce graphe permettent de mettre en lumière la répartition des différentes


modalités des deux variables par rapport aux deux dimensions comme le montre la figure suivante :

Figure 3.15 – Répartition des individus de la population par catégorie d’emploi et niveau d’éduca-
tion

Remarque 10. On interprète les (groupes) de points-profils d’une variable en tenant compte de
leur positon par rapport aux axes.

38
3.3 Analyse Factorielle des Correspondances Multiple (AFCM)

39

Vous aimerez peut-être aussi