Vous êtes sur la page 1sur 133

Faculté des Sciences Juridiques Année Universitaire : 2021/ 2022

Economiques et Sociales –Fès Filière : Sciences Economiques et Gestion

Master: Banque et marchés financiers


BMF

Module : Analyse de données avec


SPSS
Niveau : S3

1
T . EL MAHI
INTRODUCTION GENERALE

 Qu'est ce que l’analyse des données?

 Pourquoi faire de l’analyse des


données ?

2
INTRODUCTION GENERALE

 l’intérêt de l’analyse de données :


1. réduire l’incertitude face à une décision
2. Simplifier la lecture des données parfois très nombreuses
3. Expliquer des faits empiriquement observés ou statistiquement décrits.

3
INTRODUCTION GENERALE

Les étapes d’une analyse de données:


• Thème d’étude
Étape 1

• La problématique de la recherche
Étape 2

• Identification et sélection des variables


Étape 3

• Choisir les outils de mesure des variables


Étape 4

• Rédaction du questionnaire et recueil des données


Étape 5

• Analyse des données


Étape 6

• Interprétation des résultats


Étape 7

Étape 8 • Résoudre la problématique posée


4
INTRODUCTION GENERALE

L’analyse des données peut se définir comme l’ensemble des méthodes


permettant une étude approfondie d’informations quantitatives ou qualitatives.

Selon Jean de Lagarde : « Le propre de l’analyse des données, dans son sens moderne,
est justement de raisonner sur un nombre quelconque de variables, d’où le nom
d’analyse multivariée qu’on lui donne souvent. »

5
INTRODUCTION GENERALE

Contrairement à une idée très répandue, La plupart des méthodes de l’analyse des données
sont nées dans les années 1930.

- H.Hotelling, dans les années 30, posait les fondements de l’analyse en composantes
principales (ACP) et de l’analyse canonique (AC) en développant les travaux de C.
Spearman et de K Pearson qui dataient du début du siècle.

- Jusqu’aux années 60 toutes les méthodes d’analyse des données restaient inabordables car

elles nécessitaient une masse considérable de calculs.

- C’est l’apparition et le développement des ordinateurs et des logiciels qui contribuaient

dans la vulgarisation des techniques statistiques d’analyse des données .


6
INTRODUCTION GENERALE

La statistique classique s’est axé sur l’étude d’un nombre réduit de caractères

mesurés sur un petit nombre d’individus. Elle a développé les notions d’estimation et de

testes fondées sur des hypothèses probabilistes.

Cependant, dans la pratique les individus observés sont souvent décrit par un

grand nombre de caractères. Les méthodes d’analyse des données permettent une étude

globale des individus et des variables en utilisant généralement des représentations

graphiques .

7
INTRODUCTION GENERALE

 L’analyse des données est une branche de la statistique qui consiste à organiser

,synthétiser et analyser les informations concernant un ensemble (population ou échantillon)

de n individus relativement à K caractères ( ou variables). Afin de tirer des conclusions et de

prendre des décisions.

 On distingue généralement deux ensembles : les individus et les caractères relatifs à ces

individus.

 Le terme « individu » peut désigner, selon les cas : l’employé d’une entreprise, un client, un

animal, une ville, etc. il s’agit toujours de l’entité de base sur laquelle l’observateur réalise un

certain nombre de mesures. 8


INTRODUCTION GENERALE

 L’ensemble des individus observés peuvent provenir d’un échantillon (cas de

sondage) ou d’une population entière.

 Sur les individus on relève un certain nombre de caractères:

Par Exemple, - si l’on considère une enquête et les caractères sont les questions.

- S’il s’agit d’un employé d’une entreprise, les caractères sont : le salaire, l'âge, le diplôme,

le sexe…

 Les caractères observés peuvent être quantitatifs ou qualitatifs

9
INTRODUCTION GENERALE

 Un caractère est quantitatif lorsqu’il prend des valeurs sur une échelle
numérique: salaire, âge, chiffre d’affaire, taille, poids, etc. Plus précisément un
caractère est quantitatif lorsque l’on peut effectuer sur le caractère les opérations
algébriques habituelles : addition, multiplication, par une valeur constante, calcul de
moyenne, etc.
- Les variables quantitatives peuvent être discrètes ou continues
 Un caractère est qualitatif lorsqu’il prend des modalités non numériques : sexe,
profession, diplôme, région, etc.
- Les modalités d’un caractère qualitatif peuvent être ordonnées (niveau de
satisfaction, niveau hiérarchique…) on dit que le caractère est qualitatif ordinal.
Sinon on dit que le caractère est qualitatif nominal(sexe, couleur, région…) 10
INTRODUCTION GENERALE

 Dans l’échelle nominale, chacune des catégories de la variable est équivalente aux autres.
Exemple :
- Le Sexe des personnes : 1. Femme 2. Homme
- Situation matrimoniale: 1. marié 2. célibataire 3. divorcé 3. veuf
 Dans le cas de l’échelle ordinale, une catégorie peut être plus petite ou plus grande
qu’une autre : il y a une gradation dans les catégories utilisées.
Exemple :
-La satisfaction face à un service : -Le niveau d’étude :
1. Très insatisfait 1. Primaire
2. Insatisfait 2. Secondaire
3. Satisfait 3. Supérieur
4. Très satisfait
11
INTRODUCTION GENERALE

Dans l’analyse des données, on distingue habituellement :


• L’analyse univariée, qui porte sur l’étude des variables prises une à une dans la
présentation et l’interprétation ;
• L’analyse bivariée, qui a pour objectif d’examiner les relations de deux variables en
même temps ;
• L’analyse multivariée, qui vise l’étude de plusieurs variables en même temps.

12
INTRODUCTION GENERALE

 Remarque : L'analyse des données est utilisée dans tous les domaines dès lors que
les données se présentent en trop grand nombre pour être appréhendées par l'esprit
humain.

13
plan du cours

Chapitre I : De la problématique au tableau de données

I- Rédiger le questionnaire
1. Les règles de base pour rédiger le questionnaire

2. Les modalités de réponses: données qualitatives ou quantitatives(métriques ou


numériques) et statistiques associées.

3. Coder les modalités de réponse

II- Définir l’échantillon de l’étude


1.Définir les caractéristiques de la population à interroger

2.Définir la taille de l’échantillon

3.Les principales méthodes d’échantillonnage


14
III- Créer la base de données T . EL MAHI
plan du cours

Chapitre II : Etapes préalables et connaissances nécessaires à l’analyse de données


I- le raisonnement statistique: le test d’hypothèses
1. Écrire les hypothèses H0 et H1 du test
2. Test bilatéral ou unilatéral
II- préparer les données pour l’analyse
1. Vérifier le bon enregistrement des données
2. Compléter ou modifier les données mal enregistrées
3. Vérifier la symétrie de la distribution des données métriques: la normalité

15
plan du cours

Chapitre III: Analyser et interpréter les données


I. Les analyses descriptives univariées: décrire les variables une à une
II. Les analyses descriptives bivariées : décrire les liens entre deux variables
III. Les analyses explicatives
IV. Les analyses factorielles: Synthétiser un grand nombre d’informations
1. L’analyse factorielle des correspondances (AFC)
2. L’analyse en composantes principales (ACP)

Chapitre IV : cas pratique sur le logiciel SPSS

16
T . EL MAHI
Bibliographie

 L’analyse des données, Jean-Marie BOURCHE et G.SAPORTA

 Statistique bivariée avec R ,Mohammed BENNANI DOSSE

 Enquêtes et analyse des données .J.MOSCAROLA (Sta79)

 Analyse des données . M.VOLLE-ECONOMOICA (stat48)

 Guide pratique de l’analyse des données .PIERRE GHEWY. 1ére édition (2010)

 Analyse des données qualitatives . J.HERMAN

17
T . EL MAHI
CHAPITRE I
De la problématique au tableau de données

18
I- Rédiger le questionnaire
1. Les règles de base pour rédiger le questionnaire
2. Les modalités de réponses: données qualitatives ou quantitatives(métriques ou
numériques) et statistiques associées.
3. Coder les modalités de réponse

II- Définir l’échantillon de l’étude


1.Définir les caractéristiques de la population à interroger
2.Définir la taille de l’échantillon
3.Les principales méthodes d’échantillonnage

III- Créer la base de données


19
I- Rédiger le questionnaire

A- Les règles de base pour rédiger le questionnaire


- Le questionnaire a pour objectif de recueillir de l’information, et de la transformer en
chiffre afin de comprendre une situation.
- Le questionnaire doit se limiter aux seules informations utiles pour résoudre la
problématique de l’etude.
 Remarque : le projet de questionnaire n’intervient qu’après : la problématique, l’objet
de l’enquête, l’échantillonnage et le mode d’administration

20
I- Rédiger le questionnaire

 Structure d’un questionnaire

L’introduction

Le corps du questionnaire (les


questions)

La conclusion

21
I- Rédiger le questionnaire

1. Les règles de base pour rédiger le questionnaire

Etape 1 : La préparation du questionnaire

1.Une introduction 2.Définition des objectifs 3.Choix de l’echantillon

Etape 2: La conception du questionnaire


1.Les types des questions 2.Le prétest 3.La rédaction définitive du
questionnaire

Etape 3: la collecte des réponses

1.Par l’enquêteur lui-même 2.Par auto-administration 22


I- Rédiger le questionnaire

I- Les règles de base pour rédiger le questionnaire(2)


1. Une introduction

Tout questionnaire doit être introduit par des phrases explicatives qui doivent :

- Indiquer le nom de l’organisme qui réalise l’étude, autrement dit préciser ses références

- Préciser les buts de l’étude en soulignant son importance.

- Il faut également garantir l’anonymat et remercier l’enquêté des sacrifices de son temps

Remarque: L’introduction doit être brève.

23
I- Rédiger le questionnaire

2. les types des questions


Il s’agit ici de décrire le type de questions que le rédacteur peut choisir pour composer
son questionnaire.
Il existe trois grandes familles de questions:
- les questions ouvertes
-les questions semi-ouvertes
-les questions fermées,

24
I- Rédiger le questionnaire

a. Les questions fermées: On appelle question fermée une question pour laquelle
plusieurs réponses possibles sont proposées.
On distingue deux sous-catégories de questions fermées: les questions à choix
unique(QCU) et les questions à choix multiple(QCM).

 Une question fermée est dite à choix unique si l’enquêté n’a le droit de choisir qu’une
seule réponse parmi toutes les réponses proposées.
Exemple : Etes-vous un homme ou une femme? »,
« Pratiquez vous un sport ? » oui ou non.

25
I- Rédiger le questionnaire

 Les questions fermées à choix multiple consistent à laisser la possibilité à l’enquêté de

choisir plusieurs réponses .

-On parle de « questions cafétéria » car l’enquêté fait son choix parmi les réponses offertes

comme dans une cafétéria .

26
I- Rédiger le questionnaire

b. Les questions ouvertes : On appelle question ouverte une question pour laquelle il n’y
aura aucune proposition suggérée.
- elles laissent la possibilité à l’enquêté de s’exprimer plus librement. Il s’agit de questions
du type : « Quels sont vos besoins en formation pour l’année prochaine ? » proposant un
espace pour que l’enquêté rédige sa réponse.

27
I- Rédiger le questionnaire

c. Question semi-ouverte (question mixte): Une question semi-ouverte se construit au


départ comme une question fermée, cdr avec des propositions de réponses avec la
possibilité de répondre librement en ajoutant un champ libre. Il s’agit de la case « autre ».

28
I- Rédiger le questionnaire

3- Définir l’objet de l’enquête :


Il s’agit de définir sur quoi porte l’enquête.
4- Définir les hypothèses de l’enquête :
Il est nécessaire de formuler des hypothèses qui seront testés à travers le questionnaire.
5- Déterminer la population ciblée:
la population de l’enquête est l’ensemble du groupe de personnes ciblées par l’enquête. Il
est nécessaire de préciser les caractéristiques précises de cette population.
6- Déterminer l’échantillon:
L’échantillon regroupe l’ensemble des sujets qui seront interrogés dans le cadre de
l’enquête. Il doit impérativement être représentatif de la population ciblée pour que les
résultats de l’étude puissent être généralisés
29
I- Rédiger le questionnaire

7- Le prétest
Il s’agit d’une phase fondamentale, souvent négligée, qui consiste à mettre à l’épreuve le
questionnaire par rapport à quelques individus, autrement dit à le tester. Elle est donc
centrée sur l’évaluation du questionnaire lui-même(le vocabulaire utilisé, l’objectif de
lenquete,.
8- La rédaction définitive du questionnaire
Grace aux commentaires issus du pré-test, il faut rédiger définitivement le questionnaire
qui sera soumis aux enquêtés.

30
I- Rédiger le questionnaire

9- Le choix du mode d’administration


Il existe différents mode d’administration du questionnaire :
- par l’enquêteur lui-même qui pose les questions aux enquêtés et note les réponses
en face à face ou par téléphone.
- par auto-administration : l’enquêté répond lui-même aux questions qui lui ont été
transmises par voie postale ou Internet

31
I- Rédiger le questionnaire

2. Les modalités de réponses: données qualitatives ou quantitatives(métriques ou


numériques) et statistiques associées.
Quand les questions sont sélectionnées, le chargé d’étude doit choisir les modalités de
réponse à proposer aux répondants.
a. Les données nominales: il s’agit de variables dont les classes ne peuvent pas
être hiérarchisées: elles sont nommées, mais non pas ordonnées.
Exemple:
Variable Classes(modalités de réponse)
État civil Célibataire,marié,divorcé,…
Nationalité Marocaine, française,…
Sexe Homme, femme
Groupe sanguin A,B,O,AB 32
I- Rédiger le questionnaire

 Les opérations statistiques sur les données nominales


Les variables nominales permettent de :
- Calculer les fréquences cumulées
- Calculer les fréquences relatives: fi= ni/N
- Faire des tableaux de contingence
- Déterminer le mode
- Calculer le test de khi-deux pour déterminer l’existence d’une relation entre deux
variables nominales.

Remarque: Pas de calcul de moyenne

33
I- Rédiger le questionnaire

 Effectif:
le nombre de données utilisables et connues pour la variable d’intérêt. Cela correspond
souvent au nombre de sujets ayant formulé une réponse à la question

 Fréquence
• Le terme fréquence sera employé en tant que proportion, c’est à dire le rapport entre
l’effectif d’une modalité et l’effectif total. Les fréquences seront fréquemment indiquées
en pourcentage.

34
I- Rédiger le questionnaire

 Fréquences cumulées
On calcule la fréquence cumulée en ajoutant chaque fréquence tirée d'un tableau de
distribution de fréquences à la somme de celles qui précèdent.

la somme des fréquences calculées en pourcentage pour chaque modalité de la variable doit
évidemment être égale à 100%.

35
I- Rédiger le questionnaire

 le mode
• Le mode est la valeur qui revient le plus souvent. On l’appelle souvent pic de l
distribution.

 le test de khi-deux :
• Ce test est le test le plus utilisé en sciences sociales.
• Le test de khi-deux nous permet d’accepter ou de rejeter, avec un risque d’erreur donné
l’hypothèse d’indépendance entre deux variables étudiées.

36
I- Rédiger le questionnaire

b. Les données ou variables ordinales: elles s’expriment en modalités qui peuvent


etre ordonnées selon un critère donnée.
Les opérations statistiques :
- Effectifs, fréquence et mode.
- Déterminer la médiane.
- Déterminer les quantiles (fractiles) : cdr diviser les données ordonnées en q sous-
ensembles de données de dimension égale. Les 100 quantiles sont appelés centiles, les
dix sont appelés déciles, les quatre sont appelés quartiles, les cinq sont appelés
quintiles.
-

37
I- Rédiger le questionnaire

c. Les variables quantitatives : ces variables sont caractérisées par des valeurs
numériques.
- Variables quantitatives continues : ce sont des variables qui peuvent prendre
n’importe quelle valeur numérique dans l’intervalle des observations. Il existe une
infinité des valeurs possibles.(le poids, la taille, cholestérol…)
- Variables discrètes : ce sont des variables discontinues. Le plus souvent il s’agit de
nombre entiers.
 Les opérations statistiques associées:
- Faire les mêmes opérations que les variables qualitatives: effectifs, fréquence, mode
et médiane.
- Calculer la moyenne
38
- Calculer la variance et l’écart type
I- Rédiger le questionnaire

- Calculer le coefficient de variation (CV) :


Le CV est un indicateur combinant l’écart type et la moyenne
On appelle CV, le rapport de l’écart type sur la moyenne

CV = *100

Le CV exprime le degré de dispersion d’une distribution en fonction de la valeur moyenne.


Il est utile pour comparer la dispersion de deux variables quantitatives de nature
différente.
Remarque: Si le CV > 25%, la série statistique est considérée dispersée.
39
I- Rédiger le questionnaire

3. Coder les modalités de réponse


 Le codage est un processus qui consiste à donner des valeurs numériques aux réponses
exprimées au départ sous forme textuel.

 Le principal objectif est de faciliter le traitement automatique des données dans un but
analytique.

 Le codage préalable des items et des modalités de réponse facilite la saisie des données.

Remarque : Les logiciels d’analyse des données ne traitent que des données chiffrées.

40
I- Rédiger le questionnaire

Exemple :
 Évaluation de vos compétences actuelles sur votre maîtrise de l’outil informatique
1. Excellent 2.Bon 3. Moyen 4. Débutant 5.Nul

 Vous êtes : 1-Un homme 2- une femme

41
II- Définir l’échantillon de l’étude

II- Définir l’échantillon de l’étude


1.Définir les caractéristiques de la population à interroger
2.Définir la taille de l’échantillon
3.Les principales méthodes d’échantillonnage

42
II- Définir l’échantillon de l’étude

Une fois la problématique est définie et le questionnaire est rédigé, il reste à l’analyste à
déterminer l’échantillon de l’étude.
L’échantillonnage suppose la définition:
- Des caractéristiques de la population
- De la taille de l’échantillon.
1.Définir les caractéristiques de la population à interroger
Elles sont déterminées à partir de la problématique de l’étude et donc de son objectif, de
l’information recherchée.
- La population doit posséder les caractéristiques ou les informations que l’on souhaite
connaitre.

43
II- Définir l’échantillon de l’étude

2.Définir la taille de l’échantillon


La détermination de la taille de l’échantillon est une étape cruciale en analyse de données.
- Un échantillon trop petit peut induire une perte d’informations importante.
- Un échantillon trop important constitue une perte de temps et de budget.

 Il est important de noter que la précision de l’information recueillie dépend


principalement de la taille de l’échantillon et non du taux de sondage (défini par le
rapport n/N, où n est la taille de l’échantillon et N celle de la population).

44
II- Définir l’échantillon de l’étude

Définir la taille de l’échantillon(n)

Remarque: La taille de l’échantillon dépend de la précision souhaitée pour l’étude


et du budget disponible. 45
II- Définir l’échantillon de l’étude

3.Les principales méthodes d’échantillonnage

Lorsque les caractéristiques de la population à interroger sont définies et la taille de


l’échantillon est déterminée, la méthode de recrutement des individus doit être choisie.
 deux méthodes d’échantillonnage sont définies :
1. l’échantillonnage probabiliste: recrutement des individus au hasard à partir d’une
population.
2. L’échantillonnage non probabiliste: recrutement ciblé des individus selon certaines
caractéristiques recherchées.

46
II- Définir l’échantillon de l’étude

3.Les principales méthodes d’échantillonnage(TAF)

l’échantillonnage L’échantillonnage non


probabiliste probabiliste

L’échantillonnage L’échantillonnage
aléatoire simple par quotas

L’échantillonnage au
L’échantillonnage jugé
aléatoire
systématique L’échantillonnage
volontaire 47
III- Créer la base de données

La création de la base de données consiste à enregistrer les réponses indiquées dans le


questionnaire.
Cette opération doit respecter quelques règles :
- Une ligne comporte toutes les réponses d’un individu
- Une colonne comporte toutes les réponses associées à une variable ou question
de l’étude.
- La variable est nommée par son code inscrit dans le questionnaire
Règles de création d’une base de données sous Excel destinée à SPSS
- Le nom de variables est sur la 1ere ligne: lors du transfert du fichier depuis Excel
,SPSS attribue le nom des variables en fonction de ce qui noté sur la 1ére ligne.
- La 1ére colonne correspond à la première variable
48
Remarque: une base de données ouverte sous Excel ne peut pas étre transférée sous SPSS.
Du coup, il faut commencer par la fermer.

49
Chapitre II : Etapes préalables et connaissances
nécessaires à l’analyse de données

50
Chapitre II : Etapes préalables et connaissances nécessaires à l’analyse de données
I- le raisonnement statistique: le test d’hypothèses
1.Écrire les hypothèses H0 et H1 du test
2. Test bilatéral ou unilatéral
II- préparer les données pour l’analyse
1. Vérifier le bon enregistrement des données
2.Compléter ou modifier les données mal enregistrées
3.Vérifier la symétrie de la distribution des données métriques: la normalité

51
I- le raisonnement statistique: le test d’hypothèses
1.Écrire les hypothèses H0 et H1 du test
2. Test bilatéral ou unilatéral

52
I- le raisonnement statistique: le test d’hypothèses

Les testes statistiques supposent au préalable, la mise en place de deux éléments


fondamentaux qui guideront l’analyste dans l'interprétation des résultats de ses
tests:
- Les hypothèses H0 et H1
- Le niveau de risque pour valider ou infirmer ces hypothèses.

53
I- le raisonnement statistique: le test d’hypothèses

 Écrire les hypothèses H0 et H1 du test


Les hypothèses du test sont de deux types:
 l’hypothèse H0 : elle correspond à l’absence du phénomène étudié:
- absence de différence entre des variables
- Absence de supériorité de l’une sur l’autre
- Absence de lien
 l’hypothèse H1 est l’hypothèse alternative : elle est l’hypothèse contraire à H0. c’est
l’hypothèse de l’existence du phénomène étudié:
- Existence de différence entre les variables
- Existence de supériorité
- Existence de lien

54
I- le raisonnement statistique: le test d’hypothèses

- Les testes statistiques constituent des outils d’aide à la décision.


- Ils permettent de trancher entre deux hypothèses dont une et une seule est vraie.
- La première est appelé hypothèse nulle est noté H0
- La seconde est appelé hypothèse alternative ou rivale est noté H1 et qui est le
contraire de H0.
- On dit que l’on teste H0 contre H1
Par exemple:
 H0: X et Y sont indépendants et H1: X et Y ne sont pas indépendants
 H0: la variable X ne suit pas la loi normale et H1: X suit la loi normale

55
L’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière
s’appelle l’hypothèse nulle et est notée H0.
N’importe quelle autre hypothèse qui diffère de l’hypothèse H0 s’appelle l’hypothèse alternative
(ou contre-hypothèse) et est notée H1.

Remarques : Les seuils de signification les plus utilisés sont α = 0.05 et α = 0.01

56
I- le raisonnement statistique: le test d’hypothèses

57
I- le raisonnement statistique: le test d’hypothèses

58
I- le raisonnement statistique: le test d’hypothèses

Réalité
H0 vraie H0 fausse
H0 acceptée Erreur de type 2 : β
Résultat du test

H0 rejetée Décision correcte : 1-β

59
Principe général d’un test statistique

1. C’est l’hypothèse nulle H0 qu’on teste

2. Si H0 n’est pas vérifiée,


a) on la rejette
b) on accepte l’hypothèse alternative H1

3. Sinon, on ne peut pas conclure.

60
Principe général d’un test statistique

rejet accepte
H1
test
H0

non
???
rejet

15/12/2021 61
Hypothèse nulle H0

- Quand on accepte H0, on ne preuve pas quelle est vraie, on accepte de conserver H0
parce qu’on n’a pas pu accumuler suffisamment d’éléments matériels contre elle.

- Daudin et Vuillet (2000) donnent l’analogie suivante entre un test d’hypothèse et un


procès : « tout suspect est présumé innocent et l’accusation doit apporter la
preuve de sa culpabilité avant que la justice décide de le condamner. Cette preuve
doit de plus s’appuyer sur des éléments matériels, comme le test qui utilise des
données pour rejeter l’hypothèse »

62
Hypothèse nulle H0

• Consiste à poser à priori l’hypothèse que les paramètres des populations d’où sont issus
les échantillons étudiés sont identiques

paramètre paramètre
population = population
1 2

15/12/2021 63
Hypothèse alternative H1

• C’est l’hypothèse qui sera retenue au cas ou les résultats du test aboutiraient à
rejeter l’hypothèse nulle H0

•On suppose donc que les paramètres des populations sont différents

• Selon le type de problème posé, on propose une hypothèse altérative unilatérale ou


bilatérale

15/12/2021 64
Hypothèse alternative H1 bilatéral

 On ne cherche pas à connaître le sens de la différence. Le sens de la


différence n’a pas d’importance

 On se contente de postuler que les deux paramètres sont différents

paramètre paramètre
population  population
2
1
15/12/2021 65
Hypothèse alternative H1 bilatéral

Exemple:

- H0 :les hommes ont la même taille que les femmes

- H1 : la taille des hommes est différente de celle des femmes

15/12/2021 66
Hypothèse alternative H1 unilatéral

 L’hypothèse alternative est unilatérale lorsqu’on s’intéresse à un sens


particulier de l’inégalité des deux paramètres tel que:

- Test unilatéral à droite : Paramètre 1 > paramètre2

- Test unilatéral à gauche: Paramètre 1 < paramètre2

15/12/2021 67
Hypothèse alternative H1 unilatérale

paramètre

paramètre
2 P1 > P2
1

paramètre
1

paramètre
2 P1 < P2

15/12/2021 68
Chapitre III:
Analyser et interpréter les données

69
Chapitre III: Analyser et interpréter les données
I. Les analyses descriptives univariées: décrire les variables une à une
II. Les analyses descriptives bivariées : décrire les liens entre deux variables
III. Les analyses explicatives: RLS et RLM
IV. Les analyses factorielles: Synthétiser un grand nombre d’informations
1. L’analyse factorielle des correspondances (AFC) : définition, objectifs et
principe
2. L’analyse en composantes principales (ACP): définition, objectifs et principe

70
I.Les analyses descriptives univariées: étudier les variables une à une

 L’analyse univariée est la forme la plus simple d’analyse statistique.


 La première étape de l’analyse descriptive consiste à analyser les variables une à une
pour avoir une première compréhension des données disponibles.
 On appelle cette analyse l’analyse univariée en opposition avec les analyses
multivariées qui traitent de plusieurs variables à la fois
 Les résultats obtenus sont vrais pour l’échantillon, mais rien ne permet de dire qu’ils
le sont pour la population.

71
I.Les analyses descriptives univariées: étudier les variables une à une

 Les mesures différent selon la nature des données:

Nature des données Tendance centrale Mesure de dispersion


Nominale Mode Fréquence
ordinale Mode, médiane Fractiles ou quantiles
Quantitative Mode, médiane, Variance, écart -type
moyenne

72
II. Les analyses descriptives bivariées : décrire les liens entre deux variables

1. Mesure de l’association entre deux variables qualitatives

2. Mesure de l’association entre deux variables quantitatives

3. Variables quantitatives/qualitatives

73
1. Mesure de l’association entre deux variables qualitatives

- Pour mesurer la dépendance entre deux variables qualitatives, la statistique classique

nous propose d’utiliser le test introduit par Pearson, connu sous le nom du test de Khi-deux

d’indépendance qui permet d’accepter ou de rejeter, avec un risque d’erreur donné,

l’hypothèse d’indépendance entre les deux variables étudiées.

- Le test de khi-deux est parmi les tests statistiques les plus utilisés en sciences sociales.

74
1. Mesure de l’association entre deux variables qualitatives

75
1. Mesure de l’association entre deux variables qualitatives

 Critères d’ajustement:
1. V de Cramer :
V de Cramer est utilisé pour compléter les résultats de khi-deux.
le V de Cramer varie entre: V=0 :absence d’association
et V= 1 : association parfaite
2. Coefficient phi (φ)
Le coefficient phi de Pearson est appelé également coefficient de contingence. Il joue
le même rôle de V de Cramer et il varie entre 0 (indépendance) et 1 (liaison
parfaite).

76
2. Mesure de l’association entre deux variables quantitatives

- Lorsque l’on cherche à modéliser la relation entre deux variables quantitatives X et Y


on parle de régression.

- Lorsque l’on cherche à déterminer si deux variables quantitatives sont liées, on parle
de corrélation. Le coefficient de corrélation ou r de Pearson fait partie des analyses

77
2. Mesure de l’association entre deux variables quantitatives

-Lorsque l’on cherche à déterminer si deux variables quantitatives sont liées, on parle de
corrélation. Le coefficient de corrélation ou r de Pearson fait partie des analyses
descriptives.
-Comme le test de khi-deux , le coefficient de corrélation décrit la relation entre deux
variables sans l’expliquer .
-Par le coefficient de corrélation, on peut pas déterminer quelle variable influence l’autre,
on peut juste indiquer si les variables sont liées et la force de ce lien.
hypothèse du test de corrélation :
- H0 : absence de lien entre les variables;
- H1 : existence de lien entre les variables
 Le coefficient de variation(r) est compris entre -1 et 1.
 Un r proche de 1 indique une très forte corrélation
78
 Un r proche de 0 indique une faible corrélation
2. Mesure de l’association entre deux variables quantitatives

- Au delà de simple description des liens entre les variables que permettent les analyses
descriptives, il peut plus intéressant, voire nécessaire, d’expliquer les liens entre les
variables.
- Lorsque l’on cherche à modéliser la relation entre deux variables quantitatives X et Y
on parle de régression.
-L’objet de la régression est précisément l’étude à partir d’un échantillon aléatoire, de la
liaison entre la variable à expliquer Y et une variable explicative X.
- On parle de la régression simple(RLS), lorsqu’on a une seule variable à expliquer et
une seule variable explicative.
- On parle de le régression multiple (RLM), lorsque plusieurs variables expliquent la
variable à expliquer. 79
2. Mesure de l’association entre deux variables quantitatives

hypothèse du test de régression :


- H0 : absence de lien de cause à effet entre les variables;
- H1 : existence d’un lien de cause à effet entre les variables

-Si p <5% => RH0 . Le modèle est significatif.


-Si p>5% , le modèle n’est pas significatif, donc il ne doit pas être analysé

80
2. Mesure de l’association entre deux variables quantitatives

Remarque : un coefficient de corrélation élevé n’induit pas nécessairement une relation de


causalité entre les deux phénomènes étudiés.

Exemple : il y aune forte corrélation entre la vente de glaces et celle des lunettes de soleil.
Il n’y a cependant pas de relation de cause à effet entre ces deux phénomènes mais une
cause commune qui est le soleil et la chaleur.

81
3. Variables quantitatives/qualitatives

• Analyse de variance (ANOVA: analysis of variance):


Objectif :
- Expliquer le comportement d’une variable quantitative à partir d’une variable
qualitative
- L’analyse de variance peut être considérée comme extension des analyses de
régression .
- L’ANOVA s’applique dés qu’on veut vérifier l ’effet des variables qualitatives sur une
variable quantitative.
hypothèse du test de l’analyse de variance :
- H0 : les moyennes ne différent pas
- H1 : les moyennes sont différentes
82
3. Variables quantitatives/qualitatives

Quand les variables sont de nature différentes, l’analyse descriptive adaptée varie selon
les qualités des variables explicatives et de la variable à expliquer.
- Analyse de variance (ANOVA: analysis of variance) : les variables explicatives sont
qualitatives et la variable à expliquer est quantitative
- Analyse discriminante : les variables explicatives sont quantitatives et la variable à
expliquer est qualitative
- Analyse de covariance : les variables explicatives sont quantitatives et qualitatives, la
variable à expliquer est quantitative.

83
I.Les analyses factorielles: Synthétiser un grand nombre d’informations

1.L’analyse factorielle des correspondances (AFC) : définition, objectifs et principe

2.L’analyse en composantes principales (ACP): définition, objectifs et principe

84
L’analyse en composantes principales (ACP)

- Partant d’un tableau à deux entrées individus& variables appelé matrice des données.
L’ACP permet de visualiser les corrélations entre les différentes variables associées
aux caractères étudiés.

- Elle sert également à repérer des groupes d’individus ayant un comportement


semblable vis-vis des caractères étudiés.

- L’ACP est une méthode exploratoire (i.e., descriptive) qui permet de décrire un jeu de
données multivarié, de le résumer, d’en réduire la dimensionnalité.

85
86
87
I- Principe et objectifs de l’ACP
Le principe de base de l’ACP est de produire une représentation approchée du nuage de
points des individus dans un sous espace de dimension réduite et déduire des variables
synthétiques en fonction des variables initiales.
Ainsi, l’ACP a pour objectif de :
- Représenter sous forme graphique l’essentiel de l’information contenue dans un tableau
de données quantitatives.
- Décrire et représenter les corrélations linéaires entre les variables.

88
Projeter la réalité sur un plan
Photo 1 : 10% Photo 2: 80%

89
Résumer les données
- Lorsqu’on projette les données sur un plan, on obtient un graphique déformé de la
réalité.
- Le rôle de l’ACP est de trouver des espaces de dimensions plus petites minimisant ces
déformations
- On utilise un espace à 2 dimensions ( un plan). Ce plan est appelé le plan principal . Il
est constitué de deux droites (D1 et D2) perpendiculaire

90
Les composantes principales:
- Ces droites sont appelées composantes principales ou axes principaux
- La première composante (D1) doit capturer le maximum d’inertie du tableau des
données . La variance des individus doit etre maximale
- La deuxième composante principale ( D2) est un compliment et correction de D1
- Il n’y a pas de redondance d’information entre deux composantes principales
- D2 doit avoir une corrélation linéaire nulle avec D1 (orthogonalité)

91
Exemple:
La problématique est d’apprécier le degré d’ouverture de l’économie marocaine à son
environnement mondial et l’évolution de sa contribution aux échanges commerciaux durant
la période 1980 – 2009. A cet effet, on cherchera à travers cette analyse à répondre aux
questions suivantes :
Quelle a été l’évolution des échanges commerciaux du Maroc sur les 30 ans ?
Peut-on mettre en évidence plusieurs périodes ? Si oui, comment se caractérisent-
elles ?
Quels liens pourraient être existés entre les différentes variables considérées ?

92
Les variables considérées sont les suivantes :

 Le produit intérieur brut en MDH, noté PIB ;

 Les exportations en MDH, noté X ;

 Les importations en MDH, noté M ;

 Le taux d’ouverture en %, noté TO ;

 Le taux de couverture en %, noté TC ;

 La consommation en MDH ; noté C

93
Matrice des données : Tableau à deux entrées individus& variables
Variables X M PIB C TC TO

1980 17388,3115 26741,531 74090 63086,7003 65,02362 29,7812407

1981 20170,4829 33300,3522 79034,3 68770,3003 60,5713801 33,8276135

1982 19249,0234 31966,4524 92897,7 78496,399 60,2163267 27,5655241

1983 21272,6706 29160,2911 99142,7 83176,5999 72,950817 25,4345311

1984 23824,3125 33594,6715 112345 94915,1001 70,9169384 25,5547572

1985 25349,4648 33354,8304 129507 107442 75,9993815 22,6645259

Individus 94
Matrice de corrélation :

Variables X M PIB C TC TO
X 1 0,787 0,873 0,877 0,430 -0,765
M 0,787 1 0,726 0,722 -0,214 -0,337
PIB 0,873 0,726 1 0,998 0,316 -0,816
C 0,877 0,722 0,998 1 0,327 -0,833
TC 0,430 -0,214 0,316 0,327 1 -0,716
TO -0,765 -0,337 -0,816 -0,833 -0,716 1

95
Tableau des valeurs propres

F1 F2 F3 F4 F5 F6
Valeur
propre 4,290 1,389 0,260 0,057 0,003 0,001
En (%)
(vp/n)*100 71,50 23,148 4,331 0,957 0,047 0,012
% cumulé 71,506 94,654 98,985 99,941 99,988 100,000

Nous remarquons d'une part que les valeurs propres des quatre derniers axes sont très faibles ;
soit 5,346 % seulement de l’information récupérée par ces axes.

- les 2 premiers axes fournissent l’essentiel de l’information ; soit 94.654 % de l’inertie


expliquée. C’est pour cette raison que nous retenons uniquement les deux premiers axes.
96
Interprétation des axes factoriels retenus

 Le cercle des corrélations


Variables (axes F1 et F2 : 94,65 %)
1
TC

0.75

0.5

0.25
F2 (23,15 %)

X
C
PIB
-0.25

-0.5 TO

-0.75 M

-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (71,51 %)
97
Variables (axes F1 et F2 : 94,65 %)
1
TC

0.75

0.5

0.25

F2 (23,15 %)
0
X
C
PIB
-0.25

-0.5 TO

-0.75 M

-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
Interprétation: F1 (71,51 %)

- Nous remarquons que la représentation graphique des variables sur le premier plan principal
est satisfaisante, car la première composante (1er axe) résume 71.51% du tableau et la
seconde (2ème axe) 23.15 % donc l'information fournie « inertie expliquée » par ces 2
composantes est de 94,65%.

- Toutes les variables sont bien représentées car les points qui les définissent sont tous
proche de la circonférence du cercle des corrélations, par conséquent toutes les variables
sont interprétables sur le premier plan principal.

98
Variables (axes F1 et F2 : 94,65 %)
1
TC

0.75

0.5

0.25

F2 (23,15 %)
0

X
C
PIB
-0.25

-0.5 TO

-0.75 M

-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (71,51 %)

- Nous voyons que les variables « PIB », « C » et « X » sont corrélées fortement et positivement
car leurs vecteurs forment des angles presque fermes par rapport au premier axe.

- En ce qui concerne la variable « M », elle est nettement corrélée avec les variables
suivantes : « X », « PIB » et « C » .

99
Variables (axes F1 et F2 : 94,65 %)
1
TC

0.75

0.5

0.25

F2 (23,15 %)
0

X
C
PIB
-0.25

-0.5 TO

-0.75 M

-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (71,51 %)

- De même, on constate aussi qu’il existe une forte corrélation négative entre la variable PIB et la
variable « TO », aussi entre la variable « C » et la variable « TO » et finalement entre la variable
« X » et la variable « TO », car les vecteurs qui les définissent forment des angles presque plats,
ce qui indique que la variable « TO » varie dans un sens inverse avec les variables « X » et
« PIB » d’une part et avec la variable « C » d’autre part.

100
Variables (axes F1 et F2 : 94,65 %)
1
TC

0.75

0.5

0.25

F2 (23,15 %)
0
X
C
PIB
-0.25

-0.5 TO

-0.75 M

-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (71,51 %)

Il faut signaler aussi que les variables « TC » et « TO » sont fortement et négativement


corrélées, car leurs vecteurs forment un angle quasiment plat.
Toutefois, quelques variables sont significativement non corrélées les unes par rapport aux
autres. Par exemple, « TC » et « M » sont quasiment orthogonaux.

101
Représentation des individus

Observations (axes F1 et F2 : 94,65 %)


3

2 1988

1987 19981999 20012002


1 1989 2003
F2 (23,15 %)

1991 1996
1986 1990 1994 1997 2000
1993 2004
0 1992 1995
1983 2005
2006
-1 1980 1985

1984
2009 2007
-2
1982
1981
2008
-3
-4 -3 -2 -1 0 1 2 3 4 5
F1 (71,51 %)

102
Observations (axes F1 et F2 : 94,65 %)
3

2 1988

1987 19981999 20012002


1 1989 2003
F2 (23,15 %)

1991 1996
1986 1990 1994 1997 2000
1993 2004
0 1992 1995
1983 2005
2006
-1 1980 1985

1984
2009 2007
-2
1982
1981
2008
-3
-4 -3 -2 -1 0 1 2 3 4 5
F1 (71,51 %)

D’après la représentation graphique on constate que certains individus sont maux


représentés car ils sont proches du centre de gravité. Exemple des années : allant de 1990
jusqu’à 2000.
- En ce qui concerne le reste des individus (années), ils sont bien représentés sur cette
représentation graphique, car leurs points sont loin du centre de gravité 103
L’analyse factorielle des composantes (AFC)

- L’AFC est utilisée pour représenter graphiquement les proximités entre les modalités de deux
variables qualitatives.
- Les variables qualitatives peuvent etre disponibles sous forme d’un tableau
individus*variables , ou sous forme d’un tableau de contingence.
- L’AFC permet de visualiser les relations pouvant exister entre les modalités de deux
caractères (par exemple la couleur des yeux et des cheveux).

104
I- Principe et objectifs de l’AFC
Le principe de base de l’AFC est d’identifier des relations ou correspondances entre les
modalités des variables d’un tableau de contingence. Ainsi les données des colonnes et des
lignes sont interchangeables et jouent des rôles symétriques. La position des variables en
lignes ou colonnes n’a pas d’importance.
Ainsi, l’AFC a pour objectif de :
- Visualiser et d’interpréter la liaison entre deux variables qualitatives.
- Simplifier la lecture d’un tableau de données en réduisant le nombre des modalités de
réponse.

105
Présentation succincte du logiciel SPSS
(Statistical Package for Social Sciences)

1. Présentation du logiciel SPSS


2. Créer une base de données sur SPSS ou Transférer les données Excel vers SPSS
3. Analyse Univariée
4. Analyse Bivariée
5. ACP

106
I- ouvrir le logiciel
1. La première page de menu s’affiche automatiquement. Cette page n’apparait qu’à
l’ouverture du logiciel
2. Affichage des données : afficher les données de l’étude
3. Affichage des variables: afficher les différentes variables de l’étude :
- En lignes, les variables du questionnaire
- En colonnes , les caractéristiques des variables :
1. Nom : nommer ou renommer les variables
2. Type: déterminer ou modifier le type nominal, ordinal ou numérique de la variable .

3. Largeur : modifier le nombre de chiffres


4. Décimales : réduire ou augmenter le nombre de décimales dans l’affichage de
107
données
5. Etiquette : les variables sans étiquettes seront nommées dans les résultats par leur
nom indiqué dans la colonne Nom. Les renommer dans les étiquettes permet d’avoir
leur nom complet dans les résultats.
6. Valeurs : renseigner les étiquettes descriptives de variables ou de valeurs
7. Manquant: les valeurs manquantes définies par l’analyste
8. Colonnes: modifier la largeur des colonnes dans l’affichage ces données
9. Mesure: afficher un logo identifiant la nature des varibales ( échelle, ordinale ou
nominale)
10. Rôle : certaines boites de dialogue prennent en charge des rôles

108
II – Transférer les données Excel vers SPSS
• Avertissement : afin que les variables soient correctement nommées sous SPSS, leur
nom doit figurer sur la première ligne du fichier Excel.

 Pour charger une base de données Excel à partir de l’éditeur de données :


1.Ouvrir un fichier
2. Sélectionner Excel (*.xls *xlsx * xlsm) dans ficxghier de type
3. Choisir le fichier concerné dans chercher dans;
4. Il est également possible d’ouvrir le fichier par Fichier,ouvrir,données.
• Avertissement : - SPSS ne peut ouvrir une base de données ouverte sous Excel. Il
faut fermer la base de donnée avant son transfert. 109
I- Analyse Univariré d’une Variable Qualitative
- Variable nominale
- Le mode
- Les effectifs ou fréquences
- Représentation Graphique
- Variable Ordinale
- Le mode + la médiane
- Les effectifs ou fréquences
- Représentation Graphique

110
• Procédure sur SPSS
 Mode et fréquence: Analyse=>Statistiques descriptives=> Effectifs=> Sélectionner les
variables nominales concernées =>Statistiques;Cocher les opérations souhaitées
(Mode);poursuivre ; OK.
 RG: Analyse=>Statistiques descriptives=> Effectifs=> Sélectionner les variables
nominales concernées =>Diagrammes (Diagramme en bâtons ou diagramme en secteur
);poursuivre ; OK.

111
I- Analyse Univariré d’une Variable Quantitative
- Tendance centrale
- La moyenne
- La médiane
- Le mode
- Mesure de Dispersion
- La variance
- L’écart type
- Le coefficient de variation(CV)

112
• Procédure sur SPSS
 AS: Analyse=>Statistiques descriptives=> Effectifs=> Sélectionner les variables
quantitatives concernées=>Statistiques; Cocher les opérations souhaitées
(Moyenne,Mode,médiane,variance,…);poursuivre ; OK.
 RG: Analyse=>Statistiques descriptives=> Effectifs=> Sélectionner les variables
nominales concernées =>Diagrammes (Histogramme, il est possible d’associer la courbe
gaussienne );poursuivre ; OK.

113
 Le codage des variables :
SPSS: Transformer; recoder automatiquement ; insérer les variables qualitatives; on
attribue un nouveau nom; ajouter ;OK
 Transformer les données
On peut passer d’une variable discrète à une variable continue:
SPSS: Transformer; création de variables; sélectionner la variable discrète
concernée; indiquer le nouveau nom; Ancienne et nouvelle valeurs; plage; (-) et (-) ;
nouvelle valeur; donner un numéro pour chaque intervalle; ajouter ;OK

114
Analyse Bivariée

115
I- Analyse Bivariée des données Qualitatives : le test de Khi-deux
- Hypothèses du test:
H0: Absence de lien entre les variables
H1: existence de lien entre les variables
- Commentaire:
Si la signification asymptotique de khi-deux < à 0,05=> RH0 => le lien est significatif

116
 Critères d’ajustement:
1. V de Cramer :
V de Cramer est utilisé pour compléter les résultats de khi-deux.
le V de Cramer varie entre: V=0 :absence d’association
et V= 1 : association parfaite
2. Coefficient phi (φ)
Le coefficient phi de Pearson est appelé également coefficient de contingence. Il joue
le même rôle de V de Cramer et il varie entre 0 (indépendance) et 1 (liaison
parfaite).

117
• Procédure sur SPSS
 Analyse=>Statistiques descriptives=> tableaux croisés=> positionner les variables en
ligne ou colonne=>cellules;effectifs;cocher observer et attendu; poursuivre Statistiques;
khi-deux;V de Cramer +phi; pourcentage en ligne; poursuivre ; OK.

 Commentaire:
 V=0 =>association nulle
 0,1<V<0,2 => association faible
 0,2<V<0,3 => association moyenne
 >0,3=>association forte
 V=1 association parfaite
118
II- Analyse Bivariée des données Quantitatives :

- Matrice de corrélation :
Procédure sur SPSS: analyse;corrélation;bivariée;onserer les variables étudiées dans
variables;OK

119
Matrice de corrélation :

Variables X M PIB C TC TO

X 1 0,787 0,873 0,877 0,430 -0,765

M 0,787 1 0,726 0,722 -0,214 -0,337

PIB 0,873 0,726 1 0,998 0,316 -0,816

C 0,877 0,722 0,998 1 0,327 -0,833

TC 0,430 -0,214 0,316 0,327 1 -0,716

TO -0,765 -0,337 -0,816 -0,833 -0,716 1

120
II- Analyse Bivariée des données Quantitatives :
- le taux de corrélation ou le test de Pearson: cas de normalité
- Hypothèses du test:
H0: Absence de lien entre les variables
H1: existence de lien entre les variables
- le test de Sperman: absence de normalité
- Commentaire:
Si la significativité(sig) < à 0,05=> RH0 => les variables sont significativement liées
entre elles (deux à deux)

121
- Les tests de normalité:
- Kurtosis(test d’apaltissement) et Skwness(coefficient d’asymetrie)
- Kolmogorov
- Shapiro
- Sur SPSS: analyse;SD;explorer;diagramme;cocher graphe de gausse avec
tests;poursuivre;OK

- Si la significativité >0,5 , signifie que les variables suivent une loi normale

122
123
- Commentaire:
2. ANOVA: si la significativité < 0,05 => RH0=> la relation entre les variables est
significative. Les variables sont globalement significative
Remarque : Si SIG > 0,05, le modèle ne peut être analysé.
3. Coefficients

-Régression SUR SPSS: Analyse ;régression;;linéaire; Dépendant(insérer la variable à


expliquer);variables indépendantes ;OK

124
II- Analyse Bivariée entre des variables Quantitatives et Qualitatives :
- Analyse de Variance(ANOVA): la variable à expliquer est quantitative et les
variables explicatives sont qualitatives.
- Analyse discriminatoire: la variable à expliquer est qualitative et les variables
explicatives sont quantitatives.
- Analyse de covariance : les variables explicatives sont qualitatives et quantitatives,
la variable à expliquer est quantitative.

125
- Analyse de Variance(ANOVA): la variable à expliquer est quantitative et les
variables explicatives sont qualitatives.
- Hypothèse du test d’ANOVA:
H0 : Absence de différence de deux moyennes
H1: Existence d’une différence de moyenne
ANOVA sur SPSS : Analyse; comparer vles moyennes ; anova à 1 facteur; insérer les
variables à expliquer dans variables dépendantes; insérer la variable explicative
dans critère; dans post hoc, indiquer le niveau de signification (5%) pursuivre;
options;cocher caractéristiques dans le menu statistiques; poursuivre; OK

126
Analyse des composantes principales
(ACP).

127
- Objectif : simplifier la lecture d’un tableau de données en réduisant le nombre
de variables en les agrégeant par combinaison linéaire. La ou les combinaisons
linéaires qui restituent le plus d’information sont retenus et appelés
composantes principales, d’où le nom de l’analyse.

128
- ACP sur SPSS : Analyse; réduction des dimensions; analyse factorielle;
sélectionner et faire glisser les variables à analyser dans variables; descriptives;
dans matrice de corrélation; cocher indice KMO et test de Bartlet ; poursuivre;
OK

129
- Commentaire :
- KMO: indice de mesure de l’adéquation de l’ACP aux données. Plus KMO est proche de
1,milleure est la représentativité de l’ACP.
- Un KMO < 0,5 ne peut etre accepté.
- Le test de Barlett: il teste l’hypothèse que les variables ne sont pas corrélées, c’est-à-dire
la matrice des corrélations n’est pas une matrice identité(1 en diagonale et 0 pour les
autres termes). Si la signification de Barlett = 0 , l’ACP est adapté aux données.
Sinon, on ne peut pas procéder à l’ACP

130
- choisir les composantes principales à retenir:
-Le but de l’ACP est que les composantes contiennent plus d’information qu’une variable
initiale. L’ACP ne retient que les composantes qui restituent plus d’information.
-Le % de la variance est un indicateur de la quantité d’information restituée par la
combinaison linéaire.
-Les composantes sont classées dans l’ordre décroissant du % de la variance
- Le nombre de composantes est un choix fait par l’analyste.

131
-pour choisir le nombre de composantes (axes) l’analyste peut s’appuyer sur deux
indicateurs:
- Le critére de Kaiser: propose de ne retenir que les composantes principales dont la
valeur propre initiale est > 1.
- Le Scree-test ou test du Coude: propose de déterminer le nombre de CP à partir du
graphique des valeurs propres. Il s’agit de tracer une droite à partir de la dernière
composante et qui passe par tous les points. Le nombre de CP = au nombre de points
non couverts par la droite.

Scree test SUR SPSS: analyse; réduction des dimensions; AF; selectionner les variables et
les insèrer dans variables; extraction;dans afficher; cocher diagramme des valeurs
132
propres;poursuivre;OK;copier coller sur Word et tracer la droite
 ACP SUR SPSS: analyse; réduction de dimension; analyse factorielle; cocher
KMO;extarction;MCP;diagramme des valeurs propres;rotation;varimax;carte
factorielle;poursuivre;OK

133

Vous aimerez peut-être aussi