Académique Documents
Professionnel Documents
Culture Documents
1
T . EL MAHI
INTRODUCTION GENERALE
2
INTRODUCTION GENERALE
3
INTRODUCTION GENERALE
• La problématique de la recherche
Étape 2
Selon Jean de Lagarde : « Le propre de l’analyse des données, dans son sens moderne,
est justement de raisonner sur un nombre quelconque de variables, d’où le nom
d’analyse multivariée qu’on lui donne souvent. »
5
INTRODUCTION GENERALE
Contrairement à une idée très répandue, La plupart des méthodes de l’analyse des données
sont nées dans les années 1930.
- H.Hotelling, dans les années 30, posait les fondements de l’analyse en composantes
principales (ACP) et de l’analyse canonique (AC) en développant les travaux de C.
Spearman et de K Pearson qui dataient du début du siècle.
- Jusqu’aux années 60 toutes les méthodes d’analyse des données restaient inabordables car
La statistique classique s’est axé sur l’étude d’un nombre réduit de caractères
mesurés sur un petit nombre d’individus. Elle a développé les notions d’estimation et de
Cependant, dans la pratique les individus observés sont souvent décrit par un
grand nombre de caractères. Les méthodes d’analyse des données permettent une étude
graphiques .
7
INTRODUCTION GENERALE
L’analyse des données est une branche de la statistique qui consiste à organiser
On distingue généralement deux ensembles : les individus et les caractères relatifs à ces
individus.
Le terme « individu » peut désigner, selon les cas : l’employé d’une entreprise, un client, un
animal, une ville, etc. il s’agit toujours de l’entité de base sur laquelle l’observateur réalise un
Par Exemple, - si l’on considère une enquête et les caractères sont les questions.
- S’il s’agit d’un employé d’une entreprise, les caractères sont : le salaire, l'âge, le diplôme,
le sexe…
9
INTRODUCTION GENERALE
Un caractère est quantitatif lorsqu’il prend des valeurs sur une échelle
numérique: salaire, âge, chiffre d’affaire, taille, poids, etc. Plus précisément un
caractère est quantitatif lorsque l’on peut effectuer sur le caractère les opérations
algébriques habituelles : addition, multiplication, par une valeur constante, calcul de
moyenne, etc.
- Les variables quantitatives peuvent être discrètes ou continues
Un caractère est qualitatif lorsqu’il prend des modalités non numériques : sexe,
profession, diplôme, région, etc.
- Les modalités d’un caractère qualitatif peuvent être ordonnées (niveau de
satisfaction, niveau hiérarchique…) on dit que le caractère est qualitatif ordinal.
Sinon on dit que le caractère est qualitatif nominal(sexe, couleur, région…) 10
INTRODUCTION GENERALE
Dans l’échelle nominale, chacune des catégories de la variable est équivalente aux autres.
Exemple :
- Le Sexe des personnes : 1. Femme 2. Homme
- Situation matrimoniale: 1. marié 2. célibataire 3. divorcé 3. veuf
Dans le cas de l’échelle ordinale, une catégorie peut être plus petite ou plus grande
qu’une autre : il y a une gradation dans les catégories utilisées.
Exemple :
-La satisfaction face à un service : -Le niveau d’étude :
1. Très insatisfait 1. Primaire
2. Insatisfait 2. Secondaire
3. Satisfait 3. Supérieur
4. Très satisfait
11
INTRODUCTION GENERALE
12
INTRODUCTION GENERALE
Remarque : L'analyse des données est utilisée dans tous les domaines dès lors que
les données se présentent en trop grand nombre pour être appréhendées par l'esprit
humain.
13
plan du cours
I- Rédiger le questionnaire
1. Les règles de base pour rédiger le questionnaire
15
plan du cours
16
T . EL MAHI
Bibliographie
Guide pratique de l’analyse des données .PIERRE GHEWY. 1ére édition (2010)
17
T . EL MAHI
CHAPITRE I
De la problématique au tableau de données
18
I- Rédiger le questionnaire
1. Les règles de base pour rédiger le questionnaire
2. Les modalités de réponses: données qualitatives ou quantitatives(métriques ou
numériques) et statistiques associées.
3. Coder les modalités de réponse
20
I- Rédiger le questionnaire
L’introduction
La conclusion
21
I- Rédiger le questionnaire
Tout questionnaire doit être introduit par des phrases explicatives qui doivent :
- Indiquer le nom de l’organisme qui réalise l’étude, autrement dit préciser ses références
- Il faut également garantir l’anonymat et remercier l’enquêté des sacrifices de son temps
23
I- Rédiger le questionnaire
24
I- Rédiger le questionnaire
a. Les questions fermées: On appelle question fermée une question pour laquelle
plusieurs réponses possibles sont proposées.
On distingue deux sous-catégories de questions fermées: les questions à choix
unique(QCU) et les questions à choix multiple(QCM).
Une question fermée est dite à choix unique si l’enquêté n’a le droit de choisir qu’une
seule réponse parmi toutes les réponses proposées.
Exemple : Etes-vous un homme ou une femme? »,
« Pratiquez vous un sport ? » oui ou non.
25
I- Rédiger le questionnaire
-On parle de « questions cafétéria » car l’enquêté fait son choix parmi les réponses offertes
26
I- Rédiger le questionnaire
b. Les questions ouvertes : On appelle question ouverte une question pour laquelle il n’y
aura aucune proposition suggérée.
- elles laissent la possibilité à l’enquêté de s’exprimer plus librement. Il s’agit de questions
du type : « Quels sont vos besoins en formation pour l’année prochaine ? » proposant un
espace pour que l’enquêté rédige sa réponse.
27
I- Rédiger le questionnaire
28
I- Rédiger le questionnaire
7- Le prétest
Il s’agit d’une phase fondamentale, souvent négligée, qui consiste à mettre à l’épreuve le
questionnaire par rapport à quelques individus, autrement dit à le tester. Elle est donc
centrée sur l’évaluation du questionnaire lui-même(le vocabulaire utilisé, l’objectif de
lenquete,.
8- La rédaction définitive du questionnaire
Grace aux commentaires issus du pré-test, il faut rédiger définitivement le questionnaire
qui sera soumis aux enquêtés.
30
I- Rédiger le questionnaire
31
I- Rédiger le questionnaire
33
I- Rédiger le questionnaire
Effectif:
le nombre de données utilisables et connues pour la variable d’intérêt. Cela correspond
souvent au nombre de sujets ayant formulé une réponse à la question
Fréquence
• Le terme fréquence sera employé en tant que proportion, c’est à dire le rapport entre
l’effectif d’une modalité et l’effectif total. Les fréquences seront fréquemment indiquées
en pourcentage.
34
I- Rédiger le questionnaire
Fréquences cumulées
On calcule la fréquence cumulée en ajoutant chaque fréquence tirée d'un tableau de
distribution de fréquences à la somme de celles qui précèdent.
la somme des fréquences calculées en pourcentage pour chaque modalité de la variable doit
évidemment être égale à 100%.
35
I- Rédiger le questionnaire
le mode
• Le mode est la valeur qui revient le plus souvent. On l’appelle souvent pic de l
distribution.
le test de khi-deux :
• Ce test est le test le plus utilisé en sciences sociales.
• Le test de khi-deux nous permet d’accepter ou de rejeter, avec un risque d’erreur donné
l’hypothèse d’indépendance entre deux variables étudiées.
36
I- Rédiger le questionnaire
37
I- Rédiger le questionnaire
c. Les variables quantitatives : ces variables sont caractérisées par des valeurs
numériques.
- Variables quantitatives continues : ce sont des variables qui peuvent prendre
n’importe quelle valeur numérique dans l’intervalle des observations. Il existe une
infinité des valeurs possibles.(le poids, la taille, cholestérol…)
- Variables discrètes : ce sont des variables discontinues. Le plus souvent il s’agit de
nombre entiers.
Les opérations statistiques associées:
- Faire les mêmes opérations que les variables qualitatives: effectifs, fréquence, mode
et médiane.
- Calculer la moyenne
38
- Calculer la variance et l’écart type
I- Rédiger le questionnaire
CV = *100
Le principal objectif est de faciliter le traitement automatique des données dans un but
analytique.
Le codage préalable des items et des modalités de réponse facilite la saisie des données.
Remarque : Les logiciels d’analyse des données ne traitent que des données chiffrées.
40
I- Rédiger le questionnaire
Exemple :
Évaluation de vos compétences actuelles sur votre maîtrise de l’outil informatique
1. Excellent 2.Bon 3. Moyen 4. Débutant 5.Nul
41
II- Définir l’échantillon de l’étude
42
II- Définir l’échantillon de l’étude
Une fois la problématique est définie et le questionnaire est rédigé, il reste à l’analyste à
déterminer l’échantillon de l’étude.
L’échantillonnage suppose la définition:
- Des caractéristiques de la population
- De la taille de l’échantillon.
1.Définir les caractéristiques de la population à interroger
Elles sont déterminées à partir de la problématique de l’étude et donc de son objectif, de
l’information recherchée.
- La population doit posséder les caractéristiques ou les informations que l’on souhaite
connaitre.
43
II- Définir l’échantillon de l’étude
44
II- Définir l’échantillon de l’étude
46
II- Définir l’échantillon de l’étude
L’échantillonnage L’échantillonnage
aléatoire simple par quotas
L’échantillonnage au
L’échantillonnage jugé
aléatoire
systématique L’échantillonnage
volontaire 47
III- Créer la base de données
49
Chapitre II : Etapes préalables et connaissances
nécessaires à l’analyse de données
50
Chapitre II : Etapes préalables et connaissances nécessaires à l’analyse de données
I- le raisonnement statistique: le test d’hypothèses
1.Écrire les hypothèses H0 et H1 du test
2. Test bilatéral ou unilatéral
II- préparer les données pour l’analyse
1. Vérifier le bon enregistrement des données
2.Compléter ou modifier les données mal enregistrées
3.Vérifier la symétrie de la distribution des données métriques: la normalité
51
I- le raisonnement statistique: le test d’hypothèses
1.Écrire les hypothèses H0 et H1 du test
2. Test bilatéral ou unilatéral
52
I- le raisonnement statistique: le test d’hypothèses
53
I- le raisonnement statistique: le test d’hypothèses
54
I- le raisonnement statistique: le test d’hypothèses
55
L’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière
s’appelle l’hypothèse nulle et est notée H0.
N’importe quelle autre hypothèse qui diffère de l’hypothèse H0 s’appelle l’hypothèse alternative
(ou contre-hypothèse) et est notée H1.
Remarques : Les seuils de signification les plus utilisés sont α = 0.05 et α = 0.01
56
I- le raisonnement statistique: le test d’hypothèses
57
I- le raisonnement statistique: le test d’hypothèses
58
I- le raisonnement statistique: le test d’hypothèses
Réalité
H0 vraie H0 fausse
H0 acceptée Erreur de type 2 : β
Résultat du test
59
Principe général d’un test statistique
60
Principe général d’un test statistique
rejet accepte
H1
test
H0
non
???
rejet
15/12/2021 61
Hypothèse nulle H0
- Quand on accepte H0, on ne preuve pas quelle est vraie, on accepte de conserver H0
parce qu’on n’a pas pu accumuler suffisamment d’éléments matériels contre elle.
62
Hypothèse nulle H0
• Consiste à poser à priori l’hypothèse que les paramètres des populations d’où sont issus
les échantillons étudiés sont identiques
paramètre paramètre
population = population
1 2
15/12/2021 63
Hypothèse alternative H1
• C’est l’hypothèse qui sera retenue au cas ou les résultats du test aboutiraient à
rejeter l’hypothèse nulle H0
•On suppose donc que les paramètres des populations sont différents
15/12/2021 64
Hypothèse alternative H1 bilatéral
paramètre paramètre
population population
2
1
15/12/2021 65
Hypothèse alternative H1 bilatéral
Exemple:
15/12/2021 66
Hypothèse alternative H1 unilatéral
15/12/2021 67
Hypothèse alternative H1 unilatérale
paramètre
paramètre
2 P1 > P2
1
paramètre
1
paramètre
2 P1 < P2
15/12/2021 68
Chapitre III:
Analyser et interpréter les données
69
Chapitre III: Analyser et interpréter les données
I. Les analyses descriptives univariées: décrire les variables une à une
II. Les analyses descriptives bivariées : décrire les liens entre deux variables
III. Les analyses explicatives: RLS et RLM
IV. Les analyses factorielles: Synthétiser un grand nombre d’informations
1. L’analyse factorielle des correspondances (AFC) : définition, objectifs et
principe
2. L’analyse en composantes principales (ACP): définition, objectifs et principe
70
I.Les analyses descriptives univariées: étudier les variables une à une
71
I.Les analyses descriptives univariées: étudier les variables une à une
72
II. Les analyses descriptives bivariées : décrire les liens entre deux variables
3. Variables quantitatives/qualitatives
73
1. Mesure de l’association entre deux variables qualitatives
nous propose d’utiliser le test introduit par Pearson, connu sous le nom du test de Khi-deux
- Le test de khi-deux est parmi les tests statistiques les plus utilisés en sciences sociales.
74
1. Mesure de l’association entre deux variables qualitatives
75
1. Mesure de l’association entre deux variables qualitatives
Critères d’ajustement:
1. V de Cramer :
V de Cramer est utilisé pour compléter les résultats de khi-deux.
le V de Cramer varie entre: V=0 :absence d’association
et V= 1 : association parfaite
2. Coefficient phi (φ)
Le coefficient phi de Pearson est appelé également coefficient de contingence. Il joue
le même rôle de V de Cramer et il varie entre 0 (indépendance) et 1 (liaison
parfaite).
76
2. Mesure de l’association entre deux variables quantitatives
- Lorsque l’on cherche à déterminer si deux variables quantitatives sont liées, on parle
de corrélation. Le coefficient de corrélation ou r de Pearson fait partie des analyses
77
2. Mesure de l’association entre deux variables quantitatives
-Lorsque l’on cherche à déterminer si deux variables quantitatives sont liées, on parle de
corrélation. Le coefficient de corrélation ou r de Pearson fait partie des analyses
descriptives.
-Comme le test de khi-deux , le coefficient de corrélation décrit la relation entre deux
variables sans l’expliquer .
-Par le coefficient de corrélation, on peut pas déterminer quelle variable influence l’autre,
on peut juste indiquer si les variables sont liées et la force de ce lien.
hypothèse du test de corrélation :
- H0 : absence de lien entre les variables;
- H1 : existence de lien entre les variables
Le coefficient de variation(r) est compris entre -1 et 1.
Un r proche de 1 indique une très forte corrélation
78
Un r proche de 0 indique une faible corrélation
2. Mesure de l’association entre deux variables quantitatives
- Au delà de simple description des liens entre les variables que permettent les analyses
descriptives, il peut plus intéressant, voire nécessaire, d’expliquer les liens entre les
variables.
- Lorsque l’on cherche à modéliser la relation entre deux variables quantitatives X et Y
on parle de régression.
-L’objet de la régression est précisément l’étude à partir d’un échantillon aléatoire, de la
liaison entre la variable à expliquer Y et une variable explicative X.
- On parle de la régression simple(RLS), lorsqu’on a une seule variable à expliquer et
une seule variable explicative.
- On parle de le régression multiple (RLM), lorsque plusieurs variables expliquent la
variable à expliquer. 79
2. Mesure de l’association entre deux variables quantitatives
80
2. Mesure de l’association entre deux variables quantitatives
Exemple : il y aune forte corrélation entre la vente de glaces et celle des lunettes de soleil.
Il n’y a cependant pas de relation de cause à effet entre ces deux phénomènes mais une
cause commune qui est le soleil et la chaleur.
81
3. Variables quantitatives/qualitatives
Quand les variables sont de nature différentes, l’analyse descriptive adaptée varie selon
les qualités des variables explicatives et de la variable à expliquer.
- Analyse de variance (ANOVA: analysis of variance) : les variables explicatives sont
qualitatives et la variable à expliquer est quantitative
- Analyse discriminante : les variables explicatives sont quantitatives et la variable à
expliquer est qualitative
- Analyse de covariance : les variables explicatives sont quantitatives et qualitatives, la
variable à expliquer est quantitative.
83
I.Les analyses factorielles: Synthétiser un grand nombre d’informations
84
L’analyse en composantes principales (ACP)
- Partant d’un tableau à deux entrées individus& variables appelé matrice des données.
L’ACP permet de visualiser les corrélations entre les différentes variables associées
aux caractères étudiés.
- L’ACP est une méthode exploratoire (i.e., descriptive) qui permet de décrire un jeu de
données multivarié, de le résumer, d’en réduire la dimensionnalité.
85
86
87
I- Principe et objectifs de l’ACP
Le principe de base de l’ACP est de produire une représentation approchée du nuage de
points des individus dans un sous espace de dimension réduite et déduire des variables
synthétiques en fonction des variables initiales.
Ainsi, l’ACP a pour objectif de :
- Représenter sous forme graphique l’essentiel de l’information contenue dans un tableau
de données quantitatives.
- Décrire et représenter les corrélations linéaires entre les variables.
88
Projeter la réalité sur un plan
Photo 1 : 10% Photo 2: 80%
89
Résumer les données
- Lorsqu’on projette les données sur un plan, on obtient un graphique déformé de la
réalité.
- Le rôle de l’ACP est de trouver des espaces de dimensions plus petites minimisant ces
déformations
- On utilise un espace à 2 dimensions ( un plan). Ce plan est appelé le plan principal . Il
est constitué de deux droites (D1 et D2) perpendiculaire
90
Les composantes principales:
- Ces droites sont appelées composantes principales ou axes principaux
- La première composante (D1) doit capturer le maximum d’inertie du tableau des
données . La variance des individus doit etre maximale
- La deuxième composante principale ( D2) est un compliment et correction de D1
- Il n’y a pas de redondance d’information entre deux composantes principales
- D2 doit avoir une corrélation linéaire nulle avec D1 (orthogonalité)
91
Exemple:
La problématique est d’apprécier le degré d’ouverture de l’économie marocaine à son
environnement mondial et l’évolution de sa contribution aux échanges commerciaux durant
la période 1980 – 2009. A cet effet, on cherchera à travers cette analyse à répondre aux
questions suivantes :
Quelle a été l’évolution des échanges commerciaux du Maroc sur les 30 ans ?
Peut-on mettre en évidence plusieurs périodes ? Si oui, comment se caractérisent-
elles ?
Quels liens pourraient être existés entre les différentes variables considérées ?
92
Les variables considérées sont les suivantes :
93
Matrice des données : Tableau à deux entrées individus& variables
Variables X M PIB C TC TO
Individus 94
Matrice de corrélation :
Variables X M PIB C TC TO
X 1 0,787 0,873 0,877 0,430 -0,765
M 0,787 1 0,726 0,722 -0,214 -0,337
PIB 0,873 0,726 1 0,998 0,316 -0,816
C 0,877 0,722 0,998 1 0,327 -0,833
TC 0,430 -0,214 0,316 0,327 1 -0,716
TO -0,765 -0,337 -0,816 -0,833 -0,716 1
95
Tableau des valeurs propres
F1 F2 F3 F4 F5 F6
Valeur
propre 4,290 1,389 0,260 0,057 0,003 0,001
En (%)
(vp/n)*100 71,50 23,148 4,331 0,957 0,047 0,012
% cumulé 71,506 94,654 98,985 99,941 99,988 100,000
Nous remarquons d'une part que les valeurs propres des quatre derniers axes sont très faibles ;
soit 5,346 % seulement de l’information récupérée par ces axes.
0.75
0.5
0.25
F2 (23,15 %)
X
C
PIB
-0.25
-0.5 TO
-0.75 M
-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (71,51 %)
97
Variables (axes F1 et F2 : 94,65 %)
1
TC
0.75
0.5
0.25
F2 (23,15 %)
0
X
C
PIB
-0.25
-0.5 TO
-0.75 M
-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
Interprétation: F1 (71,51 %)
- Nous remarquons que la représentation graphique des variables sur le premier plan principal
est satisfaisante, car la première composante (1er axe) résume 71.51% du tableau et la
seconde (2ème axe) 23.15 % donc l'information fournie « inertie expliquée » par ces 2
composantes est de 94,65%.
- Toutes les variables sont bien représentées car les points qui les définissent sont tous
proche de la circonférence du cercle des corrélations, par conséquent toutes les variables
sont interprétables sur le premier plan principal.
98
Variables (axes F1 et F2 : 94,65 %)
1
TC
0.75
0.5
0.25
F2 (23,15 %)
0
X
C
PIB
-0.25
-0.5 TO
-0.75 M
-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (71,51 %)
- Nous voyons que les variables « PIB », « C » et « X » sont corrélées fortement et positivement
car leurs vecteurs forment des angles presque fermes par rapport au premier axe.
- En ce qui concerne la variable « M », elle est nettement corrélée avec les variables
suivantes : « X », « PIB » et « C » .
99
Variables (axes F1 et F2 : 94,65 %)
1
TC
0.75
0.5
0.25
F2 (23,15 %)
0
X
C
PIB
-0.25
-0.5 TO
-0.75 M
-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (71,51 %)
- De même, on constate aussi qu’il existe une forte corrélation négative entre la variable PIB et la
variable « TO », aussi entre la variable « C » et la variable « TO » et finalement entre la variable
« X » et la variable « TO », car les vecteurs qui les définissent forment des angles presque plats,
ce qui indique que la variable « TO » varie dans un sens inverse avec les variables « X » et
« PIB » d’une part et avec la variable « C » d’autre part.
100
Variables (axes F1 et F2 : 94,65 %)
1
TC
0.75
0.5
0.25
F2 (23,15 %)
0
X
C
PIB
-0.25
-0.5 TO
-0.75 M
-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (71,51 %)
101
Représentation des individus
2 1988
1991 1996
1986 1990 1994 1997 2000
1993 2004
0 1992 1995
1983 2005
2006
-1 1980 1985
1984
2009 2007
-2
1982
1981
2008
-3
-4 -3 -2 -1 0 1 2 3 4 5
F1 (71,51 %)
102
Observations (axes F1 et F2 : 94,65 %)
3
2 1988
1991 1996
1986 1990 1994 1997 2000
1993 2004
0 1992 1995
1983 2005
2006
-1 1980 1985
1984
2009 2007
-2
1982
1981
2008
-3
-4 -3 -2 -1 0 1 2 3 4 5
F1 (71,51 %)
- L’AFC est utilisée pour représenter graphiquement les proximités entre les modalités de deux
variables qualitatives.
- Les variables qualitatives peuvent etre disponibles sous forme d’un tableau
individus*variables , ou sous forme d’un tableau de contingence.
- L’AFC permet de visualiser les relations pouvant exister entre les modalités de deux
caractères (par exemple la couleur des yeux et des cheveux).
104
I- Principe et objectifs de l’AFC
Le principe de base de l’AFC est d’identifier des relations ou correspondances entre les
modalités des variables d’un tableau de contingence. Ainsi les données des colonnes et des
lignes sont interchangeables et jouent des rôles symétriques. La position des variables en
lignes ou colonnes n’a pas d’importance.
Ainsi, l’AFC a pour objectif de :
- Visualiser et d’interpréter la liaison entre deux variables qualitatives.
- Simplifier la lecture d’un tableau de données en réduisant le nombre des modalités de
réponse.
105
Présentation succincte du logiciel SPSS
(Statistical Package for Social Sciences)
106
I- ouvrir le logiciel
1. La première page de menu s’affiche automatiquement. Cette page n’apparait qu’à
l’ouverture du logiciel
2. Affichage des données : afficher les données de l’étude
3. Affichage des variables: afficher les différentes variables de l’étude :
- En lignes, les variables du questionnaire
- En colonnes , les caractéristiques des variables :
1. Nom : nommer ou renommer les variables
2. Type: déterminer ou modifier le type nominal, ordinal ou numérique de la variable .
108
II – Transférer les données Excel vers SPSS
• Avertissement : afin que les variables soient correctement nommées sous SPSS, leur
nom doit figurer sur la première ligne du fichier Excel.
110
• Procédure sur SPSS
Mode et fréquence: Analyse=>Statistiques descriptives=> Effectifs=> Sélectionner les
variables nominales concernées =>Statistiques;Cocher les opérations souhaitées
(Mode);poursuivre ; OK.
RG: Analyse=>Statistiques descriptives=> Effectifs=> Sélectionner les variables
nominales concernées =>Diagrammes (Diagramme en bâtons ou diagramme en secteur
);poursuivre ; OK.
111
I- Analyse Univariré d’une Variable Quantitative
- Tendance centrale
- La moyenne
- La médiane
- Le mode
- Mesure de Dispersion
- La variance
- L’écart type
- Le coefficient de variation(CV)
112
• Procédure sur SPSS
AS: Analyse=>Statistiques descriptives=> Effectifs=> Sélectionner les variables
quantitatives concernées=>Statistiques; Cocher les opérations souhaitées
(Moyenne,Mode,médiane,variance,…);poursuivre ; OK.
RG: Analyse=>Statistiques descriptives=> Effectifs=> Sélectionner les variables
nominales concernées =>Diagrammes (Histogramme, il est possible d’associer la courbe
gaussienne );poursuivre ; OK.
113
Le codage des variables :
SPSS: Transformer; recoder automatiquement ; insérer les variables qualitatives; on
attribue un nouveau nom; ajouter ;OK
Transformer les données
On peut passer d’une variable discrète à une variable continue:
SPSS: Transformer; création de variables; sélectionner la variable discrète
concernée; indiquer le nouveau nom; Ancienne et nouvelle valeurs; plage; (-) et (-) ;
nouvelle valeur; donner un numéro pour chaque intervalle; ajouter ;OK
114
Analyse Bivariée
115
I- Analyse Bivariée des données Qualitatives : le test de Khi-deux
- Hypothèses du test:
H0: Absence de lien entre les variables
H1: existence de lien entre les variables
- Commentaire:
Si la signification asymptotique de khi-deux < à 0,05=> RH0 => le lien est significatif
116
Critères d’ajustement:
1. V de Cramer :
V de Cramer est utilisé pour compléter les résultats de khi-deux.
le V de Cramer varie entre: V=0 :absence d’association
et V= 1 : association parfaite
2. Coefficient phi (φ)
Le coefficient phi de Pearson est appelé également coefficient de contingence. Il joue
le même rôle de V de Cramer et il varie entre 0 (indépendance) et 1 (liaison
parfaite).
117
• Procédure sur SPSS
Analyse=>Statistiques descriptives=> tableaux croisés=> positionner les variables en
ligne ou colonne=>cellules;effectifs;cocher observer et attendu; poursuivre Statistiques;
khi-deux;V de Cramer +phi; pourcentage en ligne; poursuivre ; OK.
Commentaire:
V=0 =>association nulle
0,1<V<0,2 => association faible
0,2<V<0,3 => association moyenne
>0,3=>association forte
V=1 association parfaite
118
II- Analyse Bivariée des données Quantitatives :
- Matrice de corrélation :
Procédure sur SPSS: analyse;corrélation;bivariée;onserer les variables étudiées dans
variables;OK
119
Matrice de corrélation :
Variables X M PIB C TC TO
120
II- Analyse Bivariée des données Quantitatives :
- le taux de corrélation ou le test de Pearson: cas de normalité
- Hypothèses du test:
H0: Absence de lien entre les variables
H1: existence de lien entre les variables
- le test de Sperman: absence de normalité
- Commentaire:
Si la significativité(sig) < à 0,05=> RH0 => les variables sont significativement liées
entre elles (deux à deux)
121
- Les tests de normalité:
- Kurtosis(test d’apaltissement) et Skwness(coefficient d’asymetrie)
- Kolmogorov
- Shapiro
- Sur SPSS: analyse;SD;explorer;diagramme;cocher graphe de gausse avec
tests;poursuivre;OK
- Si la significativité >0,5 , signifie que les variables suivent une loi normale
122
123
- Commentaire:
2. ANOVA: si la significativité < 0,05 => RH0=> la relation entre les variables est
significative. Les variables sont globalement significative
Remarque : Si SIG > 0,05, le modèle ne peut être analysé.
3. Coefficients
124
II- Analyse Bivariée entre des variables Quantitatives et Qualitatives :
- Analyse de Variance(ANOVA): la variable à expliquer est quantitative et les
variables explicatives sont qualitatives.
- Analyse discriminatoire: la variable à expliquer est qualitative et les variables
explicatives sont quantitatives.
- Analyse de covariance : les variables explicatives sont qualitatives et quantitatives,
la variable à expliquer est quantitative.
125
- Analyse de Variance(ANOVA): la variable à expliquer est quantitative et les
variables explicatives sont qualitatives.
- Hypothèse du test d’ANOVA:
H0 : Absence de différence de deux moyennes
H1: Existence d’une différence de moyenne
ANOVA sur SPSS : Analyse; comparer vles moyennes ; anova à 1 facteur; insérer les
variables à expliquer dans variables dépendantes; insérer la variable explicative
dans critère; dans post hoc, indiquer le niveau de signification (5%) pursuivre;
options;cocher caractéristiques dans le menu statistiques; poursuivre; OK
126
Analyse des composantes principales
(ACP).
127
- Objectif : simplifier la lecture d’un tableau de données en réduisant le nombre
de variables en les agrégeant par combinaison linéaire. La ou les combinaisons
linéaires qui restituent le plus d’information sont retenus et appelés
composantes principales, d’où le nom de l’analyse.
128
- ACP sur SPSS : Analyse; réduction des dimensions; analyse factorielle;
sélectionner et faire glisser les variables à analyser dans variables; descriptives;
dans matrice de corrélation; cocher indice KMO et test de Bartlet ; poursuivre;
OK
129
- Commentaire :
- KMO: indice de mesure de l’adéquation de l’ACP aux données. Plus KMO est proche de
1,milleure est la représentativité de l’ACP.
- Un KMO < 0,5 ne peut etre accepté.
- Le test de Barlett: il teste l’hypothèse que les variables ne sont pas corrélées, c’est-à-dire
la matrice des corrélations n’est pas une matrice identité(1 en diagonale et 0 pour les
autres termes). Si la signification de Barlett = 0 , l’ACP est adapté aux données.
Sinon, on ne peut pas procéder à l’ACP
130
- choisir les composantes principales à retenir:
-Le but de l’ACP est que les composantes contiennent plus d’information qu’une variable
initiale. L’ACP ne retient que les composantes qui restituent plus d’information.
-Le % de la variance est un indicateur de la quantité d’information restituée par la
combinaison linéaire.
-Les composantes sont classées dans l’ordre décroissant du % de la variance
- Le nombre de composantes est un choix fait par l’analyste.
131
-pour choisir le nombre de composantes (axes) l’analyste peut s’appuyer sur deux
indicateurs:
- Le critére de Kaiser: propose de ne retenir que les composantes principales dont la
valeur propre initiale est > 1.
- Le Scree-test ou test du Coude: propose de déterminer le nombre de CP à partir du
graphique des valeurs propres. Il s’agit de tracer une droite à partir de la dernière
composante et qui passe par tous les points. Le nombre de CP = au nombre de points
non couverts par la droite.
Scree test SUR SPSS: analyse; réduction des dimensions; AF; selectionner les variables et
les insèrer dans variables; extraction;dans afficher; cocher diagramme des valeurs
132
propres;poursuivre;OK;copier coller sur Word et tracer la droite
ACP SUR SPSS: analyse; réduction de dimension; analyse factorielle; cocher
KMO;extarction;MCP;diagramme des valeurs propres;rotation;varimax;carte
factorielle;poursuivre;OK
133