Cours SPSS - Docx - Copie

Traitement de données statistiques avec SPSS
Collection de Jacques Munaha/L2 ISTM-Bbo/2019
DEUXIEME PARTIE
INTRODUCTION A SPSS
INTRODUCTION
Il existe une diversité des logiciels d’analyse de données statistiques. On distingue

principalement :
- les logiciels généralistes : SAS, STATISTICA, SYSTAT, STATVIEW…
- les logiciels spécialisés : MEDCALC, EPIINFO, …
Pratiquement, ces logiciels dépendent fortement du type d’ordinateurs que l’on a.
Statistical Package for Social Sciences est un logiciel généraliste de gestion et
d’analyse des données statistiques sur PC. Il peut utiliser des données pratiquement de
n’importe quel type de fichiers pour créer des tableaux, graphiques et diagrammes afin de
visualiser les tendances et les distributions, calculer des statistiques descriptives, ou
effectuer des analyses plus complexes. Il est capable d’analyser des tableaux de données
comportant des milliers de variables.
On peut utiliser SPSS de deux manières :
- le mode interactif de SPSS est piloté par des menus descriptifs et des boîtes de
dialogue simples pour la majorité des tâches.
- Le mode programmation qui permet de composer des ensembles de
commandes (programmes). Cette possibilité autorise la mémorisation par SPSS
d’enchainements de tâches plus ou moins complexes. Une fois mémorisé, le
programme peut être exécuté autant de fois que le souhaite l’utilisateur.
CHAPITRE 1 INTRODUCTION A SPSS
Il s’agita d’une introduction à SPSS Windows 10.0. Ce chapitre adresse les

aspects de l’environnement SPSS, décrit les options du menu et les barres d’outils
et donne les instructions de comment lancer et démarrer SPSS.
1.1. Démarrage et fermeture de SPSS
Démarrage de SPSS
Avant de travailler dans un programme, il faut l’avoir ouvert. Pour démarrer une
session IBM SPSS 20 pour Windows:
- Dans le sous-menu « Tous les Programmes » du menu « Démarrer de Windows »,
choisir le programme « IBM SPSS Statistics »
- Ensuite on sélectionne IBM SPSS 20 pour Windows
- La fenêtre éditeur des données apparaît. Nous en parlerons en détails dans la
section trois de ce chapitre
Fermeture de la session SPSS

- Pour quitter SPSS, sélectionner, à partir du menu Fichier(File) la commande Quitter
(Exit). Le système va vous demander d’enregistrer le contenu du Viewer.
2
- Vous pouvez cliquez Oui ou Non. Cela va mettre fin a la session.
1.2. L’environnement SPSS

SPSS donne un système très puissant d’analyse statistique et de gestion des
données dans un environnement graphique, en utilisant des menus descriptifs et des
simples boîtes des dialogues pour faire tous le travail pour vous. La plupart de fois vous
n’aurez qu’en sélectionner et cliquer simplement pour accomplir une tâche.
En part pointé et cliquer, SPSS a huit types des fenêtres :
1) Editeur des données : l’éditeur de données se présente dès l’ouverture d’une
session de SPSS et ressemble à une feuille de calcul d’Excel. Il affiche aussi le
contenu d’un fichier des données. Dans cette fenêtre, vous pouvez définir, entrer,
éditer et afficher les données. Les variables sont représentées par les colonnes et
les différents enregistrements ou cas par les lignes.
2) Le viewer et le draftviewer. Il permet a ce que vous puissiez visualisez les

résultats des vos analyses statistiques. Vous pouvez montrer seulement une
partie des vos résultats, changer la manière d’affichage, l’ordre des résultats et
déplacer les tables et graphiques de haute qualité entre SPSS et d’autres
applications. Cette fenêtre s’ouvre automatiquement la première fois que vous
lancer une procédure qui génère un résultat. Elle permet d’accéder a l’Editeur des
tables pivotantes, a l’Editeur de l’affichage de texte, l’Editeur de diagrammes, et
de se déplacer entre SPSS et d’autres applications. Le viewer est divisé en deux
panneaux : le panneau de gauche du Viewer contient une légende du contenu du
résultat et le panneau de droit contient les tableaux statistiques, les graphiques et
les textes. Vous pouvez aussi afficher le résultat comme un simple texte (au lieu
d’une table pivotante) dans le DraftViewer.

3
3) Editeur des tableaux pivotants. Les résultats dans un tableau pivotant peuvent
être modifiés de différentes manières. En utilisant cet éditeur, il est possible
d’éditer du texte, réarranger les lignes et colonnes, ajouter des couleurs et créer
des tableaux multidimensionnels et parfois cacher et afficher sélectivement des
résultats. On ouvre cet éditeur en sélectionnant un tableau à modifier puis par un
click droit on ouvre cette fenêtre.
4) Editeur ou gestionnaire des diagrammes. Il permet l’édition des diagrammes tels
que les histogrammes, les diagrammes en bâtons, les diagrammes en aires
interactifs, et des diagrammes 3-D. La procédure pour accéder à cet éditeur est
similaire à celle présentée ci-dessus.
5) Editeur du texte. Le texte dans le Viewer qui n’est pas affiché dans les tableaux
pivotants ou diagrammes peut être modifié en utilisant l’Editeur du texte. Les
modifications possibles sont la couleur, le type, et la taille de la police.
6) Editeur des syntaxes. Malgré que la plupart des tâches puisse être accomplies en
cliquant simplement, SPSS vient aussi avec un puissant langage de commande
qui permet à ce que vous puissiez enregistrer et automatiser certaines tâches très
communes. En plus il donne certaines fonctionnalités que l’on ne retrouve pas
dans les menus et les boîtes de dialogue.
7) L’éditeur des scripts. Celui-ci vous permet de créer et de modifier des scripts très
élémentaires au sein du programme de SPSS.
1.3. Les menus SPSS

SPSS a plusieurs menus disponibles pour l’utilisateur. La barre de menu principale
contient 10 menus. Dans la version de IBM SPSS on va jusqu’à 12 menus.
1) Le menu fichier permet la création des nouveaux fichiers, l’ouverture des fichiers
existants, la lecture des fichiers à partir d’autres logiciels comme Microsoft Excel,
enregistrer, imprimer, etc.
4
2) Le menu Edition (Edit en anglais) permet de modifier ou copier du texte dans une
fenêtre d’affichage ou de syntaxe et permet la recherche et le remplacement du
texte ou des données. Il permet aussi d’insérer des variables ou des observations.
Il offre aussi plusieurs options de personnalisation de SPSS.
3) Le menu Affichage (« View ») permet à ce que vous puissiez rendre active la
barre d’état ou la barre des menus et à changer certaines caractéristiques
particulières de la fenêtre (par exemple en enlevant la grille, en affichant les
étiquettes des valeurs et en changeant la couleur ou la taille de la police).
4) Le menu Données(« Data ») permet de définir les variables (« Define variables
properties »), d’insérer d’autres variables, copier les propriétés des données
(« Copy data properties »), scinder le fichier (« Splite File »). En plus des
changements plus globaux aux fichiers des données SPSS sont disponibles,
comme fusionner les fichiers (« Merge files »), trier les variables (« Sort
variables »), trier les observations (« Sort cases »), sélectionner les observations
(« Select cases ») et pondérer des observations (« Weight cases »).
5) Le menu Transformer («Transform ») permet de changer certaines variables dans
votre fichier des données en utilisant les commandes telles que Recoder
(« Recode intosame variables or recode intodifferent variables ») et Ordonner les
observations. En plus, il permet de créer d’autres variables en utilisant la
commande Calculer (« Compute Variable »).
6) Le menu Analyser (« Analyze ») permet la sélection de l’analyse que vous voulez
effectuer avec vos données. Une grande variété des procédures statistiques sont
disponibles, allant de l’agrégation des données (moyenne, écart-type) à des
statistiques plus complexes comme la régression, l’analyse de la variance, etc.
7) Le menu Graphes vous permet de créer des diagrammes à bâtons, en aires,
courbes, des histogrammes aussi bien que des boîtes à moustaches.
8) Le menu Outils permet d’afficher différentes informations concernant les variables
et les fichiers.
9) Le menu Fenêtre permet à ce que vous puissiez arranger, sélectionner et
contrôler les attributs des différentes fenêtres. En utilisant ce menu, vous pouvez
mouvoir efficacement entre les données, syntaxes, et les différentes fenêtres de
résultats et des diagrammes.
10) Le menu Aide permet d’accéder au didacticiel et à l’aide qui vient avec SPSS.
Avec cette aide vous pouvez apprendre de vous-même comment utiliser
efficacement SPSS.
Les menus Analyse et Graphes sont disponibles dans toutes les fenêtres, ce qui
facilite la génération de nouveaux résultats sans changer de fenêtre.
CHAPITRE 2 : OBTENTION DES DONNEES
Les données utilisées en SPSS peuvent être entrées de plusieurs façons. La

première façon est de taper directement les données dans l’éditeur de données de SPSS.
L’autre façon est d’importer les données à partir d’autres programmes tels les tableurs et
5
les bases des données. Nous allons essayer de présenter ici comment obtenir les
données à partir d’un tableur et d’une base des données.
2.1. Importer des données

Obtention des données à partir d’Excel
 Pour lire les fichiers Excel, sélectionnez Ouvrir du menu Fichier
 Puis Données dans le sous-menu Ouvrir
 Sélectionnez un type de fichier dans la liste déroulante pour notre cas, il s’agit
des fichiers Excel avec l’extension .xls
 Puis sélectionner un fichier dans la liste des fichiers
 Si la première ligne du Fichier Excel contient des en-têtes ou des étiquettes,
cliquez sur lire les noms des variables à partir de la première ligne des données.
 Les en-têtes de colonnes du fichier Excel sont utilisés comme noms de
variables. Les noms de variables étant limitées a 8 caractères pour les versions
antérieures a SPSS 12 ; ils sont alors tronquées a ce nombre. L’en-tête de
colonne d’origine est conservé comme étiquette de variable. Si la cellule de l’en-
tête de colonne est vide, un nom de variable par défaut est attribué.
Obtention des données à partir d’une base de données
 Pour lire des données à partir d’une base des données, sélectionnez Capturer
base de données du menu Fichier et choisissez alors Nouvelle requête.
 Dans l’assistant de base de données, cliquez sur la source de données
appropriées puis sur suivant. Si la source des données n’est pas incluse dans la
liste, cliquez sur Ajouter sources des données.
 Pour certaines sources de données, vous devez également sélectionner un
fichier. Il faut également fournir un nom d’utilisateur et un mot de passe.
 Chaque table est affichée dans la liste des Tables disponibles. Cliquez sur le
signe plus (+) pour afficher tous les champs d’une table.
 Faites glisser les tables à importer vers la liste Rétablir les champs.
 Dans l’Editeur des données, les champs deviennent des variables.
2.2. Editeur des données

L’Editeur de données offre une fonctionnalité de type tableur pratique permettant de
saisir, de modifier et d’afficher le contenu de votre fichier de données. Si vous ouvrez un
fichier de données enregistré, vous pouvez utiliser l’Editeur de données pour modifier des
valeurs de données, et ajouter ou supprimer des observations et des variables.

6
L’Editeur de données permet d’afficher les données de deux façons :

- Affichage des données. Affiche les valeurs réelles des données ou les
étiquettes de valeurs définies. Vous pouvez également utiliser l’Editeur de
données pour saisir des données et créer un fichier de données.
- Affichage des variables. Affiche les informations de définition des variables,
comme les étiquettes de variable et de valeurs, le type de données (chaîne,
date ou numérique) et l’échelle de mesure (nominale, ordinale ou d’échelle).
Dans les deux affichages, vous pouvez ajouter, modifier et supprimer les
informations contenues dans le fichier de données.
2.2.1. Codage du questionnaire

Avant de taper les données dans l’éditeur de données, il faut faire le codage des
différents questionnaires. Cela consiste à assigner des nombres aux valeurs ou niveaux
de chaque variable que vous allez entrer dans l’éditeur des données. Avant de procéder à
cela, voici les règles dont il faut tenir compte pour SPSS :
1. Toutes les données doivent être numériques.
2. Chaque variable pour chaque participant doit occuper la même colonne dans
l’Editeur des données SPSS.
3. Toutes les valeurs d’une variable doivent être mutuellement exclusives. Seule une
valeur ou nombre peut être stocké pour chaque variable.
4. Chaque variable doit être codé de manière à obtenir le maximum d’information.
5. Pour chaque participant, on doit avoir un code ou une valeur pour chaque variable
exception pour les variables dont les données sont manquantes.
6. Appliquer les mêmes principes de codage avec consistance pour tous les
participants.
7. Utiliser les nombres (valeurs) élevés pour le « d’accord », « bon », ou « positive »
pour une variable ordonnée.
7
2.2.2. Vérification des inconsistances sur les différents questionnaires

Apres le codage du questionnaire, il faut vérifier les différents items afin de trouver
les incomplets, les réponses doubles, et ce qui ne semble pas clair. Il est très important de
le faire maintenant. Le chercheur doit faire des règles pour gérer ces problèmes et écrire
ces règles sur un papier afin de pouvoir les appliquer pour tous les questionnaires. Il est
préférable de faire ces règles avant la collecte des données.
2.2.3. Définition des variables

Dans l’Affichage des variables, vous pouvez définir vos variables comme les
étiquettes, le nom de la variable, et le type de variable. Lorsque vous utilisez des noms,
des dates et d’autres données non numériques, vous devez définir le type de variable
avant de saisir des données.
Dans la fenêtre Affichage, vous verrez 10 colonnes qui vous permettront d’entrer le
nom de la variable, type, largeur, décimale, étiquettes, valeurs, manquant, colonnes,
aligné, et mesure. Pour définir la variable sexe, il suffit de taper «sexe » dans la colonne
« nom », type = numérique, largeur = 8, décimales = 0, Etiquette = sexe, Valeurs = aucun,
manquant = aucun, colonnes = 8, aligner = droite, mesure = nominale. Dans la fenêtre ici,
chaque ligne représente les informations concernant une variable.
Vous pouvez aussi affecter des étiquettes de valeurs descriptives pour chaque
valeur d’une variable. Les étiquettes facilitent l’interprétation des données, des
diagrammes, et des résultats statistiques. Pour ce faire :
- Cliquez sur le bouton de la cellule Valeurs pour la variable sexe. Une boite de
dialogue apparaît.
- Saisissez 0 dans la zone de texte Valeur puis saisissez Femelle dans la zone de
texte Etiquette.

8
- Cliquez sur ajouter. Faites la même opération pour Male dans la zone de texte
Etiquette et 1 dans la zone de texte Valeur. Vous pouvez alors utiliser le code 0
et 1 pour la saisie des données.
- Pour saisir des données vous devez accéder à l’Affichage des données (Cliquez
pour cela sur l’onglet Affichage des données)
2.2.4. Règles d’appellation des variables

Les règles de base pour les noms des variables (pas pour les étiquettes des
variables) sont les suivantes :
- Le nom doit commencer par une lettre.
- Les noms de variable ne peuvent pas se terminer par un point.
- La longueur du nom de variable ne doit pas excéder huit caractères (pour les
versions 11 et inferieures mais pour la version 12 a 15 les noms peuvent être
plus longs).
- Les noms de variable ne
peuvent pas contenir
d’espaces ou de caractères
spéciaux (par exemple, !, ?, ’ et
*).
- Chaque nom de variable doit
être unique. Aucune duplication
n’est admise.
- Les noms de variable ne
distinguent pas les majuscules des minuscules.
2.2.5. Valeurs manquantes

Les données à utiliser pour l’analyse risquent de ne pas contenir des informations
complètes pour chaque observation. Par exemple, certaines personnes interrogées
peuvent refuser de répondre à une question de l’enquête. Vous disposez de deux
méthodes pour traiter les valeurs manquantes.
- Valeur manquante par défaut. Si aucune valeur n’est saisie pour une variable
numérique, la valeur manquante par défaut (représentée par un point dans l’Editeur
de données) est affectée.
- Valeurs manquantes spécifiées par l’utilisateur. Des données peuvent manquer
pour une multitude de raisons. Si vous savez pourquoi certaines données sont
manquantes, vous pouvez affecter des valeurs identifiant des informations
manquantes pour des raisons particulières, puis marquer ces valeurs comme étant
manquantes. Pour définir des valeurs manquantes spécifiées par l’utilisateur,
accédez à l’Affichage des variables, puis à la colonne Manquant. Sélectionnez la
cellule souhaitée et cliquez sur le bouton pour ouvrir la boîte de dialogue Valeurs
manquantes. Entrez ensuite les valeurs ou la plage de valeurs représentant les
valeurs manquantes.

9
2.2.6. Affectation des attributs d’une variable à d’autres variables

Vous pouvez copier un attribut d’une variable que vous avez déjà définis et
l’appliquer à une nouvelle variable. L’opération élémentaire de Copier et Coller pourra faire
l’affaire. Dans l’ « Affichage des variables », sélectionner l’attribut à appliquer à d’autres
variables. Puis copier cet attribut à partir du menu Edition. Sélectionner l’endroit ou vous
voulez appliquer cet attribut puis cliquer sur coller.
2.2.7. Insertion et suppression des variables et observations

On peut insérer ou supprimer des observations (lignes) et variables (colonnes) du
fichier des données. Cela est réalisé de cette façon :
- Sélectionner une cellule de la ligne au-dessus de laquelle vous voulez insérer
une nouvelle observation.
- Cliquer alors sur Insérer nouvelle observation du menu « Données ».
La procédure d’insertion d’une nouvelle variable au sein des variables existantes est
similaire. A la différence qu’il faut se mettre dans une cellule a gauche de l’endroit où l’on
veut insérer une nouvelle variable. La suppression d’une colonne et d’une ligne se fait de
la même façon qu’en Microsoft Excel.
2.2.8. Déplacer des variables

On peut vouloir changer l’ordre des variables dans l’Editeur des données. Il faut
sélectionner la variable à déplacer. Cela se fait en cliquant sur le nom de cette variable
dans l’onglet Affichage des données ou sur le numéro de la ligne dans l’onglet Affichage
des variables de l’Editeur des données. Cliquer alors sur « Couper » du menu Edition.
Cliquer sur le nom de la variable dans l’onglet « Affichage des données » ou la ligne de
l’onglet « Affichage des variables » à cote de l’endroit où vous voulez déplacer la ligne.
Puis cliquer sur Coller du menu Edition.
2.2.9. Enregistrement du fichier des données

Pour enregistrer un fichier des données, il faut tout d’abord avoir un répertoire ou
sous-répertoire dans lequel le fichier sera enregistré. Les fichiers des données créés sous
SPSS portent l’extension .sav. Pour ce faire, choisir « Enregistrer Sous … » du menu
« Fichier » puis tapez le nom dans la case « Nom de fichier ». Choisissez alors le type
SPSS (*.sav) puis cliquer sur Enregistrer.
2.2.10. Ouverture d’un fichier des données

Dans ce cours, nous allons utiliser différents fichiers comme matériels didactiques
d’apprentissage de SPSS. Pour ouvrir le fichier des données, à partir des menus,
sélectionnez :
Fichier →Ouvrir →Données
Dans la boîte de dialogue « Ouvrir le fichier » qui s’ouvre à partir de la zone
« Explorer », cherchez le répertoire dans lequel se trouve votre fichier. Sélectionnez

10
ensuite le fichier recherché dans la liste des fichiers affichés. Puis cliquez sur Ouvrir ou
appuyez sur la touche Entrée.

11
CHAPITRE 3 TRANSFORMATION DES DONNEES
Les techniques de transformation et trie des données sont très utiles pour s’assurer
que les données ont été entrées correctement et que les distributions des variables à
utiliser dans les analyses sont normales. Si la distribution d’une variable s’écarte
dramatiquement de la courbe normale, ceci peut avoir un impact sur la validité des
résultats obtenus. Ces distributions non normales peuvent être transformées avant de
faire des plus amples analyses. En plus, si les déviations sont très fortes, les techniques
non paramétriques pourront être utilisées parce qu’elles sont moins puissantes que les
techniques paramétriques et ont moins d’exigences.
Les données peuvent ainsi être transformées en utilisant les commandes Calculer
et Recoder du menu Transformation. En plus si certaines données ont des valeurs
manquantes, la moyenne comme substitution peut devenir une alternative. Ces
procédures seront expérimentées à travers notre recherche « lubumbashi firme
enquete.sav ».
3.1. Erreurs dans la saisie des données

Beaucoup d’erreurs se glissent dans la saisie des données. Par conséquent on doit
les scruter scrupuleusement. Les commandes « Fréquences » et « Statistiques
Descriptives » peuvent faciliter la détection de certaines erreurs. Pour obtenir les
fréquences, il faut sélectionner le menu Analyse puis cliquer sur Fréquences du sous-
menu Statistiques Descriptives pour ouvrir la fenêtre Fréquences. Puis choisir les
variables concernées et cliquer sur le bouton fléché les déplaçant dans la zone
« variables ». Puis cliquer sur Ok.
3.2. Evaluation de la normalité

La vérification de la normalité est un préalable pour beaucoup des tests d’inférence
statistique. Cette hypothèse peut être vérifiée graphiquement par l’histogramme, la courbe
normale, boîtes à moustaches, etc. Ensuite, les statistiques suivantes sont disponibles

12
pour tester aussi la normalité. Il s’agit du test de Kolmogorov-Smirnov avec le seuil de

signification de Lillierfors et la statistique de Shapirowilks, l’asymétrie, et l’aplatissement.
Il y a plusieurs manières d’obtenir ces diagrammes et statistiques, mais la procédure
Explorer est la plus commode quand les statistiques et les diagrammes sont à la fois
nécessaire. Pour les obtenir :
- Cliquer sur « Statistiques descriptives » du menu Analyse puis sur « Explorer »
pour ouvrir la boîte de dialogue « Explorer ».
- Choisir la variable souhaitez par exemple salaire et cliquer sur le bouton la
déplaçant dans la zone « variables dépendantes ».
- Cliquer ensuite sur le bouton « diagramme » pour obtenir la boîte de dialogue
« Explorer : Graphiques ». Cochez l’« histogramme » et « graphes de répartition
gaussien avec tests » et s’assurer que le bouton d’option de « niveaux de
critère » de la zone Boîtes a moustache est sélectionné. Cliquer alors sur
« Poursuivre ».
- Cliquer ensuite sur « Options ». Dans la nouvelle fenêtre ouverte, choisir
« exclure seulement les composantes non valides ».Cliquer enfin sur continuer
puis sur Ok.
a) La normalité par les diagrammes

L’histogramme du salaire sera affiché ainsi que le Stem-and-leaf plot, et boîtes à
moustache. Si la forme de l’histogramme se rapproche d’une courbe normale, alors la
distribution est normale. Etroitement lié a l’histogramme, le stem-and-leaf plot et la boîte a
moustache fournissent plus d’information sur les valeurs actuelles de la distribution que ne
le fait l’histogramme. Nous allons nous intéresser à la boîte à moustache. Elle se
présente comme suit :
140
Limiteinférieure
120
100
80
Q3
60
Q2
40
Limitesupérieure
20
N= 70
Salaire en milliers
La boîte à moustache résume l’information d’une distribution et contient la

médiane, le premier et le troisième quartile et les valeurs les plus petites et les plus
grandes de la variable d’étude. La boîte contient 50% des observations. La bordure
supérieure indique 75% des observations alors que la bordure inférieure 25%. La médiane

13
est représentée par une ligne noire dans la boîte. Si la ligne de la médiane dans la boîte
n’est pas équidistante de deux bordures, alors la distribution est asymétrique. Si la
médiane se trouve au centre du bloc, la distribution est normale. La fin et le début de la
ligne verticale indiquent le minimum ou le maximum des observations (la valeur la plus
petite et la valeur la plus grande). Les points au-delà de la limite de la droite verticale sont
appelés des « outliers » ou variables singulières. Soulignons qu’il ne faut jamais utiliser le
boxplot avec des variables nominales. Il est idéal pour les variables ordinales et échelles
en SPSS.
b) La normalité par les statistiques

La statistique de Kolmogorov-Smirnov avec un niveau de signification Lilliefors est
utilisée pour tester la normalité d’une distribution. Si le seuil de signification est supérieur à
0.05, l’hypothèse est qu’on est en présence d’une distribution normale. La statistique
Shapiro-Wilks est aussi calculée si la taille de l’échantillon est inférieure ou égalé à 50
observations.
Aplatissement et asymétrie font référence à la forme de la courbe et sont utilisés
avec les données pour les échelles d’intervalle et de ratio. Les valeurs de l’asymétrie et de
l’aplatissement sont égales à 0 si la distribution est normale. Si la valeur d’asymétrie est
supérieure a +1.0 ou inférieure a -1.0, la distribution est asymétrique et il sera prudent
d’utiliser des tests non paramétriques. Cependant, quelques statistiques paramétriques
comme le test t et l’ANOVA sont assez robuste de telle sorte qu’une asymétrie > +1 ou <-1
ne pourra changer que légèrement les résultats.
3.3. Transformation d’une variable

Il est parfois rare que toutes les variables se conforment à une distribution normale.
La plupart de fois les distributions sont asymétriques et si cette asymétrie est extrême, la
transformation de la variable devient une option. Nous allons illustrer la transformation par
l’utilisation de la variable distmais (variable représentant la distance de la maison au lieu
de travail). Il y a 1 « outliers » et par conséquent il ne s’agit pas d’une distribution normale.
Pour transformer la variable nous allons utiliser la commande Calcule du menu
Transformer. Pour ce faire, cliquer sur Calcule pour ouvrir la boîte de dialogue « Calculer
une variable ». Dans la case « variable destination » taper le nom de la nouvelle variable,
ici distmai1. Puis dans la zone « fonctions » choisir la fonction de transformation qui
convient (ici LN). Enfin choisir la variable pour laquelle la transformation se fera (ici
distmais) et cliquer sur OK. Il est important de noter que lorsque vous présenter et
interpréter les résultats des variables ayant été transformées, vous devez signaler qu’une
transformation a été effectuée.
3.4. Transformation des données

On peut modifier les valeurs des données par la commande « recoder ». Il y a trois
cas où recoder est approprié :
- Transformer les variables continues en catégories

14
- Recoder les items formulés négativement

- Remplacer les valeurs manquantes et ramener les valeurs extérieures au sein
de la distribution.
a) Transformation d’une variable continue en catégories

En relation toujours avec notre recherche, supposons que vous voulez que la
variable distmais soit subdivisée en trois catégories (0-10 km, 11-20 km, plus de 20 km)
afin de former une nouvelle variable distmai2. Voici la procédure :
- A partir du menu « Transformer » cliquer sur Recoder puis sur « Création des
variables ». En sélectionnant cette option les valeurs initiales ne seront pas
scratchées par les nouvelles.
- Sélectionner dans la liste des variables la variable a recoder et insérer la dans la

zone variable numérique.
- Dans le champ « Nom » de la zone «Variable de destination » taper le nom
dismais2. Cliquez alors sur « Remplacer ».
- Cliquez alors sur « Anciennes et nouvelles valeurs » pour ouvrir la boîte de

dialogue « Création de variables : Anciennes et nouvelles valeurs ».

15
- Cocher le bouton d’option « Intervalle : de la plus petite a » taper ici 10 Puis dans
la zone «Nouvelle valeur » taper « 1 ». Puis cliquer sur « Ajouter ».
- Cocher maintenant « Intervalle». taper ici 11 dans la première zone puis 20 dans
la deuxième zone. Dans la zone Nouvelle valeur, taper « 2 » puis cliquer sur
ajouter.
- Cocher enfin sur « Intervalle … à la plus grande » tape ici 21. Dans la zone
Nouvelle valeur tapez 3 puis cliquer sur ajouter.
- Cliquez alors sur poursuivre puis enfin sur Ok
Remarques
 Si vous désirez recoder une variable numérique en une variable chaîne, vous
devez aussi sélectionner les «Variables de destination sont des chaînes».
 Soulignons que les valeurs que vous avez entré 1, 2, et 3 n’ont pas d’étiquettes.
Vous pouvez le faire de la même façon que nous l’avons fait tout juste au début
de ce cours dans l’éditeur des données.
b) Recoder les items formulés négativement

Deux des items mesurant le niveau de motivation des étudiants doivent être
recodés car étant formulés négativement. Il s’agit des item2 et item4. Faites le recodage
de ces items.
- Cliquer sur « Transformer » → « Recoder » → « Création des variables »
- Cliquer sur « Restaurer » pour effacer les anciennes informations de la fenêtre
- Cliquer sur l’item2 puis sur le bouton avec la flèche.
- Cliquer sur Nom variable de destination et y taper item2r. Cliquer ensuite sur
étiquette et y taper item2r. Finalement cliquer sur Remplacer.
- Faites la même opération pour l’item4.
- Cliquer ensuite sur Anciennes et nouvelles valeurs. Maintenant cliquer sur la zone
Valeur (sous Ancienne valeur) et taper 4. Cliquer ensuite sur la zone valeur (sous
Nouvelle valeur) et tapez y 2. Cliquer ensuite sur Ajouter. C’est votre première
étape de recodage. Vous avez dit à la machine de changer les valeurs 4 à 2.
Faites la même chose pour les autres valeurs en recodant 1 à 5, 5 à 1, et 2 à 4.
- Cliquer enfin sur Poursuivre puis sur Ok. Les deux nouvelles variables sont créées.
3.5. Calcul d’une variable

On peut vouloir mesurer l’attitude des clients par rapport à un nouveau produit.
Pour ce cas, on peut utiliser un seul item stipulant par exemple « Le produit répond aux
exigences de qualité » et demander aux clients d’indiquer leur niveau d’acceptation avec
cette affirmation. Cette seule affirmation ne pourra pas mesurer leur attitude, il faut par
contre au moins trois des affirmations pareilles dont la mise en commun pourra faire
ressortir la vraie attitude du client. La commande Calcule peut nous aider dans ce sens.

16
Dans le cadre de l’UNILUK STUDY (Application 2), nous allons mesurer la

motivation des étudiants en faire la statistique. Voici les différents items mesurant la
motivation item1, item2r, item3, item4r, item 5.
Calculons le niveau moyen de motivation à faire la stat éprouvé par chaque
étudiant lors de la résolution des exercices et problèmes statistiques.
- Cliquer sur « Transformer » → Calculer
- Dans la zone « variable de destination » taper motivat. Cliquer ensuite sur « type
et étiquette » puis tapez-y « Echelle de motivation plaisir ». Dans la zone
« Expression numérique» taper : (item1+item2r+item3+item4r+item5)/5.
Finalement cliquez sur Ok.
Une fois la variable calculée, il faut recoder les valeurs trouvées enfin de faciliter leur
interprétation. En voici un exemple :
1 – 1.49 : Très en désaccord. 1.5 – 2.49 : Désaccord
On peut aussi calculer une nouvelle variable sur base de certaines conditions. Par
exemple, calculer le niveau de motivation moyen pour les étudiants célibataires. Il suffit
d’utiliser la fonction « Si » de la boite de dialogue précédente et y indiquer les conditions à
remplir.
3.7. Sélection des données

Il y a plusieurs procédures dans la commande « Sélectionner des observations »
dans le menu « Données » qui peuvent être utilisées pour la sélection des données :
- Sélectionner des observations déterminées grâce à la commande « SI »
- Sélectionner un échantillon aléatoire d’observations en utilisant l’option « Par
échantillonnage aléatoire »

17
La sélection avec l’option « SI » est la plus utilisée. Elle est utilisée lorsque par
exemple on aimera analyser les statistiques descriptives de femmes ou hommes
seulement ou bien une moitié de l’ensemble de vos données.
Supposons que nous voulons avoir les statistiques descriptives des hommes
seulement dans notre étude de Lubumbashi.
- Sélectionner « Sélectionner des observations » a partir du menu « Données »
- Dans la boite de dialogue qui s’ouvre choisir « selon une condition logique » puis
cliquer sur « SI » pour ouvrir la boîte de dialogue « Sélectionner des
observations :si ».
- Choisir la variable sexe et déplacer la dans la zone. Le résultat obtenu sera sexe=1
(avec 1 représentant le sexe male dans nos données initiales). Puis cliquer sur
« Poursuivre » et enfin sur Ok.
CHAPITRE 4 LES STATISTIQUES DESCRIPTIVES
Les statistiques descriptives sont utilisées pour explorer les données collectées ainsi
que les résumer. Les statistiques descriptives peuvent être particulièrement utiles si
quelqu’un veut seulement décrire l’échantillon par exemple dire combien il y a des
hommes et des femmes, l’intervalle d’âge, le salaire moyen, etc. D’autres statistiques
comme l’écart-type et la variance donnent plus d’information concernant la distribution de
chaque variable dans une étude donnée.
4.1. La distribution des fréquences

18
La distribution de fréquence peut être représentée sous forme tabulaire ou bien sous
forme d’un graphique. Pour les variables continues, mesurées par une échelle de rapport
ou d’intervalle, les histogrammes sont appropriés. Pour des variables mesurées à l’échelle
nominale ou ordinale, les graphiques à barres sont appropriés.
4.2. Mesures de tendance centrale et de variabilité
Les trois mesures de tendance centrale sont le mode, la médiane et la moyenne. Les
mesures de variabilité sont l’étendu, l’étendu interquartile, l’écart-type et la variance.
Toutes les mesures de variabilité sont plus appropriées aux données mesurées avec
l’échelle d’intervalle ou de ratio.
La procédure « Fréquences… » (du sous-menu « statistiques descriptives ») du

menu « Analyse » peut nous aider à afficher les statistiques descriptives.
Exemple
Supposons que nous voulons avoir la table des fréquences, les mesures de
tendance centrale et de variabilité pour la variable nombre de jours de maladie dans
l’année. Pour ce nous allons procéder de cette manière :
- Choisir « Statistiques Descriptives » du menu « Analyse »
- Cliquez ensuite sur « Fréquences » pour ouvrir la boite de dialogue « Fréquence »
- Choisir la variable dont vous avez besoin (jmaladi) et cliquez sur le bouton déplaçant
la variable dans la zone « Variables ».
- Cliquer alors sur la commande « Statistiques », la boite de dialogue « Fréquences :
Statistiques » s’affiche
- Dans la zone “Fractiles”, cocher “Quartiles”
- Dans la zone « tendance centrale », cocher moyenne, médiane, mode
- Dans la zone « dispersion » choisir écart-type, variance, minimum, maximum. On
peut aussi calculer si la distribution est symétrique ou asymétrique.
- Cliquez sur continue et ensuite sur « Diagrammes ». Choisir le type de diagrammes
« Histogrammes » et cocher également « Avec courbe gaussienne »

19
Le résultat obtenu dans le Viewer SPSS est le suivant :
Nombre de jours de maladie l'année passée
N Valide 70
Manquante 0
Moyenne 8.81
Médiane 10.00
Mode 10
Ecart-type 4.83
Variance 23.28
Intervalle 20
Minimum 0
Maximum 20
Centiles 25 5.75
50 10.00
75 12.00
Le tableau de distributions des fréquences :

Nombre de jours Fréquence Pour cent Pourcentage Pourcentage
maladie valide cumulé
0 9 12,9 12,9 12,9
4 3 4,3 4,3 17,1
5 5 7,1 7,1 24,3
6 2 2,9 2,9 27,1
7 3 4,3 4,3 31,4
8 9 12,9 12,9 44,3
9 1 1,4 1,4 45,7
10 16 22,9 22,9 68,6
11 2 2,9 2,9 71,4
12 9 12,9 12,9 84,3

20
14 1 1,4 1,4 85,7

15 6 8,6 8,6 94,3
16 2 2,9 2,9 97,1
20 2 2,9 2,9 100,0
Total 70 100,0 100,0
Dans le tableau de fréquence, la colonne des fréquences résument le nombre de

personnes s’étant absenté pour un certain nombre des jours de maladie. Par exemple,
seulement 9 personnes ne se sont jamais absentées à cause d’une certaine maladie.
Nombre de jours de maladie l'an passe

20
10
Fréquence
Sigma = 4,83
Moyenne = 8,8
0 N = 70,00
0,0 2,5 5,0 7,5 10,0 12,5 15,0 17,5 20,0
Nombre jours maladie
Pour le cas des variables a l’échelle nominale ou sous forme de catégorie, les
statistiques que vous aurez à sélectionner ne seront les mêmes que celles sélectionnées
pour la variable jmaladi. Par exemple pour la variable sexe, vous allez prendre seulement
le mode. Ensuite pour les diagrammes vous allez sélectionnez le « Diagrammes a
bâtons » ou « a secteurs ».
4.3. La commande « Caractéristiques »
Il est possible d’obtenir certaines mesures de tendance centrale et de variabilité avec

la commande « Caractéristiques ». Cette commande permet aussi d’enregistrer des
valeurs standardisées comme variables. Ces valeurs standardisées ou score-Z sont très
utiles pour plusieurs autres analyses statistiques comme la régression multiple ou bien
pour comparer les échantillons en provenance de populations différentes. En plus,
l’inspection de ces valeurs Z permet d’identifier des valeurs singulières, utiles lorsque l’on
analyse ses données. Les valeurs Z supérieures à +3 et inferieures à – 3 sont
considérées comme des valeurs singulières.
21
Pour obtenir les statistiques descriptives ainsi que les scores Z :
- Choisir « Statistiques Descriptives » du menu « Analyse »

- Cliquez ensuite sur « Caractéristiques » pour ouvrir la boite de dialogue
« Caractéristiques »
- Choisir la variable dont vous avez besoin (jmaladi) et cliquez sur le bouton déplaçant
la variable dans la zone « Variables ». Cochez alors « Enregistrer des valeurs
standardisées dans des variables ». Si vous cliquez sur le bouton « Option » vous
pouvez sélectionnez certaines statistiques comme la moyenne, l’écart-type, le
minimum et le maximum. Cliquez sur continuer puis sur Ok
- Si vous revenez au niveau de l’éditeur des données vous aurez une nouvelle
variable zjmaladi, variable reprenant les scores Z de la variable jmaladi.
CHAPITRE 5 LE TEST STATISTIQUE T DE STUDENT
Le test t de student est utilisé pour déterminer s’il existe une différence significative
entre deux groupes des données. Trois types de test de student peuvent être appliqués:
- Un seul échantillon (Test T pour échantillon unique)
- Deux groupes indépendants (Test T pour échantillons indépendants)
- Mesures répétées (Test T pour échantillons appariés)
5.1. Hypothèses de base

Chaque test statistique a certaines conditions qui doivent être remplies avant son
utilisation. Les conditions pour le test T qui doivent être remplies sont :
- Les données devront être mesurées à l’échelle de rapport ou de ratio ou
d’intervalle
- On doit avoir tiré aléatoirement l’échantillon de la population.
- La population doit être normale
5.2. Test T pour échantillon unique

Parfois on peut vouloir comparer la moyenne d’un échantillon avec une moyenne
hypothétique de la population pour voir si la moyenne de l’échantillon est significativement
différente de celle de la population.
Exemple : Supposons que dans un échantillon précédent, on avait trouvé le salaire
moyen des employés était de 60 000 Fc. Peut-t-on dire que le salaire moyen de
l’échantillon actuel est significativement différent du salaire moyen de l’échantillon
précédent ? Le test T à un seul échantillon nous permettra de répondre à cette question.
Pour ce :
- Choisir « Comparer les moyennes » du menu « Analyse » et ensuite « Test T pour
échantillon unique… » pour ouvrir la boite de dialogue.
- Sélectionner la variable à tester et insérer la dans la zone « Variables à tester ».
Pour notre cas il s’agit de la variable salaire.
- Dans la zone valeur de test, tapez 60.
22
- Si vous voulez spécifier le degré de confiance, cliquez sur le bouton « options »

- Enfin sur OK
Résultats
Statistiques sur échantillon unique
N Moyenne Ecart-type Erreur standard moyenne

Salaire en milliers de franc 70 73,80 22,88 2,73
Ce test compare la moyenne de l’échantillon

de 73.80 avec la valeur du test.
Test sur échantillon unique
Valeur du test = 60
t ddl Sig. Différence Intervalle de confiance
(bilatérale) moyenne 95% de la différence
Inférieure Supérieure
Salaire en milliers de 5,046 69 ,000 13,80 8,34 19,26
franc
Remarque : Si la signification (bilatérale ou unilatérale) est inferieure au α utilisé, alors la

différence est significative. Dans notre cas, 0.000 < 0.05. Alors le salaire moyen du
premier échantillon est significativement différent du salaire moyen de l’échantillon actuel.
5.3. Test T pour échantillons indépendants
Lorsque l’on étudie la différence entre deux groupes indépendants (dans le cas qui
va suivre entre les hommes et les femmes), une variable approximativement normale est
nécessaire pour que l’on puisse choisir le test T pour échantillon indépendant.
Les hypothèses de base pour l’utilisation de ce test sont :
- Les variances de la variable dépendante pour les deux populations doivent être
égales.
- La variable dépendante doit être normalement distribuée au sein de chacune des
populations.
- Les données doivent être indépendantes (les données d’un participant ne sont pas
systématiquement en relation avec les données des autres)
Exemple : Est-ce que le salaire moyen des hommes diffère significativement du

salaire moyen des femmes au sein des employés de Lubumbashi Firm ?
Pour faire ce test, la procédure est la suivante :
- Cliquez sur « Analyse » → « Comparer les moyennes » → « Test T pour
échantillons indépendants »
- Déplacez la variable salaire dans la zone « Variables a tester » et déplacez aussi la
variable sexe dans la zone « Critères de regroupement »
23
- Cliquez ensuite sur « Définir groupes »

- Tapez la valeur 0 (pour les femmes) dans Groupe 1 et la valeur 1 pour les hommes
dans Groupe 2 selon le contenu de l’éditeur des données pour la variable sexe.
Cliquez alors sur « Poursuivre » puis sur Ok.
Statistiques de groupe
Sexe N Moyenne Ecart-type Erreur standard moyenne

Salaire en milliers Femelle 28 58,96 17,39 3,29
de franc Male 42 83,69 20,77 3,20
Ce tableau montre les statistiques descriptives de deux groups (male et femelle)

séparément. Si vous considérez les moyennes, elles semblent différentes. Ceci peut être
le fait du hasard, alors nous allons vérifier avec le test T dans le tableau suivant si cela est
statistiquement significatif.
Test d'échantillons indépendants
Test de Test-t pour égalité des moyennes

Levene
F Sig. t ddl Sig. Différence Différence Intervalle de confiance

(bilatérale) moyenne écart-type 95% de la différence
Infér: Supér:
Salaire Hypothèse ,207 ,651 -5,198 68 ,000 -24,73 4,76 -34,22 -15,23
de
variances
égales
Hypothèse -5,387 64,408 ,000 -24,73 4,59 -33,89 -15,56
de
variances
inégales

24
Ce tableau contient deux tests statistiques. Dans les deux premières colonnes, il
s’agit du test de Levene pour vérifier si les variances de deux groupes des données (male
et femelle) sont égales. Si le test F est no significatif, l’hypothèse d’égale variance n’est
pas violée et l’on utilise la première ligne de variances égales. Dans le cas contraire c’est
la deuxième ligne qui sera utilisée pour avoir la valeur de T. Le test F de Levene est
significatif si sig. < α (dans notre cas α=0.05). La deuxième partie du tableau contient les
résultats du test T. L’interprétation est similaire à celle de la section 5.2.
5.4. Test T pour échantillons appariés
Ce test est utilisé lorsqu’on a des données obtenues d’un groupe seulement des
participants. En d’autres mots, un individu obtient deux scores sous différents niveaux de
la variable indépendante. La procédure pour trouver la valeur de T de student est la
suivante :
- Cliquez sur « Analyse » → « Comparer les moyennes » → « Test T pour
échantillons appariés»
- Choisir les variables dont vous aurez besoin et déplacez ces dernières dans la
zone « Variables appariées ». Ici on peut essayer avec les variables nchambre
(nombre des chambres dans la maison) et npersfam (nombre de personnes dans la
famille). Puis enfin sur OK.
Travail Pratique
Effectuez ce test et interpréter les résultats obtenus.
CHAPITRE 6 LE TEST DE KHI-DEUX
Lorsque les conditions d’utilisation des tests paramétriques ne sont pas réunies, on
peut utiliser les tests non paramétriques. Ces derniers tendent à être moins puissants que
les tests paramétriques. Cependant certains tests non paramétriques sont plus appropriés
si les données ont été collectées à l’échelle nominale et ordinale. SPSS a une vaste
collection de ces tests. Dans ce chapitre nous allons d’abord apprendre le calcul du Khi-
deux afin de suivre la même structure que notre cours de statistique inférentielle.
6.2. Les conditions d’utilisation du test de khi-deux
Il y a trois conditions que vous devez considérer pour effectuer un test de khi-deux :
- Echantillon aléatoire : les observations doivent être tirées de manière aléatoire de la
population.
- Observations indépendantes : aucun sujet ne devra être compté deux fois.
- La taille des fréquences attendues. Lorsque le nombre de cellules est inferieur à 10
et particulièrement lorsque la taille de l’échantillon est très petite, la plus petite
fréquence relative que l’on doit avoir dans une case pour un test de khi-deux est 5.
Cependant, les fréquences observées peuvent prendre n’importe quelle valeur
voire 0.
25
6.3. Khi-deux comme test d’ajustement
Le test khi-deux d’ajustement est utilisé pour analyser une seule variable dont les
données sont groupées en catégories. En effet, il est parfois utile de vérifier si une variable
est distribuée selon une loi normale ou un certain modèle théorique. On peut utiliser alors
le test du Khi carré pour ce faire. Dans les faits, on compare la distribution de fréquences
observées à une distribution de fréquences théoriques. Si la différence entre ces deux
distributions est petite nous conclurons que la variable considérée obéit à une loi normale.
Exemple
Le tableau ci-dessous indique le sexe de 70 personnes dans notre échantillon de
Lubumbashi Firme. Dans la déclaration du parlement on devrait respecter la parité. Un
test khi-deux d’ajustement va nous permettre de déterminer si cette parité a été respectée
au sein de l’usine de Lubumbashi.
Pour réaliser ce test :
- Cliquez sur «Analyse» → «Tests non paramétriques» → «Khi-deux»
- Choisir la variable à tester et déplacez cette dernière dans la zone «Variables à
tester». Dans ce cas, il s’agit de la variable sexe. Cliquez enfin Ok.
Effectif observé Effectif théorique Résidu
Femelle 28 35,0 -7,0
Male 42 35,0 7,0
Total 70
Test
Khi-deux 2,800
Ddl 1
Signification asymptotique ,094
On peut voir à partir de ce résultat que la valeur du khi-deux n’est pas significative
car la signification asymptotique est supérieure à α. On peut conclure que la parité a été
respectée.
N.B. Comme on peut le voir, les effectifs théoriques représentent une subdivision par
2 c'est-à-dire 1/2, 1/2. Quelque fois les effectifs théoriques peuvent ne pas être
équitablement distribués au sein des différentes catégories. Si par exemple, les
fréquences théoriques pour chaque groupe étaient de 20 (femme) et 50(homme). SPSS
vous permet également de spécifier cela. Il suffit de cliquez sur « Valeurs » dans la fenêtre
ci-dessous et d’entrer les différentes valeurs dans l’ordre.

26
6.4. Le test d’indépendance
Le khi-deux peut être également utilisé comme test d’indépendance. Dans ce cas on
examine deux variables et on vise à vérifier si les deux variables sont indépendantes l’une
de l’autre.
Par exemple on voudrait déterminer si l’âge de l’employé influence son ancienneté
au sein de l’entreprise. Les données des ces deux variables sont groupées en catégories.
On peut y aller avec le test de khi-deux.
La procédure est la suivante :
- Cliquez sur « Analyse » → «Statistiques Descriptives » → « Tableaux croisés.»

27
- Insérer la variable « age » dans la zone « Lignes » et la variable « ancienet » dans

la zone « Colonnes ». Puis cliquez sur le bouton « Statistiques » et cochez Khi-
deux et Phi et V de Cramer. Cliquez sur Poursuivre.
- Cliquez encore sur le bouton «Cellules» et cochez «Observe», «Théorique»,

«Ligne», «Colonne» et « Total. Cliquez alors Poursuivre puis enfin sur OK.
Le résultat obtenu est le suivant :
Valeur ddl Signification asymptotique

(bilatérale)
Khi-deux de Pearson 82,535 (a) 12 ,000
Rapport de vraisemblance 77,912 12 ,000
Association linéaire par linéaire 42,550 1 ,000
Nombred'observationsvalides 70
(a) 14 cellules (70,0%) ont un effectif théorique inférieur à 5. L'effectif théorique minimum
est de 1,00.
Le test Khi-deux est utilisé pour savoir s’il existe une relation entre deux variables. Le
résultat montre que Khi-deux est significatif. Cependant 70% des cellules ont un effectif
théorique inferieur a 5. Il faudrait procéder au regroupement de nos différentes données
pour avoir un khi-deux fiable. Dans le cas contraire, une des conditions d’utilisation du test
de khi-deux est abrogée. En règle générale, pas plus de 20% de cellules ne doivent
avoir des fréquences théoriques inferieures à 5.
Mesures symétriques
Valeur Signification approchée
Nominal par Nominal Phi 1,086 ,000
V de Cramer ,627 ,000
Nombre d'observations valides 70
28
a L'hypothèse nulle n'est pas considérée.

b Utilisation de l'erreur standard asymptotique dans l'hypothèse nulle.
Ce deuxième tableau mesure la teneur de la relation entre ces deux variables. Si
l’association est faible, la valeur de la statistique Phi ou V de Cramer se rapprochera de 0.
Si la relation est forte, la valeur sera de +/-0.5 ou plus.
CHAPITRE 7 TEST D’ANOVA
Au chapitre 5, nous avons utilisé le test T de Student pour déterminer si les

moyennes de deux populations sont égales. Or, souvent en pratique, il est parfois
nécessaire de tester la signification des différences entre les moyennes de trois
échantillons ou populations. Pour comparer les moyennes de plus de deux groupes ou
niveaux d’une variable indépendante, on utilise l’ANOVA.
Au centre de l’ANOVA se trouve la notion de la variance. La base de la procédure
est de calculer deux estimations différentes de la variance de la population à partir des
données, ensuite calculer le ratio de ces deux estimations.
Le rapport entre ces deux variances (variance intergroupes et variance intra-
groupes) constitue la statistique F. Un F significatif indique que les moyennes de la
population ne sont pas probablement égales. Parce que l’hypothèse nulle est rejetée si
n’importe quelle paire des moyennes est inégale, il faut déterminer où réside la différence.
C’est le rôle de l’analyse Post-Hoc. Cette analyse implique la comparaison de toutes les
moyennes deux a deux. Et si une différence réside entre une paire des moyennes, cela
est signalé.
Il existe plusieurs tests Post-Hoc disponibles. Plus un test offre d’options, plus il est
stricte pour la détermination de la signification de la différence entre les moyennes qu’il
compare. Dans ce cours nous allons utiliser le test de Scheffe qui est très stricte et le test
de Tukey qui est moins stricte que celui de Scheffe.
7.1. Conditions d’utilisation d’ANOVA
L’utilisation de l’analyse de la variance requière que deux conditions soient remplies :

- Les populations desquelles ont été tirés les échantillons doivent être normales. On
peut le faire avec les statistiques du chapitre 3.
- L’homogénéité des variances. Les variances doivent être égales. Le test de Levene
permettra de vérifier cela.
7.2. Procédure de calcul de test d’ANOVA
Supposons que nous voulons connaitre s’il existe une différence significative en
termes de salaire moyen selon le groupe d’âge des employés. Dans notre étude nous
avons quatre groupes d’âge. Ce que nous aurons a comparer quatre moyennes. Par
conséquent, l’utilisation de l’ANOVA est nécessaire.
29
- Cliquez sur « Analyse » → «Comparer les moyennes » → « ANOVA a un facteur»

- Choisir la variable dépendante (salaire) et déplacez cette dernière dans la zone
« Variables dépendantes ». Il est possible d’insérer ici plusieurs variables
dépendantes pour lesquelles vous voulez calculer la différence.
- Choisir la variable indépendante (age) et déplacez cette dernière dans la zone
«critère». La variable critère doit être une variable nominale ou ordinale.
- Cliquez sur « Options » et cochez « caractéristiques » et « Test d’égalité des

variances ».
- Cliquez sur « Continuer » puis sur OK et comparer votre résultat avec celui-ci
Salaire en milliers de franc
N Moyenne Ecart- Erreur Intervalle de confiance à 95% Min Max
type standard
Borne inférieur Borne supérieur
20 - 29 10 46,00 12,73 4,02 36,89 55,11 32 75
ans
30 - 39 22 59,64 15,82 3,37 52,62 66,65 32 110
ans
40 - 49 19 80,63 9,08 2,08 76,26 85,01 70 105
ans
Plus de 50 19 98,00 14,47 3,32 91,03 104,97 77 125
ans
30
Total 70 73,80 22,88 2,73 68,34 79,26 32 125

Ce tableau donne les statistiques descriptives de la variable d’étude pour cette analyse.
Test d'homogénéité des variances
Statistique de Levene ddl1= ddl2 Signification

1,598 3 66 ,198
Ce tableau donne le test de Levene pour vérifier si les variances de 4 groupes

d’âges sont égales. Comme on peut le voir, ce test n’est pas significatif (p =0.198 > 0.05).
D’où la condition n’est pas violée. On peut continuer avec l’analyse du résultat d’Anova car
les variances de 4 groupes sont approximativement égales. Si cette condition était violée
on aurait fait recourt au test non paramétrique de Kruskal-Wallis ou bien si le test F est
significatif on peut utiliser un test Post Hoc destinés pour des situations où les variances
ne sont pas égales.
ANOVA
Somme des ddl Moyenne des F Signification
carrés carrés
Inter-groupes 24155,688 3 8051,896 44,420 ,000
Intra-groupes 11963,512 66 181,265
Total 36119,200 69
Ce tableau constitue le nœud de l’analyse par ce qu’il montre si la statistique F est

significative ou non. Pour savoir si F est significatif, vous devez utilisez les degrés de
liberté (dl) (3, 66), la valeur de F et la probabilité de F. La meilleure façon serait d’utiliser
la table de valeurs critiques de F pour votre seuil de signification. La signification peut
aussi être trouvée en regardant la probabilité de F (p = 0.000). Etant donné que p < 0.05
vous pouvez rejetez l’hypothèse nulle et accepter l’hypothèse alternative que le salaire
moyen est différent selon les groupes d’âges, F (3,66)=44.42, p <0.05.
7.3. Analyse Post Hoc
Lorsque l’on compare les moyennes de trois ou plusieurs groupes, vous saurez qu’il
existe une différence significative quelque part si F est significatif. Cependant, vous
voudriez bien savoir quelles moyennes sont différentes des autres moyennes. En vue de
connaitre cela, vous pouvez utilisez plusieurs tests post hoc de SPSS. Le test Scheffe est
plus conservative c’est pourquoi plusieurs statisticiens recommande le test de Tukey HSD
si le test de Levene n’est pas significatif et le test de Games-Howel si le test de Levene est
significatif. D’habitude on fait l’analyse post hoc si F est significatif. C’est pour cela que
nous avons séparé les étapes. On aurait pu faire tout à la première étape de calcul de F.
La procédure est la même que la précédente. Apres l’étape qui consistait à cliquer
sur « options », il faut cliquez maintenant sur « Post Hoc » et dans la dialogue ci-dessous,
cochez Scheffe et Tukey.

31
Comparaisons multiples
Variable dépendante: Salaire en milliers de franc

(I) Groupe (J) Groupe Différence de Erreur Sign.
d'age d'age moyennes (I- standard
J)
Test de 20 - 29 ans 30 - 39 ans -13,64* 5,13 0,048

Tukey 40 - 49 ans -34,63* 5,26 0,000
Plus de 50 ans -52,00* 5,26 0,000
30 - 39 ans 20 - 29 ans 13,64* 5,13 0,048
40 - 49 ans -21,00* 4,22 0,000
Plus de 50 ans -38,36* 4,22 0,000
40 - 49 ans 20 - 29 ans 34,63* 5,26 0,000
30 - 39 ans 21,00* 4,22 0,000
Plus de 50 ans -17,37* 4,37 0,001
Plus de 50 ans 20 - 29 ans 52,00* 5,26 0,000
30 - 39 ans 38,36* 4,22 0,000
40 - 49 ans 17,37* 4,37 0,001
Scheffe 20 - 29 ans 30 - 39 ans -13,64 5,13 0,080
40 - 49 ans -34,63* 5,26 0,000
Plus de 50 ans -52,00* 5,26 0,000
30 - 39 ans 20 - 29 ans 13,64 5,13 0,080
40 - 49 ans -21,00* 4,22 0,000
Plus de 50 ans -38,36* 4,22 0,000
40 - 49 ans 20 - 29 ans 34,63* 5,26 0,000
30 - 39 ans 21,00* 4,22 0,000
Plus de 50 ans -17,37* 4,37 0,003
Plus de 50 ans 20 - 29 ans 52,00* 5,26 0,000

32
30 - 39 ans 38,36* 4,22 0,000

40 - 49 ans 17,37* 4,37 0,003
* La différence de moyennes est significative au niveau .05.
En considérant le test de Scheffe ce tableau montre que les salaires moyens des
individus des groupes d’âges 40-49 ans et plus de 50 ans diffèrent significativement du
salaire moyen du groupe d’âge 20-29 ans. Cependant le salaire moyen de ce dernier
groupe ne diffère pas significativement de celui du groupe d’âge 30-39 ans car leur
différence n’est pas significatif (p=0.08>0.05).
Le résultat de Tukey est légèrement différent de celui de Scheffe. Pour Tukey, les
moyennes de 4 groupes différent toutes entre elles. C’est pour cela que l’on dit que Tukey
est moins rigoureux que Scheffe. Ce tableau ci-dessus sera exploité pour l’interprétation
lorsque les tailles des différents échantillons sont plus ou moins similaires. Dans les cas
où elles différent significativement, les sous-ensembles homogènes donnent des résultats
plus appropriés. .
Sous-groupes homogènes
Groupe d'age N Sous-ensemble pour alpha = .05

1 2 3 4
Test de Tukey 20 - 29 ans 10 46,00
30 - 39 ans 22 59,64
40 - 49 ans 19 80,63
Plus de 50 ans 19 98,00
Signification 1,000 1,000 1,000 1,000
Scheffe 20 - 29 ans 10 46,00
30 - 39 ans 22 59,64
40 - 49 ans 19 80,63
Plus de 50 ans 19 98,00
Signification 0,051 1,000 1,000
Ce tableau montre un Scheffe et un Tukey ajusté qui est approprié lorsque les tailles
des groupes d’âges ne sont pas similaires. Notez qu’il n’existe pas de différence
significative entre le salaire moyen des employés âgés entre 20 à 29 ans et de 30 à 39
ans parce que leurs moyennes sont toutes montrées dans un seul sous-ensemble
homogène. Lorsque les moyennes de deux groupes n’apparaissent pas dans un même
sous-ensemble, cela signifie que ces moyennes sont différentes entre elles.

33
CHAPITRE 8 LES TESTS NON PARAMETRIQUES
Lorsque les conditions d’utilisation des tests paramétriques sont violées

sérieusement, il y a des tests non paramétriques qui peuvent être utilisés comme
alternative. Ces tests tendent à être moins puissants que les tests paramétriques
similaires. Cependant certains tests non paramétriques sont appropriés pour des données
ayant été mesurés par des échelles ordinales et nominales.
SPSS a une large sélection des techniques non paramétriques disponibles, parmi
lesquelles:
- Test de Mann-Whitney
- Test de Wilcoxon
- Test de Kruskal-Wallis
- Test de corrélation de Spearman
Les conditions d’utilisation de tests non paramétriques ne sont pas aussi exigeant
que les méthodes paramétriques. Cependant, dans la mesure du possible, il faut:
- Un échantillon aléatoire
- indépendance : les sujets apparaissent dans un seul groupe et les différents
groupes ne doivent pas être liés.
8.1. Le test U de Mann Whitney
Le test U de Mann Whitney est utilisé pour déterminer si deux échantillons

indépendants proviennent de la même population. Ce test est équivalent au test T pour
échantillons indépendants. Il constitue un bon substitut du test T de student lorsque les
conditions de la normalité de la distribution de la population ainsi que l’égalité des
variances ne sont pas réunies.
Conditions du test U de Mann Whitney
- La variable dépendante doit être une variable continue avant d’être rangée. Même
si les données que l’on traite sont discrètes comme 1, 2, 3, 4, 5 dans une échelle
d’attitude par exemple, on suppose qu’il existe une certaine continuité sous-jacente.
- Les données sont indépendantes c'est-à-dire les scores d’un participant ne
dépendent pas des scores d’un autre participant).
Par exemple on peut vouloir connaitre si le nombre de jours de maladies pour les
femmes diffère significativement de celui des hommes (voir Lubumbashi study). Nous
pouvons imaginez que les données de la variable dépendante jour de maladie violent les
conditions d’utilisation du test de Student ou il s’agit des variables sous l’échelle ordinale.
- Cliquez sur « Analyse » → «Tests non paramétriques» → « 2 échantillons
indépendants»

34
- Choisir la variable dépendante (jmaladi) et déplacez cette dernière dans la zone

« Variables a tester ».
- Ensuite, cliquez sur la variable sexe et déplacez-la dans la zone « critère de
regroupement »
- Cliquez sur « Définir groupes » et entrez 0 et 1 pour les groupes car les femmes
correspondent a 0 et les hommes a 1.
- S’assurer que U de Mann Whitney est coche et cliquez sur OK.
Le résultat affiché est le suivant:
Test de Mann Whitney

sexe N Rang moyen Somme des rangs
Nombre de jours de maladie Femelle 28 37,52 1050,50
Male 42 34,15 1434,50
Total 70
Test (a)
Nombre de jours de maladie
U de Mann-Whitney 531,500
W de Wilcoxon 1434,500
Z -,684
Signification asymptotique (bilatérale) ,494
a Critère de regroupement : sexe
Le premier tableau montre la moyenne des rangs des hommes et des femmes pour
la variable jour de maladie (jmaladi). SPSS rangent les 70 employés du 70 e (plus grand)
au 1er (le plus petit) de sorte que, contrairement a la procédure normale, un rang élevé
indique que l’individu a eu un score élevé.

35
Le deuxième tableau donne la valeur d’U de Mann Whitney, le score Z et la

signification ou valeur de p. L’analyse du tableau indique que le résultat n’est pas
significatif car Z = -0,684 et p=0,494 > 0,05. Par conséquent, il n’y a pas une différence
significative dans le nombre de jour des maladies entre les hommes et les femmes.
8.2. Test de rangs de Wilcoxon ou T de Wilcoxon
Ce test est proche du T de student pour les échantillons dépendants ou appariés. Il

est utilisé lorsque les conditions d’utilisation de T de student ne sont pas réunies pour les
échantillons appariés.
Nous allons utiliser le même exemple que celui du test T de student pour échantillon
apparie pour voir si on va aboutir au même résultat. Ceci avec l’hypothèse que les
conditions d’utilisation du test T de student ne sont pas réunies.
- Cliquez sur « Analyse » → «Tests non paramétriques» → « 2 échantillons liés.»
- Sélectionner la variable nchambre (nombre de chambres dans la maison) et la

variable npersfam (nombre de personnes dans la famille) et déplacez ces variables
dans la zone « paire(s) à tester ».
- Il faut s’assurer que Wilcoxon est coché dans la zone type de teste. Puis cliquez sur
Ok.
N Rang moyen Somme des rangs
a
Personne famille Rangs negatives 24 18,65 447,50
-Nombre chambres Rangs positives 11 b 16,59 182,50
c
Ex aequo 35
Total 70
a. Personnes dans la famille < Nombre de chambres

b. Personnes dans la famille > Nombre de chambres
c. Nombre de chambres = Personnes dans la famille

36
Ce tableau montre non seulement le rang moyen mais aussi par exemple le nombre
d’employés ayant le nombre de personne dans la famille inferieur au nombre de chambre
qu’ils avaient dans la maison (24). Notez aussi qu’il y avait des familles où le nombre de
chambres correspondait au nombre des personnes dans la famille (35) et des familles où
le nombre de personnes dans la famille était supérieur au nombre de chambres dans la
maison (11).
Test de Wilcoxon
Personnes dans la famille - Nombre de chambres

Z -2,337 a
(bilatérale)
a. Basée sur les rangs positifs.
Ce tableau montre le niveau de signification du test. Pour interpréter le test de Wilcoxon, il

faut valoir la valeur de Z et celle de la signification asymptotique. Le résultat montre qu’il
existe une différence significative car Z = -2,337 et p =0.19 <0.5. Par conséquent, on peut
conclure que le nombre moyen de personnes dans une famille est significativement
différent du nombre moyen des chambres dans la maison qu’habite cette famille.
8.3. Test de Kruskal-Wallis
Le Test de Kruskal-Wallis est équivalent au test d’ANOVA et permet par

conséquent d’examiner les différences significatives entre trois ou plusieurs groupes. Il
permet de vérifier l’hypothèse nulle selon laquelle plusieurs échantillons indépendants
proviennent d’une même population ou des populations identiques. Le test de Kruskal-
Wallis est utilisé si la condition d’homogénéité des variances est violée pour l’utilisation
d’ANOVA et surtout lorsque les données sont de type ordinal.
Supposons que nous voulons tester si le salaire moyen varie avec le groupe d’âge
auquel appartient le chef de ménage. Nous allons voir si le résultat de Kruskal Wallis va
correspondre au resultat d’ANOVA. Car c’est en fait le même exemple que nous avons
utilisé pour le test d’ANOVA.
Voici la procédure :
- Cliquez sur « Analyse » → «Tests non paramétriques» → « K échantillons
indépendants.»
- Choisir la variable dépendante (salaire) et déplacez cette dernière dans la zone
« Variables a tester ». Il est possible d’insérer ici plusieurs variables dépendantes
pour lesquelles vous voulez calculer la différence.

37
- Choisir la variable indépendante (age) et déplacez cette dernière dans la zone

«critère de regroupement». La variable critère doit être une variable nominale ou
ordinale.
- Cliquez sur « Définir intervalle… ». et tapez 1 dans la zone Minimum et 4 dans la
zone Maximum car il existe 4 groupes d’âge (1, 2, 3, et 4). Les statistiques
descriptives vous permettront de vérifier les quatre groupes d’âge.
- Cliquez sur continuer et s’assurer que « H de Kruskall Wallis » est coché puis enfin
cliquez sur Ok.
Les résultats obtenus sont :
Rangs
Groupe d'age N Rang moyen
Salaire en milliers de 20 - 29 ans 10 11,05
franc
30 - 39 ans 22 21,48
40 - 49 ans 19 42,58
Plus de 50 ans 19 57,53
Total 70
Un rang moyen élevé indique le groupe avec le salaire le plus élevé. Le test de
Kruskal-Wallis va comparer les rangs moyens de 4 groupes d’âge. Il s’agit de vérifier si
ces rangs moyens différent entre-elles.

38
Test
Khi-deux 49,503
Ddl 3
a Test de Kruskal Wallis
b Critère de regroupement : Groupe d'âge
Le tableau ci-dessus montre s’il existe une différence significative entre les groupes
d’âges. Pour interpréter le résultat affiché dans ce tableau du test de Kruskal-Wallis, il faut
considérer la valeur du Khi-deux, le degré de liberté (dl) et la signification asymptotique
(p). Notez qu’il existe une différence significative entre les 4 groupes d’âges à ce qui
concerne le salaire (p < 0.05). Malheureusement, il n’y a pas de test post hoc
accompagnant le test de Kruskal-Wallis. Par conséquent, on ne peut dire avec certitude
entre quel groupe d’âge existe une différence. Un des moyens de résolution de ce
problème et d’exécuter 4 tests de Mann Whitney comparant chaque pair de groupes
d’âges par rapport au rang moyen.
8.4. Remarques
Il existe une multitude des tests non paramétriques. C’est le cas du test de
Friedman, qui permet de comparer deux ou plusieurs échantillons appariés et qui est
équivalent au test d’ANOVA avec des mesures répétées. D’autres tests pour
- 2 échantillons appariés : les tests de McNemar, le test de signe, etc.
- k échantillons appariés : le test W de Kendall, Q de Cochran
- 2 échantillons indépendants : Z de Kolmogorov-Smirnow, Suites de Wald-
Wolfowitz, Réactions extrêmes de Moses, etc.
- k échantillons indépendants : test de la médiane
Tous ces tests sont retrouvés dans la commande « Tests non paramétriques » du
menu « Analyse ». En part ces différents tests il existe d’autres éparpillés dans le menu
« Analyse ». C’est le cas du test non paramétrique mesurant la corrélation entre deux
variables, le test de corrélation de Spearman. Nous allons exposer son utilisation dans le
chapitre suivant traitant de la corrélation.

39
CHAPITRE 9 CORRELATION
La corrélation vérifie le lien ou la liaison entre deux variables linéaires. Le

coefficient de corrélation de Pearson mesure le degré de liaison entre deux variables
continues et est disponible à partir des sous menu «Corrélation» du menu «Analyse».
Une corrélation entre deux variables nominales est possible avec le « Coefficient
Phi et V de Cramer» et est disponible dans l’option « Tableaux Croisés » du menu
« Analyse » et du sous menu « Statistiques Descriptives ».
Lorsque les conditions d’utilisation de la corrélation ne peuvent être réunies
correctement, la corrélation de rand de Spearman sera utilisée.
Dans ce chapitre nous allons traiter de la corrélation bivariée, la corrélation partielle
ainsi que la corrélation de rang de Spearman.
La corrélation bivariée réfère à la corrélation entre deux variables continues. Ce
coefficient est compris entre – 1 et + 1. Ces valeurs indiquent la force ou le degré de
liaison tandis que le signe (+ ou -) indique la direction. Cependant l’existence d’une
corrélation, aussi bonne soit elle, n’est jamais la preuve d’une relation de cause à effet. En
fait le coefficient de corrélation nous donne des informations sur l’existence d’une relation
linéaire (sous forme d’une droite) entre les deux variables ou grandeurs considérés.
Cependant un coefficient nul ne signifie pas l’absence de toute relation entre les deux
grandeurs. Il peut exister une relation non linéaire entre elles. Une propriété fondamentale
du coefficient de corrélation (r) est que, lorsqu'il est mis au carré (r 2), il donne une mesure
de la proportion des variations de la variable Y qui sont «expliquées» par la variable X.
La corrélation partielle donne une seule mesure de l’association linéaire entre deux
variables en même temps ajustant les effets d’une ou de plusieurs autres variables
additionnelles.
9.1. Conditions d’utilisation de la corrélation bivariée ou Brave de Pearson
L’analyse de la corrélation implique un ensemble des conditions avant d’être

effectuée. Il faut
- Une paire des valeurs ou données. C'est-à-dire si vous obtenez une valeur pour la
variable X vous devez aussi avoir une valeur pour la variable Y pour le même
participant ou individu.
- Echelle de mesure : de rapport ou d’intervalle
- Normale : les valeurs pour chacune des variables doivent être normalement
distribuées.
- Linéaire : la relation entre les deux variables doit être linéaire
La première et la deuxième condition dépendent de la méthodologie de votre
recherche et questionnaire. La troisième condition peut être testée comme on l’a fait au
chapitre trois. La dernière condition peut être vérifiée en examinant le diagramme de
dispersions des variables considérées.

40
9. 2. Diagramme de dispersion
Le diagramme de dispersion est un diagramme de deux variables qui montre

comment le score d’une personne pour une variable est associé avec le score de cette
même personne pour une autre variable. Si la corrélation est forte, les différents points
seront assez proches les uns des autres pour former une ligne droite.
Ex : On peut vouloir déterminer le diagramme de dispersion entre le salaire de
l’employé et la valeur de sa maison.
- Cliquez sur « Graphes » → «Diagramme de dispersion».
- Cliquez sur « simple » puis sur « Définir »

- Déplacez la variable dépendante (valeur de la maison ou valmaiso) dans la zone
« Axe Y » et la variable indépendante (salaire) dans la zone « Axe X ».
- Cliquez ensuite sur « Titres » et tapez « Corrélation entre salaire de l’employé et la

valeur de sa maison ». On tape cela sur deux lignes.
- Cliquez sur « Continuer » puis sur OK.
Le résultat obtenu est :

41
Correlation entre salaire de l'employe

et la valeur de la maison
400
300
200
100
20 40 60 80 100 120 140
Comme nous voyons la manière dont les points sont présentés, ils donnent
l’impression d’une droite.
9.3. Calcul du coefficient de corrélation de Pearson
Pour calculer le coefficient de corrélation de Pearson, il faut suivre la procédure

suivante :
- Cliquez sur « Analyse » → «Corrélation» → « Bivariée.»
- Déplacez les variables salaire) et valmaiso (valeur de la maison) dans la zone

« Variables». Il est possible d’insérer ici plusieurs variables pour lesquelles vous
voulez calculer les différents coefficients de corrélation.
42
- Il faut se rassurer que « Pearson » est cochez dans la zone de coefficients de

corrélation.
- S’assurer également que le test de signification côché est « bilatéral » et que
« Repérer les corrélations significatives » est également cochez. Si on connait la
direction de la corrélation, on peut cochez « unilatéral ».
- Cliquez alors sur « Options » et cochez alors « moyennes et écarts-types » et
cliquez sur « Exclure toute observation incomplète ».
- Cliquez sur « Continuer » puis sur OK.
Le résultat affiché dans le viewer est le suivant :

Statistiques descriptives
Moyenne Ecart-type N
Salaire en milliers de franc 73,80 22,88 70
Valeur maison en milliers de franc 229,76 56,59 70
Il y a 70 personnes avec les données pour les deux variables. Ce tableau des
descriptives donnes la moyenne et l’écart-type des variables à corréler. Dans le tableau
suivant nous retrouvons le degré de relation entre ces deux variables.
Corrélations
Salaire en milliers de Valeur maison en
franc milliers de franc
Salaire en milliers de Corrélation de 1,000 0,710**
franc Pearson
Sig. (bilatérale) , ,000
Valeur maison en Corrélation de 0,710** 1,000
milliers de franc Pearson
Sig. (bilatérale) ,000 ,
** La corrélation est significative au niveau 0.01 (bilatéral).
Pour interpréter le coefficient de corrélation, il faut examiner le coefficient et la

valeur de la signification bilatérale associée (p). Le tableau confirme le résultat du
diagramme de dispersion en ce sens qu’il existe une corrélation significative entre le
salaire de l’employé et la valeur de sa maison en franc (r = 0.710, p < 0.05). Par
conséquent les employés qui ont un salaire élevé ont généralement une maison qui coûte
cher. Parce que la corrélation est positive cela signifie que ceux qui ont un revenu élevé
habitent généralement des maisons coutant chers, ceux qui ont un revenu moyen habitent
des maisons moyens et ceux qui ont un faible revenu habitent des maisons
correspondants a leur revenu.
9.4. Corrélation partielle
Pour faire une corrélation partielle, voici la procédure :

- Cliquez sur « Analyse » → «Corrélation» → « Partielle.»

43
- Déplacez les variables à corréler salaire) et valmaiso (valeur de la maison) dans la

zone « Variables». Il est possible d’insérer ici plusieurs variables pour lesquelles
vous voulez calculer les différents coefficients de corrélation.
- Sélectionnez les variables à être contrôlé par exemple distmais (distance lieu de
travail de la maison) et déplacez-la dans la zone « Contrôlé par »
- S’assurer également le test de signification coché est « bilatéral » et que « Afficher
le seuil exact de signification » est également cochez.
- Cliquez sur OK.
Correlations
Salaire Valmaiso
Salaire 1,000 0,6935**
Sign (bilateral) , ,000
distmais Dl (0) (67)
Valeur 0,6935** 1,000
Sign (bilateral) ,000 ,
Dl (67) (0)
** La corrélation est significative au niveau 0.01 (bilatéral).
Comme nous pouvons le voir, le résultat obtenu est presque similaire à celui de la
corrélation bivariée. Il indique qu’il existe une relation significative entre le salaire et la
valeur de la maison même après avoir contrôlé l’influence de la distance du lieu de travail
de la maison.
9.5. Corrélation de rho de Spearman
En statistique, la corrélation de Spearman est étudiée lorsque deux variables

statistiques semblent corrélées sans que la relation entre les deux variables soit de type
affin. Elle consiste à trouver un coefficient de corrélation, non pas entre les valeurs prises
par les deux variables mais entre les rangs de ces valeurs. Elle permet de repérer des
44
corrélations monotones. Il faut également souligner que la corrélation de Spearman

utilise les rangs plutôt que les valeurs exactes. Cette corrélation est utilisée lorsque
les distributions des variables sont asymétriques. L'interprétation est identique à celle
de la corrélation par rangs de Pearson.
Les conditions d’utilisation de ce test sont:
- les données des deux variables doivent être au moins ordinales.
- Rho est calculé en rangeant d’abord les données de chaque variable et en
calculant ensuite la corrélation de Pearson pour ces données arrangées (SPSS fera
cela automatiquement pour vous lorsque vous demander le calcul de la corrélation
de Spearman).
Nous allons calculer le coefficient de corrélation de Spearman pour les données
utilisées pour la corrélation de Pearson. La procédure est la même que cela présentée
précédemment (section 9.3) mais au lieu de cocher « Pearson » on va cocher
« Spearman ». Le résultat obtenu est le suivant:
Correlations
Salaire Valeur maison
Rho de Salaire Coefficient de 1,000 ,740**
Spearman corrélation
Sig. (bilatérale) , ,000
N 70 70
Valeur maison Coefficient de ,740** 1,000
corrélation
Sig. (bilatérale) ,000 ,
N 70 70
** La corrélation est significative au niveau .01 (bilatéral).
La valeur du coefficient de corrélation rho de Spearman (0.74) est proche de la

valeur du coefficient de Pearson. La corrélation non paramétrique de Spearman se base
sur le rang (1er, 2e, etc.) au lieu d’utiliser les données comme telles. Il devra être utilisé
lorsque les conditions d’utilisation de Pearson sont significativement violées. Notez
cependant que ce n’est pas nécessaire d’écrire simultanément les résultats de ces deux
corrélations, ils donnent une information similaire.
CHAPITRE 10 LA REGRESSION
L’objectif primordial de l’analyse de la régression est de prédire ou estimer la valeur

d’une variable (la variable dépendante), sur base de la valeur d’une autre variable
(variable indépendante), lorsque les deux variables sont en relations. La variable que l’on
cherche à prévoir est appelée aussi variable expliquée. La variable ou les variables
utilisées pour prévoir la valeur de la variable dépendante sont appelées aussi variable
explicatives. Le résultat de la régression est une équation représentant la meilleure
estimation d’une variable dépendante sur base des plusieurs variables indépendantes.
L’analyse de la régression est utilisée lorsque les variables indépendantes sont corrélées

45
entre-elles ainsi qu’avec la variable dépendante. Les variables indépendantes peuvent

être continues ou nominales. Dans les cas des variables nominales on doit les coder
comme des dummy (coder la variable en deux assertions possibles même si avant la
variable était constituée de trois ou plusieurs assertions. Généralement on utilise 0 et 1).
Par contre la variable dépendante doit être mesurée sur une échelle de rapport ou de
ratio.
10.1. Régression linéaire simple
L’analyse de la corrélation permet de mesure le degré d’association existant entre

les variables dépendante et indépendante. La corrélation n’indique pas la variable
prédisant l’autre. Pour faire cela il faut utiliser la régression linéaire simple. Cette
régression est faite lorsque les variables sont distribuées normalement.
Ex : Pouvons-nous prédire le niveau de salaire atteint sur base de l’ancienneté.
- Cliquez sur « Analyse » → «Régression» → « Linéaire.»
- Sélectionnez la variable valmaiso et déplacez-la dans la zone « variable

dépendante »
- Sélectionnez la variable salaire et déplacez-la dans la zone « variable
indépendante « variables explicatives » et cliquez enfin sur OK
Le résultat obtenu est le suivant :
Variables introduites/éliminées (b)

Modèle Variables introduites Variables éliminées Méthode
1 Salaire (a) , Introduire
(a) Toutes variables requises introduites
(b) Variable dépendante : Valeur maison en milliers de franc
46
Récapitulatif du modèle (a)

Modèle R R-deux R-deux ajusté Erreur standard
de l'estimation
1 ,710 ,504 ,497 40,15
(a) Valeurs prédites : (constantes), Salaire en milliers de franc
La variable indépendante (salaire) explique 50.4% de la variance (R-deux) dans la

valeur de la maison. Cela est hautement significatif comme nous le voyons avec la valeur
du test d’ANOVA F de 69.077 ci-dessous. Il faut aussi notez que la valeur de R
correspond au coefficient de corrélation de Spearman.
ANOVA
Modèle Somme des ddl Carré F Signification
carrés moyen
1 Régression 111361,806 1 111361,806 69,077 ,000 (a)
Résidu 109625,065 68 1612,133
Total 220986,871 69
(a) Valeurs prédites : (constantes), Salaire en milliers de franc
(b) Variable dépendante : Valeur maison en milliers de franc
Ceci est le coefficient de régression et

représente la pente de la droite de régression. Il
n’est pas égal au coefficient de corrélation.
Coefficients (a)
Coefficients
Coefficients
non
Modèle standardisés
standardisés T Signification
Erreur
B Bêta
standard
1 (constante) 100,172 16,313 6,140 ,000
Salaire 1,756 ,211 ,710 8,311 ,000
(a) Variable dépendante : Valeur maison en milliers de franc

Comme dit plus haut, le coefficient non standardisé représente la pente de la
meilleure droite de régression pour le diagramme de dispersion de deux variables et
montre l’association ou liaison entre ces deux variables. Il permet d’avoir une formule que
quelqu’un peut utiliser pour prédire la valeur de Y (variable dépendante) sur base de la
valeur de X (variable indépendante). Par conséquent si quelqu’un ne connait pas la valeur
de Y, cette formule permettra de trouver cette valeur sur base de la valeur de X. Par
exemple, si nous voulons estimer la valeur de la maison connaissant seulement le salaire
de l’employé, nous pourrions utiliser la droite de régression : valeur estimée de la maison
= 100.172 + 1.756 X (le salaire de l’employé).

47
Cependant on doit faire attention en utilisant cette estimation car le salaire explique
seulement 50.4% de la variance dans la valeur de la maison. Par conséquent l’estimation
ne sera pas très précise.
Le coefficient standardisé est égal au coefficient de corrélation entre ces deux
variables.
10.2. Régression multiple
Le but de la régression multiple est similaire à celui de la régression linéaire à la

seule différence que l’on a plusieurs variables indépendantes ou prédicateurs. Il existe
plusieurs conditions à considérer pour faire la régression multiple. Parmi ces conditions :
- Une corrélation linéaire entre la variable prédictive et la variable dépendante.
- Les erreurs doivent être normalement distribuées
- Multicollinéarité et singularité. La multicollinéarité fait référence à une forte
corrélation entre les variables indépendantes alors que la singularité apparait
lorsqu’il existe une corrélation parfaite entre les variables indépendantes. Ces
problèmes affectent la manière dont vous pouvez interpréter les relations entre les
variables indépendantes et peuvent être détectées par l’examen de la matrice de
corrélation.

48
APPLICATION : LUBUMBASHI STUDY
Une large entreprise se trouve à 10 km de Lubumbashi. L’entreprise a presque 4000 employés dont
3250 ont été avec l’entreprise pendant au moins 10 ans et possèdent chacun sa propre maison. La firme
veut développer le profile de ces 3250 employés en y incorporant un certain nombre des variables et
attributs. 70 employés de ce groupe sont choisis aléatoirement. Les données des variables suivantes
proviennent de ces 70 employés.
X1 = sexe de l’employé. 0. Femelle 1. Male
X2 = salaire en milliers de franc
X3 = groupe d’âge
1. 20 – 29 ans 2. 30 – 39 ans 3.40 – 49 ans 5.Plus de 50 ans
X4 = nombre de chambres dans la maison
X5 = valeur de la maison en milliers de franc
X6 = Distance en km de la maison au lieu de travail
X7 = nombre de personnes dans la famille
X8 = Education de l’employé
1. Primaire 2. Secondaire 3. Gradue 4. Licencie 5.Docteur
X9 = Confession religieuse
1. Catholique 2. Protestante 3.Adventiste 4.Autres
X10 = nombre de jours de maladie pendant l’année précédente
X11 = Nombre d’années au sein de l’entreprise
1. Moins de 5 ans 2.5 à 10 ans 3.10 à 15 ans 4.15 à 20 ans
5. Plus de 20 ans
Les données récoltées sont les suivantes :
sexe Salaire age nchambre valmaiso distmais npersfam etude religion jrmaladi Ancienet
1 52 2 2 150 18 3 3 4 10 3
0 40 1 2 145 10 2 3 2 11 1
1 73 3 3 190 15 3 4 3 8 3
1 80 3 4 230 10 4 4 4 12 2
0 37 1 2 140 12 3 3 2 15 1
1 68 2 3 180 6 2 3 1 10 2
0 45 2 2 160 12 3 3 2 15 1
1 120 4 4 250 8 4 4 3 10 2
1 120 4 3 220 11 3 5 2 10 5
1 95 3 3 200 25 3 4 3 4 3
0 52 2 2 172 10 4 3 4 12 1
0 75 2 3 200 5 3 3 2 0 2
1 90 3 4 250 17 4 5 3 15 3
0 47 2 2 180 15 3 2 1 10 2
1 80 3 4 260 10 4 4 4 10 3
1 100 4 4 250 8 4 4 4 8 4
1 110 2 3 230 12 3 5 3 9 3
0 50 1 3 180 8 2 4 1 10 2
0 75 3 4 280 20 3 4 4 20 3
1 72 3 3 200 6 3 3 1 15 3
0 35 1 2 120 25 1 2 2 5 1
1 82 4 4 250 17 5 4 4 0 3
1 65 2 3 200 10 3 4 2 7 2
1 82 3 4 280 9 3 5 2 0 3
1 49 1 3 160 20 1 4 3 5 1
1 95 4 5 300 15 4 3 4 11 4
49
0 52 2 3 192 15 3 3 1 8 3
0 32 2 2 130 26 2 1 2 4 1
1 65 2 3 180 18 3 3 4 10 2
1 70 2 3 200 15 2 4 3 12 2
1 80 3 3 200 15 2 4 3 10 3
1 100 4 4 250 10 4 4 2 8 4
1 85 4 4 270 12 3 3 4 10 4
0 45 2 3 190 12 2 3 2 16 3
0 60 2 3 200 15 3 3 4 12 2
0 57 2 3 172 17 3 3 2 8 2
0 82 3 4 200 27 4 4 3 10 3
1 107 4 4 280 12 4 4 4 8 4
1 110 4 5 310 10 3 4 3 0 4
1 105 3 4 292 12 2 5 1 15 5
0 97 4 3 220 35 3 3 1 12 3
0 72 3 3 210 27 2 2 2 10 3
1 80 4 3 250 11 2 3 4 4 2
0 66 2 3 300 30 2 5 4 0 3
0 55 2 3 210 27 3 3 3 0 2
1 85 3 4 280 10 2 4 1 20 3
0 45 1 2 160 30 2 4 2 12 1
1 40 1 2 180 20 2 4 3 7 1
1 77 2 3 240 15 3 5 4 5 2
1 80 3 4 320 6 3 5 3 5 2
0 85 4 3 275 18 4 4 4 12 3
0 48 2 3 200 12 3 3 1 10 2
1 70 3 3 190 10 4 4 1 8 2
1 84 3 4 310 5 5 5 2 16 5
1 92 4 3 220 32 3 4 4 12 4
1 125 4 4 350 15 2 4 3 6 5
1 112 4 4 320 12 3 4 2 10 5
0 90 4 3 280 10 4 3 3 0 4
0 57 1 3 240 18 2 5 2 0 2
1 75 1 3 260 12 2 5 4 7 1
0 49 2 3 210 10 3 4 3 12 2
1 85 3 4 280 7 4 3 2 8 4
1 85 4 4 300 20 4 4 3 8 5
0 72 3 3 240 20 3 4 4 10 4
1 100 4 4 375 7 3 5 3 5 4
0 77 4 4 320 25 5 3 4 10 5
1 32 1 2 160 30 2 4 2 15 1
0 54 2 3 260 20 3 3 1 6 2
1 68 2 4 300 12 3 4 3 0 2
1 70 3 3 180 10 3 3 2 14 3

50
APPLICATION 2 : UNILUK STUDY
Les items suivant mesurent la motivation des étudiants de G2 économie à résoudre des
problèmes de statistique.
1. Je m’exerce en statistique jusqu'à ce-que je maitrise la procédure
2. Je me décourage très facilement au lieu de persévérer si un problème de
statistique est très difficile
3. Je préfère découvrir de moi-même comment résoudre un problème sans demander
de l’aide
4. Je ne patiente pas pour longtemps si un problème est trop difficile
5. J’explore toutes les solutions possibles à un exercice complexe de statistique avant
de passer à un autre exercice.
Il était demandé à ces étudiants d’indiquer leur niveau d’accord ou de désaccord
avec les affirmations précédentes. Les niveaux à mettre a cote de chaque affirmation sont
les suivants : 1. Très en désaccord 2. Désaccord 3. Neutre 4. D’accord 5.
Très d’accord
Les résultats de 20 de ces étudiants sont les suivants :
EtatCivil Sexe Item1 Item2 Item3 Item4 Item5
M M 3 4 4 3 4
C M 4 3 5 2 3
M M 3 2 4 4 5
C F 4 4 3 3 5
M F 5 5 4 2 5
C F 4 4 5 3 4
M M 3 3 4 4 3
V M 5 2 3 3 4
M F 5 2 2 2 5
V F 4 2 3 5 4
M M 4 3 4 3 3
C M 5 4 5 2 4
V F 5 3 4 2 5
C F 4 4 5 4 4
M M 2 3 4 5 3
C M 3 4 5 3 4
M F 3 3 4 2 5
V F 4 4 3 4 4
V F 2 4 3 4 3
C F 4 3 4 3 3
M F 5 4 5 2 4
M M 5 3 4 2 5
M M 4 4 5 4 4
C F 2 3 4 5 3
C F 3 4 5 3 4
V M 3 3 4 2 5
V M 4 4 3 4 4
M F 2 4 3 4 3

51
TABLE DE MATIERES
CHAPITRE UN ........................................................................................................ Erreur ! Signet non défini.

INTRODUCTION GENERALE.............................................................................. Erreur ! Signet non défini.
CHAPITRE TROIS ................................................................................................. Erreur ! Signet non défini.
LES GRANDES LOIS DES DISTRIBUTIONS DES PROBABILITES ............ Erreur ! Signet non défini.
CHAPITRE QUATRE ............................................................................................. Erreur ! Signet non défini.
ECHANTILLONNAGE ET DISTRIBUTION D’ECHANTILLONAGE ............... Erreur ! Signet non défini.
CHAPITRE CINQ .................................................................................................... Erreur ! Signet non défini.
THEORIE STATISTIQUE DE L’ESTIMATION DES PARAMETRES ............. Erreur ! Signet non défini.
CHAPITRE SIX ....................................................................................................... Erreur ! Signet non défini.
TEST D’HYPOTHESE I: TESTS D’UN SEUL ECHANTILLON (n≥30) .......... Erreur ! Signet non défini.
CHAPITRE SEPT ................................................................................................... Erreur ! Signet non défini.
TEST D’HYPOTHESE II: TEST DE DEUX ECHANTILLONS (n≥30) ............ Erreur ! Signet non défini.
CHAPITRE HUIT .................................................................................................... Erreur ! Signet non défini.
TEST D’HYPOTHESES III: PETITS ECHANTILLONS (n<30)........................ Erreur ! Signet non défini.
CHAPITRE NEUF ................................................................................................... Erreur ! Signet non défini.
TEST D’HYPOTHESES IV: COMPARAISON DES PLUSIEURS FREQUENCES ..Erreur ! Signet non
défini.
TEST DU KHI-DEUX (χ2) ...................................................................................... Erreur ! Signet non défini.
CHAPITRE DIX ....................................................................................................... Erreur ! Signet non défini.
TEST D’HYPOTHESES V: COMPARAISON DES PLUSIEURS MOYENNES ........Erreur ! Signet non
défini.
TEST DE L’ANALYSE DE LA VARIANCE (ANOVA) ........................................ Erreur ! Signet non défini.
CHAPITRE ONZE................................................................................................... Erreur ! Signet non défini.
TESTS NON PARAMETRIQUES ........................................................................ Erreur ! Signet non défini.
CHAPITRE DOUZE ................................................................................................ Erreur ! Signet non défini.
REGRESSION ET CORRELATION LINEAIRE ................................................. Erreur ! Signet non défini.
DEUXIEME PARTIE........................................................................................................................................1
INTRODUCTION A SPSS ..............................................................................................................................1
CHAPITRE 1 INTRODUCTION A SPSS .....................................................................................................1
CHAPITRE 2 : OBTENTION DES DONNEES ............................................................................................4
CHAPITRE 3 TRANSFORMATION DES DONNEES ..............................................................................11
CHAPITRE 4 LES STATISTIQUES DESCRIPTIVES ..............................................................................17
52
CHAPITRE 5 LE TEST STATISTIQUE T DE STUDENT ........................................................................21

CHAPITRE 6 LE TEST DE KHI-DEUX ......................................................................................................24
CHAPITRE 7 TEST D’ANOVA ....................................................................................................................28
CHAPITRE 8 LES TESTS NON PARAMETRIQUES ..............................................................................33
CHAPITRE 9 CORRELATION.....................................................................................................................39
CHAPITRE 10 LA REGRESSION...............................................................................................................44
TABLE DE MATIERES .................................................................................................................................51


Cours SPSS - Docx - Copie

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours SPSS - Docx - Copie

Transféré par

Droits d'auteur :

Formats disponibles

Traitement de données statistiques avec SPSS

Collection de Jacques Munaha/L2 ISTM-Bbo/2019

Il existe une diversité des logiciels d’analyse de données statistiques. On distingue

CHAPITRE 1 INTRODUCTION A SPSS

Il s’agita d’une introduction à SPSS Windows 10.0. Ce chapitre adresse les

1.1. Démarrage et fermeture de SPSS

Fermeture de la session SPSS

- Vous pouvez cliquez Oui ou Non. Cela va mettre fin a la session.

1.2. L’environnement SPSS

2) Le viewer et le draftviewer. Il permet a ce que vous puissiez visualisez les

Traitement de données statistiques avec SPSS

1.3. Les menus SPSS

CHAPITRE 2 : OBTENTION DES DONNEES

Les données utilisées en SPSS peuvent être entrées de plusieurs façons. La

2.1. Importer des données

Obtention des données à partir d’une base de données

2.2. Editeur des données

Traitement de données statistiques avec SPSS

L’Editeur de données permet d’afficher les données de deux façons :

2.2.1. Codage du questionnaire

2.2.2. Vérification des inconsistances sur les différents questionnaires

2.2.3. Définition des variables

Traitement de données statistiques avec SPSS

2.2.4. Règles d’appellation des variables

2.2.5. Valeurs manquantes

Traitement de données statistiques avec SPSS

2.2.6. Affectation des attributs d’une variable à d’autres variables

2.2.7. Insertion et suppression des variables et observations

2.2.8. Déplacer des variables

2.2.9. Enregistrement du fichier des données

2.2.10. Ouverture d’un fichier des données

Traitement de données statistiques avec SPSS

Traitement de données statistiques avec SPSS

CHAPITRE 3 TRANSFORMATION DES DONNEES

3.1. Erreurs dans la saisie des données

3.2. Evaluation de la normalité

Traitement de données statistiques avec SPSS

pour tester aussi la normalité. Il s’agit du test de Kolmogorov-Smirnov avec le seuil de

a) La normalité par les diagrammes

La boîte à moustache résume l’information d’une distribution et contient la

Traitement de données statistiques avec SPSS

b) La normalité par les statistiques

3.3. Transformation d’une variable

3.4. Transformation des données

Traitement de données statistiques avec SPSS

- Recoder les items formulés négativement

a) Transformation d’une variable continue en catégories

- Sélectionner dans la liste des variables la variable a recoder et insérer la dans la

- Cliquez alors sur « Anciennes et nouvelles valeurs » pour ouvrir la boîte de

Traitement de données statistiques avec SPSS

b) Recoder les items formulés négativement

3.5. Calcul d’une variable

Traitement de données statistiques avec SPSS

Dans le cadre de l’UNILUK STUDY (Application 2), nous allons mesurer la

3.7. Sélection des données

Traitement de données statistiques avec SPSS

CHAPITRE 4 LES STATISTIQUES DESCRIPTIVES

4.1. La distribution des fréquences

Traitement de données statistiques avec SPSS

4.2. Mesures de tendance centrale et de variabilité

La procédure « Fréquences… » (du sous-menu « statistiques descriptives ») du

Traitement de données statistiques avec SPSS

Le résultat obtenu dans le Viewer SPSS est le suivant :