Statistique Computationnelle Avec Spss

HAUTE ECOLE DE COMMERCE ET DE MANAGEMENT
HECM
STATISTIQUE COMPUTATIONNELLE AVEC SPSS
MASTER 1
Enseignant : LOKOSSOU Durand
Ingénieur Statisticien Economiste
+229 96867286
Email : durandlokossou@gmail.com
2020-2021
SOMMAIRE
CHAPITRE 1. INTRODUCTION __________________________________________________________ 4
1.1 Fichiers d'exemple _________________________________________________________________ 4
1.2 Ouverture d'un fichier de données ___________________________________________________ 4
1.3 Création de graphiques _____________________________________________________________ 9
CHAPITRE 2. LECTURE DES DONNEES __________________________________________________ 11
2.1 Structure de base d'un fichier de données IBM SPSS Statistics _________________________ 11
2.2 Lecture des fichiers de données IBM SPSS Statistics __________________________________ 11
2.3 Lecture des données Excel __________________________________________________________ 12
2.4 Lecture de données à partir d'un fichier texte _________________________________________ 15
CHAPITRE 3. UTILISATION DE L'EDITEUR DE DONNEES_________________________________ 19
3.1 Saisie de données numériques ______________________________________________________ 19
3.2 Saisie de données chaîne _______________________________________________________ 21
3.3 Définition de données _____________________________________________________________ 22
CHAPITRE 4. EXAMEN DES STATISTIQUES RECAPITULATIVES POUR ____________________ 27
CHAQUE VARIABLE ___________________________________________________________________ 27
4.1 Niveau de mesure _________________________________________________________________ 27
4.2 Mesures récapitulatives pour données catégorielles ___________________________________ 27
4.3 Graphiques pour données catégorielles ______________________________________________ 29
4.4 Mesures récapitulatives pour variables d'échelle ______________________________________ 29
4.5 Histogrammes pour variables d'échelle ______________________________________________ 30
CHAPITRE 5. CREATION ET MODIFICATION DE GRAPHIQUES ___________________________ 32
5.1 Définition des variables et des statistiques ___________________________________________ 33
5.2 Ajout de texte _____________________________________________________________________ 34
CHAPITRE 6 UTILISATION DE LA SORTIE ______________________________________________ 37
6.1 Utilisation du visualiseur __________________________________________________________ 37
6.2 Utilisation de l'éditeur de tableau croisé dynamique __________________________________ 38
CHAPITRE 7 : LES TESTS D’HYPOTHÈSE _________________________________________________ 39
1.1 Principe d’un test d’hypothèse __________________________________________________ 39
7.2 Définition des concepts utiles a l’élaboration des tests d’hypothèse____________________ 39
CHAPITRE 8 : TEST DE CORRÉLATION __________________________________________________ 42
8.1 Rappel théorique _________________________________________________________________ 42
8.2 Hypothèses du test de corrélation ___________________________________________________ 42
8.3 Interprétation du coefficient de corrélation de Pearson ________________________________ 42
8.4 Procédure SPSS pour le test de corrélation ___________________________________________ 43
Page | 2
+229 96867286
8.5 Résultat de la corrélation ___________________________________________________________ 45

CHAPITRE 9 : TEST T POUR ÉCHANTILLONS INDÉPENDANTS____________________________ 46
9.1 Rappel théorique _________________________________________________________________ 46
9.2 Hypothèses du test de comparaison de moyenne ______________________________________ 46
9.3 Prémisses du test t indépendant ____________________________________________________ 46
9.4 Interprétation du degré de signification _____________________________________________ 46
9.5 Au-delà de la signification statistique : la taille de l'effet_______________________________ 47
9.6 Procédure SPSS _______________________________________________________________ 47
9.7 Résultats du test de comparaison des moyennes. _____________________________________ 49
9.8 Résultat du test t __________________________________________________________________ 51
CHAPITRE 10 : ANALYSE DE VARIANCE _________________________________________________ 53
10.1 Rappel théorique_________________________________________________________________ 53
10.2 Hypothèses du test ANOVA_______________________________________________________ 53
10.3 Prémisses du test d’analyse de variance _____________________________________________ 53
10.4 Test de l’hypothèse nulle _________________________________________________________ 54
10.5 La distribution F _________________________________________________________________ 54
10.6 Comparaisons multiples __________________________________________________________ 55
10.7 Au-delà de la signification statistique : la taille de l’effet _____________________________ 55
10.8 Procédure du test ANOVA dans SPSS ______________________________________________ 56
Page | 3
+229 96867286
STATISTIQUE COMPUTATIONNELLE AVEC SPSS CHAPITRE 1. INTRODUCTION
CHAPITRE 1. INTRODUCTION
Le présent cours est inspiré du guide d’utilisation de SPSS 24. Il est conçu pour vous apporter
une aide étape par étape. Tous les fichiers mentionnés dans les exemples sont installés avec
l'application pour vous permettre de suivre la démonstration tout en effectuant les mêmes
analyses et en obtenant les mêmes résultats que ceux qui apparaissent ici.
1.1 Fichiers d'exemple

La plupart des exemples présentés ici utilisent le fichier de données demo.sav. Ce fichier de
données est une enquête factice menée auprès de plusieurs milliers de personnes, contenant
des informations démographiques et relatives à la consommation.
1.2 Ouverture d'un fichier de données

Ouvrir un fichier de données :
1. A partir des menus, sélectionnez :
Fichier > Ouvrir > Données...
Une boîte de dialogue d'ouverture des fichiers apparaît.
Par défaut, les fichiers de données IBM® SPSS Statistics (extension .sav) apparaissent.
Cet exemple utilise le fichier demo.sav.
Figure 1 : Fichier demo.sav dans Editeur de données
Page | 4
+229 96867286
Par défaut, les valeurs de données réelles sont affichées. Pour afficher les libellés :

Affichage > Libellés de valeurs
Figure 2 : Bouton Libellés de valeurs
Vous pouvez également utiliser le bouton Libellés de valeurs dans la barre d'outils en faisant :
Affichage > Libellés de valeurs
Figure 3 : Libellés de valeurs affichés dans l'éditeur de données
Des libellés de valeurs descriptifs s'affichent pour faciliter l'interprétation des réponses.
Page | 5
+229 96867286
Figure 4 : Affichage des libellés de valeurs.
Exécution d'une analyse

Nous commencerons par créer une simple table de fréquences. Cet exemple nécessite
l'option Statistiques de base.
Analyse > Statistiques descriptives > Fréquences...
La boîte de dialogue Effectifs s'affiche.
Page | 6
+229 96867286
Figure 5 : Boîte de dialogue Effectifs
Une icône à côté de chaque variable fournit des informations sur le type de données et le
niveau de mesure.
Si le libellé et/ou le nom de la variable apparaît tronqué dans la liste, le libellé ou le nom
complet est affiché lorsque vous placez le curseur dessus.
Dans la boîte de dialogue, choisissez les variables à analyser dans la liste source à gauche et
faites-les glisser dans la liste des variables à droite. Le bouton OK, qui exécute l'analyse, est
désactivé jusqu'à ce qu'une variable soit placée dans la liste Variable(s).
2. Cliquez sur Sexe [gender] dans la liste des variables source, puis faites glisser la variable
dans la liste cible Variable(s).
3. Cliquez sur Catégorie de revenus en milliers [incat] dans la liste source, puis faites-la
glisser vers la liste cible.
Page | 7
+229 96867286
1.
Figure 6 : Variables sélectionnées pour l'analyse
4. Cliquez sur OK pour exécuter la procédure.

Les résultats sont affichés dans la fenêtre du visualiseur.
Figure 7 : Table de fréquences du Sexe et des catégories de revenus.
Page | 8
+229 96867286
1.3 Création de graphiques

Bien que certaines procédures statistiques puissent créer des graphiques, vous pouvez
également utiliser le menu Graphes pour la création de graphiques.
Créons un graphique montrant la relation entre l'utilisation de services de téléphonie sans fil
et la propriété d'un agenda électronique.

Graphes > Générateur de graphiques...
Figure 8 : Boîte de dialogue Générateur de graphiques avec des zones d'insertion complétées
2. Cliquez sur l'onglet Galerie (s'il n'est pas sélectionné).

3. Cliquez sur Barre (s'il n'est pas sélectionné).
Page | 9
+229 96867286
4. Faites glisser l'icône Bâtons juxtaposés sur le canevas, qui est la zone étendue au-dessus
de la galerie.
5. Faites défiler la liste Variables et cliquez avec le bouton droit de la souris sur Service
sans fil [WiFi] et sélectionnez Nominales comme niveau de mesure.
6. Faites glisser la variable Service sans fil [WiFi] dans l'axe des X.
7. Cliquez avec le bouton droit de la souris sur Possède un agenda électronique [pda] et
sélectionnez Nominales comme niveau de mesure.
8. Faites glisser la variable Possède un agenda électronique [pda] dans la zone d'insertion de
cluster dans le coin supérieur droit du canevas.
9. Cliquez sur OK pour créer le graphique.
Figure 9 : Graphique à barres affiché dans la fenêtre du visualiseur
Le graphique à barres est affiché dans le visualiseur. Le graphique indique que la proportion
de personnes possédant un agenda électronique est plus importante chez les personnes
utilisant un service de téléphonie sans fil.
Vous pouvez modifier les graphiques et les tableaux en double-cliquant dessus dans le
panneau de contenu de la fenêtre visualiseur et vous pouvez copier-coller vos résultats dans
d'autres applications.
Page | 10
+229 96867286
STATISTIQUE COMPUTATIONNELLE AVEC SPSS CHAPITRE 2. LECTURE DES DONNEES
CHAPITRE 2. LECTURE DES DONNEES
Les données peuvent être saisies directement ou importées à partir de sources différentes. Ce
chapitre traite des processus de lecture de données stockées dans les fichiers de données IBM
SPSS Statistics, dans des applications de feuilles de calcul telles que Microsoft Excel, dans les
applications de base de données telles que Microsoft Access et dans des fichiers texte.
2.1 Structure de base d'un fichier de données IBM SPSS Statistics
Figure 10 : Editeur de données
Les fichiers de données IBM SPSS Statistics sont organisés par observations (lignes) et par
variables (colonnes). Dans ce fichier de données, les observations représentent des répondants
dans le cadre d'une enquête. Les variables représentent des réponses à chaque question posée au
cours de l'enquête.
2.2 Lecture des fichiers de données IBM SPSS Statistics
Les fichiers de données IBM SPSS Statistics, portant l'extension de fichier .sav, contiennent les
données que vous avez enregistrées.

Fichier > Ouvrir > Données...
Les données sont affichées dans l'éditeur de données.
Page | 11
+229 96867286
Figure 11 : Fichier de données ouvert
2.3 Lecture des données Excel

L’on peut importer directement un fichier de données au format d’Excel et lire les en-tête de
colonne comme noms de variables.

Fichier > Importer des données > Excel
3. Accédez au dossier Samples\English et sélectionnez demo.xlsx.

La boîte de dialogue Lire le fichier Excel contient un aperçu du fichier de données. Le contenu de
la première feuille du fichier est affiché. Si le fichier contient plusieurs feuilles, vous pouvez
sélectionner la feuille dans la liste.
Vous constatez que certaines valeurs de chaîne de Sexe sont précédées par des espaces. Certaines
des valeurs de Situationfamiliale sont affichées sous forme de points (.).
Page | 12
+229 96867286
Figure 12 : Boîte de dialogue Lire le fichier Excel
4. Vérifiez que l'option Lire les noms de variable à partir de la première ligne de données
est sélectionnée. Les en-têtes de colonne qui ne sont pas conformes aux règles de
dénomination de variables sont convertis en noms de variable valides. Les en-têtes de
colonne d'origine sont enregistrés en tant que libellés de variable.
5. Sélectionnez Retirer les espaces au début des valeurs de type chaîne.
6. Désélectionnez Pourcentage de valeurs qui détermine le type de données.
Page | 13
+229 96867286
7.
La valeur de chaîne "no answer" figure maintenant dans les cellules identifiées comme valeurs
système manquantes. S'il n'y a pas de paramètre de pourcentage de valeur est si la colonne
contient plusieurs types de données, la variable est lue comme une chaîne. Toutes les valeurs sont
conservées, mais les valeurs numériques sont traitées comme des chaînes.
8. Sélectionnez (cochez) Pourcentage de valeurs qui détermine le type de données pour

traiter Situationfamiliale comme une variable numérique.
9. Cliquez sur OK pour lire le fichier Excel.
Les données apparaissent à présent dans l'Editeur de données, les en-têtes de colonne étant
utilisés comme noms de variable. Les noms de variable ne pouvant pas contenir des espaces, les
espaces des en-têtes de colonne d'origine sont supprimés. Ainsi, l'en-tête de colonne "Situation
familiale" devient Situationfamiliale lorsqu'il est converti en variable. L'en-tête de colonne
d'origine est conservé comme libellé de variable.
Page | 14
+229 96867286
Figure 13 : Données Excel importées
2.4 Lecture de données à partir d'un fichier texte
Les fichiers texte représentent une autre source commune de données. De nombreux tableurs et
bases de données peuvent enregistrer leur contenu dans l'un des nombreux formats de fichier
texte. Les fichiers délimités par une virgule ou une tabulation se rapportent aux lignes de données
utilisant des virgules ou des tabulations pour indiquer chaque variable. Dans cet exemple, les
données sont délimitées par des tabulations.

Fichier > Importer des données > Données texte
2. Accédez au dossier Samples\English et sélectionnez demo.txt.

L'assistant d'importation de texte vous guide dans le processus de définition de l'interprétation
du fichier texte indiqué.
Page | 15
+229 96867286
Figure 14 : Assistant d'importation de texte - Etape 1 sur 6
3. A l'étape 1, vous pourrez sélectionner un format prédéfini ou créer un format dans

l'Assistant.
10. Sélectionnez Non.
4. Cliquez sur Suivant pour continuer.
Comme indiqué précédemment, ce fichier utilise un format délimité par des tabulations. En outre,
les noms de variable sont définis sur la première ligne de ce fichier.
5. A l'étape 2 de l'assistant, sélectionnez Délimité pour indiquer que le format du fichier est
structuré.
6. Sélectionnez Oui pour indiquer que des noms de variable figurent en haut du fichier.
8. A l'étape 3, saisissez 2 pour le numéro de la ligne à partir de laquelle commence la
première. observation de données (compte tenu que les noms de variable se trouvent sur
la première ligne).
9. Conservez les valeurs par défaut des autres champs de cette étape et cliquez sur Suivant
pour continuer.
L'aperçu des données à l'étape 4 permet de vérifier que le fichier peut être lu correctement.
10. Sélectionnez Tabulation et décochez les autres options de délimiteur. Barre d’espace est
sélectionné par défaut car le fichier contient des espaces. Pour ce fichier, les espaces font
partie des valeurs de données, et non des délimiteurs. Vous devez désélectionner Espace
pour lire le fichier correctement.
11. Sélectionnez Retirer les espaces au début des valeurs de type chaîne. Les espaces situés
au début des valeurs de chaîne affectent la manière dont les chaînes sont évaluées dans
Page | 16
+229 96867286
les expressions. Dans ce fichier, certaines valeurs de Sexe sont précédées d'espaces qui ne
font pas partie de la valeur. Si vous ne les retirez pas, la valeur " f" est traitée comme autre
chose que "f".
Figure 15 : Assistant d'importation de texte - Etape 4 sur 6

Parce que les noms de variable sont modifiés de manière à respecter les règles de dénomination,
l'étape 5 vous donne la possibilité de modifier les noms de votre choix. Vous pouvez également
définir les types de données dans cette boîte de dialogue. Par exemple, vous pouvez remplacer
income par le format de la devise dollar.
Pour modifier un type de données :
13. Dans Aperçu des données, sélectionnez income.

14. Sélectionnez Dollar dans la liste déroulante Format des données.
Page | 17
+229 96867286
Figure 16 : Sélectionnez le type de données.
La variable Status contient à la fois des valeurs de chaîne et des valeurs numériques.
Moins de cinq pourcent des valeurs sont des chaînes. Avec la valeur de 95 % pour le paramètre
Pourcentage de valeurs qui détermine le format de données automatique, la variable est traitée
comme une valeur numérique, et les valeurs de chaîne sont définies comme Valeur système
manquante. Si aucun format de données n'atteint ce pourcentage, la variable est traitée comme
une chaîne. Si vous remplacez cette valeur par 100, toutes les valeurs sont conservées, mais toutes
les valeurs numériques sont traitées comme des chaînes.

16. Conservez les sélections par défaut à la dernière étape, puis cliquez sur Terminer pour
importer les données.
Page | 18
+229 96867286
STATISTIQUE COMPUTATIONNELLE AVEC SPSS CHAPITRE 3. UTILISATION DE L'EDITEUR DE DONNEES
CHAPITRE 3. UTILISATION DE L'EDITEUR DE DONNEES
Cette fenêtre affiche le contenu du fichier de données actif. Les informations contenues dans
l'éditeur de données se composent de variables et d'observations.
 Dans Vue de données, les colonnes représentent des variables et les lignes des
observations.
 Dans la vue de variable, chaque ligne est une variable et chaque colonne est un attribut
associé à cette variable.
Les variables sont utilisées pour représenter les différents types de données que vous avez
rassemblées. Une analogie courante est celle de l'enquête. La réponse à chaque question d'une
enquête est équivalente à une variable. Il existe de nombreux types de variable : nombres,
caractères, monnaies et dates.
3.1 Saisie de données numériques
Les données peuvent être saisies dans l'éditeur de données, qui peut s'avérer utile pour traiter les
fichiers de données peu volumineux ou pour apporter de légères modifications à des fichiers de
données plus volumineux.
1. Cliquez sur l'onglet Vue de variable en bas de la fenêtre de l'éditeur de données.

Vous devez définir les variables qui seront utilisées. Dans cet exemple, seules trois variables sont
nécessaires : âge, situation familiale et income.
Figure 17 : Noms de variable dans la vue de variable
2. Dans la première ligne de la première colonne, saisissez age.
Page | 19
+229 96867286
3. Dans la deuxième ligne, saisissez marital.

4. Dans la troisième ligne, saisissez revenu.
Un type de données numérique est automatiquement attribué aux nouvelles variables.
Si vous ne saisissez pas de noms de variable, des noms uniques sont automatiquement créés.
Cependant, ces noms ne sont pas descriptifs et ne sont pas recommandés pour les fichiers de
données volumineux.
5. Cliquez sur l'onglet Vue de données pour continuer à saisir des données.
Les noms saisis dans la vue de variable sont à présent les en-têtes des trois premières colonnes
dans Vue de données. Commencez à saisir des données dans la première ligne, en commençant
par la première colonne.
age marital income

55 1 72 000
53 0 153 000
Figure 18 : Valeurs entrées dans Vue de données
6. Dans la colonne âge, saisissez 55.

7. Dans la colonne marital, saisissez 1.
8. Dans la colonne income, saisissez 72000.
9. Placez le curseur dans la seconde ligne de la première colonne pour ajouter les données
du sujet suivant.
10. Dans la colonne âge, saisissez 53.
11. Dans la colonne marital, saisissez 0.
12. Dans la colonne income, saisissez 153 000.
Page | 20
+229 96867286
11. Les colonnes âge et marital affichent actuellement un séparateur décimal alors que les
valeurs sont des entiers. Pour masquer le séparateur décimal de ces variables :
14. Dans la colonne Décimales de la ligne âge, saisissez 0 pour masquer la décimale.
15. Dans la colonne Décimales de la ligne marital, saisissez 0 pour masquer la décimale.
3.2 Saisie de données chaîne
Des données non numériques, telles que des chaînes de texte, peuvent également être saisies dans
l'éditeur de données.

2. Dans la première cellule de la première ligne vide, saisissez sexe comme nom de variable.
3. Cliquez sur la cellule Type à côté de votre entrée.
4. Cliquez sur le bouton à droite de la cellule Type pour ouvrir la boîte de dialogue Type de
variable.
5. Sélectionnez Chaîne pour indiquer le type de variable.
6. Cliquez sur OK pour enregistrer votre sélection et revenir dans Editeur de données.
Figure 19 : Boîte de dialogue Type de variable.
Page | 21
+229 96867286
3.3 Définition de données
Outre les données, vous pouvez aussi définir des libellés de variables descriptifs et des libellés de
valeurs pour les noms de variables et les valeurs de données. Ces libellés descriptifs sont utilisés dans
les rapports statistiques et les graphiques.
3.3.1 Ajout des libellés de variables

Les libellés fournissent une description des variables. Ces descriptions correspondent souvent à une
version plus longue des noms de variable. Les libellés peuvent s'élever jusqu'à 255 octets. Ces libellés
sont utilisés dans les sorties pour identifier les variables différentes.
2. Dans la colonne Libellé de la ligne âge, saisissez l'âge du répondant.
3. Dans la colonne Libellé de la ligne marital, saisissez la situation familiale.
4. Dans la colonne Libellé de la ligne income, saisissez revenu du ménage.
5. Dans la colonne Libellé de la ligne sexe, saisissez le sexe du répondant
Figure 20 : Libellés de variable entrées dans la vue de variable
3.3.2 Modification du type et du format de variable

La colonne Type affiche le type de données actuel de chaque variable. Les types de données les plus
courants sont les formats numériques et chaînes, mais de nombreux autres formats sont pris en
charge.
Dans le fichier de données actuel, la variable income est définie comme étant un type numérique.
Page | 22
+229 96867286
1. Cliquez sur la cellule Type de la ligne income, puis sur le bouton à droite de la cellule pour
ouvrir la boîte de dialogue Type de variable.
2. Sélectionnez Dollar.
Figure 21 : Boîte de dialogue Type de variable
Les options de format du type de données sélectionné apparaissent.

3. Dans cet exemple, sélectionnez $###,###,### comme format de devise.
4. Cliquez sur OK pour appliquer vos modifications.
3.3.3 Ajout de libellés de valeurs

Les libellés de valeur correspondent à une façon d'associer aux valeurs de variable des libellés de
chaîne.
Dans cet exemple, il y a deux valeurs possibles pour la variable marital. La valeur 0 signifie que le
sujet est célibataire et la valeur 1 qu'il est marié.
1. Cliquez sur la cellule Valeurs de la ligne marital, puis sur le bouton à droite de la cellule pour
ouvrir la boîte de dialogue Libellés de valeur.
12. Le champ Valeur correspond à la valeur numérique réelle.
13. Le champ Libellé de valeur correspond au libellé de chaîne appliqué à la valeur numérique
indiquée.
2. Saisissez 0 dans le champ Valeur.
3. Saisissez Célibataire dans le champ Libellé.
4. Cliquez sur Ajouter pour ajouter le libellé à la liste.
Page | 23
+229 96867286
Figure 22 : Boîte de dialogue Libellés de valeurs
5. Saisissez 1 dans le champ Valeur, puis Marié dans le champ Libellé.

6. Cliquez sur Ajouter, puis sur OK pour enregistrer vos modifications et revenir dans l'éditeur
de données.
Ces libellés peuvent également apparaître dans Vue de données pour faciliter la lecture de vos
données.
7. Cliquez sur l'onglet Vue de données en bas de la fenêtre de l'éditeur de données.
8. A partir des menus, sélectionnez : Affichage > Libellés de valeurs
Les libellés figurent à présent dans une liste lorsque vous entrez des valeurs dans Editeur de données.
Cette configuration a l'avantage de proposer des réponses valides et plus descriptives.
3.3.4 Gestion des données manquantes

Les données manquantes ou non valides sont trop fréquentes pour être ignorées. Les répondants
peuvent refuser de répondre à certaines questions, ne pas connaître la réponse ou donner une réponse
dont le format est inattendu. Si vous ne filtrez ou n'identifiez pas ces données, les résultats de votre
analyse risquent d'être imprécis.
En ce qui concerne les données numériques, les champs de données vides ou contenant des entrées
non valides sont convertis en données manquantes par défaut, signalées par une virgule (Windows
français) ou un point (Windows anglais).
La raison pour laquelle une valeur est manquante peut être importante pour votre analyse. Par
exemple, vous pouvez juger utile de distinguer les personnes qui ont refusé de répondre à une
question de celles qui n'ont pas répondu car cette question ne les concernait pas.
3.3.5 Valeurs manquantes des variables numériques

2. Cliquez sur la cellule Manquante de la ligne âge, puis sur le bouton à droite de la cellule pour ouvrir
la boîte de dialogue Valeurs manquantes.
14. Dans cette boîte de dialogue, vous pouvez indiquer jusqu'à trois valeurs manquantes ou une
plage de valeurs et une valeur discrète supplémentaire.
Page | 24
+229 96867286
15.
16.
Figure 23 : Boîte de dialogue Valeurs manquantes
3. Sélectionnez Valeurs manquantes discrètes.

4. Saisissez 999 dans la première zone de texte. Ne remplissez pas les deux autres zones de texte.
5. Cliquez sur OK pour enregistrer vos modifications et revenir dans l'éditeur de données.
6. La valeur des données manquantes ayant été ajoutée, vous pouvez appliquer un libellé à cette
7. valeur.
8. Cliquez sur la cellule Valeurs de la ligne âge, puis sur le bouton à droite de la cellule pour ouvrir
la
9. boîte de dialogue Libellés de valeur.
10. Saisissez 999 dans le champ Valeur.
11. Saisissez Non répondu dans le champ Libellé.
12. Cliquez sur Ajouter pour ajouter le libellé au fichier de données.
3.3.6 Valeurs manquantes d'une variable de chaîne

Les valeurs manquantes des variables de chaîne sont gérées de la même façon que les valeurs
manquantes des variables numériques. Cependant, contrairement aux valeurs numériques, les
champs vides dans les variables de chaîne ne sont pas désignés comme données manquantes par
défaut. Ils sont interprétés comme des chaînes de caractères vides.

2. Cliquez sur la cellule Manquante de la ligne sexe, puis sur le bouton à droite de la cellule pour
ouvrir la boîte de dialogue Valeurs manquantes.
3. Sélectionnez Valeurs manquantes discrètes.
4. Saisissez NR dans la première zone de texte.
Les valeurs manquantes des variables de chaîne distinguent les majuscules des minuscules. Par
conséquent, la valeur nr n'est pas traitée comme une valeur manquante.
Page | 25
+229 96867286
Vous pouvez à présent ajouter un libellé pour la valeur manquante.

6. Cliquez sur la cellule Valeurs de la ligne sexe, puis sur le bouton à droite de la cellule pour ouvrir la
boîte de dialogue Libellés de valeur.
7. Saisissez NR dans le champ Valeur.
8. Saisissez Non répondu dans le champ Libellé.
9. Cliquez sur Ajouter pour ajouter le libellé au projet.
Page | 26
+229 96867286
CHAPITRE 4. EXAMEN DES STATISTIQUES
RECAPITULATIVES POUR CHAQUE VARIABLE
CHAPITRE 4. EXAMEN DES STATISTIQUES RECAPITULATIVES POUR

CHAQUE VARIABLE
La présente section traite des mesures récapitulatives simples et de la façon dont le niveau de mesure
d'une variable influence le type de statistiques devant être utilisé. Nous utiliserons le fichier de
données demo.sav.
4.1 Niveau de mesure
Différentes mesures récapitulatives sont adaptées à différents types de données, selon le niveau de
mesure :
Nominales : Données ayant un nombre limité de valeurs ou de catégories distinctes (par exemple,
sexe ou situation de famille). Elles sont parfois également qualifiées de données qualitatives. Les
variables catégorielles peuvent être des données chaîne (alphanumérique) ou des variables
numériques qui utilisent des codes chiffrés pour représenter les catégories (par exemple, 0 = Célibataire
et 1 = Marié). Il existe deux types essentiels de données catégorielles :
 Nominal : Données catégorielles dont les catégories n'ont aucun ordre inhérent. Par exemple,
une catégorie d'emploi de type ventes n'est pas supérieure ou inférieure à une catégorie
d'emploi de type marketing ou étude.
 Ordinal : Données catégorielles dont les catégories possèdent un ordre significatif, mais pour
lesquelles il n'existe aucune distance mesurable entre les catégories. Par exemple, les valeurs
élevée, moyenne et faible, mais il est impossible de calculer la "distance" entre ces valeurs.
Echelle : Données mesurées sur une échelle d'intervalle ou de rapport, où les valeurs de données
indiquent à la fois l'ordre des valeurs et la distance qui les sépare. Par exemple, un salaire de 580 000
FCFA est supérieur à un salaire de 420 200 FCFA et la distance entre les deux valeurs est de 159 800
FCFA. Ces données sont aussi appelées données quantitatives ou données continues.
4.2 Mesures récapitulatives pour données catégorielles
La procédure Fréquences produit des tables de fréquences qui affichent le nombre et le pourcentage
d'observations pour chaque valeur observée d'une variable.

Analyse > Statistiques descriptives > Fréquences...
Remarque : Cette fonction nécessite l'option Statistiques de base.
2. Sélectionnez Possède un agenda électronique [pda] et Possède un téléviseur [tv], et déplacez-
les vers la liste Variable(s).
Page | 27
+229 96867286
Figure 24 : Variables catégorielles sélectionnées pour l'analyse
Figure 25 : Tables de fréquences
Les tables de fréquences révèlent que seuls 20,4 % des personnes possèdent un agenda électronique,
mais que la quasi-totalité possèdent une télévision (99,0 %)
Page | 28
+229 96867286
4.3 Graphiques pour données catégorielles
Vous pouvez afficher graphiquement les informations dans une table de fréquences avec un
graphique à barres ou un graphique circulaire.
1. Ouvrez à nouveau la boîte de dialogue Fréquences. (Les deux variables doivent toujours être
sélectionnées.)
Vous pouvez utiliser le bouton Rappeler boîte de dialogue de la barre d'outils pour revenir rapidement aux
dernières procédures utilisées.
Figure 26 : Bouton Rappeler boîte de dialogue
2. Cliquez sur Graphiques.

3. Cliquez sur Graphiques à barres, puis sur Poursuivre.
4. Cliquez sur OK dans la boîte de dialogue principale pour exécuter la procédure.
Figure 27 : Graphique à barres
4.4 Mesures récapitulatives pour variables d'échelle
De nombreuses mesures récapitulatives sont disponibles pour les variables d'échelle, dont :
 Mesures de la tendance centrale : Les mesures les plus courantes de la tendance centrale sont
la moyenne (moyenne arithmétique) et la médiane (valeur au-dessus ou au-dessous de
laquelle se trouve la moitié des observations).
Page | 29
+229 96867286
 Mesures de la dispersion : Les statistiques qui mesurent la quantité de variation ou de

dispersion dans les données comprennent l'écart type, minimal et maximal.
1. Ouvrez à nouveau la boîte de dialogue Fréquences.
2. Cliquez sur Réinitialiser pour effacer les paramètres précédents.
3. Sélectionnez la variable Revenu du ménage en milliers [income] et déplacez-la dans la liste
Variable(s).
4. Cliquez sur Statistiques.
5. Sélectionnez Moyenne, Médiane, Ecart type, Minimum et Maximum.
6. Cliquez sur Poursuivre.
7. Désélectionnez Afficher les tables de fréquences dans la boîte de dialogue principale
Effectifs. (En général, les tables de fréquences ne sont pas très utiles pour les variables d'échelle
car il peut exister presque autant de valeurs distinctes que d'observations dans le fichier de
données.)
Le tableau statistique des fréquences est affiché dans la fenêtre du visualiseur.
Figure 28 : Tableau statistique des fréquences
Dans cet exemple, la différence entre la moyenne et la médiane est importante. La moyenne est plus
importante que la médiane de quasiment 25 000, ce qui indique que les valeurs ne sont pas distribuées
normalement. Vous pouvez vérifier visuellement la distribution grâce à un histogramme.
4.5 Histogrammes pour variables d'échelle

1. Ouvrez à nouveau la boîte de dialogue Fréquences.
2. Cliquez sur Graphiques.
3. Cliquez sur Histogrammes et Avec courbe gaussienne.
4. Cliquez sur Poursuivre, puis sur OK dans la boîte de dialogue principale pour exécuter la
procédure.
Page | 30
+229 96867286
Figure 29 : Histogramme
La grande majorité des observations est regroupée au bas de l'échelle, la plupart se trouvant au-
dessous de 100 000. Quelques observations, cependant, se trouvent dans la plage 500 000 et au-delà
(elles sont si peu nombreuses que vous devez modifier l'histogramme pour les voir). Ces valeurs très
élevées pour quelques observations seulement ont un effet significatif sur la moyenne mais peu
d'effet, voire aucun, sur la médiane ; cela signifie que, dans cet exemple, la médiane est un meilleur
indicateur de la tendance centrale.
Page | 31
+229 96867286
CHAPITRE 5. CREATION ET MODIFICATION DE
GRAPHIQUE
CHAPITRE 5. CREATION ET MODIFICATION DE GRAPHIQUES
Dans ce chapitre, nous allons créer et modifier des graphiques à barres. Vous pouvez appliquer les
principes à n'importe quel type de graphique.
Pour illustrer les notions de base de la création de graphiques, nous allons créer un graphique à barres revenu
moyen pour plusieurs niveaux de satisfaction professionnelle. Cet exemple utilise le fichier de données demo.sav.

Graphes > Générateur de graphiques...
La boîte de dialogue Générateur de graphiques est une fenêtre interactive qui vous permet d'obtenir
l'aperçu d'un graphique avant que vous ne le génériez.
Figure 30 : Graphique à barres sur le canevas du Générateur de graphiques
Page | 32
+229 96867286
GRAPHIQUE
5.1 Définition des variables et des statistiques

Bien qu'il y ait un graphique sur le canevas, il n'est pas complet car il n'y a aucune variable ou
statistique pour contrôler la hauteur des barres et pour spécifier la catégorie de variable correspondant
à chaque barre. Vous ne pouvez pas avoir de graphique sans variable ni statistique. Vous pouvez
ajouter des variables en les glissant de la liste Variables qui se trouve à gauche du canevas.
Le niveau de mesure d'une variable est important dans le Générateur de graphiques. Vous allez
utiliser la variable Satisfaction professionnelle de l'axe des X. Cependant, l'icône (qui ressemble à une
règle) à côté de la variable indique que son niveau de mesure est défini en tant que variable d'échelle.
Pour créer le graphique correct, vous devez utiliser un niveau de mesure catégoriel. Plutôt que de
revenir et de modifier le niveau de mesure dans la vue de variable, vous pouvez le modifier
temporairement dans le Générateur de graphiques.
1. Cliquez avec le bouton droit de la souris sur Satisfaction professionnelle dans la liste Variables
et choisissez Ordinal. Ordinal correspond à un niveau de mesure approprié car les catégories
dans Satisfaction professionnelle peuvent être ordonnées par niveau de satisfaction. Notez que
l'icône change une fois le niveau de mesure modifié.
2. Faites glisser Satisfaction professionnelle de la liste Variables dans la zone d'insertion de l'axe
des X. La zone d'insertion de l'axe des Y prend par défaut la statistique Effectif. Si vous
souhaitez utiliser une autre statistique (comme pourcentage ou moyenne), vous pouvez
facilement en changer. Vous n'utiliserez aucune de ces statistiques dans cet exemple, mais
nous allons revoir le processus au cas où vous devez changer cette statistique plus tard.
3. Cliquez sur Propriété des éléments pour afficher la fenêtre Propriété des éléments.
Page | 33
+229 96867286
GRAPHIQUE
Figure 31 : Fenêtre Propriété des éléments
4. Revenez à la boîte de dialogue Générateur de graphiques et faites glisser Revenu du ménage en

milliers de la liste Variables vers la zone d'insertion de l'axe des Y. Puisque la variable sur l'axe
des Y est sous forme d'échelle et que la variable de l'axe des X est catégorielle (ordinal est un
type de niveau de mesure catégoriel), la zone d'insertion de l'axe des Y prend par défaut la
statistique Moyenne. Il s'agit des variables et des statistiques souhaitées, il n'y a donc aucun
besoin de modifier les propriétés de l'élément.
5.2 Ajout de texte
Vous pouvez également ajouter des titres et des notes de bas de page au graphique.
1. Cliquez sur l'onglet Titres/Notes de bas de page.

2. Sélectionnez Titre 1.
Page | 34
+229 96867286
GRAPHIQUE
Figure 32 : Titre 1 affiché sur le canevas
Le titre apparaît sur le canevas avec le libellé T1.
3. Dans la fenêtre Propriété des éléments, sélectionnez Titre 1 dans Modifier les propriétés de
liste.
4. Dans la zone de texte Personnalisé, saisissez Revenu par satisfaction professionnelle. Il s'agit
du texte que le titre affichera.
5. Cliquez sur Appliquer pour enregistrer le texte. Bien que le texte ne soit pas affiché dans le
Générateur de graphiques, il apparaît lorsque vous générez le graphique.
Page | 35
+229 96867286
GRAPHIQUE
Figure 33 : Graphique à barres
Le graphique à barres indique que les répondants les plus satisfaits de leurs travaux ont tendance à
avoir des revenus plus élevés.
Page | 36
+229 96867286
CHAPITRE 6. UTILISATION DE LA SORTIE
CHAPITRE 6 UTILISATION DE LA SORTIE
Les résultats des procédures statistiques apparaissent dans le visualiseur. En fonction des choix
effectués lors de l'exécution de la procédure, ces sorties peuvent prendre la forme d'un texte, ou de
tableaux, de graphiques ou de graphiques statistiques. Cette section utilise les fichiers viewertut.spv
et demo.sav.
6.1 Utilisation du visualiseur
Figure 34 : Visualiseur
La fenêtre du visualiseur est divisée en deux panneaux. Le panneau de légende contient la légende
de toutes les informations stockées dans le visualiseur. Le panneau de contenu comporte les tableaux
statistiques, les graphiques et les textes.
A l'aide des barres de défilement horizontale et verticale, parcourez-le contenu de la fenêtre. Pour
faciliter la navigation, cliquez sur un élément dans le panneau de légende pour l'afficher dans le
panneau de contenu.
1. Cliquez sur la bordure droite du panneau de légende et faites-la glisser pour modifier sa
largeur. Dans le panneau de légende, lorsqu'une icône en regard d'un élément représente un
livre ouvert, cela indique qu'il est actuellement visible dans le visualiseur, même s'il n'est pas
visible dans le panneau de contenu.
2. Pour masquer un tableau ou un graphique, double-cliquez sur l'icône du livre dans le panneau
de légende.
Page | 37
+229 96867286
CHAPITRE 6. UTILISATION DE LA SORTIE
L'icône représente maintenant un livre fermé, ce qui signifie que les informations associées
sont masquées.
3. Pour que la sortie apparaisse à nouveau, double-cliquez sur l'icône du livre fermé. Vous
pouvez également masquer toutes les sorties d'une procédure statistique donnée ou
l'intégralité des sorties dans le visualiseur.
4. Cliquez sur la case comportant le signe moins (-), à gauche de la procédure dont vous
souhaitez masquer les résultats, ou cochez la case située en regard de l'élément figurant tout
en haut du panneau de légende pour masquer la totalité des sorties. L'arborescence de la
légende est réduite, indiquant visuellement que les résultats sont masqués. Vous pouvez
également modifier l'ordre de l'affichage des sorties.
5. Dans le panneau de légende, cliquez sur les éléments à déplacer. 6. Faites glisser les éléments
sélectionnés vers un nouvel emplacement de la légende.
6.2 Utilisation de l'éditeur de tableau croisé dynamique

Les résultats de la plupart des procédures statistiques sont affichés dans des tableaux croisés
dynamiques.
Accès aux définitions de sortie
De nombreux termes statistiques sont affichés dans la sortie. Vous pouvez directement accéder aux
définitions de ces termes dans le visualiseur.
1. Activez le tableau croisé (double-cliquez dessus) Possède un agenda électronique * Sexe * Internet.
2. Cliquez avec le bouton droit de la souris sur Effectif théorique et choisissez Qu'est-ce que c'est
? dans le menu contextuel. La définition apparaît dans une fenêtre contextuelle.
Page | 38
+229 96867286
STATISTIQUE COMPUTATIONNELLE AVEC SPSS CHAPITRE 7 : LES TESTS D’HYPOTHÈSE
CHAPITRE 7 : LES TESTS D’HYPOTHÈSE
1.1 Principe d’un test d’hypothèse

Les tests d’hypothèse constituent un aspect important de l’inférence statistique. Le principe général
d’un test d’hypothèse peut s’énoncer comme suit :
17. On étudie une population dont les éléments possèdent un caractère (mesurable ou qualitatif)
et dont la valeur du paramètre relative au caractère étudié est inconnue.
18. Une hypothèse est formulée sur la valeur du paramètre : cette formulation résulte de
considérations théoriques, pratiques ou encore elle est simplement basée sur un
pressentiment.
19. On veut porter un jugement sur la base des résultats d’un échantillon prélevé de cette
population.
Il est bien évident que la statistique (c’est-à-dire la variable d’échantillonnage) servant d’estimateur
au paramètre de la population ne prendra pas une valeur rigoureusement égale à la valeur théorique
proposée dans l’hypothèse. Cette variable aléatoire comporte des fluctuations d’échantillonnage qui
sont régies par des distributions connues.
Pour décider si l’hypothèse formulée est supportée ou non par les observations, il faut une
méthode qui permettra de conclure si l’écart observé entre la valeur de la statistique obtenue dans
l’échantillon et celle du paramètre spécifiée dans l’hypothèse est trop important pour être
uniquement imputable au hasard de l’échantillonnage.
La construction d’un test d’hypothèse consiste en fait à déterminer entre quelles valeurs peut varier la variable
aléatoire, en supposant l’hypothèse vraie, sur la seule considération du hasard de l’échantillonnage.
7.2 Définition des concepts utiles a l’élaboration des tests d’hypothèse
Hypothèse statistique
Une hypothèse statistique est un énoncé (une affirmation) concernant les caractéristiques (valeurs
des paramètres, forme de la distribution des observations) d’une population.
Test d’hypothèse
Un test d’hypothèse (ou test statistique) est une démarche qui a pour but de fournir une règle de
décision permettant, sur la base de résultats d’échantillon, de faire un choix entre deux hypothèses
statistiques.
Page | 39
+229 96867286
Hypothèse nulle (H0) et hypothèse alternative (H1)
L’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur particulière
s’appelle l’hypothèse nulle et est notée H0. N’importe quelle autre hypothèse qui diffère de
l’hypothèse H0 s’appelle l’hypothèse alternative (ou contre-hypothèse) et est notée H1.
C’est l’hypothèse nulle qui est soumise au test et toute la démarche du test s’effectue en considérant
cette hypothèse comme vraie.
Seuil de signification du test

Le risque, consenti à l’avance et que nous notons de rejeter à tort l’hypothèse nulle H0 alors qu’elle
est vraie, s’appelle le seuil de signification du test (ou encore la p-value) et s’énonce en probabilité
ainsi :   P(rejeter H 0 / H 0 vraie) .
A ce seuil de signification, on fait correspondre sur la distribution d’échantillonnage de la statistique

une région de rejet de l’hypothèse nulle (appelée également région critique). L’aire de cette région
correspond à la probabilité . Si par exemple, on choisit  0.05, cela signifie que l’on admet d’avance
que la variable d’échantillonnage peut prendre, dans 5% des cas, une valeur se situant dans la zone
de rejet de H0, bien que H0 soit vraie et ceci uniquement d’après le hasard de l’échantillonnage.
Sur la distribution d’échantillonnage correspondra aussi une région complémentaire, dite région
d’acceptation de H0 (ou région de non-rejet) de probabilité 1  .
Exemple de formulation d’un test :
Supposons que nous affirmions que la valeur d’un paramètre d’une population est égale à la valeur
0 . On s’intéresse au changement possible du paramètre  dans l’une ou l’autre direction (soit   0
soit   0 ). On effectue un test bilatéral.
Les hypothèses H0 et H1 sont alors : H 0 :   0
H1 :    0
On peut schématiser les régions de rejet et de non-rejet de H0 comme suit :
Page | 40
+229 96867286
Remarque : Si on s’intéresse au changement du paramètre dans une seule direction, on opte pour un
test unilatéral, en choisissant comme hypothèse H1 soit   0 soit   0 . La région critique est alors
localisée uniquement à droite ou uniquement à gauche de la région d’acceptation.
Dans un souci de simplification, nous nous intéresserons dans ce cours essentiellement aux tests
bilatéraux.
Page | 41
+229 96867286
STATISTIQUE COMPUTATIONNELLE AVEC SPSS CHAPITRE 8 : TEST DE CORRÉLATION
CHAPITRE 8 : TEST DE CORRÉLATION
8.1 Rappel théorique
Cette section traite de la question suivante : Comment peut-on tester l’hypothèse nulle de l’absence
de relation linéaire entre deux variables continues ?
Par exemple, nous pouvons être intéressés à savoir si le nombre d'heures d'étude est associé au
rendement scolaire.
Ces variables peuvent être :
 associées positivement (r > 0) : plus le nombre d'heures d'étude augmente, plus le rendement
augmente;
 associées négativement (r < 0 ) : plus le nombre d'heures d'étude augmente, plus le rendement
diminue;
 non associées (r = 0) : le nombre d'heures d'études n'a aucune influence sur le rendement.
La corrélation est une quantification de la relation linéaire entre des variables continues. Le calcul du
coefficient de corrélation de Pearson repose sur le calcul de la covariance entre deux variables
continues. Le coefficient de corrélation est en fait la standardisation de la covariance. Cette
standardisation permet d'obtenir une valeur qui variera toujours entre -1 et +1, peu importe l'échelle
de mesure des variables mises en relation.
8.2 Hypothèses du test de corrélation
 H0 : les deux variables ne sont pas associées, qu'il n'y a pas de relation entre ces dernières (r =
0).
 H1 : il existe une relation linéaire entre les deux variables.
8.3 Interprétation du coefficient de corrélation de Pearson
Pour être interprété, le coefficient de corrélation doit être significatif (la valeur de p [la p-value] doit
être plus petite que 0,05). Si le coefficient est non significatif, on considère qu'il est semblable à r = 0.
Par contre, lorsqu'il est significatif, le coefficient de corrélation donne deux informations importantes
:
Page | 42
+229 96867286
Le sens de la relation linéaire entre les deux variables : Le coefficient de corrélation, qui présente
finalement la covariance standardisée, varie entre - 1 et 1. Un coefficient de 1 indique une corrélation
positive parfaite entre les deux variables. À l'inverse, un coefficient de - 1 indique une corrélation
négative parfaite: lorsque la variable x augmente, la variable y diminue dans la même proportion.
Dans les deux cas, les points tombent parfaitement sur la droite. Un coefficient de 0 indique qu'il n'y
a aucune relation entre les deux variables. Ainsi, la variation de l'une n'est aucunement associée à la
variation de l'autre.
La force de la relation linéaire entre les deux variables : Plus la valeur du coefficient est proche de +
1 ou de - 1, plus les deux variables sont associées fortement. Au contraire, plus le coefficient est près
de 0, moins les variables partagent de covariance et donc, moins l'association est forte. On peut
qualifier la force de cette relation avec les balises de Cohen concernant la taille d'effet.
8.4 Procédure SPSS pour le test de corrélation
1. La corrélation se trouve dans le menu Analyse, sous Corrélation.

Choisissez Bivariée (corrélation entre deux variables. La corrélation partielle tient compte
d'une variable contrôle).
Page | 43
+229 96867286
Figure 35 : Boùite de dialogue de corrélation
2. Dans la boite de dialogue principale, vous insérez, à l'aide de la flèche , les variables
continues à tester dans la boite Variable. Vous pouvez évaluer la relation entre deux ou
plusieurs variables continues à la fois. Puisque vous vous intéressez aux relations simples,
vous n'insérez que deux variables.
Dans cet exemple nous utiliserons la base de données demo.sav pour calculer la corrélation entre les
variables Prix du véhicule principal (car) et Revenu du foyer en milliers ($)
Figure 36 : Boîte de dialogue corrélation bivariée
3. Vous avez le choix entre trois coefficients de corrélation :

4. Pearson (par défaut) : coefficient calculé pour des variables continues
5. Kendall's tau-b et Spearman : ces tests sont des mesures non-paramétriques. Le coefficient est
calculé pour des variables catégorielles ordinales.
6. Vous pouvez déterminer ensuite le type de test d'hypothèse à vérifier. Si l'hypothèse de
recherche indique clairement dans quel sens va l'association, vous pouvez choisir le test
unilatéral, sinon, vous laissez l'option par défaut du test bilatéral.
7. Vous laissez également coché l'option Repérer les corrélations significatives pour que SPSS
les mette en évidence par des astérisques.
8. Vous cliquez ensuite sur .
Page | 44
+229 96867286
8.5 Résultat de la corrélation
Le tableau de corrélation est assez simple à interpréter. Il s'agit d'un tableau croisé entre les variables
mises en relation.
Nous pouvons voir dans chaque case présentant le croisement de deux variables la valeur du
coefficient accompagné d'astérisques si la corrélation est significative, le degré de signification qui y
est associé et le nombre d'observations qui ont été croisées.
Puisque la corrélation est une mesure symétrique, on constate que le coefficient est le même pour
l'association entre le Prix du véhicule principal (car) et Revenu du foyer en milliers ($) et pour l'association
entre Revenu du foyer en milliers ($) et le Prix du véhicule principal (car).
Corrélations
Revenu du foyer Price of primary
en milliers ($) vehicle
Revenu du foyer en milliers ($) Corrélation de Pearson 1 ,792**
Sig. (bilatérale) ,000
N 6400 6400
Price of primary vehicle Corrélation de Pearson ,792** 1
Sig. (bilatérale) ,000
N 6400 6400
**. La corrélation est significative au niveau 0.01 (bilatéral).
Tableau 1 : Résultat de corrélation entre le Prix du véhicule principal (car) et Revenu du foyer en milliers ($)
Nous remarquoins que la corrélation est significative, nous pouvons donc rejeter l'hypothèse nulle
d'absence de relation entre le Prix du véhicule principal (car) et Revenu du foyer en milliers ($). Ceci signifie
que la probabilité d'obtenir un coefficient de cette taille dans une population où ces deux variables ne
sont pas reliées est de moins de 5 %. Nous acceptons l'hypothèse alternative: il existe une relation
linéaire positive (puisque le coefficient est positif) entre les deux variables.
Le coefficient de corrélation significatif nous donne deux informations que l'on doit interpréter:
 le sens de la relation entre les variables : Comme le coefficient est positif, plus le Prix du
véhicule principal est élevé, plus Revenu du foyer en milliers ($) augmente.
 la force de la relation (la taille d'effet) : En examinant la valeur du coefficient (r = 0,792), nous
pouvons dire que l'effet de la relation entre ces deux variables est de grande taille et que
l'association est forte.
Page | 45
+229 96867286
STATISTIQUE COMPUTATIONNELLE AVEC SPSS CHAPITRE 9 : TEST T POUR ÉCHANTILLONS INDÉPENDANTS
CHAPITRE 9 : TEST T POUR ÉCHANTILLONS INDÉPENDANTS
Dans cette section, nous allons voir comment tester l'hypothèse nulle à partir de deux moyennes
provenant de deux échantillons (ou sous-groupes) indépendants. Nous allons en fait estimer si deux
moyennes populationnelles sont égales en nous basant sur le résultat de la comparaison entre ces
deux échantillons. La technique employée s'appelle Test t pour échantillons indépendants
(Independent sample t test).
On utilise cette technique pour comparer DEUX groupes, créés par une variable catégorielle, en
fonction de leur moyenne à une mesure (variable continue).
9.2 Hypothèses du test de comparaison de moyenne
Il n'y a pas de différence entre les moyennes des deux groupes dans la population. En d'autres termes,
la différence entre les deux moyennes dans la population est de 0. On sous-entend ici que les deux
groupes proviennent de la même population.
9.3 Prémisses du test t indépendant
 Les données sont normalement distribuées.

 La variable dépendante est continue.
 Les variances des groupes sont égales (homogénéitéde la variance).
 Les groupes sont indépendants (les mêmes observations ne peuvent pas être dans les deux
groupes).
9.4 Interprétation du degré de signification
Lorsque le degré de signification est petit (p-value < 0,05), nous pouvons rejeter l'hypothèse nulle et
conclure que les deux moyennes ne proviennent pas de la même population.
Page | 46
+229 96867286
9.5 Au-delà de la signification statistique : la taille de l'effet
Il est possible d'aller apprécier l'importance ou la magnitude de la différence de moyennes entre les
deux groupes grâce au calcul de l'indice eta-carré (η2).
Les balises de Cohen (1988) sont:
9.6 Procédure SPSS

Nous utiliserons une fois encore la base de données demo.sav et pour allons faire un test de
comparaison de moyen sur échantillon indépendant en utilisant les variables Sexe et Revenu du foyer
en milliers ($).
1. Pour faire un test t pour deux moyennes indépendantes, allez dans le menu Analyse,
choisissez Comparer les moyennes, puis Test T pour échantillons indépendants.
Figure 37 : Boîte de dialogue pour Test T pour échantillons indépendants.
Page | 47
+229 96867286
2. Ensuite, vous insérez la ou les variables continues dans la boite Variable(s) à tester. Vous
pouvez, en effet, comparer les groupes pour plus d'une variable à la fois. SPSS réalisera le
test pour chaque variable.
3. Vous choisissez aussi la variable de groupe. Lorsque vous la placerez dans la boite Critère
de regroupement qualitatif, vous verrez que le bouton devient

disponible et qu'une parenthèse avec deux points d'interrogation apparaît à côté de la
variable.
4. Vous devez définir les valeurs de la variable qui représenteront les deux groupes dans une
nouvelle boite de dialogue. Vous pouvez choisir des valeurs spécifiques en les insérant
dans la boite Groupe 1 et Groupe 2 (si vous ne connaissez pas les valeurs de la variable,
regardez dans l'onglet Affichage des variables, elles seront indiquées dans la
colonne Valeurs).
5. Si vous avez une variable catégorielle à plus de deux niveaux, vous pouvez choisir un
point de césure. Ceux qui auront répondu, par exemple, 1 et 2 à la question seront dans le
groupe 1 et ceux qui auront répondu 3 ou 4 seront dans le groupe 2. Vous fixez à ce
moment le point de césure à 2. Vous pouvez également utiliser le point de césure avec une
variable continue. Ce dernier créera deux groupes indépendants.
Page | 48
+229 96867286
Figure 38 : Boîte de dialogue de définition des groupes pour un test de comparaison de moyenne sur echantillons indépendants
6. Quand vous avez terminé, cliquez sur le bouton , puis sur .
9.7 Résultats du test de comparaison des moyennes.
Le premier tableau montre un résumé des statistiques descriptives pour les deux groupes. Il indique
le nombre de participants (N) ainsi que la moyenne et l'écart-type de chaque groupe pour le Revenu.
Dans la dernière colonne, SPSS affiche l'erreur standard moyenne, qui est, en fait, l'erreur-type.
Statistiques de groupe
Sexe N Moyenne Ecart type Moyenne erreur standard
Revenu du foyer en milliers ($) Femme 3179 68,7798 75,73510 1,34323
Homme 3221 70,1608 81,56216 1,43712
Tableau 2 : Statistique descriptive du test de comparaison de moyenne de Revenu entre les hommes et les femmes.
Page | 49
+229 96867286
Nous voyons encore une fois que les 3179 Femmes (x = 68,7798) ont tendance à avoir un revenu faible
par rapport aux 3221 Hommes (x = 70,1608).
Page | 50
+229 96867286
9.8 Résultat du test t
Le deuxième tableau contient les résultats du test. Il indique si la différence entre les moyennes des deux groupes est assez importante pour ne pas
être due au hasard.
Test des échantillons indépendants
Test de Levene sur

l'égalité des
variances Test t pour égalité des moyennes
Différence Intervalle de confiance

Sig. Différence erreur de la différence à 95 %
F Sig. t ddl (bilatéral) moyenne standard Inférieur Supérieur
Revenu du foyer en milliers ($) Hypothèse de variances égales 1,865 ,172 -,702 6398 ,483 -1,38101 1,96808 -5,23912 2,47709
Hypothèse de variances inégales -,702 6374,362 ,483 -1,38101 1,96713 -5,23725 2,47522
 Si la p-value < 0,05 alors il faut lire les résultats du Test t pour égalité des moyennes dans la partie en vert du tableau.
 Si le p-value est superieur ou égale à 5% alors il faut lire les résultats du Test t pour égalité des moyennes dans la partie en jaune du tableau.
Les résultats montrent deux valeurs de t possibles. La première ligne de résultats concerne la situation où les variances des deux groupes sont égales
(la différence entre les variances est de zéro) et la seconde ligne concerne la situation où les variances des deux groupes sont inégales.
En fait, une des prémisses de l’utilisation du test t pour échantillons indépendants porte sur la nécessité de l’égalité des variances lors du calcul de
l’erreur-type des différences de moyenne.
Le premier test effectué par SPSS est donc le test d’égalité des variances de Levene. Si ce test est significatif, on doit rejeter l’hypothèse nulle de
l’égalité des variances et corriger le calcul de t en utilisant les variances individuelles des deux groupes (correction de Welch) plutôt que la
variance combinée (pooled-variance).
Page | 51
+229 96867286
Dans l'exemple, on voit que le test d'homogénéité des variances n’est significatif pas (p-value > 0,05). Nous n’avons donc pas suffisamment de
preuve pour rejeter l'hypothèse nulle : les variances ne sont pas significativement différentes, la prémisse d'égalité est respectée. Nous devons donc
lire première ligne en jaune. Dans le cas contraire, nous aurions interprété la deuxième ligne en vert.
Nous pouvons maintenant passer au résultat du test t proprement dit. On remarque que la valeur t, de la 1er ligne est de -0,702 et que le degré de
signification est plus grande que 0,0005 (p-value). On ne peut donc pas rejeter l’hypothèse nulle selon laquelle la différence de moyenne observée
entre les deux groupes (-1,38101 milliers ($)) est compatible avec la différence populationnelle de 0.
Page | 52
+229 96867286
CHAPITRE 10 : ANALYSE DE VARIANCE
Dans cette section, nous allons voir comment tester l’hypothèse nulle lorsque plus de deux moyennes
sont confrontées. Le but sera toujours le même : vérifier l’hypothèse nulle que les moyennes des
groupes proviennent d’une même population. Pour ce faire, nous allons utiliser l'analyse de variance
univariée (ANOVA)
Cette technique permet de comparer les moyennes de trois groupes ou plus, créés par une variable
catégorielle.
10.2 Hypothèses du test ANOVA

Les groupes proviennent de la même population. Leurs moyennes sont semblables.
L'hypothèse alternative est qu'il y a une différence entre les moyennes, c'est-à-dire qu'au moins une
des moyennes est différente des autres.
10.3 Prémisses du test d’analyse de variance
Tout comme pour les autres tests d’hypothèse, il faut s’assurer de respecter certaines prémisses avant
de procéder à l’analyse proprement dite :
1. Les groupes sont indépendants et tirés au hasard de leur population respective

Ceci signifie qu’il n’y a ni relation entre les observations à l’intérieur d’un groupe, ni relation entre les
observations entre les groupes. Par exemple, si on propose quatre traitements aux mêmes individus,
il existe forcément une relation entre les observations et on ne pourra pas utiliser l’ANOVA dans ce
contexte.
2. Les valeurs des populations sont normalement distribuées

Nous avons vu comment estimer la normalité d’une distribution dans les sections précédentes.
Cependant, l’ANOVA n’est pas très sensible aux écarts de la normalité. Il est donc possible de
procéder sans avoir une normalité parfaite. Par contre, avec un petit échantillon, il faut faire attention
à l’impact des valeurs extrêmes (on peut faire le test avec et sans les valeurs extrêmes).
Page | 53
+229 96867286
3. Les variances des populations sont égales

Cette prémisse peut être vérifiée par l’examen visuel du graphique boite à moustaches ou encore par
le test de Levene qui est disponible dans les options de l'ANOVA. Si les groupes sont de tailles
identiques, on peut passer outre cette prémisse.
Si la taille des groupes est très inégale, la prémisse d’égalité des variances doit être vérifiée
systématiquement. Si le test est significatif, il est possible d’utiliser d’autres procédures disponibles
dans le menu ANOVA : Test Brown-Forsythe ou le Welch Robust F.
Il est aussi possible d’utiliser les tests de comparaisons multiples qui ne demandent pas la prémisse
d’égalité des variances.
10.4 Test de l’hypothèse nulle
Nous savons que même si la moyenne de la variable testée dans la population était la même pour les
différents groupes formés par la variable catégorielle, nous n'aurions pas la même valeur de moyenne
pour les différents échantillons puisque la moyenne d'un échantillon varie toujours. Des échantillons
différents d'une même population produisent des moyennes et des écart-types différents.
Nous devons donc tester si ces différences sont attribuables à la variabilité naturelle de la moyenne
entre différents échantillons d’une même population ou bien s'il y a une raison de croire qu’il existe
un ou des groupes qui se distinguent réellement de la moyenne populationnelle.
Dans l'analyse de variance, nous allons diviser la variabilité en deux parties : la variabilité dans un
groupe autour de la moyenne de chaque groupe, appelée variabilité intra-groupes (within-group) et la
variabilité entre les moyennes des groupes, appelée variabilité inter-groupes (between-groups).
La statistique F produite par l'ANOVA est le rapport entre la variabilité inter et intra-groupes. Elle
permet de déterminer s'il existe une différence significative entre les groupes. Comme la variabilité
inter-groupes est le numérateur de ce rapport, plus les moyennes sont éloignées les unes des autres,
plus la valeur F est élevée.
Tout comme la valeur t pour le test T, il faut comparer la valeur F obtenue à la distribution F. Le degré
de signification va dépendre de trois facteurs : la valeur F et les deux degrés de liberté (inter et intra-
groupes).
10.5 La distribution F
À l’image de la distribution normale et de la distribution t, la distribution F est calculée
mathématiquement. Elle est utilisée lorsque l’on veut tester une hypothèse concernant la variance
d’une population.
Le théorème central limite ne fonctionne pas avec la variance, la distribution des variances n’étant pas
normale.
Page | 54
+229 96867286
La distribution F représente le rapport entre les deux indices de variabilité et est indexée par deux
degrés de liberté (inter et intra-groupes).
10.6 Comparaisons multiples

Le test d’analyse de variance ne nous dit qu’une chose : l’hypothèse nulle est rejetée ou non. Il ne nous
dit pas où se situe la ou les différences. Il faut donc effectuer d’autres tests pour savoir entre quels
groupes se trouve cette ou ces différences.
Ces tests sont appelés post-hoc ou tests a posteriori. Ils indiquent quels groupes se distinguent.
Pourquoi ne pas faire une série de tests t pour comparer chaque groupe entre eux ?
Parce qu’il y aurait plusieurs comparaisons pairées à effectuer ! Lorsque l’on effectue plusieurs tests
de comparaisons sur les mêmes moyennes, on augmente les probabilités de trouver un résultat
significatif uniquement par la chance même si les moyennes sont identiques dans la population. Ceci
est ce qu’on appelle le problème des comparaisons multiples.
Pour y remédier, on utilise souvent une correction basée sur le nombre de comparaisons à effectuer.
Plus il y a de comparaisons, plus le seuil de signification minimal devra être bas. Idéalement, on ne
devrait observer que les comparaisons qui sont d’intérêt.
La correction de Bonferonni est l'une des plus simples, car elle ajuste le degré de signification en
divisant 0,05 par le nombre de comparaisons à effectuer.
10.7 Au-delà de la signification statistique : la taille de l’effet

Tout comme pour les tests t, il est possible de calculer la taille de l’effet pour l’ANOVA. La formule
est très simple puisqu’elle implique des éléments déjà calculés. Il faut toutefois savoir que le résultat
représente la proportion de variance (R2) expliquée par le facteur (variable groupe ou variable
indépendante).
En extrayant la racine carrée de ce rapport, on obtient la valeur de R (r) qui s’interprète de la manière
suivante :
Page | 55
+229 96867286
10.8 Procédure du test ANOVA dans SPSS
4. L'analyse de variance se trouve aussi dans le menu Analyse, Comparer les moyennes. Vous
devez choisir ANOVA à 1 facteur.
2. Dans la fenêtre ANOVA, vous insérez la ou les variables continues à tester dans la boite Liste
Variables dépendants. Comme pour le test t, SPSS produira une analyse par variable
continue.
3. Vous insérez la variable de groupe dans la boite Critère.
4. Vous cliquez ensuite sur .
Le bouton
L'analyse de contraste est utilisée lorsque le chercheur a une hypothèse de départ à vérifier et qu'il
sait déjà quels groupes doivent se distinguer.
Page | 56
+229 96867286
Le bouton
Il est également possible de réaliser des tests de comparaisons multiples qui préciseront où se situent
les différences lorsque le chercheur n'a pas d'hypothèse de départ quant à ces dernières. L'option Post
Hoc fournit plusieurs choix de tests complémentaires.
Page | 57
+229 96867286
Le premier encadré offre différents tests à réaliser si la prémisse d'homogénéité des variances est
respectée. Il serait fastidieux de décrire l'ensemble de ces tests. Nous n'allons donc que présenter les
plus fréquemment utilisés.
Bonferroni : utilise le test t pour comparer les moyennes des groupes deux à deux et ajuste le degré
de signification en divisant 0,05 par le nombre de comparaisons à effectuer, donc il diminue le risque
de commettre une erreur de type I.
Tukey : compare les groupes deux à deux à partir d'une distribution t standardisée et ajuste le degré
de signification pour le risque d'erreur. Il est plus puissant que le test Bonferroni sur de grands
échantillons.
Scheffe : réalise simultanément toutes les comparaisons de moyennes deux à deux à partir de la
distribution F. Il peut être utilisé pour examiner toutes les combinaisons linéaires possibles des
moyennes de groupe, pas seulement les comparaisons deux à deux. Il est moins puissant que le test
Tukey.
Le deuxième encadré offre des tests de comparaisons multiples lorsque la prémisse d'homogénéité
des variances n'est pas respectée.
Tamhane's T2 : ce test est très conservateur (faible probabilité de commettre une erreur de type I).
Dunnett's T3 et C : ces deux tests font une correction sévère pour réduire le risque d'erreur de type I.
Games-Howell : assure la plus grande puissance statistique, mais le risque de commettre une erreur
de type I est plus élevée lorsque l'échantillon est petit. Ce test est aussi précis lorsque les groupes sont
inégaux.
Le Niveau de signification : vous pouvez indiquer le seuil de signification que vous voulez. Par
défaut, ce seuil est fixé à 0,05, comme pour les autres tests.
Le bouton
Ce bouton vous offre différentes possibilités par rapport aux statistiques, aux graphiques et aux
valeurs manquantes.
Page | 58
+229 96867286
L'encadré Statistiques
Caractéristiques : SPSS calcule le nombre de cas, la moyenne, l'écart type, l'erreur- type de la
moyenne, les valeurs minimales et maximales et l'intervalle de confiance pour chacune des variables
dépendantes.
Effets fixes et aléatoires : affiche l'écart-type, l'erreur-type et l'intervalle de confiance pour les effets
fixes du modèle ainsi que l'écart-type, l'intervalle de confiance et la variance inter-composante pour
les effets aléatoires du modèle.
Test d'homogénéité de variance : utilise la statistique de Levene pour évaluer si les variances sont
égales.
Brown-Forsythe : calcule la statistique Brown-Forsythe pour tester l'égalité de la moyenne des

groupes. Cette statistique est préférée à la statistique F lorsque les variances ne sont pas égales.
Welch : évalue également l'égalité de la moyenne des groupes, mais à partir de la statistique Welch.
Cette statistique est également préférée à la statistique F lorsque les variances sont inégales.
Diagramme des moyennes : il faut cocher cette option lorsque l'on désire obtenir un graphique qui
compare les moyennes pour chacun des groupes.
Page | 59
+229 96867286
Le graphique des barres d'erreurs
Ce type de graphique permet de positionner les moyennes des groupes ainsi que l’intervalle de
confiance à l’intérieur duquel nous sommes à 95 % certains que la vraie moyenne populationnelle se
situe.
Il n'est pas disponible dans les options de l'ANOVA, mais est très utile pour examiner la distribution
de la variable dépendante pour les différents groupes.
3. Vous choisissez ensuite ce que vous désirez que les données représentent :
Récapitulatifs pour groupes d'observations : les points illustrent la moyenne de la variable
continue pour chaque valeur de la variable catégorielle. C'est l'option par défaut.
Récapitulatifs pour variables distinctes : les points montrent la moyenne de chaque variable
continue choisie.
4. Cliquez ensuite sur le bouton .

5. Dans la deuxième fenêtre, vous entrez la variable continue dans la boite Variable et dans la
boite Axe des modalités, la variable de groupe.
Page | 60
+229 96867286
6. Dans l'encadré Les bâtons représentent, vous pouvez choisir ce que vous voulez que les barres
de chaque côté de la moyenne représentent. Dans notre cas, nous conservons l'option par défaut, c'est-
à-dire l'intervalle de confiance. Vous auriez également pu choisir d'illustrer l'erreur standard de la
moyenne ou l'écart-type.
7. Nous laissons l'intervalle de confiance à 95 %.
8. Vous pouvez aussi réaliser le graphique en ajoutant une variable catégorielle en colonnes ou en
lignes. Vous obtiendrez alors deux graphiques un à côté de l'autre ou un par-dessus l'autre.
9. Comme pour les autres graphiques, vous pouvez reproduire la mise en forme d'un graphique
précédent en cochant Utiliser les spécifications du diagramme de.
10. Vous pouvez aussi ajouter un titre et un sous-titre à votre graphique ou une note au bas de celui-
ci grâce au bouton .
Page | 61
+229 96867286
11. Enfin, le bouton vous permet de représenter ou non les valeurs manquantes. Il s'agit
de la même option que vous trouvez dans le diagramme à secteurs décrit dans la section Stat
descriptives.
12. Lorsque vous êtes prêts, cliquez sur .
Page | 62
+229 96867286

Statistique Computationnelle Avec Spss

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique Computationnelle Avec Spss

Transféré par

Droits d'auteur :

Formats disponibles

HAUTE ECOLE DE COMMERCE ET DE MANAGEMENT

STATISTIQUE COMPUTATIONNELLE AVEC SPSS

8.5 Résultat de la corrélation ___________________________________________________________ 45

1.1 Fichiers d'exemple

1.2 Ouverture d'un fichier de données

Figure 1 : Fichier demo.sav dans Editeur de données

2. A partir des menus, sélectionnez :

Figure 2 : Bouton Libellés de valeurs

Affichage > Libellés de valeurs

Figure 3 : Libellés de valeurs affichés dans l'éditeur de données

Figure 4 : Affichage des libellés de valeurs.

Exécution d'une analyse

Figure 5 : Boîte de dialogue Effectifs

4. Cliquez sur OK pour exécuter la procédure.

Figure 7 : Table de fréquences du Sexe et des catégories de revenus.

1.3 Création de graphiques

1. A partir des menus, sélectionnez :

2. Cliquez sur l'onglet Galerie (s'il n'est pas sélectionné).

Figure 9 : Graphique à barres affiché dans la fenêtre du visualiseur

CHAPITRE 2. LECTURE DES DONNEES

2.1 Structure de base d'un fichier de données IBM SPSS Statistics

Figure 10 : Editeur de données

2.2 Lecture des fichiers de données IBM SPSS Statistics

1. A partir des menus, sélectionnez :

Les données sont affichées dans l'éditeur de données.

Figure 11 : Fichier de données ouvert

2.3 Lecture des données Excel

2. A partir des menus, sélectionnez :

3. Accédez au dossier Samples\English et sélectionnez demo.xlsx.

Figure 12 : Boîte de dialogue Lire le fichier Excel

8. Sélectionnez (cochez) Pourcentage de valeurs qui détermine le type de données pour

Figure 13 : Données Excel importées

2.4 Lecture de données à partir d'un fichier texte

1. A partir des menus, sélectionnez :

2. Accédez au dossier Samples\English et sélectionnez demo.txt.

Figure 14 : Assistant d'importation de texte - Etape 1 sur 6

3. A l'étape 1, vous pourrez sélectionner un format prédéfini ou créer un format dans

Figure 15 : Assistant d'importation de texte - Etape 4 sur 6

12. Cliquez sur Suivant pour continuer.

Pour modifier un type de données :

13. Dans Aperçu des données, sélectionnez income.

Figure 16 : Sélectionnez le type de données.

15. Cliquez sur Suivant pour continuer.

CHAPITRE 3. UTILISATION DE L'EDITEUR DE DONNEES

3.1 Saisie de données numériques

1. Cliquez sur l'onglet Vue de variable en bas de la fenêtre de l'éditeur de données.

Figure 17 : Noms de variable dans la vue de variable

2. Dans la première ligne de la première colonne, saisissez age.

3. Dans la deuxième ligne, saisissez marital.

age marital income

Figure 18 : Valeurs entrées dans Vue de données

6. Dans la colonne âge, saisissez 55.

3.2 Saisie de données chaîne

1. Cliquez sur l'onglet Vue de variable en bas de la fenêtre de l'éditeur de données.

Figure 19 : Boîte de dialogue Type de variable.

3.3 Définition de données

3.3.1 Ajout des libellés de variables

Figure 20 : Libellés de variable entrées dans la vue de variable

3.3.2 Modification du type et du format de variable

Figure 21 : Boîte de dialogue Type de variable

Les options de format du type de données sélectionné apparaissent.

3.3.3 Ajout de libellés de valeurs

Figure 22 : Boîte de dialogue Libellés de valeurs