Vous êtes sur la page 1sur 132

Techniques d’analyse quantitative des données

Semestre 5
Licence d’excellence de gestion

Professeur: Karim DOUMI

Karim DOUMI SPSS 1


Généralités
• La statistique est la science dont l’objet est de recueillir, de traiter et
d’analyser des données issues de l’observation de phénomènes
aléatoires.

• L’analyse des données est utilisée pour décrire les phénomènes


étudies, faire des prévisions et prendre des décisions à leur sujet. En
cela, la statistique est un outil essentiel pour la compréhension et la
gestion des phénomènes complexes.

Karim DOUMI SPSS 2


Recensement
Collecte des données

Sondage

Statistique Descriptive
Analyse des données

Inférence Statistique
Analyse Multivariée

Conclusions

Prise des décisions


Deux branches des statistiques

 Statistiques descriptives

 Statistiques inférentielles
ANALYSE MULTIVARIEE
Y-a-t-il
une variable à expli-
quer et une ou plusieurs
NON variables expli- OUI
catives ?
Méthodes descriptives Méthodes explicatives

La variable
Les variables sont
elles quantitatives ? OUI à expliquer est-elle NON
quantitative ?

Les variables Les variables


explicatives explicatives
sont-elles sont-elles
OUI NON quantitatives ? quantitatives ?
OUI NON
OUI NON

Analyses Analyse des Régression Analyse Analyse


Classification
factorielles correspondances linéaire de la variance conjointe
(A.C.P. et A.F.C.) (A.C.M.)

Typologie
Chapitre 1 : Fonctionnement de SPSS
Généralités
• SPSS est un outil statistique permettant des…
• …analyses simples:
• Statistiques descriptives, statistiques inférentielles, dépendance entre variables…..

• …analyses plus sophistiquées:


• Analyses multivariées: ANOVA, analyse factorielle, régression linéaire, classification …….

Karim DOUMI SPSS 6


Fonctionnement de SPSS:
Généralités
• Quatre types de fichiers utilisés:
• Un fichier des données de l’étude
• Fichier texte (.txt) ou excel (.xls)
• BD (access, Mysql, oracle…..)
• Un fichier d’édition des données (.sav)
• Un fichier de syntaxe (.sps)
• Un fichier de résultats (.spo /.spv)

Karim DOUMI SPSS 7


Karim DOUMI SPSS 8
Description des principales fenêtres :
• File : permet la gestion des fichiers (ex. : ouvrir un nouveau fichier, fermer, enregistrer,
etc.).
• Edit : permet d’effectuer les opérations de traitement de texte (ex. : copier, couper, coller,
etc.).
• View : permet de définir les options de l’écran (ex. : barres d’outils).
• Data : traite tout ce qui est lié à la gestion de la barre de données (ex. : définir une
variable, insérer une variable, etc.).
• Transform : permet d’effectuer les différentes opérations de transformation des variables
(ex. : recodification, catégorisation, création d’indices, etc.).
• Analyse : permet toutes les analyses statistiques que SPSS permet d’effectuer (ex. :
analyses descriptives, corrélations, régressions, etc.).
• Graphs : présente tous les types de graphiques que SPSS permet de créer (ex. :
histogrammes, etc.).
• Utilities : comprend les utilitaires sur le programme (ex. : infos sur les fichiers, infos sur
les variables, etc.).
• Windows : permet la gestion des fenêtres.
Help : outil d’aide à l’utilisation du logiciel.
Karim DOUMI SPSS 9
La définition des variables
Name : sert à donner un nom à la variable. Le nom ne doit pas dépasser 8 caractères et il est recommandé de ne pas
utiliser de caractères accentués. Il doit bien représenter la variable pour vous permettre de la reconnaître facilement.

Type : sert à décrire la variable et le format de la colonne. Il est recommandé de laisser l’option «numeric» qui est
indiquée par défaut. Pour les décimales «decimal places», vous pouvez les laisser égales à 2 ou les mettre à 0, selon la
situation.

Label : permet de donner une identification plus explicite à la variable qui sera affichée dans les différents calculs
statistiques.

Values : permet de définir les valeurs que peuvent prendre la variable.

Missing : permet d’indiquer si la variable peut accepter ou non des valeurs manquantes. Remarque : la saisie des
données manquantes se fait habituellement en effectuant un simple «retour» (c’est la méthode recommandée). Si
vous avez prévu d’utiliser des codes spécifiques (ex. : 9, 99, etc.), il faut les définir dans «missing».

Columns : permet de terminer la largeur de la colonne. Vous pouvez augmenter ou réduire la taille de la colonne.

Align : sert à aligner les données à l’intérieur des cellules.

Scale : permet de définir le type de l’échelle (nominale, ordinale, intervalles et ratio).

Karim DOUMI SPSS 10


Fonctionnement de SPSS:
Fichier de données
• Dans un fichier texte, les données de chaque sujet sont entrées
successivement, séparées par un « ; » une « , », une espace ou une
tabulation.
• Il est préférable d’utiliser un « ; » ou une espace
• Exemple:
• Variables: identification (id), sexe du sujet (sexe, où f=1, h=2) et âge (age) on entrera:
1 1 28  participant 1 est une femme de 28 ans
2 2 33  participant 2 est un homme de 33 ans
3 2 32  participant 3 est un homme de 32 ans
etc.

Karim DOUMI SPSS 11


Fonctionnement de SPSS:
Fichier de données
• Le fichier de données inclut les valeurs numériques associées à vos
données
• Ex. 7 pour signifier “totalement en accord” ou 1 pour signifier que le participant est un
homme
• Principes généraux de saisie:
• Chaque ligne = 1 participant
• Chaque colonne = 1 variable

Karim DOUMI SPSS 12


Fonctionnement de SPSS:
Fichier d’édition des données
• Pour insérer les données dans ce fichier:
• Saisie des données manuellement
• Importation du fichier avec la syntaxe:
GET DATA /TYPE = TXT
/FILE = 'C:\Ex2.txt'
/DELCASE = LINE GET DATA /TYPE=XLS
/DELIMITERS = "\t"
/ARRANGEMENT = DELIMITED /FILE='C:\Ex2.xls'
/FIRSTCASE = 2 /SHEET=name 'Ex2'
/IMPORTCASE = FIRST 1000
/VARIABLES = /CELLRANGE=full
ID F3.2 /READNAMES=on .
L100KM F6.2
CHEVAPEU F3.2
POIDS A9
ACCEL F5.2
ORIGIN F3.2
NBCYL F3.2
ANNEE A8
.
CACHE.
EXECUTE.
Karim DOUMI SPSS 13
Fonctionnement de SPSS:
Fichier d’édition des données
• Pour insérer les données dans ce fichier:
• Avec le menu
• Suivre les étapes affichées à l’écran

Karim DOUMI SPSS 14


Fonctionnement de SPSS:
Fichier d’édition des données
• Attribuer un nom/code à chaque
variable
• Pour SPSS 12 et moins, max de 8
lettres/chiffres, mais débutant
nécessairement par une lettre
• Choisir des codes significatifs
• Conserver par écrit les codes des
variables!!!

Karim DOUMI SPSS 15


Fonctionnement de SPSS:
Fichier d’édition des données
• Attribuer une étiquette à chaque
variable
• Les codes sont limités. On peut
dans SPSS attribuer une étiquette
(label), laquelle permet de mieux
se retrouver
• Onglet “variable view” pour modifier
les paramètres des variables

Karim DOUMI SPSS 16


Fonctionnement de SPSS:
Fichier d’édition des données
• Les données à saisir dans SPSS
sont numériques:
• Chaque modalité de réponse peut
se voir attribuer une étiquette
(Values)

Karim DOUMI SPSS 17


Fonctionnement de SPSS:
Fichier d’édition des données
• Valeurs manquantes:
• Il importe d’attribuer un code pour
les valeurs manquantes; ceci
facilite la vérification du fichier de
données
• On doit spécifier à SPSS un code
pour signaler l’existence d’une
valeur manquante
• Ex. -999 pour une échelle allant de 1
à 7.

Karim DOUMI SPSS 18


Fonctionnement de SPSS:
Fichier syntaxe
• Les analyses avec SPSS se font:
1.Par les menus ou
2.Par les syntaxes
• Plus complexe à première vue, elle comporte des avantages majeurs:
• Certains types d’analyses ou de sous-commandes ne sont pas disponibles via le menu.
• En spécifiant tous les paramètres de votre analyse vous êtes plus à même de contrôler les
résultats obtenus.

Karim DOUMI SPSS 19


Fonctionnement de SPSS:
Fichier syntaxe

Karim DOUMI SPSS 20


Fonctionnement de SPSS:
Fichier syntaxe

Karim DOUMI SPSS 21


Fonctionnement de SPSS:
Fichier syntaxe
Une règle d’or: documenter!
• ➢Utiliser SPSS implique très rapidement
l’accumulation d’une multitude d’opérations, de
variables, de résultats : créer des variables; les
recoder; analyser une variable de plusieurs manières
différentes; complexifier progressivement une analyse
en prenant en compte des variables supplémentaires,
etc.

22
Fonctionnement de SPSS:
Fichier syntaxe
➢Pour s’y retrouver, il faut garder des traces
de ce que l’on fait :
▪sauvegarder les fichiers de résultats (outputs;
extension .spv) ou/et les imprimer (en les
classant)
▪sauvegarder les données «travaillées»
(variables recodées, nouvelles variables,
etc.) dans un fichier de données (extension
.sav) différent du fichier de données brutes.

23
Fonctionnement de SPSS:
Fichier syntaxe
➢Il est aussi conseillé d’ajouter des
commentaires (qui peuvent être brefs)
décrivant ce que l’on fait et/ou le résultat
de ce que l’on fait
➢Documenter est non seulement utile
pour le déroulement de son propre
travail, mais aussi pour en justifier le
résultat .
➢C’est un support dans les cas où il faut
faire mémoire de ce qui a été fait.
24
Fonctionnement de SPSS:
Fichier syntaxe

Un conseil: travailler avec la syntaxe


• ➢De manière usuelle, on apprend SPSS et on travaille
avec en utilisant son interface graphique (menus
déroulants, fenêtres, etc.)
• ➢De même, durant ce cours, toutes les opérations
(ou presque) pourront être faites au moyen de
l’interface graphique de SPSS

25
Fonctionnement de SPSS:
Fichier syntaxe
Recommandations:

1. Afficher dans la fenêtre résultats (outputs), les


instructions données à SPSS
2. Rassembler dans un fichier ad hoc appelé fichier
syntaxe (extension .sps) les instructions données à
SPSS, ces fichiers syntaxes peuvent être sauvegardés
et ainsi on garde mémoire des instructions données à
SPSS.
3. Enfin, à titre de conseil: travailler directement en mode
syntaxe.

26
Fonctionnement de SPSS:
Fichier syntaxe
• ➢En référence aux points 1 et 2, modifier deux
options de SPSS
▪afin que les instructions données à SPSS d’effectuer
telle ou telle opération s’inscrivent dans la fenêtre «
résultats » (output) de SPSS (cf. point 1 ci-dessus)
▪afin qu’au démarrage de SPSS, une fenêtre « syntaxe »
s’ouvre automatiquement

27
Fonctionnement de SPSS:
Fichier syntaxe

1. Pour cela, aller dans le menu


Edition Options...
2. Sur l’écran qui apparaît, choisir la rubrique
Généralités et cocher la case Ouvrir la
fenêtre de syntaxe au démarrage
3. Puis dans la rubrique Editeurs de
résultats, cocher la case Afficher syntaxe
4. Cliquer sur Appliquer, puis Ok

28
Fonctionnement de SPSS:
Fichier syntaxe

29
16
17
Calculer une Variable
Exemple

Karim DOUMI SPSS 32


Calculer une Variable
Il arrive très souvent que les variables brutes d'une base de données ne soient
pas suffisantes pour effectuer certaines analyses. On peut avoir besoin de créer
une ou des nouvelles variables à partir des variables existantes, comme dans les
cas suivants :
• Créer une variable qui contient la racine carrée d'une variable existante
• Calculer la moyenne ou la somme d'une série de variables existantes…
La commande Compute sert à créer de nouvelles variables sur la base de
fonctions arithmétiques, statistiques ou logiques.

Karim DOUMI SPSS 33


Calculer une Variable
Exemple
• Cette nouvelle variable sera la moyenne des réponses données par chaque sujet aux
questions Q01, Q02, Q03,
• Allez dans le menu Transformer et choisissez Calculer la variable.

• Dans la boite de dialogue, écrivez, dans Variable cible (étiquette), MOYSAT (c’est
le nom de la variable).
• Ensuite, allez dans la boite Groupe de fonctions et cliquez à deux reprises
sur Statistiques (il est dans le bas de la liste, vous devez utiliser l’ascenseur à droite).
Vous verrez dans la boite Fonctions et variables spéciales la fonction Mean sur laquelle
vous devez aussi cliquer à deux reprises.
• Dans la boite du haut, vous verrez apparaître MEAN (?, ?). Vous devez alors insérer les
variables Q01, Q02, Q03 dans la parenthèse

Karim DOUMI SPSS 34


Calculer une Variable
Exemple
• Vous pouvez également écrire à la main la commande dans la boite…

Karim DOUMI SPSS 35


Calculer une Variable
Exemple
Exercice sur la commande CALCULER : par syntaxe
• Maintenant, éliminez la variable MOYSAT de la matrice de données (cliquez au haut
de la colonne sur le nom de la variable, puis dans le menu Édition, cliquez
sur Effacer ou, plus simplement, sur le bouton effacer ou supprimer de votre
clavier).
• Pour copier la commande à l’intérieur d’un fichier Syntaxe recommencez les étapes
précédentes et remplacez le par
• Le texte copié dans cette fenêtre devrait se lire comme suit :

Karim DOUMI SPSS 36


Calculer une Variable
Exemple
faites la même chose en créant la variable « AGEX ».(âge exacte de l’individu)
Voici ce que devrait contenir maintenant votre fichier Syntaxe

Karim DOUMI SPSS 37


Création d’une variable
La commande recode sert à créer de nouvelles variables (ou à
modifier des variables existantes) sur la base d’un
regroupement des valeurs qu'on appelle aussi clé de recodage.
Voici quelques situations dans lesquelles vous pouvez utiliser
le recodage :
• À partir d'une variable contenant la note d'examen sur 20,
créer une nouvelle variable qui recode la note en lettre (A+, A-,
A, etc..)
• Recoder les valeurs d'items inversés dans une échelle de
mesure
• Diminuer le nombre de catégories d'une variable catégorielle
en les regroupant différemment

Karim DOUMI SPSS 38


Création d’une Variable
Exemple
Imaginons que nous voulons réaliser des analyses comparant les gens en formation
(STATUT = 1) et les autres (STATUT = 2, 3 ou 4). Pour cela, il nous faut créer une variable
qui diminue le nombre de catégories de 4 à 2. :
Allez encore une fois dans le menu Transformer, puis sélectionnez Création de variables

Recodez la variable STATUT de sorte que les sujets qui ont répondu 1 auront la valeur 1
(en formation) alors que ceux qui ont la valeur 2, 3 ou 4 auront maintenant la valeur 2
(autres).
Dans la boite de dialogue principale, inscrivez STATUTX dans la boite Nom de l’encadré.
Inscrivez ensuite Statut recodé dans la boite Étiquette du même encadré.
Cliquez sur

Karim DOUMI SPSS 39


Création d’une Variable
Exemple

Apres il faut Changer les anciennes valeurs par les nouvelles valeurs.

Karim DOUMI SPSS 40


Création d’une Variable
Exemple
Exercice sur la commande Recode : par syntaxe

Pour les 3 variables a la fois la syntaxe est la suivante:

Karim DOUMI SPSS 41


Expression conditionnelle (IF)
Les expressions conditionnelles permettent de calculer des variables selon une
condition, donc qui s’applique à des sujets ou des observations (lignes) qui
répondent à certains critères que nous allons définir selon nos besoins avec
cette commande.
La résultante des expressions conditionnelles peut créer une nouvelle variable
ou bien transformer les valeurs d'une variable existante. Dans le dernier cas, il
faut s'assurer que l'écrasement des valeurs originales ne porte pas à
conséquence

Voici l’apparence Syntaxe la commande de cet exercice.


IF (sexe = 1) satis1=MEAN (q01, q03, q05).
Littéralement, elle signifie que SI la valeur de la variable SEXE est égale à « 1 »,
la valeur de la variable SATIS1 sera égale à la moyenne des valeurs des variables
Q01, Q03 et Q05.

Karim DOUMI SPSS 42


Expression conditionnelle (IF)
Syntaxe
Forme 1 Forme 3
DO IF (expression logique) DO IF (expression logique)
... bloc d'instructions ... ... bloc d'instructions ...
END IF ELSE IF(expression
logique)
... bloc d'instructions ...
Forme 2 ELSE IF ...
DO IF (expression logique) ...
... bloc d'instructions ...
ELSE ELSE ... (facultatif)
... bloc d'instructions ... ...
END IF END IF

Karim DOUMI SPSS 43


Expression conditionnelle (IF)

En utilisant le langage SPS:

Karim DOUMI SPSS 44


compter(Count)
• La commande Compter sert à calculer pour chaque observation les
occurrences d’une ou de plusieurs valeurs à l’intérieur d’une série de
variables déterminées par l’utilisateur.
• Exercice sur la commande COMPTER : par menu interactif
• Dans cet exercice, nous tentons de savoir pour chaque répondant le
nombre d’items de satisfaction pour lesquels il indique qu’il est satisfait,
c’est-à-dire auquel il a accordé la valeur 3 lorsque l’item est recodé.
Allez dans le menu Transformer et sélectionnez Compter ….

Karim DOUMI SPSS 45


Regroupement des variables
• Avec recode:

DATASET ACTIVATE Ensemble_de_données1.


RECODE age (21 thru 30=2) (Lowest thru 20=1) (31 thru 40=3) (41 thru
50=4) (51 thru 60=5) (61 thru Highest=6) INTO age_reg.
VARIABLE LABELS age_reg 'age regroupé'.
EXECUTE.

Karim DOUMI SPSS 46


Regroupement des variables
• Avec regroupement visuel:
RECODE age (MISSING=COPY) (LO THRU 20.0=1) (LO THRU 26.286=2) (LO THRU 32.572=3) (LO
THRU 38.858=4) (LO THRU 45.144=5) (LO THRU 51.43=6) (LO THRU 57.715999999999994=7) (LO
THRU HI=8) (ELSE=SYSMIS) INTO age_reg_v.
VARIABLE LABELS age_reg_v 'age (Regroupé par casiers)'.
FORMATS age_reg_v (F5.0).
VALUE LABELS age_reg_v 1 '<= 20,00' 2 '21,00 - 26,29' 3 '26,30 - 32,57' 4 '32,58 - 38,86' 5 '38,87 -
45,14' 6 '45,15 - 51,43' 7 '51,44 - 57,72' 8 '57,73+'.
VARIABLE LEVEL age_reg_v (ORDINAL).
EXECUTE.

Karim DOUMI SPSS 47


compter(Count)

Karim DOUMI SPSS 48


Sélection de cas:
• Pour certaines analyses, il peut être nécessaire de filtrer une partie des
observations (cas) pour obtenir des résultats auprès d'un sous-groupe
spécifique d'observations.
• Il est possible de sélectionner une ou des observations à l’aide de un ou
d'une combinaison de critères, soit par la boite de dialogue, soit en
utilisant une commande SYNTAXE.
• Les conditions de sélection peuvent être uniques ou multiples. Dans le cas
d’une seule condition, on inscrit la variable sur laquelle repose la sélection
avec la condition formulée grâce aux conditions arithmétiques (<, >, =, <=,
>=, <>).
• Toutes les conditions multiples (deux variables ou plus) doivent utiliser les
opérateurs logiques (AND et OR) pour séparer les conditions.
• Pour faire une sélection de cas de manière interactive, allez dans le
menu Données, puis cliquez sur Sélectionnez des observations.

Karim DOUMI SPSS 49


Sélection de cas:

Pour faire une sélection de cas


de manière interactive, allez
dans le menu Données, puis
cliquez sur Sélectionnez des
observations.

Karim DOUMI SPSS 50


Sélection de cas:
Dans la première boite de dialogue,
vous devez déterminer la stratégie de
sélection que vous allez utiliser. Vous
avez plusieurs choix, mais le plus
populaire est sans contredit Selon une
condition logique. Dans ce cas, la
sélection se fait à partir de la condition
que vous énoncez. Nous allons donc
voir cette stratégie en premier et
préciser les autres par la suite

Karim DOUMI SPSS 51


Sélection de cas

Exemple :
pour choisir
les hommes de plus de
30 ans, on entrerait
dans la boite:
Sexe = 1 AND
age > 30

Karim DOUMI SPSS 52


Sélection de cas:

Si vous préférez
taper la commande
manuellement,
vous devriez créer la
syntaxe suivante:

Karim DOUMI SPSS 53


Sélection de cas:

Karim DOUMI SPSS 54


Les autres stratégies de sélection
• Dans la boite de dialogue Sélection de cas,
vous avez bien sûr la stratégie Si que nous
venons de voir, mais aussi d’autres choix. Voici
une brève description pour chacun.
• Toutes les observations : vous ne faites pas de
sélection, vous utilisez toutes les observations.
Très utile quand vous voulez revenir à la base
initiale et annuler une condition préalablement
établie.
• Par échantillonnage aléatoire : sélection
d'observations aléatoire. Vous choisissez à ce
moment combien de cas vous voulez dans
votre échantillon, soit en pourcentage
(Environ _ % de toutes les observations), soit
en précisant un nombre d'observations parmi
les X premiers (Exactement _ observations à
partir des premières _ Observations).
• Utiliser une variable de filtre : enfin, vous pouvez
faire une sélection en ne conservant que les cas qui
ont des valeurs valides pour une variable filtre. Vous
n'avez qu'à transférer la variable filtre dans la boite
prévue à cet effet.
Karim DOUMI SPSS 55
Exercices

Karim DOUMI SPSS 56


M anipulation des F ichiers
de D onnées
1. Création d’un Fichier de Travail.
La plupart du temps, les fichiers de données des grosses
enquêtes comportent pIusieurs centaines de variabIes. Or, dans
Ie cadre d’un travaiI de recherche on peut être amené à ne
travaiIIer que sur certaines variabIes.
•par exempIe, vous faites une étude sur Ia santé. Vos données
sont situées dans Ie fichier sante.sav qui contient Ies variabIes
suivantes :

Karim DOUMI SPSS 57


M anipulation des F ichiers
de D onnées
Nom Libellé
id Identifiant
carnet Possède un carnet de santé
consult A consulté un médecin au cours des 6 derniers mois
datecons Date de la dernière consultation
vacchb Vacciné contre hépatite B
vaccha Vacciné contre hépatite A
vaccroug Vacciné contre la rougeole
vaccgrip Vacciné contre la grippe
sida1 A déjà entendu parler du sida
sida2 A déjà utilisé un préservatif
sida3 A déjà fait un test de dépistage

Karim DOUMI SPSS 58


M anipulation des F ichiers
de D onnées

• Dans notre cas, nous souhaitons ne pas garder Ies variabIes


sida1, sida2 et sida3.
La syntaxe correspondante sera donc :
SAVE OUTFILE='travail.sav'
/DROP sida1
sida2 sida3.
EXECUTE.

Karim DOUMI SPSS 59


M anipulation des F ichiers
de D onnées

SAVE OUTFILE='nom_du_fichier.sav'
/DROP var1 var2 var3

/KEEP var11 var12 var13

/RENAME
anc_var21=nouv_var21 anc_var22=nouv_var22

Nom_du_fichier.sav est Ie nom du fichier qui sera créé.


À défaut de précision, ce fichier sera pIacé dans Ie
même répertoire que Ie fichier source.
Karim DOUMI SPSS 60
M anipulation des F ichiers
de D onnées

SAVE OUTFILE='travail.sav'
/KEEP id
carnet consult datecons
vacchb vaccha vaccroug vaccgrip.
EXECUTE.

Karim DOUMI SPSS 61


M anipulation des F ichiers
de D onnées

2. Ajout de Variables
Supposons Ies données ont été scindées en pIusieurs fichier de données. Ainsi Ies
caractéristiques individueIIes sont situées dans un fichier indiv.sav aIors que Ies
variabIes sur Ia santé sont dans Ie fichier travail.sav que nous venons de créer.
Le fichier indiv.sav contient Ies variabIes suivantes :
Nom Libellé
id Identifiant
sexe Sexe
age Age
instruct Niveau d'instruction
milieu Milieu de résidence
matri État matrimonial

Karim DOUMI SPSS 62


M anipulation des F ichiers
de D onnées

Avant de commencer, iI faut trier Ies observations des deux fichiers seIon I’identifiant
• Ouvrir Ie fichier ivdiv.sav.
• CIiquer dans Ie menu sur Dovvées > Trier les observations…
• SéIectionner Ia variabIe id par ordre croissant.

•CIiquer sur OK.


•Enregistrer Ie fichier de données.
•Recommencer avec Ie fichier travail.sav

•II est égaIement possibIe d’avoir recours à Ia syntaxe suivante :


SORT CASES BY id (A).
EXECUTE.

63
M anipulation des F ichiers
de D onnées

Karim DOUMI SPSS 64


M anipulation des F ichiers
de D onnées

3. Création d’un Fichier Enfants.


Nous disposons égaIement d’un fichier fecondite.sav comportant
des données sur Ia fécondité des personnes enquêtées.
Ce fichier comporte Ies variabIes suivantes :
Nom Libellé
id Identifiant
nbenf Nombre d'enfants
sexe$1 Sexe enfant 1
annee$1 Année de naissance de l'enfant 1
dc$1 L'enfant 1 est-il décédé ?
sexe$2 Sexe enfant 2
annee$2 Année de naissance de l'enfant 2
dc$2 L'enfant 2 est-il décédé ?
sexe$3 Sexe enfant 3
annee$3 Année de naissance de l'enfant 3
dc$3 L'enfant 3 est-il décédé ?
Karim DOUMI SPSS 65
M anipulation des F ichiers
de D onnées

Création des fichiers enfant1.sav, enfant2.sav et enfant3.sav

•Dans un premier temps, iI nous faut créer des sous fichiers pour
chaque rang de naissance, avant de fusionner ces différents sous
fichiers en un seuI.
Nous aIIons donc avoir recours à Ia commande SAVE OUTFILE.
Nous aIIons garder Ia variable id qui va nous être indispensable par
Ia suite, ainsi que Ia variabIe nbenf.

Karim DOUMI SPSS 66


M anipulation des F ichiers
de D onnées

GET FILE='fecondite.sav'.
SAVE OUTFILE='enfant3.sav'
SAVE OUTFILE='enfant1.sav' /KEEP id
/KEEP id nbenf
nbenf sexe$3
sexe$1 annee$3
annee$1 dc$3
/RENAME
dc$1
sexe$3=sexe
/RENAME
annee$3=annee
sexe$1=sexe
dc$3=dc.
annee$1=annee EXECUTE.
dc$1=dc,
EXECUTE.
67
M anipulation des F ichiers
de D onnées

Création de la Variable R ang de Naissance.


GET FILE='enfant1.sav'.
COMPUTE rang = 1 .
EXECUTE .
SAVE OUTFILE='enfant1.sav'.

GET FILE='enfant2.sav'.
COMPUTE rang = 2 .
EXECUTE .
SAVE OUTFILE='enfant2.sav'.

GET FILE='enfant3.sav'.
COMPUTE rang = 3 .
EXECUTE .
SAVE OUTFILE='enfant3.sav'.

Karim DOUMI SPSS 68


M anipulation des F ichiers
de D onnées

Fusionner les Fichiers


ADD FILES
/FILE='enfant1.sav'
/FILE='enfant2.sav'
/FILE='enfant3.sav'.
EXECUTE.
SAVE OUTFILE='enfants.sav'.

Karim DOUMI SPSS 69


M anipulation des F ichiers
de D onnées

Suppression des observations vides.

SELECT IF(rang <= nbenf).


EXECUTE .

Karim DOUMI SPSS 70


M anipulation des F ichiers
de D onnées

Un nouveau identifiant:
COMPUTE idenf = id*10+rang .
VARIABLE LABELS idenf "Identifiant de l'enfant"
rang "Rang de l'enfant"
sexe "Sexe de l'enfant"
annee "Année de naissance de l'enfant"
dc "L'enfant est-il décéder ?".
EXECUTE .

Karim DOUMI SPSS 71


M anipulation des F ichiers
de D onnées

GET FILE='indiv.sav'. MATCH FILES


SORT CASES BY id (A) . /FILE=*
EXECUTE. /TABLE='indiv.sav'
SAVE OUTFILE='indiv.sav'. /RENAME sexe=sexepar
/BY id.
GET FILE='enfants.sav'. EXECUTE.
SORT CASES BY id (A) .
SAVE OUTFILE='enfants.sav'.
EXECUTE.
SAVE OUTFILE='enfants.sav'.

Karim DOUMI SPSS 72


ANALYSE BI VARIEE

Karim DOUMI SPSS 73


Corrélation & régression
linéaire simple

Karim DOUMI SPSS 74


Corrélation, régression linéaire
simple
Introduction : précisions sémantiques

La corrélation indique le degré de linéarité entre deux variables


(quantitatives). La régression simple indique la nature de la liaison
linéaire entre deux variables (quantitatives). Ainsi l’analyse de
régression fournit une fonction entière (une droite par exemple)
alors que l’analyse de corrélation fournit un simple nombre – un
indice qui renseigne sur l’intensité avec laquelle 2 variables évoluent
ensemble. Ces 2 techniques sont donc complémentaires. L’analyse
causale enfin va plus loin en précisant le sens de la relation, le
chemin de la cause à l’effet.
75
Méthode et but
• 2 variables numériques (quantitatives)
• Identifier la nature des variables : indépendante x et dépendante y.
• Décrire la relation entre les variables
 graphiquement
 en utilisant une équation
• Utiliser l’équation pour prévoir une valeur yi à partir d’une valeur xi.
• Etablir le degré de fiabilité de l’estimation (relation probabiliste seulement)

La relation entre deux variables peut être :


• déterministe (Ceci ne nous concerne pas ici)
• probabiliste (C’est ce dont on va parler)

76
Relation déterministe: La valeur de la variable y peut être précisement prédite
à partir de la valeur de la variable x.

Exemples:
 Prix d’une maison et taxe due.
 Vitesse d’un corps en chute libre et temps.

V=V0+gt
V

V0 t

77
Relation probabiliste: La valeur d’une variable y ne peut pas être
précisement prédite à partir de la valeur de la variable x - à cause d’autres
facteurs.

Exemples:
1. Consommation en eau et une population
x = nombre d’habitants
y = eau consommée
2. Nombre d’heures passées à réviser un examen et la note obtenue.
x = heures passées à réviser
y = note obtenue

Regression possible avec une relation probabiliste.

78
Coefficient de corrélation de Bravais-Pearson

Cov( x, y ) s xy
r 
sx s y sx s y

 x  x  y
i i  y
r i 1

 x  x    y  y
2 2
i i Un exemple...

Statistiques
Numéro Masse mi Long. li xi  x  xi  x 2  yi  y   yi  y 2 ( xi  x )( yi  y )
de l'essai i x y
i i

1 2 42.0 -4.0 16.0 -9.3 86.9 37.28


2 4 48.4 -2.0 4.0 -2.9 8.5 5.84
3 6 51.3 0.0 0.0 0.0 0.0 0
4 8 56.3 2.0 4.0 5.0 24.8 9.96
5 10 58.6 4.0 16.0 7.3 53.0 29.12

n=5 X 6 Y  51.32   0.0   40   0.0   173.2   82.2

 x  x  y  y 
i i
82,2
r i 1
  0,987

 ix  x 2

 iy  y 2
173,2  40

Statistiques 80
Allons un peu plus loin...

Inégalité de Schwarz: sxy  sx s y

Donc... r  1 ou  1  r  1

r = -1

r=1 r = 0.7 r0

Liaisons absolues Liaison Pas de liaison


(déterministe) stochastique
(probabiliste)
81
Corrélation & régression

Exemple
Si je m’intéresse au lien entre le temps hebdomadaire moyen passé à travailler (X) et la
note obtenue au partiel (Y) :
• L’analyse de régression permet de déterminer une fonction qui lie les deux
variables :

ex : « Y = aX + b »
• L’analyse de corrélation renseigne sur l’intensité du lien entre les deux variables :
ex : « le lien est fort et très significatif ».

Karim DOUMI Analyse de


82
données - SPSS
Corrélation & régression

Analyse bivariée

r et r2 :
• Comme r indique le degré de la relation entre la variation d’une variable et
celle d’une autre variable, il peut également représenter la décomposition de la
variation totale (en étant au carré). On retiendra que
r2 = variation expliquée  variation totale

 r2 mesure la proportion de la variation d’une variable qui est expliquée


par l’autre.
• r et r2 sont des mesures symétriques d’association : la corrélation entre X et Y
est la même que la corrélation entre Y et X. Il n’est pas important de savoir
quelle est la variable indépendante et quelle est la variable dépendante.

Karim DOUMI Analyse de


83
données - SPSS
Corrélation & régression

Analyse bivariée

Interprétation du R2 :

Variance expliquée : R², coefficient de détermination (proportion de variance totale


de Y qui n’est pas due à l’erreur, ou encore proportion de la variance de Y expliquée
par la variance de X)
–R² = 0 : la variable indépendante n’explique rien
–R² = 1 : la variable explique complètement Y
–R² = 0,11 : 11% des variations de Y sont expliquées par le modèle

Karim DOUMI Analyse de


84
données - SPSS
Corrélation & régression

Analyse bivariée

Le coefficient de corrélation linéaire r renseigne sur l’intensité du lien entre 2


variables quantitatives. Il doit être complété afin de déterminer si l’éventuel lien mis à
jour est significatif ou non. On utilise pour cela un test t :

t r. n22
1r

Remarque : sous SPPS, la probabilité critique du test est fournie par la rubrique « sig.
(bilatérale) »

Karim DOUMI SPSS 85


Corrélation & régression

Analyse bivariée

Exercice
BDD Employes de SPSS : y’a-t-il une corrélation
positive significative entre salaire actuel et salaire à
l’embauche ? Entre salaire actuel et nombre d’année
d’ancienneté ?

• H0 : il n’y a aucun lien entre ces deux variables (r=0)


• H1 : il existe un lien entre ces deux variables (r0)

Analyse  Corrélation Bivariée

Karim DOUMI SPSS 86


Corrélation & régression

Analyse bivariée
Corrélations

Ancienneté
Salaire Salaire (nombre de
courant d'embauche mois)
Salaire c ourant Corrélation de Pears on 1,000 ,880** ,084
Sig. (bilatérale) , ,000 ,067
N 474 474 474
Salaire d'embauche Corrélation de Pears on ,880** 1,000 -,020
Sig. (bilatérale) ,000 , ,668
N 474 474 474
Ancienneté (nombre Corrélation de Pears on ,084 -,020 1,000
de mois) Sig. (bilatérale) ,067 ,668 ,
N
474 474 474

**. La corrélation est signific ative au niveau 0. 01 (bilatéral).


Corrélation positive faible et non
Corrélation positive forte et
significative
significative
Karim DOUMI SPSS 87
Corrélation & régression

Analyse bivariée
La régression simple :
Elle consiste à déterminer une équation qui relie 2 variables quantitatives.
Contrairement à la corrélation simple, elle nécessite d’identifier l’une des 2 variables
comme étant dépendante (à expliquer) et l’autre comme étant indépendante
(explicative). Remarquons tout de même que cette méthode n’implique pas de
causalité.
Le modèle type est de la forme :
Yi = β0 + β1Xi + ei avec Y = variable dépendante (à expliquer)
X = variable indépendante (ou explicative)
β0 = ordonnée à l’origine de la droite β1 = pente de la droite
ei = terme d’erreur associé à la ième observation

Karim DOUMI SPSS 88


Corrélation & régression

Analyse bivariée
La régression simple, vocabulaire :

•Coefficient de détermination r2 : proportion de la variation totale de Y


expliquée par la variation de X
• Valeur estimée (ou prédite) de Yi : Ŷi = a + bx avec Ŷi la valeur estimée
de Yi et a et b les estimateurs respectifs de β0 et β1.
• Coefficient de régression : le paramètre b est appelé coefficient de
régression.
• L’écart-type résiduel (SEE) : c’est l’écart-type des erreurs (valeurs réelles
Y moins valeurs estimées Ŷ).

Karim DOUMI SPSS 89


Corrélation & régression

Analyse bivariée
La régression simple, vocabulaire (suite) :

•Coefficient de régression standardisé (coefficient bêta) : il correspond à


la pente obtenue par la régression de Y sur X lorsque les données sont
standardisées.
• Somme des erreurs au carré : les distances de tous les points à la droite de
régression sont élevées au carré et additionnées pour obtenir la somme des
erreurs au carré, qui est une mesure de l’erreur totale
• Statistique t : valeur du t de Student à n-2 degrés de liberté, afin de rejeter
ou non H0. Cette statistique est associée à sa probabilité critique (significative
lorsqu’elle est < 0,05)

Karim DOUMI SPSS 90


Corrélation & régression

Analyse bivariée

Les étapes d’une analyse de régression simple :


1. La première étape consiste à représenter le nuage de points, variable dépendante sur l’axe
vertical et variable indépendante sur l’axe horizontal.
Cela permet de se faire une idée sur le type de lien (est-ce linéaire ?) et de détecter les éventuelles
valeurs extrêmes qui risquent de perturber l’analyse.

Sous SPSS : Graph  Diagramme de dispersion  Simple

Karim DOUMI SPSS 91


Corrélation & régression

Analyse bivariée
12

10

4
ATT_VILL

0
0 10 20

DURÉE_RÉ

Karim DOUMI SPSS 92


Corrélation & régression

Analyse bivariée
2. Il s’agit ensuite de trouver les caractéristiques de la droite qui décrit le
mieux les données. On utilise généralement la méthode des moindres carrés.
Elle consiste à déterminer la droite de régression qui minimise le carré des
distances verticales entre les points et la droite.
Avec une équation du type Yi = β0 + β1Xi + ei la distance verticale du point à
la droite est représenté par ei.
Les distances de tous les points à la droite élevés au carrés et additionnés
forment la somme des carrés des erreurs, ou « erreur totale », notée

e
2
j
 Le but est que cette valeur soit minimale (que les distances verticales soient
minimisées)

Karim DOUMI SPSS 93


y = β0 + β1x

12

Yi
10

8 ei

4 Ŷi
ATT_VILL

0
0 10 20

DURÉE_RÉ Karim DOUMI SPSS 94


La méthode des moindres carrés
• Critère des moindres carrés

où:
yi = valeur observée de la variable dépendante
pour pour la I ème observation

= valeur estimée de la variable


dépendante pour la I ème observation

95
La méthode des moindres carrés …

n
SCres  e 2
1  e 2
2 
2
e
3  ...  e  e
2 2
n i Cette mesure donne
i 1
l’ordre de grandeur
n
de la dispersion des
SCres    yi  ˆyi 
2
observations Yi
i 1
autour de la droite
n
de régression
SCres    yi  b0  b1 xi 
2

i 1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).

96
Principes de la méthode des moindres carrés …
Comment calculer les coefficients b0 et b1?
Les estimations ponctuelles des paramètres de la droite de
régression obtenues par la méthode des moindres carrés sont :

Autre formule pour b1

Taille de l’échantillon

97
À partir des données ci-dessous, déterminez les estimations
ponctuelles des paramètres de la droite de régression selon la
méthode des moindres carrés :

98
99
Corrélation & régression

Analyse bivariée

Exercice
En utilisant la BDD SPSS « attitude envers la ville », réalisez une étude de
corrélation et de régression entre la variable dépendante attitude envers la ville et la
variable indépendante durée de résidence.

Analyse  Régression  Linéaire

Karim DOUMI SPSS 100


Corrélation & régression

Analyse bivariée

Analyse de corrélation :

Ré capitulatif du m odèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'es timation
1 ,936a ,876 ,864 1,2233
a. Valeurs prédites : (c onstantes), DURÉE_RÉ

Karim DOUMI SPSS 101


Corrélation & régression

Analyse bivariée

Analyse de corrélation : Coefficient de Pearson

Ré capitulatif du m odèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'es timation
1 ,936a ,876 ,864 1,2233 SEE
a. Valeurs prédites : (c onstantes), DURÉE_RÉ

Le R2 ajustée permet de corriger le R2 en


La durée de résidence dans la ville explique à fonction du nombre de variable. Ici, pas
87,6 % l’attitude d’incidence.

Karim DOUMI SPSS 102


Corrélation & régression

Analyse bivariée

Significativité du modèle de corrélation :


ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Significat ion
1 Régression 105,952 1 105,952 70, 803 ,000a
Rés idu 14, 964 10 1,496
Tot al 120,917 11
a. Valeurs prédites : (c onstantes), DURÉE_RÉ
b. Variable dépendante : ATT_VILL

Karim DOUMI SPSS 103


Corrélation & régression

Analyse bivariée

Significativité du modèle de corrélation : Somme des carrés  ddl


ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Significat ion
1 Régression 105,952 1 105,952 70, 803 ,000a
Rés idu 14, 964 10 1,496
Tot al 120,917 11
a. Valeurs prédites : (c onstantes), DURÉE_RÉ
b. Variable dépendante : ATT_VILL
La statistique F calculée pour 1 et 10 ddl correspond à une
proba critique < 0,05. La relation entre X et Y est positive
SSY = SSreg + SSres et significative.

Karim DOUMI SPSS 104


Corrélation & régression

Analyse bivariée

Paramètres du modèle de corrélation :


Coeffici entsa

Coefficien
ts
Coefficients non standardi
standardisés sés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 1,079 ,743 1,452 ,177
DURÉE_RÉ ,590 ,070 ,936 8,414 ,000
a. Variable dépendant e : ATT_VILL

Karim DOUMI SPSS 105


Corrélation & régression

Analyse bivariée

Paramètres du modèle de corrélation :


Coeffici entsa

Coefficien
ts
Coefficients non standardi
standardisés sés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 1,079 ,743 1,452 ,177
DURÉE_RÉ ,590 ,070 ,936 8,414 ,000
a. Variable dépendant e : ATT_VILL
T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique
Attitude (Ŷ) = 1,079 + 0,590 associée < 0,05 ce qui confirme le test F : relation positive
(durée de résidence) significative entre X et Y

Karim DOUMI 106


SPSS
Exemple

Karim DOUMI SPSS 107


Application numérique.
Au cours de 12 mois, une entreprise a noté le montant des frais
de publicité et le volume du chiffre d'affaires réalisé. Les résultats
sont consignés dans le tableau suivant :

Karim DOUMI SPSS 108


Corrélation & régression

Exercice

Réalisez une analyse de corrélation et de régression dans


BDD « Data employés » entre salaire et salaire embauche.

Karim DOUMI SPSS 109


Analyse de la Variance
ANOVA

Karim DOUMI SPSS 110


ANALYSE DE VARIANCE

Exemple
15 candidats, 3 examinateurs.
5 candidats pour chaque examinateur.
Effet d’examinateur??
Solution ANOVA

notes des candidats

Examinateur
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8
y1  4 y2  7 y3  10

y 7 111
ANALYSE DE VARIANCE

Modèle de l’analyse de la variance à 1 facteur :

yij     i   ij

Exemple d’examinateur:
où yij est la variable à expliquer ……………… Note d’un candidat
 i est l’effet du ième niveau du facteur …..... Effet d’un examinateur i
 est l’effet moyen général ………………. Moyenne générale des notes
 ij est la variable aléatoire résiduelle ……… due à l’ensemble des autres causes qui
déterminent la note .

Hypothèses :
- les  ij sont indépendants
- E ( ij )  0
- var( ij )   2
-  ij suit une loi N (0,  2 )
112
ANALYSE DE VARIANCE

Décomposition de l’élément : y ij
yij  y  ( yi  y)  ( yij  yi )

Exemple :

3 10 13 7 7 7 -3 0 3 -1 3 3
5 8 11 7 7 7 -3 0 3 1 1 1
6 5 7 = 7 7 7 + -3 0 3 + 2 -2 -3
3 7 11 7 7 7 -3 0 3 -1 0 1
3 5 8 7 7 7 -3 0 3 -1 -2 -2

données moyenne + écarts + écarts


=
globales générale inter-colonnes intra-colonnes

113
Décomposition de la variabilité

En élevant au carré et en sommant, pour toutes les observations :

  
2
( yij  y ) 2  ni ( yi  y ) 2  ( yij  yi )
i j i i j

Somme des carrés Somme des carrés des Somme des carrés des
= +
des écarts totaux écarts inter-niveaux écarts intra-niveaux

SCETotale = SCEInter + SCEIntra

Notre Exemple :
SCETotale = 140
SCEInter = 90
SCEIntra = 50 114
On souhaite tester les hypothèses :
H0 : " Il n’y a pas d’effet produit "
càd les moyennes pour les notes (niveaux du facteur) sont égales

contre H1 : " Il y a un effet produit "


càd deux moyennes au moins sont différentes

 Il s’agit donc de comparer la variabilité inter-niveaux à la variabilité intra-niveaux du


facteur

115
ANALYSE DE VARIANCE

Source de
SCE ddl
variation
Inter-niveaux SCE Inter I-1
Intra-niveaux SCE Intra n-I
Totale SCE Totale n-1

I nombre de niveaux

On définit le carré moyen inter-groupes :

SCE inter
CM inter 
I 1
et le carré moyen intra-groupes :
SCE intra
CM intra 
nI
116
ANALYSE DE VARIANCE

CM inter
Pour tester H0 contre H1, on évalue la quantité : F
CM intra

Si l’hypothèse H0 est vraie, la valeur F est faible,


sinon, en s’éloignant de cette hypothèse, le rapport F augmente

117
ANALYSE DE VARIANCE

Notre Exemple :

Tableau d’analyse de la variance

Source de variation SCE ddl CM F p-value


Examinateur 90 2 45
Résiduelle 10,8 p < 0,05
50 12 4,17
(intra-produit)
Totale 140 14

 H0 rejetée = il existe un effet de l’examinateur

118
SPSS: Analyse de variance
En analyse de la variance, on cherche à expliquer les variations d’une
variable métrique Y par un ou plusieurs facteurs explicatifs nominaux.

L’analyse de la variance permet de tester les hypothèses suivantes :

Ho: m1 = m2 = ... = mJ

H1: au moins une des moyennes est différente des autres.


Quand l'hypothèse de l'égalité des moyennes est rejetée, les méthodes de
comparaisons multiples permettent de déterminer où se situent en réalité
les différences importantes.

Les modèles varient selon le nombre de facteurs contrôlés. On aura ainsi le


modèle à un facteur, le modèle à 2 facteurs.

Karim DOUMI SPSS 119


SPSS: Analyse de variance
L’analyse de la variance à un facteur, ANOVA1 permet d’expliquer les variations
de la variable dépendante Y par un seul facteur explicatif. Les données
proviennent d'échantillons prélevés aléatoirement dans des populations normales
dans lesquelles les variances sont supposées égales. Les données sont regroupées
dans un tableau appelé matrice de données.

Comparaisons multiples de moyennes.


Quand le test de l'analyse de la variance est significatif, nous devons conclure qu'il
existe des différences importantes entre certaines des moyennes de ces
populations normales. Dans ce cas, la comparaison multiples de moyennes
cherche à déterminer un classement des moyennes en indiquant les différences
significatives et celles qui ne le sont pas.

La théorie statistique a développé plusieurs méthodes de comparaisons multiples


de moyennes.

Karim DOUMI SPSS 120


Analyse de variance
Exemple1:

Expliquer la production des commerciaux par rapport aux


journées de formation effectués.

Fichier de données: salesperformances.sav


Variables:
Group: Groupe de formation de vente.
Perform: Note à l’examen

Karim DOUMI SPSS 121


Analyse de variance
Exemple2:
Existe-t-il une différence entre les niveaux de scolarité sur le nombre
d’heures moyen travaillées par semaine ? Autrement dit, peut-on croire
qu’un plus grand nombre d’années de scolarité rime avec moins
d’heures de travail par semaine ? Pour vérifier cette hypothèse, nous
allons utiliser les données de la base GSSNET.SAV.

•La variable indépendante sera DEGREE qui regroupe les répondants


selon le diplôme obtenu, soit en cinq groupes.

•La variable dépendante sera HRS1 qui contient le nombre d’heures


travaillées par semaine pour tous les répondants.

Karim DOUMI SPSS 122


Analyse de variance
Exemple2:

La semaine moyenne à temps plein varie entre 36,82 heures pour les gens sans secondaire et
47,29 pour ceux avec Maîtrise/Doctorat. Au total, l’échantillon travaille en moyenne 42,5 heures
par semaine.
Les écart-types sont sensiblement similaires avec la plus faible variabilité pour les répondants
avec secondaire et la plus grande pour les gens sans secondaire.
La colonne Erreur standard (erreur-type) nous indique la variabilité échantillonnale de la
moyenne. La plus petite est celle des gens avec secondaire en raison du nombre élevé de cas.

Karim DOUMI SPSS 123


Analyse de variance

Nous sommes à 95 % certains que pour les gens avec Maîtrise/Doctorat, la vraie valeur de la moyenne de la
population se situe entre 44,13 et 50,44 heures. L’intervalle le plus restreint est celui des gens avec secondaire en
raison du grand nombre de sujets qui composent ce groupe (moins d’erreur-type).
Observation importante : Plusieurs des intervalles se chevauchent ! Concrètement, ceci veut dire que la plupart
des groupes possèdent des valeurs de moyennes possibles compatibles !
L’exception est l’intervalle sans secondaire et celui de Maîtrise/Doctorat : ces deux intervalles ne se chevauchent
pas. Donc, leurs valeurs possibles dans l’intervalle de confiance ne sont pas partagées.

Karim DOUMI SPSS 124


Analyse de variance

La première colonne donne la statistique proprement dite.


Ensuite, cette statistique est examinée à la lumière de deux degrés de liberté. Le premier est
calculé à partir du nombre de groupes moins 1 (5 - 1 = 4). Le deuxième est calculé à partir
du nombre de sujets moins le nombre de groupes (904 - 5 = 899).
La dernière colonne indique si le test est significatif ou non. Le seuil de signification est
toujours fixé à p < 0,05.
Dans l'exemple, comme le test n’est pas significatif (p > 0,05), on ne peut pas rejeter
l’hypothèse nulle de l’égalité des variances. Elles sont donc considérées semblables, ce qui
nous convient parfaitement et nous permet de passer à l'interprétation de l'ANOVA.

Karim DOUMI SPSS 125


Analyse de variance

Le tableau présente l'effet inter-groupes (effet dû à la variable catégorielle) et l'effet intra-groupes (effet de la
variation dans chacun des groupes). Il présente également le total des deux effets pour la somme des carrés et les
degrés de liberté.
La colonne de la somme des carrés indique
pour la variabilité inter-groupes, la sommation de l'écart de chaque moyenne de groupe par rapport à la moyenne
totale au carré.
pour la variabilité intra-groupes, la variance (écart-type au carré) de chaque groupe multipliée par le nombre de sujets
de ce groupe,
Les degrés de libertés sont les mêmes que pour le test d'homogénéité des variances.
La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par le degré de liberté
associé.
inter-groupes : 5 567,843 / 4 = 1 391,961
intra-groupes : 165 264,14 / 899 = 183,831
La statistique F est le rapport de la somme des carrés moyens inter et intra-groupes (1 391,961 / 183,831 = 7,572)
Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse nulle et dire qu’il est peu probable que
le nombre d’heures moyen travaillées dans chaque groupe soit le même dans la population.

Karim DOUMI SPSS 126


Analyse de variance
L'analyse de variance nous indique qu'il existe des différences entre les groupes, mais ne
précise pas où sont situées ces différences. Pour remédier à la situation, nous avons fait un
test post-hoc avec la comparaison de Bonferonni.

Karim DOUMI SPSS 127


Analyse de variance

Conclusion

- Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse


nulle et dire qu’il est peu probable que le nombre d’heures moyen travaillées
dans chaque groupe soit le même dans la population.

- On constate que plusieurs groupes se distinguent. D'une part, le nombre


d'heures travaillées par les gens sans secondaire se différencie
significativement du nombre d'heures travaillées par les répondants avec
secondaire ainsi que ceux avec un diplôme universitaire. D'autre part, nous
observons une différence significative qui se situe entre le groupe de
répondants avec secondaire et ceux avec Maîtrise/Doctorat.

Karim DOUMI SPSS 128


Analyse de variance
Exemple3:

24 vendeurs ont utilisé 6 techniques de vente différentes pour constituer 4 répétitions et on


a enregistré les ventes moyennes quotidiennes d’un produit en nombre d’unités vendues :

T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740

Au seuil de 5 %, existe-t-il une différence significative quant à l’effet des différentes


techniques de vente sur les ventes moyennes quotidiennes de ce produit ?
Pour répondre à cette question, il faut comparer les ventes moyennes quotidiennes des 6
techniques de vente. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de
variance à un facteur (ANOVA1).

Karim DOUMI SPSS 129


Analyse de variance à 2 facteurs

L’analyse de la variance à deux facteurs, ANOVA2 permet d’expliquer les variations


de la variable dépendante Y par deux facteurs explicatifs. Les données proviennent
d'échantillons prélevés aléatoirement dans des populations normales dans
lesquelles les variances sont supposées égales. Les données sont regroupées dans
un tableau appelé matrice de données.

Procédure SPSS:
A partir du menu, sélectionnez :
Analyse/ Modèle linéaire général/Univarié...
Dans la boite de dialogue Univarié :
Dans variables dépendantes, sélectionnez la variable à expliquer métrique.
Dans Facteur(s), sélectionnez les deux facteurs explicatifs.

Karim DOUMI SPSS 130


Analyse de variance à 2 facteurs
Exemple:
L'expérience suivante avait pour but d'analyser l'impact des 2
facteurs Sexe et Âge sur la consommation d'un certain produit de
luxe. Dans chacun des 6 groupes, le produit a été offert à 100
personnes choisies au hasard. La consommation, en nombre d’unités
achetées, est donnée dans le tableau qui suit:

Sexe Catégorie d'âge


Moins de 20 ans Entre 20 et 45 ans Plus de 45 ans
Féminin 27 39 54
Masculin 32 45 62
Total 59 84 116

Karim DOUMI SPSS 131


Analyse de variance à 2 facteurs
Résultats:

Karim DOUMI SPSS 132

Vous aimerez peut-être aussi