Vous êtes sur la page 1sur 230

Analyse de données

Avec SPSS

Professeur: Karim DOUMI


k.doumi@um5r.ac.ma

Karim DOUMI
1
SPSS
Généralités
• La statistique est la science dont l’objet est de
recueillir, de traiter et d’analyser des données issues
de l’observation de phénomènes aléatoires.

• L’analyse des données est utilisée pour décrire les


phénomènes étudies, faire des prévisions et prendre
des décisions à leur sujet. En cela, la statistique est
un outil essentiel pour la compréhension et la
gestion des phénomènes complexes.

Karim DOUMI
2
SPSS
Recensement
Collecte des données

Sondage

Statistique Descriptive
Analyse des données

Inférence Statistique
Analyse Multivariée

Conclusions

Prise des décisions


Deux branches des statistiques

◼ Statistiques descriptives

◼ Statistiques inférentielles
Analyse Bivariée

• Corrélation
• Régression linéaire simple
• Analyse de la variance (ANOVA à 1
facteur)
• ….

Karim DOUMI
5
SPSS
ANALYSE MULTIVARIEE
Y-a-t-il
une variable à expli-
quer et une ou plusieurs
NON variables expli- OUI
catives ?
Méthodes descriptives Méthodes explicatives

La variable
Les variables sont
elles quantitatives ? OUI à expliquer est-elle NON
quantitative ?

Les variables Les variables


explicatives explicatives
sont-elles sont-elles
OUI NON quantitatives ? quantitatives ?
OUI NON
OUI NON

Analyses Analyse des Régression Analyse Analyse


Classification
factorielles correspondances linéaire de la variance conjointe
(A.C.P. et A.F.C.) (A.C.M.)

Typologie
Chapitre 1 : Fonctionnement de SPSS
Généralités
• SPSS est un outil statistique permettant des…
– …analyses simples:
• Statistiques descriptives, statistiques inférentielles,
dépendance entre variables…..

– …analyses plus sophistiquées:


• Analyses multivariées: ANOVA, analyse factorielle,
régression linéaire, classification …….

Karim DOUMI
7
SPSS
Fonctionnement de SPSS:
Généralités
• Quatre types de fichiers utilisés:
– Un fichier des données de l’étude
• Fichier texte (.txt) ou excel (.xls)
• BD (access, Mysql, oracle…..)
– Un fichier d’édition des données (.sav)
– Un fichier de syntaxe (.sps)
– Un fichier de résultats (.spo /.spv)

Karim DOUMI
8
SPSS
Karim DOUMI
9
SPSS
Description des principales fenêtres :
• File : permet la gestion des fichiers (ex. : ouvrir un nouveau fichier, fermer,
enregistrer,
etc.).
• Edit : permet d’effectuer les opérations de traitement de texte (ex. : copier, couper,
coller,
etc.).
• View : permet de définir les options de l’écran (ex. : barres d’outils).
• Data : traite tout ce qui est lié à la gestion de la barre de données (ex. : définir une
variable, insérer une variable, etc.).
• Transform : permet d’effectuer les différentes opérations de transformation des
variables
(ex. : recodification, catégorisation, création d’indices, etc.).
• Analyse : permet toutes les analyses statistiques que SPSS permet d’effectuer (ex. :
analyses descriptives, corrélations, régressions, etc.).
• Graphs : présente tous les types de graphiques que SPSS permet de créer (ex. :
histogrammes, etc.).
• Utilities : comprend les utilitaires sur le programme (ex. : infos sur les fichiers, infos
sur
les variables, etc.).
• Windows : permet la gestion des fenêtres.
Help : outil d’aide à l’utilisation du logiciel.
Karim DOUMI
10
SPSS
La définition des variables
Name : sert à donner un nom à la variable. Le nom ne doit pas dépasser 8 caractères et il est recommandé de ne
pas utiliser de caractères accentués. Il doit bien représenter la variable pour vous permettre de la
reconnaître facilement.

Type : sert à décrire la variable et le format de la colonne. Il est recommandé de laisser l’option «numeric» qui
est indiquée par défaut. Pour les décimales «decimal places», vous pouvez les laisser égales à 2 ou les
mettre à 0, selon la situation.

Label : permet de donner une identification plus explicite à la variable qui sera affichée dans les différents
calculs statistiques.

Values : permet de définir les valeurs que peuvent prendre la variable.

Missing : permet d’indiquer si la variable peut accepter ou non des valeurs manquantes. Remarque : la saisie des
données manquantes se fait habituellement en effectuant un simple «retour» (c’est la méthode
recommandée). Si vous avez prévu d’utiliser des codes spécifiques (ex. : 9, 99, etc.), il faut les définir dans
«missing».

Columns : permet de terminer la largeur de la colonne. Vous pouvez augmenter ou réduire la taille de la
colonne.

Align : sert à aligner les données à l’intérieur des cellules.

Scale : permet de définir le type de l’échelle (nominale, ordinale, intervalles et ratio).

Karim DOUMI
11
SPSS
Fonctionnement de SPSS:
Fichier de données
• Dans un fichier texte, les données de chaque
sujet sont entrées successivement, séparées par
un « ; » une « , », une espace ou une tabulation.
– Il est préférable d’utiliser un « ; » ou une espace
– Exemple:
• Variables: identification (id), sexe du sujet (sexe, où f=1, h=2) et âge
(age) on entrera:
1 1 28 → participant 1 est une femme de 28 ans
2 2 33 → participant 2 est un homme de 33 ans
3 2 32 → participant 3 est un homme de 32 ans
etc.

Karim DOUMI
12
SPSS
Fonctionnement de SPSS:
Fichier de données
• Le fichier de données inclut les valeurs
numériques associées à vos données
• Ex. 7 pour signifier “totalement en accord” ou 1 pour
signifier que le participant est un homme
• Principes généraux de saisie:
– Chaque ligne = 1 participant
– Chaque colonne = 1 variable

Karim DOUMI
13
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Pour insérer les données dans ce fichier:
– Saisie des données manuellement
– Importation du fichier avec la syntaxe:
GET DATA /TYPE = TXT
/FILE = 'C:\Ex2.txt'
/DELCASE = LINE GET DATA /TYPE=XLS
/DELIMITERS = "\t"
/ARRANGEMENT = DELIMITED /FILE='C:\Ex2.xls'
/FIRSTCASE = 2 /SHEET=name 'Ex2'
/IMPORTCASE = FIRST 1000
/VARIABLES = /CELLRANGE=full
ID F3.2 /READNAMES=on .
L100KM F6.2
CHEVAPEU F3.2
POIDS A9
ACCEL F5.2
ORIGIN F3.2
NBCYL F3.2
ANNEE A8
.
CACHE.
EXECUTE.
Karim DOUMI
14
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Pour insérer les données dans ce fichier:
– Avec le menu
• Suivre les étapes affichées à l’écran

Karim DOUMI
15
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Attribuer un nom/code
à chaque variable
– Pour SPSS 12 et moins,
max de 8 lettres/chiffres,
mais débutant
nécessairement par une
lettre
– Choisir des codes
significatifs
– Conserver par écrit les
codes des variables!!!
Karim DOUMI
16
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Attribuer une étiquette
à chaque variable
– Les codes sont limités.
On peut dans SPSS
attribuer une étiquette
(label), laquelle permet
de mieux se retrouver
• Onglet “variable view”
pour modifier les
paramètres des variables

Karim DOUMI
17
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Les données à saisir
dans SPSS sont
numériques:
– Chaque modalité de
réponse peut se voir
attribuer une étiquette
(Values)

Karim DOUMI
18
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Valeurs manquantes:
– Il importe d’attribuer un
code pour les valeurs
manquantes; ceci facilite
la vérification du fichier
de données
– On doit spécifier à SPSS
un code pour signaler
l’existence d’une valeur
manquante
• Ex. -999 pour une échelle
allant de 1 à 7.

Karim DOUMI
19
SPSS
Fonctionnement de SPSS:
Fichier syntaxe
• Les analyses avec SPSS se font:
1.Par les menus ou
2.Par les syntaxes
• Plus complexe à première vue, elle comporte des
avantages majeurs:
– Certains types d’analyses ou de sous-commandes ne sont pas
disponibles via le menu.
– En spécifiant tous les paramètres de votre analyse vous êtes
plus à même de contrôler les résultats obtenus.

Karim DOUMI
20
SPSS
Fonctionnement de SPSS:
Fichier syntaxe

Karim DOUMI
21
SPSS
Fonctionnement de SPSS:
Fichier syntaxe

Karim DOUMI
22
SPSS
Fonctionnement de SPSS:
Fichier syntaxe
Une règle d’or: documenter!
• ➢Utiliser SPSS implique très rapidement
l’accumulation d’une multitude d’opérations,
de variables, de résultats : créer des variables;
les recoder; analyser une variable de plusieurs
manières différentes; complexifier
progressivement une analyse en prenant en
compte des variables supplémentaires, etc.
23
Fonctionnement de SPSS:
Fichier syntaxe
➢Pour s’y retrouver, il faut garder des traces
de ce que l’on fait :
▪sauvegarder les fichiers de résultats (outputs;
extension .spv) ou/et les imprimer (en les
classant)
▪sauvegarder les données «travaillées»
(variables recodées, nouvelles variables,
etc.) dans un fichier de données (extension
.sav) différent du fichier de données brutes.

24
Fonctionnement de SPSS:
Fichier syntaxe
➢Il est aussi conseillé d’ajouter des
commentaires (qui peuvent être brefs)
décrivant ce que l’on fait et/ou le résultat
de ce que l’on fait
➢Documenter est non seulement utile
pour le déroulement de son propre
travail, mais aussi pour en justifier le
résultat .
➢C’est un support dans les cas où il faut
faire mémoire de ce qui a été fait.
25
Fonctionnement de SPSS:
Fichier syntaxe

Un conseil: travailler avec la syntaxe


• ➢De manière usuelle, on apprend SPSS et on
travaille avec en utilisant son interface
graphique (menus déroulants, fenêtres, etc.)
• ➢De même, durant ce cours, toutes les
opérations (ou presque) pourront être faites au
moyen de l’interface graphique de SPSS
26
Fonctionnement de SPSS:
Fichier syntaxe
Recommandations:

1. Afficher dans la fenêtre résultats (outputs), les


instructions données à SPSS
2. Rassembler dans un fichier ad hoc appelé fichier
syntaxe (extension .sps) les instructions données à
SPSS, ces fichiers syntaxes peuvent être sauvegardés
et ainsi on garde mémoire des instructions données à
SPSS.
3. Enfin, à titre de conseil: travailler directement en mode
syntaxe.

27
Fonctionnement de SPSS:
Fichier syntaxe
• ➢En référence aux points 1 et 2, modifier deux
options de SPSS
▪afin que les instructions données à SPSS
d’effectuer telle ou telle opération s’inscrivent
dans la fenêtre « résultats » (output) de SPSS
(cf. point 1 ci-dessus)
▪afin qu’au démarrage de SPSS, une fenêtre «
syntaxe » s’ouvre automatiquement
28
Fonctionnement de SPSS:
Fichier syntaxe

1. Pour cela, aller dans le menu


Edition Options...
2. Sur l’écran qui apparaît, choisir la rubrique
Généralités et cocher la case Ouvrir la
fenêtre de syntaxe au démarrage
3. Puis dans la rubrique Editeurs de
résultats, cocher la case Afficher syntaxe
4. Cliquer sur Appliquer, puis Ok

29
Fonctionnement de SPSS:
Fichier syntaxe

30
16
17
Calculer une Variable
Exemple

Karim DOUMI
33
SPSS
Calculer une Variable
Il arrive très souvent que les variables brutes d'une base de
données ne soient pas suffisantes pour effectuer certaines
analyses. On peut avoir besoin de créer une ou des nouvelles
variables à partir des variables existantes, comme dans les cas
suivants :
• Créer une variable qui contient la racine carrée d'une variable
existante
• Calculer la moyenne ou la somme d'une série de variables
existantes…
La commande Compute sert à créer de nouvelles variables sur
la base de fonctions arithmétiques, statistiques ou logiques.

Karim DOUMI
34
SPSS
Calculer une Variable
Exemple
• Cette nouvelle variable sera la moyenne des réponses données par chaque sujet
aux questions Q01, Q02, Q03,
• Allez dans le menu Transformer et choisissez Calculer la variable.

• Dans la boite de dialogue, écrivez, dans Variable cible (étiquette), MOYSAT (c’est
le nom de la variable).
• Ensuite, allez dans la boite Groupe de fonctions et cliquez à deux reprises
sur Statistiques (il est dans le bas de la liste, vous devez utiliser l’ascenseur à
droite). Vous verrez dans la boite Fonctions et variables spéciales la
fonction Mean sur laquelle vous devez aussi cliquer à deux reprises.
• Dans la boite du haut, vous verrez apparaître MEAN (?, ?). Vous devez alors insérer
les variables Q01, Q02, Q03 dans la parenthèse

Karim DOUMI
35
SPSS
Calculer une Variable
Exemple
• Vous pouvez également écrire à la main la commande dans la boite…

Karim DOUMI
36
SPSS
Calculer une Variable
Exemple
Exercice sur la commande CALCULER : par syntaxe
• Maintenant, éliminez la variable MOYSAT de la matrice de données (cliquez au
haut de la colonne sur le nom de la variable, puis dans le menu Édition, cliquez
sur Effacer ou, plus simplement, sur le bouton effacer ou supprimer de votre
clavier).
• Pour copier la commande à l’intérieur d’un fichier Syntaxe recommencez les
étapes précédentes et remplacez le par
• Le texte copié dans cette fenêtre devrait se lire comme suit :

Karim DOUMI
37
SPSS
Calculer une Variable
Exemple
faites la même chose en créant la variable « AGEX ».(âge exacte de l’individu)
Voici ce que devrait contenir maintenant votre fichier Syntaxe

Karim DOUMI
38
SPSS
Création d’une variable
La commande recode sert à créer de nouvelles variables (ou à
modifier des variables existantes) sur la base d’un
regroupement des valeurs qu'on appelle aussi clé de
recodage. Voici quelques situations dans lesquelles vous
pouvez utiliser le recodage :
• À partir d'une variable contenant la note d'examen sur 20,
créer une nouvelle variable qui recode la note en lettre (A+, A-
, A, etc..)
• Recoder les valeurs d'items inversés dans une échelle de
mesure
• Diminuer le nombre de catégories d'une variable catégorielle
en les regroupant différemment

Karim DOUMI
39
SPSS
Création d’une Variable
Exemple
Imaginons que nous voulons réaliser des analyses comparant les gens en
formation (STATUT = 1) et les autres (STATUT = 2, 3 ou 4). Pour cela, il nous faut
créer une variable qui diminue le nombre de catégories de 4 à 2. :
Allez encore une fois dans le menu Transformer, puis sélectionnez Création de
variables

Recodez la variable STATUT de sorte que les sujets qui ont répondu 1 auront la
valeur 1 (en formation) alors que ceux qui ont la valeur 2, 3 ou 4 auront
maintenant la valeur 2 (autres).
Dans la boite de dialogue principale, inscrivez STATUTX dans la boite Nom de
l’encadré.
Inscrivez ensuite Statut recodé dans la boite Étiquette du même encadré.
Cliquez sur Karim DOUMI
40
SPSS
Création d’une Variable
Exemple

Apres il faut Changer les anciennes valeurs par les nouvelles valeurs.

Karim DOUMI
41
SPSS
Création d’une Variable
Exemple
Exercice sur la commande Recode : par syntaxe

Pour les 3 variables a la fois la syntaxe est la suivante:

Karim DOUMI
42
SPSS
Expression conditionnelle (IF)
Les expressions conditionnelles permettent de calculer des variables
selon une condition, donc qui s’applique à des sujets ou des observations
(lignes) qui répondent à certains critères que nous allons définir selon nos
besoins avec cette commande.
La résultante des expressions conditionnelles peut créer une nouvelle
variable ou bien transformer les valeurs d'une variable existante. Dans le
dernier cas, il faut s'assurer que l'écrasement des valeurs originales ne
porte pas à conséquence

Voici l’apparence Syntaxe la commande de cet exercice.


IF (sexe = 1) satis1=MEAN (q01, q03, q05).
Littéralement, elle signifie que SI la valeur de la variable SEXE est égale à «
1 », la valeur de la variable SATIS1 sera égale à la moyenne des valeurs des
variables Q01, Q03 et Q05.

Karim DOUMI
43
SPSS
Expression conditionnelle (IF)
Syntaxe
Forme 1 Forme 3
DO IF (expression logique) DO IF (expression logique)
... bloc d'instructions ... ... bloc d'instructions ...
END IF ELSE IF(expression
logique)
... bloc d'instructions ...
Forme 2 ELSE IF ...
DO IF (expression logique) ...
... bloc d'instructions ... ELSE ... (facultatif)
ELSE ...
... bloc d'instructions ... END IF
END IF

Karim DOUMI
44
SPSS
Expression conditionnelle (IF)

En utilisant le langage SPS:

Karim DOUMI
45
SPSS
compter(Count)
• La commande Compter sert à calculer pour chaque observation les
occurrences d’une ou de plusieurs valeurs à l’intérieur d’une série de
variables déterminées par l’utilisateur.
• Exercice sur la commande COMPTER : par menu interactif
• Dans cet exercice, nous tentons de savoir pour chaque répondant le
nombre d’items de satisfaction pour lesquels il indique qu’il est satisfait,
c’est-à-dire auquel il a accordé la valeur 3 lorsque l’item est recodé.
Allez dans le menu Transformer et sélectionnez Compter ….

Karim DOUMI
46
SPSS
Regroupement des variables
• Avec recode:

DATASET ACTIVATE Ensemble_de_données1.


RECODE age (21 thru 30=2) (Lowest thru 20=1) (31 thru
40=3) (41 thru 50=4) (51 thru 60=5) (61 thru Highest=6)
INTO age_reg.
VARIABLE LABELS age_reg 'age regroupé'.
EXECUTE.

Karim DOUMI
47
SPSS
Regroupement des variables
• Avec regroupement visuel:
RECODE age (MISSING=COPY) (LO THRU 20.0=1) (LO THRU 26.286=2) (LO
THRU 32.572=3) (LO THRU 38.858=4) (LO THRU 45.144=5) (LO THRU 51.43=6)
(LO THRU 57.715999999999994=7) (LO THRU HI=8) (ELSE=SYSMIS) INTO
age_reg_v.
VARIABLE LABELS age_reg_v 'age (Regroupé par casiers)'.
FORMATS age_reg_v (F5.0).
VALUE LABELS age_reg_v 1 '<= 20,00' 2 '21,00 - 26,29' 3 '26,30 - 32,57' 4
'32,58 - 38,86' 5 '38,87 - 45,14' 6 '45,15 - 51,43' 7 '51,44 - 57,72' 8 '57,73+'.
VARIABLE LEVEL age_reg_v (ORDINAL).
EXECUTE.

Karim DOUMI
48
SPSS
compter(Count)

Karim DOUMI
49
SPSS
Sélection de cas:
• Pour certaines analyses, il peut être nécessaire de filtrer une partie des
observations (cas) pour obtenir des résultats auprès d'un sous-groupe
spécifique d'observations.
• Il est possible de sélectionner une ou des observations à l’aide de un ou
d'une combinaison de critères, soit par la boite de dialogue, soit en
utilisant une commande SYNTAXE.
• Les conditions de sélection peuvent être uniques ou multiples. Dans le cas
d’une seule condition, on inscrit la variable sur laquelle repose la sélection
avec la condition formulée grâce aux conditions arithmétiques (<, >, =, <=,
>=, <>).
• Toutes les conditions multiples (deux variables ou plus) doivent utiliser les
opérateurs logiques (AND et OR) pour séparer les conditions.
• Pour faire une sélection de cas de manière interactive, allez dans le
menu Données, puis cliquez sur Sélectionnez des observations.
Karim DOUMI
50
SPSS
Sélection de cas:

Pour faire une sélection de cas


de manière interactive, allez
dans le menu Données, puis
cliquez sur Sélectionnez des
observations.

Karim DOUMI
51
SPSS
Sélection de cas:

Dans la première boite de dialogue,


vous devez déterminer la stratégie de
sélection que vous allez utiliser. Vous
avez plusieurs choix, mais le plus
populaire est sans contredit Selon
une condition logique. Dans ce cas, la
sélection se fait à partir de la
condition que vous énoncez. Nous
allons donc voir cette stratégie en
premier et préciser les autres par la
suite

Karim DOUMI
52
SPSS
Sélection de cas

Exemple :
pour choisir
les hommes de plus de
30 ans, on entrerait
dans la boite:
Sexe = 1 AND
age > 30

Karim DOUMI
53
SPSS
Sélection de cas:

Si vous préférez
taper la commande
manuellement,
vous devriez créer
la syntaxe suivante:

Karim DOUMI
54
SPSS
Sélection de cas:

Karim DOUMI
55
SPSS
Les autres stratégies de sélection
• Dans la boite de dialogue Sélection de cas,
vous avez bien sûr la stratégie Si que nous
venons de voir, mais aussi d’autres choix. Voici
une brève description pour chacun.
• Toutes les observations : vous ne faites pas
de sélection, vous utilisez toutes les
observations. Très utile quand vous voulez
revenir à la base initiale et annuler une
condition préalablement établie.
• Par échantillonnage aléatoire : sélection
d'observations aléatoire. Vous choisissez à ce
moment combien de cas vous voulez dans
votre échantillon, soit en pourcentage
(Environ _ % de toutes les observations), soit
en précisant un nombre d'observations parmi
les X premiers (Exactement _ observations à
partir des premières _ Observations).
• Utiliser une variable de filtre : enfin, vous pouvez
faire une sélection en ne conservant que les cas qui
ont des valeurs valides pour une variable filtre. Vous
n'avez qu'à transférer la variable filtre dans la boite
Karim DOUMI
prévue à cet effet. SPSS
56
Exercices

Karim DOUMI
57
SPSS
M anipulation des F ichiers
de D onnées
1. Création d’un Fichier de Travail.
La plupart du temps, les fichiers de données des grosses
enquêtes comportent pIusieurs centaines de variabIes. Or, dans
Ie cadre d’un travaiI de recherche on peut être amené à ne
travaiIIer que sur certaines variabIes.
•par exempIe, vous faites une étude sur Ia santé. Vos données
sont situées dans Ie fichier sante.sav qui contient Ies variabIes
suivantes :
Karim DOUMI
58
SPSS
M anipulation des F ichiers
de D onnées
Nom Libellé
id Identifiant
carnet Possède un carnet de santé
consult A consulté un médecin au cours des 6 derniers mois
datecons Date de la dernière consultation
vacchb Vacciné contre hépatite B
vaccha Vacciné contre hépatite A
vaccroug Vacciné contre la rougeole
vaccgrip Vacciné contre la grippe
sida1 A déjà entendu parler du sida
sida2 A déjà utilisé un préservatif
sida3 A déjà fait un test de dépistage

Karim DOUMI
59
SPSS
M anipulation des F ichiers
de D onnées
• Dans notre cas, nous souhaitons ne pas garder Ies variabIes
sida1, sida2 et sida3.
La syntaxe correspondante sera donc :
SAVE OUTFILE='travail.sav'
/DROP sida1
sida2 sida3.
EXECUTE.

Karim DOUMI
60
SPSS
M anipulation des F ichiers
de D onnées
SAVE OUTFILE='nom_du_fichier.sav'
/DROP var1 var2 var3

/KEEP var11 var12 var13

/RENAME
anc_var21=nouv_var21 anc_var22=nouv_var22

Nom_du_fichier.sav est Ie nom du fichier qui sera créé.


À défaut de précision, ce fichier sera pIacé dans Ie
même répertoire que Ie fichier source.

Karim DOUMI
61
SPSS
M anipulation des F ichiers
de D onnées

SAVE OUTFILE='travail.sav'
/KEEP id
carnet consult datecons
vacchb vaccha vaccroug vaccgrip.
EXECUTE.

Karim DOUMI
62
SPSS
M anipulation des F ichiers
de D onnées

2. Ajout de Variables
Supposons que Ies données ont été scindées en plusieurs fichiers de données. Ainsi
Ies caractéristiques individueIIes sont situées dans un fichier indiv.sav aIors que Ies
variabIes sur Ia santé sont dans Ie fichier travail.sav que nous venons de créer.
Le fichier indiv.sav contient Ies variabIes suivantes :
Nom Libellé
id Identifiant
sexe Sexe
age Age
instruct Niveau d'instruction
milieu Milieu de résidence
matri État matrimonial

Karim DOUMI
63
SPSS
M anipulation des F ichiers
de D onnées

Karim DOUMI
64
SPSS
M anipulation des F ichiers
de D onnées
Avant de commencer, iI faut trier Ies observations des deux fichiers seIon
I’identifiant
• Ouvrir Ie fichier ivdiv.sav.
• CIiquer dans Ie menu sur Données > Trier les observations…
• SéIectionner Ia variabIe id par ordre croissant.

•CIiquer sur OK.


•Enregistrer Ie fichier de données.
•Recommencer avec Ie fichier travail.sav

•II est égaIement possibIe d’avoir recours à Ia syntaxe suivante :


SORT CASES BY id (A).
EXECUTE.

65
M anipulation des F ichiers
de D onnées

Karim DOUMI
66
SPSS
M anipulation des F ichiers
de D onnées

3. Création d’un Fichier Enfants.


Nous disposons égaIement d’un fichier fecondite.sav comportant
des données sur Ia fécondité des personnes enquêtées.
Ce fichier comporte Ies variabIes suivantes :
Nom Libellé
id Identifiant
nbenf Nombre d'enfants
sexe$1 Sexe enfant 1
annee$1 Année de naissance de l'enfant 1
dc$1 L'enfant 1 est-il décédé ?
sexe$2 Sexe enfant 2
annee$2 Année de naissance de l'enfant 2
dc$2 L'enfant 2 est-il décédé ?
sexe$3 Sexe enfant 3
annee$3 Année de naissance de l'enfant 3
dc$3 L'enfant 3 est-il décédé ?
Karim DOUMI
67
SPSS
M anipulation des F ichiers
de D onnées

Création des fichiers enfant1.sav, enfant2.sav et enfant3.sav

•Dans un premier temps, iI nous faut créer des sous fichiers pour
chaque rang de naissance, avant de fusionner ces différents sous
fichiers en un seuI.
Nous aIIons donc avoir recours à Ia commande SAVE OUTFILE.
Nous aIIons garder Ia variable id qui va nous être indispensable par
Ia suite, ainsi que Ia variabIe nbenf.

Karim DOUMI
68
SPSS
M anipulation des F ichiers
de D onnées
GET FILE='fecondite.sav'.
SAVE OUTFILE='enfant3.sav'
SAVE OUTFILE='enfant1.sav'
/KEEP id
/KEEP id
nbenf
nbenf
sexe$3
sexe$1
annee$3
annee$1
dc$3
dc$1
/RENAME
/RENAME
sexe$3=sexe
sexe$1=sexe
annee$3=annee
annee$1=annee
dc$3=dc.
dc$1=dc,
EXECUTE.
EXECUTE.

69
M anipulation des F ichiers
de D onnées
Création de la Variable R ang de Naissance.
GET FILE='enfant1.sav'.
COMPUTE rang = 1 .
EXECUTE .
SAVE OUTFILE='enfant1.sav'.

GET FILE='enfant2.sav'.
COMPUTE rang = 2 .
EXECUTE .
SAVE OUTFILE='enfant2.sav'.

GET FILE='enfant3.sav'.
COMPUTE rang = 3 .
EXECUTE .
SAVE OUTFILE='enfant3.sav'.

Karim DOUMI
70
SPSS
M anipulation des F ichiers
de D onnées
Fusionner les Fichiers
ADD FILES
/FILE='enfant1.sav'
/FILE='enfant2.sav'
/FILE='enfant3.sav'.
EXECUTE.
SAVE OUTFILE='enfants.sav'.

Karim DOUMI
71
SPSS
M anipulation des F ichiers
de D onnées

Suppression des observations vides.

SELECT IF(rang <= nbenf).


EXECUTE .

Karim DOUMI
72
SPSS
M anipulation des F ichiers
de D onnées

Un nouveau identifiant:
COMPUTE idenf = id*10+rang .
VARIABLE LABELS idenf "Identifiant de l'enfant"
rang "Rang de l'enfant"
sexe "Sexe de l'enfant"
annee "Année de naissance de l'enfant"
dc "L'enfant est-il décéder ?".
EXECUTE .

Karim DOUMI
73
SPSS
M anipulation des F ichiers
de D onnées

GET FILE='indiv.sav'. MATCH FILES


SORT CASES BY id (A) . /FILE=*
EXECUTE. /TABLE='indiv.sav'
SAVE OUTFILE='indiv.sav'. /RENAME sexe=sexepar
/BY id.
GET FILE='enfants.sav'. EXECUTE.
SORT CASES BY id (A) .
EXECUTE. SAVE OUTFILE='enfants.sav'.
SAVE OUTFILE='enfants.sav'.

Karim DOUMI
74
SPSS
ANALYSE BIVARIEE

Karim DOUMI
75
SPSS
Corrélation & régression
linéaire simple

Karim DOUMI
76
SPSS
Corrélation, régression linéaire
simple
Introduction : précisions sémantiques

La corrélation indique le degré de linéarité entre deux variables


(quantitatives). La régression simple indique la nature de la liaison
linéaire entre deux variables (quantitatives). Ainsi l’analyse de
régression fournit une fonction entière (une droite par exemple)
alors que l’analyse de corrélation fournit un simple nombre – un
indice qui renseigne sur l’intensité avec laquelle 2 variables évoluent
ensemble. Ces 2 techniques sont donc complémentaires. L’analyse
causale enfin va plus loin en précisant le sens de la relation, le
chemin de la cause à l’effet.
77
Méthode et but
• 2 variables numériques (quantitatives)
• Identifier la nature des variables : indépendante x et dépendante y.
• Décrire la relation entre les variables
▪ graphiquement
▪ en utilisant une équation
• Utiliser l’équation pour prévoir une valeur yi à partir d’une valeur xi.
• Etablir le degré de fiabilité de l’estimation (relation probabiliste seulement)

La relation entre deux variables peut être :


• déterministe (Ceci ne nous concerne pas ici)
• probabiliste (C’est ce dont on va parler)

78
Relation déterministe: La valeur de la variable y peut être précisement
prédite à partir de la valeur de la variable x.

Exemples:
▪ Prix d’une maison et taxe due.
▪ Vitesse d’un corps en chute libre et temps.

V=V0+gt
V

V0 t

79
Relation probabiliste: La valeur d’une variable y ne peut pas être
précisement prédite à partir de la valeur de la variable x - à cause d’autres
facteurs.

Exemples:
1. Consommation en eau et une population
x = nombre d’habitants
y = eau consommée
2. Nombre d’heures passées à réviser un examen et la note obtenue.
x = heures passées à réviser
y = note obtenue

Regression possible avec une relation probabiliste.

80
Coefficient de corrélation de Bravais-Pearson

Cov( x, y ) s xy
r= =
sx s y sx s y

 (x − x )( y
i i − y)
r= i =1

( ) (
 xi − x  yi − y
2
)2
Un exemple...

Statistiques
Numéro Masse mi Long. li (xi − x ) (xi − x )2 ( yi − y ) ( yi − y )2 ( xi − x )( yi − y )
de l'essai i x y
i i

1 2 42.0 -4.0 16.0 -9.3 86.9 37.28


2 4 48.4 -2.0 4.0 -2.9 8.5 5.84
3 6 51.3 0.0 0.0 0.0 0.0 0
4 8 56.3 2.0 4.0 5.0 24.8 9.96
5 10 58.6 4.0 16.0 7.3 53.0 29.12

n=5 X =6 Y = 51.32  = 0.0  = 40  = 0.0  = 173.2  = 82.2

 (x − x )( y − y )
i i
82,2
r= i =1
= = 0,987
(
 ix − x )2
(
 iy − y )2
173,2  40

Statistiques 82
Allons un peu plus loin...

Inégalité de Schwarz: sxy  sx s y

Donc... r  1 ou − 1  r  1

r = -1

r=1 r = 0.7 r0

Liaisons absolues Liaison Pas de liaison


(déterministe) stochastique
(probabiliste)
83
Corrélation & régression

Exemple
Si je m’intéresse au lien entre le temps hebdomadaire moyen passé à travailler (X) et la
note obtenue au partiel (Y) :
• L’analyse de régression permet de déterminer une fonction qui lie les deux
variables :

ex : « Y = aX + b »
• L’analyse de corrélation renseigne sur l’intensité du lien entre les deux variables :
ex : « le lien est fort et très significatif ».

Karim DOUMI
84
Analyse de données - SPSS
Corrélation & régression

Analyse bivariée

r et r2 :
• Comme r indique le degré de la relation entre la variation d’une variable et
celle d’une autre variable, il peut également représenter la décomposition de la
variation totale (en étant au carré). On retiendra que
r2 = variation expliquée  variation totale

➔ r2 mesure la proportion de la variation d’une variable qui est expliquée


par l’autre.
• r et r2 sont des mesures symétriques d’association : la corrélation entre X et Y
est la même que la corrélation entre Y et X. Il n’est pas important de savoir
quelle est la variable indépendante et quelle est la variable dépendante.

Karim DOUMI
85
Analyse de données - SPSS
Corrélation & régression

Analyse bivariée

Interprétation du R2 :

Variance expliquée : R², coefficient de détermination (proportion de variance totale


de Y qui n’est pas due à l’erreur, ou encore proportion de la variance de Y expliquée
par la variance de X)
–R² = 0 : la variable indépendante n’explique rien
–R² = 1 : la variable explique complètement Y
–R² = 0,11 : 11% des variations de Y sont expliquées par le modèle

Karim DOUMI
86
Analyse de données - SPSS
Corrélation & régression

Analyse bivariée

Le coefficient de corrélation linéaire r renseigne sur l’intensité du lien entre 2


variables quantitatives. Il doit être complété afin de déterminer si l’éventuel lien mis à
jour est significatif ou non. On utilise pour cela un test t :

t =r. n−22
1−r

Remarque : sous SPPS, la probabilité critique du test est fournie par la rubrique « sig.
(bilatérale) »

Karim DOUMI
87
SPSS
Corrélation & régression

Analyse bivariée

Exercice
BDD Employes de SPSS : y’a-t-il une corrélation
positive significative entre salaire actuel et salaire à
l’embauche ? Entre salaire actuel et nombre d’année
d’ancienneté ?

• H0 : il n’y a aucun lien entre ces deux variables (r=0)


• H1 : il existe un lien entre ces deux variables (r0)

Analyse ➔ Corrélation➔ Bivariée

Karim DOUMI
88
SPSS
Corrélation & régression

Analyse bivariée
Corrélations

Ancienneté
Salaire Salaire (nombre de
courant d'embauche mois)
Salaire courant Corrélation de Pearson 1,000 ,880** ,084
Sig. (bilatérale) , ,000 ,067
N 474 474 474
Salaire d'embauche Corrélation de Pearson ,880** 1,000 -,020
Sig. (bilatérale) ,000 , ,668
N 474 474 474
Ancienneté (nombre Corrélation de Pearson ,084 -,020 1,000
de mois) Sig. (bilatérale) ,067 ,668 ,
N
474 474 474

**. La corrélation est significative au niveau 0.01 (bilatéral).


Corrélation positive faible et non
Corrélation positive forte et
significative
significative
Karim DOUMI
89
SPSS
Corrélation & régression

Analyse bivariée
La régression simple :
Elle consiste à déterminer une équation qui relie 2 variables quantitatives.
Contrairement à la corrélation simple, elle nécessite d’identifier l’une des 2 variables
comme étant dépendante (à expliquer) et l’autre comme étant indépendante
(explicative). Remarquons tout de même que cette méthode n’implique pas de
causalité.
Le modèle type est de la forme :
Yi = β0 + β1Xi + ei avec Y = variable dépendante (à expliquer)
X = variable indépendante (ou explicative)
β0 = ordonnée à l’origine de la droite β1 = pente de la droite
ei = terme d’erreur associé à la ième observation

Karim DOUMI
90
SPSS
Corrélation & régression

Analyse bivariée
La régression simple, vocabulaire :

•Coefficient de détermination r2 : proportion de la variation totale de Y


expliquée par la variation de X
• Valeur estimée (ou prédite) de Yi : Ŷi = a + bx avec Ŷi la valeur estimée
de Yi et a et b les estimateurs respectifs de β0 et β1.
• Coefficient de régression : le paramètre b est appelé coefficient de
régression.
• L’écart-type résiduel (SEE) : c’est l’écart-type des erreurs (valeurs réelles
Y moins valeurs estimées Ŷ).

Karim DOUMI
91
SPSS
Corrélation & régression

Analyse bivariée
La régression simple, vocabulaire (suite) :

•Coefficient de régression standardisé (coefficient bêta) : il correspond à


la pente obtenue par la régression de Y sur X lorsque les données sont
standardisées.
• Somme des erreurs au carré : les distances de tous les points à la droite de
régression sont élevées au carré et additionnées pour obtenir la somme des
erreurs au carré, qui est une mesure de l’erreur totale
• Statistique t : valeur du t de Student à n-2 degrés de liberté, afin de rejeter
ou non H0. Cette statistique est associée à sa probabilité critique (significative
lorsqu’elle est < 0,05)

Karim DOUMI
92
SPSS
Corrélation & régression

Analyse bivariée

Les étapes d’une analyse de régression simple :


1. La première étape consiste à représenter le nuage de points, variable dépendante sur l’axe
vertical et variable indépendante sur l’axe horizontal.
Cela permet de se faire une idée sur le type de lien (est-ce linéaire ?) et de détecter les éventuelles
valeurs extrêmes qui risquent de perturber l’analyse.

Sous SPSS : Graph ➔ Diagramme de dispersion ➔ Simple

Karim DOUMI
93
SPSS
Corrélation & régression

Analyse bivariée
12

10

4
ATT_VILL

0
0 10 20

DURÉE_RÉ
Karim DOUMI
94
SPSS
Corrélation & régression

Analyse bivariée
2. Il s’agit ensuite de trouver les caractéristiques de la droite qui décrit le
mieux les données. On utilise généralement la méthode des moindres carrés.
Elle consiste à déterminer la droite de régression qui minimise le carré des
distances verticales entre les points et la droite.
Avec une équation du type Yi = β0 + β1Xi + ei la distance verticale du point à
la droite est représenté par ei.
Les distances de tous les points à la droite élevés au carrés et additionnés
forment la somme des carrés des erreurs, ou « erreur totale », notée

e
2
j
➔ Le but est que cette valeur soit minimale (que les distances verticales soient
minimisées)

Karim DOUMI
95
SPSS
y = β0 + β1x

12

Yi
10

8 ei

4 Ŷi

0
0 10 20

Karim DOUMI
DURÉE_RÉ SPSS
96
La méthode des moindres carrés
• Critère des moindres carrés
où:
yi = valeur observée de la variable
dépendante pour pour la I ème observation

= valeur estimée de la variable


dépendante pour la I ème observation

97
La méthode des moindres carrés …

n
SCres = e 2
1 + e 2
2 +
2
e
3 + ... + e = e
2 2
n i Cette mesure donne
i =1
l’ordre de grandeur
n
de la dispersion des
SCres =  ( yi − ˆyi )
2
observations Yi
i =1
autour de la droite
n
de régression
SCres =  ( yi − b0 − b1 xi )
2

i =1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).

98
Principes de la méthode des moindres carrés …
Comment calculer les coefficients b0 et b1?
Les estimations ponctuelles des paramètres de la droite de
régression obtenues par la méthode des moindres carrés sont :

Autre formule pour b1

Taille de l’échantillon

99
À partir des données ci-dessous, déterminez les estimations
ponctuelles des paramètres de la droite de régression selon la
méthode des moindres carrés :

100
101
Corrélation & régression

Analyse bivariée

Exercice
En utilisant la BDD SPSS « attitude envers la ville », réalisez une étude de
corrélation et de régression entre la variable dépendante attitude envers la ville et la
variable indépendante durée de résidence.

Analyse ➔ Régression ➔ Linéaire

Karim DOUMI
102
SPSS
Corrélation & régression

Analyse bivariée

Analyse de corrélation :

Récapitulatif du modèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,936a ,876 ,864 1,2233
a. Valeurs prédites : (constantes), DURÉE_RÉ

Karim DOUMI
103
SPSS
Corrélation & régression

Analyse bivariée

Analyse de corrélation : Coefficient de Pearson

Récapitulatif du modèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,936a ,876 ,864 1,2233 SEE
a. Valeurs prédites : (constantes), DURÉE_RÉ

Le R2 ajustée permet de corriger le R2 en


La durée de résidence dans la ville explique à fonction du nombre de variable. Ici, pas
87,6 % l’attitude d’incidence.

Karim DOUMI
104
SPSS
Corrélation & régression

Analyse bivariée

Significativité du modèle de corrélation :


ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 105,952 1 105,952 70,803 ,000a
Résidu 14,964 10 1,496
Total 120,917 11
a. Valeurs prédites : (constantes), DURÉE_RÉ
b. Variable dépendante : ATT_VILL

Karim DOUMI
105
SPSS
Corrélation & régression

Analyse bivariée

Significativité du modèle de corrélation : Somme des carrés  ddl


ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 105,952 1 105,952 70,803 ,000a
Résidu 14,964 10 1,496
Total 120,917 11
a. Valeurs prédites : (constantes), DURÉE_RÉ
b. Variable dépendante : ATT_VILL
La statistique F calculée pour 1 et 10 ddl correspond à une
proba critique < 0,05. La relation entre X et Y est positive
SSY = SSreg + SSres et significative.

Karim DOUMI
106
SPSS
Corrélation & régression

Analyse bivariée

Paramètres du modèle de corrélation :


Coefficientsa

Coefficien
ts
Coefficients non standardi
standardisés sés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 1,079 ,743 1,452 ,177
DURÉE_RÉ ,590 ,070 ,936 8,414 ,000
a. Variable dépendante : ATT_VILL

Karim DOUMI
107
SPSS
Corrélation & régression

Analyse bivariée

Paramètres du modèle de corrélation :


Coefficientsa

Coefficien
ts
Coefficients non standardi
standardisés sés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 1,079 ,743 1,452 ,177
DURÉE_RÉ ,590 ,070 ,936 8,414 ,000
a. Variable dépendante : ATT_VILL
T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique
Attitude (Ŷ) = 1,079 + 0,590 associée < 0,05 ce qui confirme le test F : relation positive
(durée de résidence) significative entre X et Y

Karim DOUMI 108


SPSS
Exemple

Karim DOUMI
109
SPSS
Application numérique.
Au cours de 12 mois, une entreprise a noté le montant des frais
de publicité et le volume du chiffre d'affaires réalisé. Les résultats
sont consignés dans le tableau suivant :

Karim DOUMI
110
SPSS
Corrélation & régression

Exercice

Réalisez une analyse de corrélation et de régression dans


BDD « Data employés » entre salaire et salaire embauche.

Karim DOUMI
111
SPSS
Analyse de la Variance
ANOVA

Karim DOUMI
112
SPSS
ANALYSE DE VARIANCE

Exemple
15 candidats, 3 examinateurs.
5 candidats pour chaque examinateur.
Effet d’examinateur??
Solution ANOVA

notes des candidats

Examinateur
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8
y1 = 4 y2 = 7 y3 = 10

y =7 113
ANALYSE DE VARIANCE

Modèle de l’analyse de la variance à 1 facteur :

yij =  +  i +  ij

Exemple d’examinateur:
où yij est la variable à expliquer ……………… Note d’un candidat
 i est l’effet du ième niveau du facteur …..... Effet d’un examinateur i
 est l’effet moyen général ………………. Moyenne générale des notes
 ij est la variable aléatoire résiduelle ……… due à l’ensemble des autres causes qui
déterminent la note .

Hypothèses :
- les  ij sont indépendants
- E ( ij ) = 0
- var(  ij ) =  2
-  ij suit une loi N (0,  2 )
114
ANALYSE DE VARIANCE

Décomposition de l’élément : yij


yij = y + ( yi − y ) + ( yij − yi )

Exemple :

3 10 13 7 7 7 -3 0 3 -1 3 3
5 8 11 7 7 7 -3 0 3 1 1 1
6 5 7 = 7 7 7 + -3 0 3 + 2 -2 -3
3 7 11 7 7 7 -3 0 3 -1 0 1
3 5 8 7 7 7 -3 0 3 -1 -2 -2

données moyenne + écarts + écarts


=
globales générale inter-colonnes intra-colonnes

115
Décomposition de la variabilité

En élevant au carré et en sommant, pour toutes les observations :

  
2
( yij − y ) 2 = ni ( yi − y ) 2 + ( yij − yi )
i j i i j

Somme des carrés Somme des carrés des Somme des carrés des
= +
des écarts totaux écarts inter-niveaux écarts intra-niveaux

SCETotale = SCEInter + SCEIntra

Notre Exemple :
SCETotale = 140
SCEInter = 90
SCEIntra = 50 116
On souhaite tester les hypothèses :
H0 : " Il n’y a pas d’effet d’examinateur "
càd les moyennes pour les notes (niveaux du facteur) sont égales

contre H1 : " Il y a un effet d’examinateur "


càd deux moyennes au moins sont différentes

→ Il s’agit donc de comparer la variabilité inter-niveaux à la variabilité intra-niveaux du


facteur

117
ANALYSE DE VARIANCE

Source de
SCE ddl
variation
Inter-niveaux SCE Inter I-1
Intra-niveaux SCE Intra n-I
Totale SCE Totale n-1

I nombre de niveaux

On définit le carré moyen inter-groupes :

SCEinter
CMinter =
I −1
et le carré moyen intra-groupes :
SCEintra
CMintra =
n−I
118
ANALYSE DE VARIANCE

CM inter
Pour tester H0 contre H1, on évalue la quantité : F=
CM intra

Si l’hypothèse H0 est vraie, la valeur F est faible,


sinon, en s’éloignant de cette hypothèse, le rapport F augmente

119
ANALYSE DE VARIANCE

Notre Exemple :

Tableau d’analyse de la variance

Source de variation SCE ddl CM F p-value


Examinateur 90 2 45
Résiduelle 10,8 p < 0,05
50 12 4,17
(intra-produit)
Totale 140 14

 H0 rejetée = il existe un effet de l’examinateur

120
SPSS: Analyse de variance
En analyse de la variance, on cherche à expliquer les variations d’une
variable métrique Y par un ou plusieurs facteurs explicatifs nominaux.

L’analyse de la variance permet de tester les hypothèses suivantes :

Ho: m1 = m2 = ... = mJ

H1: au moins une des moyennes est différente des autres.


Quand l'hypothèse de l'égalité des moyennes est rejetée, les méthodes de
comparaisons multiples permettent de déterminer où se situent en réalité
les différences importantes.

Les modèles varient selon le nombre de facteurs contrôlés. On aura ainsi le


modèle à un facteur, le modèle à 2 facteurs.

Karim DOUMI
121
SPSS
SPSS: Analyse de variance
L’analyse de la variance à un facteur, ANOVA1 permet d’expliquer les variations
de la variable dépendante Y par un seul facteur explicatif. Les données
proviennent d'échantillons prélevés aléatoirement dans des populations normales
dans lesquelles les variances sont supposées égales. Les données sont regroupées
dans un tableau appelé matrice de données.

Comparaisons multiples de moyennes.


Quand le test de l'analyse de la variance est significatif, nous devons conclure qu'il
existe des différences importantes entre certaines des moyennes de ces
populations normales. Dans ce cas, la comparaison multiples de moyennes
cherche à déterminer un classement des moyennes en indiquant les différences
significatives et celles qui ne le sont pas.

La théorie statistique a développé plusieurs méthodes de comparaisons multiples


de moyennes.

Karim DOUMI
122
SPSS
Analyse de variance
Exemple1:

Expliquer la production des commerciaux par rapport aux


journées de formation effectués.

Fichier de données: salesperformances.sav


Variables:
Group: Groupe de formation de vente.
Perform: Note à l’examen

Karim DOUMI
123
SPSS
Analyse de variance
Exemple2:
Existe-t-il une différence entre les niveaux de scolarité sur le nombre
d’heures moyen travaillées par semaine ? Autrement dit, peut-on croire
qu’un plus grand nombre d’années de scolarité rime avec moins
d’heures de travail par semaine ? Pour vérifier cette hypothèse, nous
allons utiliser les données de la base GSSNET.SAV.

•La variable indépendante sera DEGREE qui regroupe les répondants


selon le diplôme obtenu, soit en cinq groupes.

•La variable dépendante sera HRS1 qui contient le nombre d’heures


travaillées par semaine pour tous les répondants.

Karim DOUMI
124
SPSS
Analyse de variance
Exemple2:

La semaine moyenne à temps plein varie entre 36,82 heures pour les gens sans secondaire et
47,29 pour ceux avec Maîtrise/Doctorat. Au total, l’échantillon travaille en moyenne 42,5 heures
par semaine.
Les écart-types sont sensiblement similaires avec la plus faible variabilité pour les répondants
avec secondaire et la plus grande pour les gens sans secondaire.
La colonne Erreur standard (erreur-type) nous indique la variabilité échantillonnale de la
moyenne. La plus petite est celle des gens avec secondaire en raison du nombre élevé de cas.
Karim DOUMI
125
SPSS
Analyse de variance

Nous sommes à 95 % certains que pour les gens avec Maîtrise/Doctorat, la vraie valeur de la moyenne de la
population se situe entre 44,13 et 50,44 heures. L’intervalle le plus restreint est celui des gens avec secondaire en
raison du grand nombre de sujets qui composent ce groupe (moins d’erreur-type).
Observation importante : Plusieurs des intervalles se chevauchent ! Concrètement, ceci veut dire que la plupart
des groupes possèdent des valeurs de moyennes possibles compatibles !
L’exception est l’intervalle sans secondaire et celui de Maîtrise/Doctorat : ces deux intervalles ne se chevauchent
pas. Donc, leurs valeurs possibles dans l’intervalle de confiance ne sont pas partagées.
Karim DOUMI
126
SPSS
Analyse de variance

La première colonne donne la statistique proprement dite.


Ensuite, cette statistique est examinée à la lumière de deux degrés de liberté. Le premier est
calculé à partir du nombre de groupes moins 1 (5 - 1 = 4). Le deuxième est calculé à partir
du nombre de sujets moins le nombre de groupes (904 - 5 = 899).
La dernière colonne indique si le test est significatif ou non. Le seuil de signification est
toujours fixé à p < 0,05.
Dans l'exemple, comme le test n’est pas significatif (p > 0,05), on ne peut pas rejeter
l’hypothèse nulle de l’égalité des variances. Elles sont donc considérées semblables, ce qui
nous convient parfaitement et nous permet de passer à l'interprétation de l'ANOVA.

Karim DOUMI
127
SPSS
Analyse de variance

Le tableau présente l'effet inter-groupes (effet dû à la variable catégorielle) et l'effet intra-groupes (effet de la
variation dans chacun des groupes). Il présente également le total des deux effets pour la somme des carrés et les
degrés de liberté.
La colonne de la somme des carrés indique
pour la variabilité inter-groupes, la sommation de l'écart de chaque moyenne de groupe par rapport à la moyenne
totale au carré.
pour la variabilité intra-groupes, la variance (écart-type au carré) de chaque groupe multipliée par le nombre de sujets
de ce groupe,
Les degrés de libertés sont les mêmes que pour le test d'homogénéité des variances.
La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par le degré de liberté
associé.
inter-groupes : 5 567,843 / 4 = 1 391,961
intra-groupes : 165 264,14 / 899 = 183,831
La statistique F est le rapport de la somme des carrés moyens inter et intra-groupes (1 391,961 / 183,831 = 7,572)
Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse nulle et dire qu’il est peu probable que
le nombre d’heures moyen travaillées dans chaque groupe soit le même dans la population.

Karim DOUMI
128
SPSS
Analyse de variance
L'analyse de variance nous indique qu'il existe des différences entre les groupes, mais ne
précise pas où sont situées ces différences. Pour remédier à la situation, nous avons fait un
test post-hoc avec la comparaison de Bonferonni.

Karim DOUMI
129
SPSS
Analyse de variance

Conclusion

- Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse


nulle et dire qu’il est peu probable que le nombre d’heures moyen travaillées
dans chaque groupe soit le même dans la population.

- On constate que plusieurs groupes se distinguent. D'une part, le nombre


d'heures travaillées par les gens sans secondaire se différencie
significativement du nombre d'heures travaillées par les répondants avec
secondaire ainsi que ceux avec un diplôme universitaire. D'autre part, nous
observons une différence significative qui se situe entre le groupe de
répondants avec secondaire et ceux avec Maîtrise/Doctorat.

Karim DOUMI
130
SPSS
Analyse de variance
Exemple3:

24 vendeurs ont utilisé 6 techniques de vente différentes pour constituer 4 répétitions et on


a enregistré les ventes moyennes quotidiennes d’un produit en nombre d’unités vendues :

T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740

Au seuil de 5 %, existe-t-il une différence significative quant à l’effet des différentes


techniques de vente sur les ventes moyennes quotidiennes de ce produit ?
Pour répondre à cette question, il faut comparer les ventes moyennes quotidiennes des 6
techniques de vente. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de
variance à un facteur (ANOVA1).
Karim DOUMI
131
SPSS
Analyse de variance à 2 facteurs

L’analyse de la variance à deux facteurs, ANOVA2 permet d’expliquer les variations


de la variable dépendante Y par deux facteurs explicatifs. Les données proviennent
d'échantillons prélevés aléatoirement dans des populations normales dans
lesquelles les variances sont supposées égales. Les données sont regroupées dans
un tableau appelé matrice de données.

Procédure SPSS:
A partir du menu, sélectionnez :
Analyse/ Modèle linéaire général/Univarié...
Dans la boite de dialogue Univarié :
Dans variables dépendantes, sélectionnez la variable à expliquer métrique.
Dans Facteur(s), sélectionnez les deux facteurs explicatifs.

Karim DOUMI
132
SPSS
Analyse de variance à 2 facteurs
Exemple:
L'expérience suivante avait pour but d'analyser l'impact des 2
facteurs Sexe et Âge sur la consommation d'un certain produit de
luxe. Dans chacun des 6 groupes, le produit a été offert à 100
personnes choisies au hasard. La consommation, en nombre d’unités
achetées, est donnée dans le tableau qui suit:

Sexe Catégorie d'âge


Moins de 20 ans Entre 20 et 45 ans Plus de 45 ans
Féminin 27 39 54
Masculin 32 45 62
Total 59 84 116

Karim DOUMI
133
SPSS
Analyse de variance à 2 facteurs
Résultats:

Karim DOUMI
134
SPSS
ANALYSE MULTIVARIEE

Karim DOUMI
135
SPSS
Régression linéaire multiple

Karim DOUMI
136
SPSS
Régression multivariée

Pourquoi réaliser des régressions multivariées ?


Limite de la régression simple : un phénomène a rarement une seule
cause. Par exemple, qu’est-ce qui explique les ventes d’un produit ?
➔Le budget pub, le budget force de vente, le prix, le nombre de
points de vente, etc.
La régression multiple permet, elle, de confirmer une relation de cause
à effet entre variables, c’est-à-dire expliquer les variations d’une
variable par plusieurs autres variables. Si cette relation est confirmée, il
faut alors évaluer son intensité.

Karim DOUMI
137
SPSS
Régression multivariée

Méthode :
Y est la variable quantitative à expliquer (dépendante), et X1, X2, …, Xi, les i
variables explicatives (indépendantes) quantitatives (à la rigueur binaires). La
forme générale du modèle est :
Y = β0 + β1 X1 + β2 X2 + …. + βi Xi + ε avec ε minimum.
➔On recherche une fonction f qui lie les valeurs de Y à celle des X et telle que
f(Xi) soit le « plus proche possible » de Y.
➔Dans la pratique, on calcule l’équation :
Ŷ = b0 + b1 X1 + b2 X2 + …. + bi Xi

Karim DOUMI 138


SPSS
Régression multivariée
Présentation des résultats sous SPSS (1/4):

Analyse ➔ Régression ➔ Linéaire


• La significativité globale du modèle est fournie à l’aide d’un test F et une probabilité
associée
• Le R² ajusté indique le % de variance de Y expliquée par l’équation (ajustée au
nombre de variables indépendantes et à la taille de l’échantillon)

• Le coefficient de corrélation multiple R tend vers 1 lorsque la relation est forte, vers
0 lorsqu’elle est nulle

k(1−R )
2

R ajusté=R −
2 2
n−k −1
Karim DOUMI 139
SPSS
Régression multivariée
Présentation des résultats sous SPSS (2/4) :
• Les coefficients β, dits coefficients de régression partiels représentent la variation
attendue de Y quand Xi varie d’une unité mais que les autres variables indépendantes
sont maintenues constantes. A chacun d’entre eux est associé un tests t pour en
estimer la significativité.
• Pour comparer la contribution relative des Xi à Y, il suffit de comparer les valeurs
absolues des t associés ou de lire les coefficients de régression partiels standardisés
Bêta (moyenne=0 et écart-type=1) qui permettent la comparaison entre Xi alors
même que celles-ci ont des unités de mesure différentes (exemple, pour estimer les
ventes d’un magasin : surface en m², nombre de produits en promo, proximité du
centre ville en km etc.)

Karim DOUMI
140
SPSS
Régression multivariée

Présentation des résultats sous SPSS (3/4) :


La multi colinéarité est rencontrée dans le cas d’un modèle qui
contient des séries explicatives qui sont liées entre elles.
La multi colinéarité a plusieurs effets sur les résultats de la
régression linéaire multiples on peux citer par exemple
l’augmentation de la variance estimée de certains coefficients
lorsque la colinéarité entre les variables explicatives augmente.

Karim DOUMI
141
SPSS
Régression multivariée

Présentation des résultats sous SPSS (3/4) :


• Il est nécessaire de tester la colinéarité, car la multi colinéarité entre
variables explicatives biaisent les estimations de R² :
✓ Il faut étudier la tolérance : pourcentage de la variable explicative
non expliquée par les autres variables explicatives (elle doit être proche
de 1, et en tout cas > 0,7)
✓ Il faut aussi étudier le VIF (variance inflation factor) : degré
d’augmentation de l’erreur lié à la multicolinéarité (Tolerence=1/VIF)

Karim DOUMI
142
SPSS
Régression multivariée
Méthodes de régression:
•Entrée: toutes les variables évaluées sont entrées au même moment et un
test F évalue l’ensemble du modèle

• Régression ascendante : les variables sont entrées dans le modèle les


unes après les autres, en recherchant d’abord la variable Xi la plus
explicative, puis celle qui explique le plus la part de variance restant à
expliquer etc.

• Régression descendante : les variables sont éliminées du modèle global


les unes après les autres, en éliminant d’abord la variable Xi la moins
explicative de Y, puis celle qui explique le moins la variance restant à
expliquer etc.
Karim DOUMI
143
SPSS
Régression multivariée

Exercice
Peut-on expliquer l’attitude envers la ville en fonction de la durée de
résidence et de l’importance accordée au climat ?

Karim DOUMI
144
SPSS
Régression multivariée
Réponse :
Sous SPSS : Analyse ➔ Régression ➔ Linéaire

Récapitulatif du modèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,972a ,945 ,933 ,8597
a. Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉ

Karim DOUMI
145
SPSS
Régression multivariée
Réponse :

La relation est forte


Récapitulatif du modèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,972a ,945 ,933 ,8597
a. Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉ

Le modèle « explique » 93,3 % de la variance


SEE
de Y

Karim DOUMI
146
SPSS
Régression multivariée
Réponse :
Sous SPSS : Analyse ➔ Régression ➔ Linéaire
Statistiques : test de colinéarité

ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 114,264 2 57,132 77,294 ,000a
Résidu 6,652 9 ,739
Total 120,917 11
a. Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉ
b. Variable dépendante : ATT_VILL

Karim DOUMI
147
SPSS
Régression multivariée
Réponse :

ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 114,264 2 57,132 77,294 ,000a
Résidu 6,652 9 ,739
Total 120,917 11
a. Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉ
b. Variable dépendante : ATT_VILL

Le test F est associé à une probabilité d’erreur < 5 %. Le modèle


est donc globalement significatif

Karim DOUMI
148
SPSS
Régression multivariée
Réponse :

Coefficientsa

Coefficien
ts
Coefficients non standardi Statistiques de
standardisés sés colinéarité
Erreur
Modèle B standard Bêta t Signification Tolérance VIF
1 (constante) ,337 ,567 ,595 ,567
DURÉE_RÉ ,481 ,059 ,764 8,160 ,000 ,698 1,433
IMP_CLIM ,289 ,086 ,314 3,353 ,008 ,698 1,433
a. Variable dépendante : ATT_VILL

Karim DOUMI
149
SPSS
Régression multivariée
Réponse : L’équation de la droite de régression est : Ŷ = 0,337 +
0,481X1 + 0,289X2

Coefficientsa

Coefficien
ts
Coefficients non standardi Statistiques de
standardisés sés colinéarité
Erreur
Modèle B standard Bêta t Signification Tolérance VIF
1 (constante) ,337 ,567 ,595 ,567
DURÉE_RÉ ,481 ,059 ,764 8,160 ,000 ,698 1,433
IMP_CLIM ,289 ,086 ,314 3,353 ,008 ,698 1,433
a. Variable dépendante : ATT_VILL

β1 et β2 sont significatifs. Ces 2 facteurs


sont donc importants pour expliquer Y Pas de problème de
multicolinéarité
Karim DOUMI
150
SPSS
Régression multivariée
Méthodes de régression:
•Entrée: toutes les variables évaluées sont entrées au même moment et un
test F évalue l’ensemble du modèle

• Régression ascendante : les variables sont entrées dans le modèle les


unes après les autres, en recherchant d’abord la variable Xi la plus
explicative, puis celle qui explique le plus la part de variance restant à
expliquer etc.

• Régression descendante : les variables sont éliminées du modèle global


les unes après les autres, en éliminant d’abord la variable Xi la moins
explicative de Y, puis celle qui explique le moins la variance restant à
expliquer etc.
Karim DOUMI
151
SPSS
Régression multivariée

Conclusion sur la régression multiple :


•Choisir la régression si l’objectif est un modèle de prédiction
•Bien réfléchir au statut des variables dépendante et indépendantes
•Disposer de variances suffisantes sur les variables introduites dans le modèle.
•Ne retenir que les β significatifs.
•Éviter les données avec des valeurs extrêmes ou aberrantes

Karim DOUMI
152
SPSS
Régression logistique
binaire

153
Régression logistique

Quand la variable dépendante est nominale ou ordinale.


Deux types selon la forme de la variable dépendante:
•Binaire pour deux catégories.
•Polytomique pour plusieurs catégories: multinomiale

Quand les variables indépendantes peuvent être de plusieurs types:


•Nominales (qualitatives)
•Ordinales
•Métriques (quantitatives)

154
Régression logistique

•Cette méthode se focalise sur les situations où les


valeurs d’une variable à prédire sont binaires (0 ou 1)
– Exemple: Une variable booléenne

•Au lieu de prédire la valeur d’une variable, on prédit


la probabilité de la variable à être égale à 0 et 1.

•Les probabilités décrivent une sigmoïde (courbe en


forme de S) entre 0 et 1

Karim DOUMI
155
SPSS
Régression logistique

Karim DOUMI
156
SPSS
Régression logistique

Comme la variable dépendante prend soit la valeur 0 ou la valeur 1


(régression logistique ordinaire), la valeur prédite doit donc se situer entre
0 et 1.
C’est pourquoi on transforme la VD en une fonction de probabilité.

.
Régression logistique
Variable dépendante:  p( y =1|x) 
ln
p( y = 0|x)

• On transforme donc la VD de telle sorte que l’on prédit la


probabilité que Y=1 plutôt que 0, étant donné les valeurs de x
(x1,x2,x3,...xn).
• Il s’agit d’une transformation logarithmique, difficile à
interpréter. C’est pourquoi on transforme par l’inverse (Exp)
pour faciliter l’interprétation.
Régression logistique
• Nous avons vu que l’équation de la régression multiple est la
suivante :
Yi= b0 + b1X1 + b2X2 + … + bnXn + εi
Pour la régression logistique, c’est la même chose, mais en
ajoutant la transformation logarithmique. Par exemple,
l’équation pour 1 prédicteur est la suivante :

où :
P(Y) est la probabilité que Y arrive
e:est la base des logarithmes naturels
Les coefficients b0 et b1 représentent la combinaison linéaire du prédicteur et
de la constante. 159
Régression logistique

La régression à plusieurs prédicteurs est donc formulée ainsi :

160
Régression logistique
R et R2.
La statistique R n’est pas fournie par SPSS.

Le R2L de Hosmer et Lemeshow indique la réduction de la proportion de la valeur


absolue de la probabilité log. En ce sens, il s’agit d’une mesure de l’amélioration de
l’ajustement du modèle lorsqu’une variable est retirée. Sa valeur varie entre 0 (lorsque
la variable indépendante ne permet pas de prédire Y) et 1 (lorsque la variable
indépendante prédit parfaitement Y).
Ensuite, le R2 de Cox et Snell (1989) et le R2 Nagelkerke (1991), tous deux fournis
dans un tableau SPSS, ces derniers s’apparentent aussi au R2 de la régression linéaire.
Le premier n’atteint jamais le maximum théorique de 1 et varie en fonction de la taille
de l’échantillon. Le second est une modification du 1er pour obtenir une valeur
théorique plus près de 1. Ils mesurent la force de l’association (la taille d’effet) et
fournissent un indice de l’ajustement au modèle. Ils représentent un estimé de la
variance expliquée par le modèle. Plus leur valeur est élevée, plus la probabilité
prédite par le modèle s’approche de la valeur observée.
Régression logistique
Le test de Hosmer et Lemeshow (1989)

Ce test évalue la présence de différences significatives entre les valeurs observées et


les valeurs prédites pour chaque sujet. Nous cherchons évidemment à ce qu’il ne soit
pas significatif. Par contre, il est très sensible à la taille de l’échantillon. De plus, il ne
peut pas être calculé lorsque le modèle ne comprend qu’un prédicteur dichotomique.
Il doit donc être utilisé à titre indicatif seulement.
Régression logistique

Calcul de l’apport de chaque prédicteur : la statistique de Wald

Une fois que nous savons si le modèle est bien ajusté aux données, il est intéressant
de connaître l’apport de chaque prédicteur à l’amélioration du modèle. Pour ce faire,
nous avons recours à la statistique de Wald.
Régression logistique

Exemple de régression logistique: gssnet.sav

Happy or Not happy


Analyse en composantes
principales

165
Analyse de composantes principales

• L’Analyse en Composantes Principales (ACP) est une méthode


d’analyse des données multivariées.

• Elle permet de décrire et d’explorer les relations qui existent


entre plusieurs variables simultanément à la différence des
méthodes bi-variées qui étudient les relations supposées entre les
variables.

• L’objectif de la méthode est de chercher un nombre plus réduit


de variable pour décrire plus efficacement les phénomènes
structurant d’un groupe de données.
Analyse de composantes principales

• On cherche donc des corrélations qui existent entre les


différentes variables, pour rapprocher au sein de « composantes »
les variables les plus proches entre elles.

• On regroupe donc les variables pour qu’elles « composent » des


dimensions dans le but de réduire le nombre de caractéristiques
décrivant les individus afin de mieux interpréter les données.

• Les composantes sont en quelques sorte des « méta-variables ».

• En pratiques chaque dimension est définie par la meilleure


combinaison linéaire de variables expliquant la variance non
expliquée par la dimension précédente.
Définition , objectifs et principes de l’ACP

ACP consiste à représenter au mieux Dans un espace plus réduit


des observations issues d’un espaces plus grand en nombres de
dimension( Xj variables) afin de simplifié la réalité , la concentration
d’une information de départ diluée et la description du maximum
de variabilité dans un espace réduit .
Visualiser
Définition , objectifs ,principes
Les Objectifs de l’ACP:

Les objectifs poursuivis par une ACP sont :

la représentation graphique “optimale” des individus (lignes),


minimisant les déformations du nuage des points, dans un sous-espace
Eq de dimension q (q < p),

la représentation graphique des variables dans un sous-espace Fq en


explicitant au “mieux” les liaisons initiales entre ces variables,

La réduction de la dimension (compression), ou approximation de X


par un tableau de rang q (q < p).
Étude des individus , étude des variable

Tableau X des données

• On peut considéré ce tableau comme un ensemble de lignes et


de colonnes et chercher les différences et les ressemblance qui
peut y avoir d’une ligne ou d’une colonnes à l’autre.
• Un individu est une ligne du tableau et donc un espace à K
dimension.
Étude des individus , étude des variable
• Étude des individus
Étudier les individus consiste à rechercher les ressemblance entre eux , en effet
deux individus se ressemble si ils prennent des valeurs proche sur l’ensemble de K
variable , grâce à Pythagore en peut définir la distance entre deux individus par la
somme des carrés des écarts au carré pour chacune des variables :

• Étude des variables


Si les valeurs prises par deux variables particulières sont très voisines pour tous les
individus, ces variables seront représentées par deux points très proches dans l’espace
à n coordonnées où elles se trouvent. Cela peut vouloir dire que ces variables
mesurent une même chose ou encore qu'elles sont liées par une relation particulière.
Étude des individus
❑ Analyse du nuage de point des individus:
• Étudier un individu revient finalement à étudier la forme du nuage de
point

Figure 1 : Nuage des individus NI dans IRK

• Ainsi le nuage NI des individus est un espace vectoriel à K dimensions,


dont chaque dimension représente une variable.
• L’objectif est d’ajuster le nuage de n points par un sous-espace à une,
puis deux dimensions, de façon à obtenir sur un graphique une
représentation visuelle la plus fidèle possible des proximités existant
entre les n individus vis-à-vis des p variables.
Analyse du nuage de point des individus
Comment voir Les distances entre individus?
• L’essentiel de l’analyse en composantes principales réside dans la recherche d’un plan
(appelé premier plan factoriel) sur lequel on projette le nuage de telle sorte que la
distance entre les points projetés sur ce plan seront le plus proches que possible des
distances réelles entre les points de l’espace d’origine

• Il s'agit de trouver le plan tel que, globalement, l’ensemble des mesurés dans le
plan pour tous les couples de points, se rapproche autant que possible des
distances réelles mesurées dans l'espace d'origine.
Analyse du nuage de point des variable
• L'analyse du nuage NK des variables se fait toujours à partir des données centrées
réduites.
• La représentation du nuage NK des variables se situe dans un espace vectoriel à I
dimensions, chaque dimension représentant un individu de la population totale.

Fig.2 Nuage des variables NK dans IRI .

• L'analyse du nuage Nk des variables se fera donc par l'étude des angles formés pour une
variable k par Ok et les axes factoriels. Il est bon de noter que le centre de gravité du
nuage Nk n'est pas l'origine de la sphère unité, à la différence du nuage NI où le centre
de gravité correspond au centre du repère lorsque les données sont centrées
Ajustement du nuage de point des individus:
En générale L'approche factorielle consiste donc à approcher ces nuages NI et NK dans des sous
espaces vectoriels permettant de fournir quelques images planes de ces nuages.
Ajustement du nuage des individus :
Ajuster le nuage des individus consiste à à chercher une suite ( Us ; s = 1; _ _ _ ; S) de directions privilégiées -les axes
factoriels - afin de fournir une représentation simplifiée du nuage NI . Chaque direction Us rend maximum l'inertie par
rapport au centre de gravité G de la projection du nuage NI sur l'axe factoriel us. De plus les directions us sont orthogonales
deux à deux..

Fig. 3:Ajustement du nuage NI des individus pour l'ACP

Le point i se projette en Hi sur U1, l’objectif est de chercher u1 qui rend maximum l’inertie, en effet rendre maximum l’inertie
revient à rendre minimum l’écart entre le nuage des individus et sa projection
ensuite trouver u2 orthogonal à u1qui satisfait le même critère .
Ajustement du nuage de point des variable :
• Nous cherchons ici à obtenir des variables synthétiques et une
représentation approchée des corrélations entre les variables

Fig. 4 Ajustement du nuage NK des variables pour l'ACP

• la variable k se projette en Hk sur v1. Nous cherchons le premier axe factoriel en déterminant le
vecteur v1 qui rend maximum Puis, nous cherchons le vecteur v2 orthogonal à v1 qui
satisfait ce même critère.
• Nous poursuivons cette démarche jusqu'à l'obtention des S vecteurs recherchés. Le vecteur v1
définit une nouvelle variable qui est la combinaison linéaire la plus liée à l'ensemble des variables
initiales du tableau X.
• Les S nouvelles variables (axes factoriels) sont appelées les composantes
principales, V1 le vecteur qui rend maximum l’inertie , en effet V1 est la composante la plus liée à
l’ensemble des variables initiales ( c’est la variable qui synthétise le mieux l’ensemble des variables
initiales.
Le choix des composantes principales.

✓ Une règle empirique, celle-ci due à Cattell (1966) est appelée test
du talus (scree test) se fonde sur le graphique des valeurs propres
de R en fonction de leur rang; habituellement, la
décroissance est rapide au début et lente par la suite.

✓ Après avoir définit la première composante C1 comme une


combinaison linéaire des variables centrées réduites X1,
X2,....,Xp : C1 =a11X1+a21X2+...+ap1Xp

✓ La deuxième composante C2 est aussi une combinaison linéaire


des mêmes variables : C2 =a12X1+a22X2+...+ap2Xp
Le choix des composantes principales.
On retiendra les composantes dont les valeurs propres correspondantes sont
au-dessus de la droite joignant les dernières valeurs propres. Par exemple, si le
graphique avait l’allure suivante:

On aurait retenu une seule composante selon Cattell, et 4 selon Kaiser.


Analyse de composantes principales

Exemple:
• Le fichier « indicateurs économiques » propose 7 variables pour
caractériser les 22 régions françaises.
• L’analyse en composantes principales va permettre la réduction
du nombre de variables afin de déterminer une structure sous-
jacente.
Analyse de composantes principales
Analyse de composantes principales

Sous SPSS : Analyse ➔ Réduction des dimensions ➔


Analyse factorielle.
La procédure propose trois tableaux et un graphique à
analyser:
Analyse de composantes principales

Le tableau présente les 2 dimensions qui permettent de résumer l’information. La


première extraite permet d’expliquer 57% de la variance du phénomène.
La deuxième dimension n’explique que 27% de la variance.
La variance est calculée à partir de la valeur propre initiale.
La variance cumulée (85%) permet d’évaluer si la réduction des 7 variables à 2
composantes permet de conserver l’essentiel du phénomène mesuré par les 7
variables de départ.
Analyse de composantes principales

Permet de répondre à la question: dans quelle mesure mes variables de départ


sont elles prises en comptes par les variables extraites?
Par exemple: la qualité de représentation de la variable « population en milliers »
est 0,936. cela veut dire que 93% de la variance de la variable est prise en compte
par l’une des dimensions extraites.
La variable « superficie en km2 » est mal représentée par les deux dimensions
(seulement 0,516 ).
Analyse de composantes principales

Chaque colonne contienne les coefficients de saturation qui s’interprètent comme


des coefficients de corrélation: le nombre d’entreprises 0,990 avec la dimension 1,
et la corrélation avec la dimension 2 de cette variable est négligeable. On peut
donc dire que la dimension 1 et la variable « nombre d’entreprise » suivent la
même pente.
D’autre part tous ces coefficients forment les coefficient a, b, c …d’une droite de
régression qui est la composition linéaire de la composante.
Analyse de composantes principales

Représentation graphique de la matrice des composantes: les coefficients de


saturations deviennent les coordonnées dans l’espace à 2 dimensions.
Analyse de composantes principales

Représentation graphique des individus:


La matrice des composantes permet également de calculer les coordonnées pour
représenter graphiquement les individus par rapport aux deux dimensions
extraites, dans le but de comparer la position de chacune des observations.
Remplacer dans l’équation des 2 composantes pour obtenir le score factoriel.
Pour cela il faut enregistrer les 2 facteurs dans le fichier des données(Menu:
Enregistrer dans les variables).
Tracer le diagramme de dispersion et étiqueter les observation par région.
Analyse de composantes principales
Analyse de composantes principales

Procédure ACP avec rotation:


Lorsque la matrice des composantes ne permet de discerner clairement quelles
variables composent quelles dimensions, on a recours à une rotation des axes pour
modifier les coordonnées des variables par rapport aux axes.
Analyse de composantes principales

Pour obtenir une rotation Varimax (rotation maintenant l’orthgonalité des axes), il
faut sélectionner l’option rotation dans la boite de dialogue de l’analyse factorielle:
Les principales limites de l’ACP

➢ Les limites de l'Analyse en Composantes Principales viennent


du fait que c'est une méthode de projection, et que la perte
d'information induite par la projection peut entraîner des
interprétations erronées.

➢Il est également important de noter que l’ACP est un outil


de statistique exploratoire et ne permet pas généralement de
tester des hypothèses.
Analyse de composantes principales

Exemple1 : Indicateurs économiques

Exemple2: Etude de comportement bancaire


des clients d’une banque
Application sur SPSS
Une agence bancaire réalise une étude visant à mieux connaître la situation et le comportement de
sa clientèle à partir des données figurant dans ses fichiers informatiques de gestion. Elle a
constitué un échantillon de 50 clients titulaires d’un compte courant appartenant à des
ménages différents. Pour décrire l’échantillon, l’agence a relevé 11 variables quantitatives
exprimant leur comportement bancaire :
SOLDE : Solde moyen du compte.
CHEQUE : Montant moyen des chèques tirés lors du dernier semestre.
NB_DEC : Nombre de mois avec découvert lors de l’année précédente.
MT_DEC : Montant cumulé des découverts lors de l’année précédente.
NB_PR : Nombre de produits de la banque utilisés en plus du compte courant.
NB_EMP : Nombre d’emprunts divers effectués lors des cinq dernières années.
MT_EMP : Montant total des emprunts effectués lors des cinq dernières années.
P_VA_D_E : Pourcentage de variation des dépôts d’épargne pour les douze derniers mois.
MT_DEP_E : Montant total des dépôts sur les comptes d’épargne effectués lors de l’année
précédente.
MT_RET_E : Montant total des retraits sur les comptes d’épargne effectués lors de l’année
précédente.
P_VA_R_E : Pourcentage de variation des retraits sur les comptes d’épargne pour les douze
ANALYSE TYPOLOGIQUE
Classification

194
Classification

Introduction

L'analyse typologique a pour but de décomposer un groupe hétérogène


d'individus ou d’objets, décrits par un ensemble de plusieurs
caractéristiques ( X1, X2,..., Xp) en un certain nombre de sous-groupes
homogènes.

Il s'agit de regrouper les observations pour constituer des groupes


d'individus similaires de façon à ce que les individus appartenant à un
même groupe se ressemblent le plus possible et les groupes soient les plus
différents possibles les un des autres.
Classification

Choix des critères de classification

il faut choisir les variables qui vont caractériser les individus, ce choix
dépend de l’objectif de l’étude d’où la nécessité de choisir les variables
qui sont pertinentes vis-à-vis du problème considéré et, parmi celles-ci,
celles à forte dispersion, c’est à dire celles qui véhiculent la plus grande
quantité d'information.

Dans certaines situations, on peut réaliser une analyse en composantes


principales sur l'ensemble des variables afin de remplacer les groupes de
variables corrélées par des facteurs indépendants les uns des autres, on
utilise ensuite ces composantes comme nouvelles variables.
Classification
Mesure de distance
Il s'agit de mesurer le degré de ressemblance entre individus ou objets, pour
cela on calcule une distance séparant deux individus.

La distance euclidienne :
La distance euclidienne entre deux individus A et B décrits par un ensemble
de p variables ( X1A, X2A,..., XpA) et ( X1B, X2B,..., XpB), est donné par :

Comme la distance euclidienne dépend de l'unité de mesure choisie pour les


variables, la pratique la plus courante est de standardiser les variables c’est-à-
dire les ramener à une moyenne nulle et une variance unitaire.
Classification
Exemple:
10 salariés d’une entreprise sont caractérisés par deux variables : le niveau
d’instruction mesuré par le nombre d’années passées à l’école et
l’expérience mesurée par le nombre de mois dans l’entreprise.
Classification
Procédure SPSS pour effectuer la classification est la suivante :

Analyse ➔ Classification ➔ Classification hiérarchique

Dans Variables, sélectionner les variables de classification.


Dans Statistiques, cocher chaînes des agrégations et Matrice des distances.
Dans Graphique, cocher arbre hiérarchique.
Dans méthode d’agrégation, sélectionner ➔ Distance moyenne entre
classes.
Dans mesure, sélectionner le type de distance, (dans notre exemple, carré
de la distance euclidienne).
Dans transformer les variables, sélectionner standardiser centrer-réduire

Les résultats de l’analyse sont :


Classification
Classification
Classification
Dans une première étape, un premier groupe est obtenu en agglomérant les
2 individus les plus proches, c’est à dire pour lesquels la distance est la plus
faible, il s’agit des individus 4 et 7 pour lesquels on trouve la plus petite
distance (0,010). On a alors les 9 groupes suivants :
[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ; [10]

Dans une deuxième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 0,119 entre l’individu
6 et l’individu 8. On a alors les 8 groupes suivants :

[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ; [10]

Dans une troisième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 0,131 entre l’individu
3 et le groupe [4 ;7]. On a alors les 7 groupes suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]


Classification
Dans une quatrième étape, un nouveau groupe est obtenu par fusion des
2 groupes les plus semblables. La plus petite distance est 0,391 entre
l’individu 9 et le groupe [6 ;8]. On a alors les 6 groupes suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]

Dans une cinquième étape, un nouveau groupe est obtenu par fusion des
2 groupes les plus semblables. La plus petite distance est 1,524 entre
l’individu 10 et le groupe [3 ;4 ;7]. On a alors les 5 groupes suivants :

[1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]

Dans une sixième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 2,207 entre
l’individu 5 et le groupe [3 ;4 ;7 ;10]. On a alors les 4 groupes suivants :

[1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]


Classification
Dans une septième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 3,523 entre le
groupe[6 ;8 ;9] et le groupe [3 ;4 ;5 ;7 ;10]. On a alors les 3 groupes
suivants :

[1] ; [2] ; [3;4;5;6;7;8;9;10]

Dans une huitième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 4,362 entre
l’individu 1 et l’individu 2. On a alors les 2 groupes suivants :

[1;2] ; [3;4;5;6;7;8;9;10]

Dans une neuvième étape, un nouveau groupe est obtenu par fusion des
2 groupes restant. On a alors le groupe suivant :

[1;2;3;4;5;6;7;8;9;10]
Classification
Les groupes et leur composition.

On a choisit une solution à 6 groupes. Les 6 groupes retenus par la


typologie sont donc : [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] et [10].

Appartenance à la classe
Classification
Classification
ANALYSE TYPOLOGIQUE
Analyse discriminante
Scoring

208
INTRODUCTION
• L’analyse discriminante intervient dans les problèmes de classement d’un ou plusieurs
individus dans l’un ou l’autre d’une série de groupes préalablement définis.

• L'analyse discriminante permet de construire un modèle de prévision de groupe


d'affectation basé sur les caractéristiques observées de chaque individu.

• On dispose d’individus issus de deux ou plusieurs populations connues, lesquels


individus ont été mesurés par rapport aux variables indépendantes métriques X1, X2,...,
Xp.

• Le principe de l’analyse discriminante est d’identifier une combinaison linéaire de


variables indépendantes permettant de mieux séparer ou dissocier les populations.
INTRODUCTION
L’analyse discriminante est utilisée dans de nombreux domaines :

• En médecine, par exemple pour détecter les groupes à hauts risques cardiaques à partir de
caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux,
etc.

• Dans le domaine bancaire, lorsque l’on veut évaluer la fiabilité d’un demandeur de crédit à
partir de ses revenus, du nombre de personnes à charge, des encours de crédits qu’il
détient, etc.

• En biologie, lorsque l’on veut affecter un objet à sa famille d’appartenance à partir de ses
caractéristiques physiques.
INTRODUCTION
Elle cherche à :

• Déterminer les variables explicatives les plus discriminantes vis à vis des classes
déterminées
• Mais surtout à valider une classification ou à faire un choix entre plusieurs
classifications pour savoir laquelle est la plus pertinente.
• L’analyse discriminante intervient donc a posteriori d’une classification
introduction
Deux conditions sont à remplir :

• Les variables explicatives doivent être métriques

• Elles ne doivent pas être trop corrélées entre elles. Cela se vérifie par l’observation des
corrélations entre les variables. Si c’est le cas, on peut passer par une analyse factorielle
qui permet de réduire les données à quelques axes. Ces axes sont, par propriété, non
corrélés entre eux.
Exemple 1: Produit d’une banque
Une banque a conçu un nouveau produit destiné à ses anciens clients de plus de 5 ans.
A cet effet, elle a décidé d’envoyer une brochure publicitaire très complète. Pour des
raisons de coût, elle décide de n’envoyer la brochure qu’aux clients susceptibles
d’acheter le produit.
Elle dispose des informations relatives au virement mensuel net et au nombre
d’opérations effectuées durant les 5 dernières années. A titre de test, elle a envoyé la
brochure à un échantillon aléatoire de 12 clients.

Les résultats sont dans le fichier Classification_banque.sav


Exemple 2: Modèles de prévision
de la faillite
• La prédiction de la faillite des entreprises fait l’objet de nombreux travaux
empiriques , depuis une trentaine d ’années . Elle se fonde sur l’analyse
économique et financière d’entreprises défaillantes et d’entreprises non
défaillantes , afin de déterminer les variables, principalement comptables, qui
distinguent au mieux les deux catégories de firmes.

• L'objectif de l'analyse discriminante est de trouver donc une combinaison


linéaire de variables indépendantes qui permet de maximiser la séparation des
entreprises saines et en faillite.
L’ échantillon de notre exemple est constitues de 66 entreprises certaines sont en
difficulté ou défaillantes ,d'autre ne sont pas défaillantes(solvables), Les variables
utilisées sont les cinq ratios financiers suivants:
X1 : Les fonds de roulement/total de capitaux
X2 : Excédents non distribués/total de capitaux
X3 : Revenus avant intérêt et impôts/total de capitaux
X4 : Valeur marchande de la valeur de capitaux propres/total des responsabilités
X5 : Ventes/total de capitaux

Les groupes d’entreprises : 1=défaillantes


2=solvables
La démarche sous spss :
La variable y à prédire est donc une variable qualitative (groupe) à k = 2
modalités (défaillantes / solvables)
Cette prédiction s’effectue à partir d’un tableau de p = 5 variables
quantitatives (rations) observées sur un échantillon de n =66 entreprises
La procédure SPSS pour effectuer l’analyse discriminante est la suivante :
Aller dans Analyse > Classifier > analyse discriminante
La boîte de dialogue suivante apparaît alors :

Dans « Variable de regroupement » (les critère de regroupement), il faut indiquer la variable à


expliquer en la sélectionnant dans la partie de droite puis en cliquant sur la flèche qui pointe vers la
droite.
SPSS demande alors de définir l’intervalle, c’est-à-dire les différentes modalités que la variable peut
prendre.
Dans «variables Indépendantes » (les variables explicatives), il faut indiquer les variables métriques
que l’on souhaite intégrer à l’analyse.
On peut choisir entre les deux méthodes suivantes de sélection des descripteurs comme variables
explicatives :
Entrer les variables simultanément :Sélection a priori des descripteurs. C’est l’option par défaut.
Toutes les variables satisfaisant le critère de tolérance sont inclues comme variables explicatives dans
l’équation ;
Utiliser la méthode pas à pas: Sélection pas à pas des descripteurs. Le critère de sélection du pas à
pas minimise le lambda de Wilks global.
deux options s’offrent alors à nous : et

Pour obtenir des indicateurs statistiques complémentaires, tels que des statistiques descriptives,
les coefficients de certaines fonctions ou la structure des matrices utilisées, il suffit de cliquer sur
le bouton Statistiques... pour valider vos choix dans la boîte de dialogue correspondante de
l’analyse discriminante :
Statistiques…Dans la boîte qui apparaît, il convient de cocher
« Moyennes»
«ANOVA à 1 facteur» Tests d’analyse de la variance
à un facteur sur l’égalité des moyennes pour chacune
des variables explicatives

«test de Box » Test M de Box sur l’égalité des matrices de variance covariance locales à chacun
des groupes dans « Descriptives »
« Fischer’s » ainsi que «Non standardisés »( Coefficients non standardisés des fonctions linéaires
discriminantes pour le classement des observations dans l’espace des variables d’origine au
moyen d’une équation avec constante) dans « Function Coefficients ».
Classifier…
Dans la boîte qui apparaît, il convient de cocher « récapitulatif» (option qui permet
l’affichage de la matrice de confusion) dans « affichage ».
Analyse des résultats
Une analyse discriminante se déroule en 3 étapes :

1. On vérifie l’existence de différences entre les groupes.


2. On vérifie le pouvoir discriminant des axes.
3. On juge la qualité de la représentation du modèle.
1.Vérification de l’existence de
différences entre les sous groupes:
On vérifie s’il existe bien des différences entre les groupes grâce à trois
indicateurs : la moyenne ou la variance, le test du F et le Lambda de Wilks.
Ils s’interprètent de la façon suivante :

Cette première analyse permet de déterminer quelles sont les variables


qui sont les plus discriminantes entre les groupes.
Tableau 1 : statistiques univariées pour chacun des groupes.
On observe pour chacune des mesures
effectuées des différences notables entre
les moyennes des deux groupes mais
également des valeurs sensiblement
distinctes des écarts-types. Ces remarques
peuvent être confirmées ou invalidées par
des tests statistiques.
L’usage des statistiques univariées est
fortement recommandé dans l’étape de
constitution de l’échantillon et de la
sélection des descripteurs pour étudier la
nature des distributions des valeurs
observées au sein des différents groupes

Tableau 2 : tests statistiques d’égalité des moyennes Ainsi pour une valeur F ≈ 28,687 et une
significativité de 0, nous sommes conduits à
rejeter l’hypothèse nulle d’égalité des
moyennes pour la variable x1(les fonds de
roulement)
Ainsi pour une valeur F ≈ 2,207 et une
significativité de 0,142>,0,05, nous sommes
conduits à accepter l’hypothèse nulle
d’égalité des moyennes pour la variable x5
(ventes)
2.Vérification de la validité de l’étude.

On estime la validité d’une analyse discriminante à partir des indicateurs :


Le test de Box.
La corrélation globale.
Le Lambda de Wilks.
Le test de Box.
• D’après les résultats du tableau nous sommes conduits à rejeter
l’hypothèse nulle d’égalité des matrices de variance-covariance
entre les deux groupes sig=0
La corrélation globale se mesure quant à elle se retrouve dans le
tableau Valeurs propres.
On observe notamment la colonne «Corrélation Canonique » .
Plus elle est proche de 1, meilleur est le modèle.
Les valeurs propres associées aux fonctions linéaires
discriminantes permettent de juger du pouvoir discriminant
respectif de ces fonctions, en effet chaque valeur propre hµ de
rang h est égale à la variance interclasses de la fonction linéaire
discriminante de même rang. Ainsi, valeur propre est égale à :
µ1 =1,578 et pourcentage de variance est de 100%
Le Lambda de Wilks
s’observe quant à lui dans le tableau « Wilks’ Lambda »

Plus la valeur du Lambda de Wilks est faible, plus le modèle


est bon.
On observe également sa significativité : plus elle est tend
vers 0, plus le modèle est bon.
3. Estimation des coefficients de la
fonction discriminante.
On observe le pouvoir discriminant des axes grâce
au tableau « Coefficients de la fonction
discriminante cononique».
Les valeurs des coefficients
non standardisés de la fonction linéaire
discriminante
permettent d’utiliser directement
les valeurs des variables explicatives
pour calculer la coordonnée factorielle u (i) h
valeur de la fonction linéaire discriminante u d’ordre 2
pour l’individu i :
u (i) ≈ −1,090 +0,007× (FD)+ 0,007× (END) +0,017 (RAI)
+0,003(VM)+0,452(Ventes)
Ainsi la valeur de la première fonction linéaire discriminante
u pour l’entreprise 2
de notre échantillon est égale à :
u (2) ≈ -1,090 + 0,007× (24)+ 0,007× (3,3)+ 0,017× (-3,5)
+0,003(20,9)+0,452(1,1)
Sous SPSS, la matrice de confusion s’observe dans le tableau
« Résultats du classement ».

la performance moyenne du
modèle est de 93,5%, c'est-à-dire
que le modèle d'Altman avait la
capacité de prévoir correctement
l'état futur de 93,5% des
entreprises.

Vous aimerez peut-être aussi