Académique Documents
Professionnel Documents
Culture Documents
Avec SPSS
Karim DOUMI
1
SPSS
Généralités
• La statistique est la science dont l’objet est de
recueillir, de traiter et d’analyser des données issues
de l’observation de phénomènes aléatoires.
Karim DOUMI
2
SPSS
Recensement
Collecte des données
Sondage
Statistique Descriptive
Analyse des données
Inférence Statistique
Analyse Multivariée
Conclusions
◼ Statistiques descriptives
◼ Statistiques inférentielles
Analyse Bivariée
• Corrélation
• Régression linéaire simple
• Analyse de la variance (ANOVA à 1
facteur)
• ….
Karim DOUMI
5
SPSS
ANALYSE MULTIVARIEE
Y-a-t-il
une variable à expli-
quer et une ou plusieurs
NON variables expli- OUI
catives ?
Méthodes descriptives Méthodes explicatives
La variable
Les variables sont
elles quantitatives ? OUI à expliquer est-elle NON
quantitative ?
Typologie
Chapitre 1 : Fonctionnement de SPSS
Généralités
• SPSS est un outil statistique permettant des…
– …analyses simples:
• Statistiques descriptives, statistiques inférentielles,
dépendance entre variables…..
Karim DOUMI
7
SPSS
Fonctionnement de SPSS:
Généralités
• Quatre types de fichiers utilisés:
– Un fichier des données de l’étude
• Fichier texte (.txt) ou excel (.xls)
• BD (access, Mysql, oracle…..)
– Un fichier d’édition des données (.sav)
– Un fichier de syntaxe (.sps)
– Un fichier de résultats (.spo /.spv)
Karim DOUMI
8
SPSS
Karim DOUMI
9
SPSS
Description des principales fenêtres :
• File : permet la gestion des fichiers (ex. : ouvrir un nouveau fichier, fermer,
enregistrer,
etc.).
• Edit : permet d’effectuer les opérations de traitement de texte (ex. : copier, couper,
coller,
etc.).
• View : permet de définir les options de l’écran (ex. : barres d’outils).
• Data : traite tout ce qui est lié à la gestion de la barre de données (ex. : définir une
variable, insérer une variable, etc.).
• Transform : permet d’effectuer les différentes opérations de transformation des
variables
(ex. : recodification, catégorisation, création d’indices, etc.).
• Analyse : permet toutes les analyses statistiques que SPSS permet d’effectuer (ex. :
analyses descriptives, corrélations, régressions, etc.).
• Graphs : présente tous les types de graphiques que SPSS permet de créer (ex. :
histogrammes, etc.).
• Utilities : comprend les utilitaires sur le programme (ex. : infos sur les fichiers, infos
sur
les variables, etc.).
• Windows : permet la gestion des fenêtres.
Help : outil d’aide à l’utilisation du logiciel.
Karim DOUMI
10
SPSS
La définition des variables
Name : sert à donner un nom à la variable. Le nom ne doit pas dépasser 8 caractères et il est recommandé de ne
pas utiliser de caractères accentués. Il doit bien représenter la variable pour vous permettre de la
reconnaître facilement.
Type : sert à décrire la variable et le format de la colonne. Il est recommandé de laisser l’option «numeric» qui
est indiquée par défaut. Pour les décimales «decimal places», vous pouvez les laisser égales à 2 ou les
mettre à 0, selon la situation.
Label : permet de donner une identification plus explicite à la variable qui sera affichée dans les différents
calculs statistiques.
Missing : permet d’indiquer si la variable peut accepter ou non des valeurs manquantes. Remarque : la saisie des
données manquantes se fait habituellement en effectuant un simple «retour» (c’est la méthode
recommandée). Si vous avez prévu d’utiliser des codes spécifiques (ex. : 9, 99, etc.), il faut les définir dans
«missing».
Columns : permet de terminer la largeur de la colonne. Vous pouvez augmenter ou réduire la taille de la
colonne.
Karim DOUMI
11
SPSS
Fonctionnement de SPSS:
Fichier de données
• Dans un fichier texte, les données de chaque
sujet sont entrées successivement, séparées par
un « ; » une « , », une espace ou une tabulation.
– Il est préférable d’utiliser un « ; » ou une espace
– Exemple:
• Variables: identification (id), sexe du sujet (sexe, où f=1, h=2) et âge
(age) on entrera:
1 1 28 → participant 1 est une femme de 28 ans
2 2 33 → participant 2 est un homme de 33 ans
3 2 32 → participant 3 est un homme de 32 ans
etc.
Karim DOUMI
12
SPSS
Fonctionnement de SPSS:
Fichier de données
• Le fichier de données inclut les valeurs
numériques associées à vos données
• Ex. 7 pour signifier “totalement en accord” ou 1 pour
signifier que le participant est un homme
• Principes généraux de saisie:
– Chaque ligne = 1 participant
– Chaque colonne = 1 variable
Karim DOUMI
13
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Pour insérer les données dans ce fichier:
– Saisie des données manuellement
– Importation du fichier avec la syntaxe:
GET DATA /TYPE = TXT
/FILE = 'C:\Ex2.txt'
/DELCASE = LINE GET DATA /TYPE=XLS
/DELIMITERS = "\t"
/ARRANGEMENT = DELIMITED /FILE='C:\Ex2.xls'
/FIRSTCASE = 2 /SHEET=name 'Ex2'
/IMPORTCASE = FIRST 1000
/VARIABLES = /CELLRANGE=full
ID F3.2 /READNAMES=on .
L100KM F6.2
CHEVAPEU F3.2
POIDS A9
ACCEL F5.2
ORIGIN F3.2
NBCYL F3.2
ANNEE A8
.
CACHE.
EXECUTE.
Karim DOUMI
14
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Pour insérer les données dans ce fichier:
– Avec le menu
• Suivre les étapes affichées à l’écran
Karim DOUMI
15
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Attribuer un nom/code
à chaque variable
– Pour SPSS 12 et moins,
max de 8 lettres/chiffres,
mais débutant
nécessairement par une
lettre
– Choisir des codes
significatifs
– Conserver par écrit les
codes des variables!!!
Karim DOUMI
16
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Attribuer une étiquette
à chaque variable
– Les codes sont limités.
On peut dans SPSS
attribuer une étiquette
(label), laquelle permet
de mieux se retrouver
• Onglet “variable view”
pour modifier les
paramètres des variables
Karim DOUMI
17
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Les données à saisir
dans SPSS sont
numériques:
– Chaque modalité de
réponse peut se voir
attribuer une étiquette
(Values)
Karim DOUMI
18
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Valeurs manquantes:
– Il importe d’attribuer un
code pour les valeurs
manquantes; ceci facilite
la vérification du fichier
de données
– On doit spécifier à SPSS
un code pour signaler
l’existence d’une valeur
manquante
• Ex. -999 pour une échelle
allant de 1 à 7.
Karim DOUMI
19
SPSS
Fonctionnement de SPSS:
Fichier syntaxe
• Les analyses avec SPSS se font:
1.Par les menus ou
2.Par les syntaxes
• Plus complexe à première vue, elle comporte des
avantages majeurs:
– Certains types d’analyses ou de sous-commandes ne sont pas
disponibles via le menu.
– En spécifiant tous les paramètres de votre analyse vous êtes
plus à même de contrôler les résultats obtenus.
Karim DOUMI
20
SPSS
Fonctionnement de SPSS:
Fichier syntaxe
Karim DOUMI
21
SPSS
Fonctionnement de SPSS:
Fichier syntaxe
Karim DOUMI
22
SPSS
Fonctionnement de SPSS:
Fichier syntaxe
Une règle d’or: documenter!
• ➢Utiliser SPSS implique très rapidement
l’accumulation d’une multitude d’opérations,
de variables, de résultats : créer des variables;
les recoder; analyser une variable de plusieurs
manières différentes; complexifier
progressivement une analyse en prenant en
compte des variables supplémentaires, etc.
23
Fonctionnement de SPSS:
Fichier syntaxe
➢Pour s’y retrouver, il faut garder des traces
de ce que l’on fait :
▪sauvegarder les fichiers de résultats (outputs;
extension .spv) ou/et les imprimer (en les
classant)
▪sauvegarder les données «travaillées»
(variables recodées, nouvelles variables,
etc.) dans un fichier de données (extension
.sav) différent du fichier de données brutes.
24
Fonctionnement de SPSS:
Fichier syntaxe
➢Il est aussi conseillé d’ajouter des
commentaires (qui peuvent être brefs)
décrivant ce que l’on fait et/ou le résultat
de ce que l’on fait
➢Documenter est non seulement utile
pour le déroulement de son propre
travail, mais aussi pour en justifier le
résultat .
➢C’est un support dans les cas où il faut
faire mémoire de ce qui a été fait.
25
Fonctionnement de SPSS:
Fichier syntaxe
27
Fonctionnement de SPSS:
Fichier syntaxe
• ➢En référence aux points 1 et 2, modifier deux
options de SPSS
▪afin que les instructions données à SPSS
d’effectuer telle ou telle opération s’inscrivent
dans la fenêtre « résultats » (output) de SPSS
(cf. point 1 ci-dessus)
▪afin qu’au démarrage de SPSS, une fenêtre «
syntaxe » s’ouvre automatiquement
28
Fonctionnement de SPSS:
Fichier syntaxe
29
Fonctionnement de SPSS:
Fichier syntaxe
30
16
17
Calculer une Variable
Exemple
Karim DOUMI
33
SPSS
Calculer une Variable
Il arrive très souvent que les variables brutes d'une base de
données ne soient pas suffisantes pour effectuer certaines
analyses. On peut avoir besoin de créer une ou des nouvelles
variables à partir des variables existantes, comme dans les cas
suivants :
• Créer une variable qui contient la racine carrée d'une variable
existante
• Calculer la moyenne ou la somme d'une série de variables
existantes…
La commande Compute sert à créer de nouvelles variables sur
la base de fonctions arithmétiques, statistiques ou logiques.
Karim DOUMI
34
SPSS
Calculer une Variable
Exemple
• Cette nouvelle variable sera la moyenne des réponses données par chaque sujet
aux questions Q01, Q02, Q03,
• Allez dans le menu Transformer et choisissez Calculer la variable.
• Dans la boite de dialogue, écrivez, dans Variable cible (étiquette), MOYSAT (c’est
le nom de la variable).
• Ensuite, allez dans la boite Groupe de fonctions et cliquez à deux reprises
sur Statistiques (il est dans le bas de la liste, vous devez utiliser l’ascenseur à
droite). Vous verrez dans la boite Fonctions et variables spéciales la
fonction Mean sur laquelle vous devez aussi cliquer à deux reprises.
• Dans la boite du haut, vous verrez apparaître MEAN (?, ?). Vous devez alors insérer
les variables Q01, Q02, Q03 dans la parenthèse
Karim DOUMI
35
SPSS
Calculer une Variable
Exemple
• Vous pouvez également écrire à la main la commande dans la boite…
Karim DOUMI
36
SPSS
Calculer une Variable
Exemple
Exercice sur la commande CALCULER : par syntaxe
• Maintenant, éliminez la variable MOYSAT de la matrice de données (cliquez au
haut de la colonne sur le nom de la variable, puis dans le menu Édition, cliquez
sur Effacer ou, plus simplement, sur le bouton effacer ou supprimer de votre
clavier).
• Pour copier la commande à l’intérieur d’un fichier Syntaxe recommencez les
étapes précédentes et remplacez le par
• Le texte copié dans cette fenêtre devrait se lire comme suit :
Karim DOUMI
37
SPSS
Calculer une Variable
Exemple
faites la même chose en créant la variable « AGEX ».(âge exacte de l’individu)
Voici ce que devrait contenir maintenant votre fichier Syntaxe
Karim DOUMI
38
SPSS
Création d’une variable
La commande recode sert à créer de nouvelles variables (ou à
modifier des variables existantes) sur la base d’un
regroupement des valeurs qu'on appelle aussi clé de
recodage. Voici quelques situations dans lesquelles vous
pouvez utiliser le recodage :
• À partir d'une variable contenant la note d'examen sur 20,
créer une nouvelle variable qui recode la note en lettre (A+, A-
, A, etc..)
• Recoder les valeurs d'items inversés dans une échelle de
mesure
• Diminuer le nombre de catégories d'une variable catégorielle
en les regroupant différemment
Karim DOUMI
39
SPSS
Création d’une Variable
Exemple
Imaginons que nous voulons réaliser des analyses comparant les gens en
formation (STATUT = 1) et les autres (STATUT = 2, 3 ou 4). Pour cela, il nous faut
créer une variable qui diminue le nombre de catégories de 4 à 2. :
Allez encore une fois dans le menu Transformer, puis sélectionnez Création de
variables
Recodez la variable STATUT de sorte que les sujets qui ont répondu 1 auront la
valeur 1 (en formation) alors que ceux qui ont la valeur 2, 3 ou 4 auront
maintenant la valeur 2 (autres).
Dans la boite de dialogue principale, inscrivez STATUTX dans la boite Nom de
l’encadré.
Inscrivez ensuite Statut recodé dans la boite Étiquette du même encadré.
Cliquez sur Karim DOUMI
40
SPSS
Création d’une Variable
Exemple
Apres il faut Changer les anciennes valeurs par les nouvelles valeurs.
Karim DOUMI
41
SPSS
Création d’une Variable
Exemple
Exercice sur la commande Recode : par syntaxe
Karim DOUMI
42
SPSS
Expression conditionnelle (IF)
Les expressions conditionnelles permettent de calculer des variables
selon une condition, donc qui s’applique à des sujets ou des observations
(lignes) qui répondent à certains critères que nous allons définir selon nos
besoins avec cette commande.
La résultante des expressions conditionnelles peut créer une nouvelle
variable ou bien transformer les valeurs d'une variable existante. Dans le
dernier cas, il faut s'assurer que l'écrasement des valeurs originales ne
porte pas à conséquence
Karim DOUMI
43
SPSS
Expression conditionnelle (IF)
Syntaxe
Forme 1 Forme 3
DO IF (expression logique) DO IF (expression logique)
... bloc d'instructions ... ... bloc d'instructions ...
END IF ELSE IF(expression
logique)
... bloc d'instructions ...
Forme 2 ELSE IF ...
DO IF (expression logique) ...
... bloc d'instructions ... ELSE ... (facultatif)
ELSE ...
... bloc d'instructions ... END IF
END IF
Karim DOUMI
44
SPSS
Expression conditionnelle (IF)
Karim DOUMI
45
SPSS
compter(Count)
• La commande Compter sert à calculer pour chaque observation les
occurrences d’une ou de plusieurs valeurs à l’intérieur d’une série de
variables déterminées par l’utilisateur.
• Exercice sur la commande COMPTER : par menu interactif
• Dans cet exercice, nous tentons de savoir pour chaque répondant le
nombre d’items de satisfaction pour lesquels il indique qu’il est satisfait,
c’est-à-dire auquel il a accordé la valeur 3 lorsque l’item est recodé.
Allez dans le menu Transformer et sélectionnez Compter ….
Karim DOUMI
46
SPSS
Regroupement des variables
• Avec recode:
Karim DOUMI
47
SPSS
Regroupement des variables
• Avec regroupement visuel:
RECODE age (MISSING=COPY) (LO THRU 20.0=1) (LO THRU 26.286=2) (LO
THRU 32.572=3) (LO THRU 38.858=4) (LO THRU 45.144=5) (LO THRU 51.43=6)
(LO THRU 57.715999999999994=7) (LO THRU HI=8) (ELSE=SYSMIS) INTO
age_reg_v.
VARIABLE LABELS age_reg_v 'age (Regroupé par casiers)'.
FORMATS age_reg_v (F5.0).
VALUE LABELS age_reg_v 1 '<= 20,00' 2 '21,00 - 26,29' 3 '26,30 - 32,57' 4
'32,58 - 38,86' 5 '38,87 - 45,14' 6 '45,15 - 51,43' 7 '51,44 - 57,72' 8 '57,73+'.
VARIABLE LEVEL age_reg_v (ORDINAL).
EXECUTE.
Karim DOUMI
48
SPSS
compter(Count)
Karim DOUMI
49
SPSS
Sélection de cas:
• Pour certaines analyses, il peut être nécessaire de filtrer une partie des
observations (cas) pour obtenir des résultats auprès d'un sous-groupe
spécifique d'observations.
• Il est possible de sélectionner une ou des observations à l’aide de un ou
d'une combinaison de critères, soit par la boite de dialogue, soit en
utilisant une commande SYNTAXE.
• Les conditions de sélection peuvent être uniques ou multiples. Dans le cas
d’une seule condition, on inscrit la variable sur laquelle repose la sélection
avec la condition formulée grâce aux conditions arithmétiques (<, >, =, <=,
>=, <>).
• Toutes les conditions multiples (deux variables ou plus) doivent utiliser les
opérateurs logiques (AND et OR) pour séparer les conditions.
• Pour faire une sélection de cas de manière interactive, allez dans le
menu Données, puis cliquez sur Sélectionnez des observations.
Karim DOUMI
50
SPSS
Sélection de cas:
Karim DOUMI
51
SPSS
Sélection de cas:
Karim DOUMI
52
SPSS
Sélection de cas
Exemple :
pour choisir
les hommes de plus de
30 ans, on entrerait
dans la boite:
Sexe = 1 AND
age > 30
Karim DOUMI
53
SPSS
Sélection de cas:
Si vous préférez
taper la commande
manuellement,
vous devriez créer
la syntaxe suivante:
Karim DOUMI
54
SPSS
Sélection de cas:
Karim DOUMI
55
SPSS
Les autres stratégies de sélection
• Dans la boite de dialogue Sélection de cas,
vous avez bien sûr la stratégie Si que nous
venons de voir, mais aussi d’autres choix. Voici
une brève description pour chacun.
• Toutes les observations : vous ne faites pas
de sélection, vous utilisez toutes les
observations. Très utile quand vous voulez
revenir à la base initiale et annuler une
condition préalablement établie.
• Par échantillonnage aléatoire : sélection
d'observations aléatoire. Vous choisissez à ce
moment combien de cas vous voulez dans
votre échantillon, soit en pourcentage
(Environ _ % de toutes les observations), soit
en précisant un nombre d'observations parmi
les X premiers (Exactement _ observations à
partir des premières _ Observations).
• Utiliser une variable de filtre : enfin, vous pouvez
faire une sélection en ne conservant que les cas qui
ont des valeurs valides pour une variable filtre. Vous
n'avez qu'à transférer la variable filtre dans la boite
Karim DOUMI
prévue à cet effet. SPSS
56
Exercices
Karim DOUMI
57
SPSS
M anipulation des F ichiers
de D onnées
1. Création d’un Fichier de Travail.
La plupart du temps, les fichiers de données des grosses
enquêtes comportent pIusieurs centaines de variabIes. Or, dans
Ie cadre d’un travaiI de recherche on peut être amené à ne
travaiIIer que sur certaines variabIes.
•par exempIe, vous faites une étude sur Ia santé. Vos données
sont situées dans Ie fichier sante.sav qui contient Ies variabIes
suivantes :
Karim DOUMI
58
SPSS
M anipulation des F ichiers
de D onnées
Nom Libellé
id Identifiant
carnet Possède un carnet de santé
consult A consulté un médecin au cours des 6 derniers mois
datecons Date de la dernière consultation
vacchb Vacciné contre hépatite B
vaccha Vacciné contre hépatite A
vaccroug Vacciné contre la rougeole
vaccgrip Vacciné contre la grippe
sida1 A déjà entendu parler du sida
sida2 A déjà utilisé un préservatif
sida3 A déjà fait un test de dépistage
Karim DOUMI
59
SPSS
M anipulation des F ichiers
de D onnées
• Dans notre cas, nous souhaitons ne pas garder Ies variabIes
sida1, sida2 et sida3.
La syntaxe correspondante sera donc :
SAVE OUTFILE='travail.sav'
/DROP sida1
sida2 sida3.
EXECUTE.
Karim DOUMI
60
SPSS
M anipulation des F ichiers
de D onnées
SAVE OUTFILE='nom_du_fichier.sav'
/DROP var1 var2 var3
/RENAME
anc_var21=nouv_var21 anc_var22=nouv_var22
Karim DOUMI
61
SPSS
M anipulation des F ichiers
de D onnées
SAVE OUTFILE='travail.sav'
/KEEP id
carnet consult datecons
vacchb vaccha vaccroug vaccgrip.
EXECUTE.
Karim DOUMI
62
SPSS
M anipulation des F ichiers
de D onnées
2. Ajout de Variables
Supposons que Ies données ont été scindées en plusieurs fichiers de données. Ainsi
Ies caractéristiques individueIIes sont situées dans un fichier indiv.sav aIors que Ies
variabIes sur Ia santé sont dans Ie fichier travail.sav que nous venons de créer.
Le fichier indiv.sav contient Ies variabIes suivantes :
Nom Libellé
id Identifiant
sexe Sexe
age Age
instruct Niveau d'instruction
milieu Milieu de résidence
matri État matrimonial
Karim DOUMI
63
SPSS
M anipulation des F ichiers
de D onnées
Karim DOUMI
64
SPSS
M anipulation des F ichiers
de D onnées
Avant de commencer, iI faut trier Ies observations des deux fichiers seIon
I’identifiant
• Ouvrir Ie fichier ivdiv.sav.
• CIiquer dans Ie menu sur Données > Trier les observations…
• SéIectionner Ia variabIe id par ordre croissant.
65
M anipulation des F ichiers
de D onnées
Karim DOUMI
66
SPSS
M anipulation des F ichiers
de D onnées
•Dans un premier temps, iI nous faut créer des sous fichiers pour
chaque rang de naissance, avant de fusionner ces différents sous
fichiers en un seuI.
Nous aIIons donc avoir recours à Ia commande SAVE OUTFILE.
Nous aIIons garder Ia variable id qui va nous être indispensable par
Ia suite, ainsi que Ia variabIe nbenf.
Karim DOUMI
68
SPSS
M anipulation des F ichiers
de D onnées
GET FILE='fecondite.sav'.
SAVE OUTFILE='enfant3.sav'
SAVE OUTFILE='enfant1.sav'
/KEEP id
/KEEP id
nbenf
nbenf
sexe$3
sexe$1
annee$3
annee$1
dc$3
dc$1
/RENAME
/RENAME
sexe$3=sexe
sexe$1=sexe
annee$3=annee
annee$1=annee
dc$3=dc.
dc$1=dc,
EXECUTE.
EXECUTE.
69
M anipulation des F ichiers
de D onnées
Création de la Variable R ang de Naissance.
GET FILE='enfant1.sav'.
COMPUTE rang = 1 .
EXECUTE .
SAVE OUTFILE='enfant1.sav'.
GET FILE='enfant2.sav'.
COMPUTE rang = 2 .
EXECUTE .
SAVE OUTFILE='enfant2.sav'.
GET FILE='enfant3.sav'.
COMPUTE rang = 3 .
EXECUTE .
SAVE OUTFILE='enfant3.sav'.
Karim DOUMI
70
SPSS
M anipulation des F ichiers
de D onnées
Fusionner les Fichiers
ADD FILES
/FILE='enfant1.sav'
/FILE='enfant2.sav'
/FILE='enfant3.sav'.
EXECUTE.
SAVE OUTFILE='enfants.sav'.
Karim DOUMI
71
SPSS
M anipulation des F ichiers
de D onnées
Karim DOUMI
72
SPSS
M anipulation des F ichiers
de D onnées
Un nouveau identifiant:
COMPUTE idenf = id*10+rang .
VARIABLE LABELS idenf "Identifiant de l'enfant"
rang "Rang de l'enfant"
sexe "Sexe de l'enfant"
annee "Année de naissance de l'enfant"
dc "L'enfant est-il décéder ?".
EXECUTE .
Karim DOUMI
73
SPSS
M anipulation des F ichiers
de D onnées
Karim DOUMI
74
SPSS
ANALYSE BIVARIEE
Karim DOUMI
75
SPSS
Corrélation & régression
linéaire simple
Karim DOUMI
76
SPSS
Corrélation, régression linéaire
simple
Introduction : précisions sémantiques
78
Relation déterministe: La valeur de la variable y peut être précisement
prédite à partir de la valeur de la variable x.
Exemples:
▪ Prix d’une maison et taxe due.
▪ Vitesse d’un corps en chute libre et temps.
V=V0+gt
V
V0 t
79
Relation probabiliste: La valeur d’une variable y ne peut pas être
précisement prédite à partir de la valeur de la variable x - à cause d’autres
facteurs.
Exemples:
1. Consommation en eau et une population
x = nombre d’habitants
y = eau consommée
2. Nombre d’heures passées à réviser un examen et la note obtenue.
x = heures passées à réviser
y = note obtenue
80
Coefficient de corrélation de Bravais-Pearson
Cov( x, y ) s xy
r= =
sx s y sx s y
(x − x )( y
i i − y)
r= i =1
( ) (
xi − x yi − y
2
)2
Un exemple...
Statistiques
Numéro Masse mi Long. li (xi − x ) (xi − x )2 ( yi − y ) ( yi − y )2 ( xi − x )( yi − y )
de l'essai i x y
i i
(x − x )( y − y )
i i
82,2
r= i =1
= = 0,987
(
ix − x )2
(
iy − y )2
173,2 40
Statistiques 82
Allons un peu plus loin...
Donc... r 1 ou − 1 r 1
r = -1
Exemple
Si je m’intéresse au lien entre le temps hebdomadaire moyen passé à travailler (X) et la
note obtenue au partiel (Y) :
• L’analyse de régression permet de déterminer une fonction qui lie les deux
variables :
ex : « Y = aX + b »
• L’analyse de corrélation renseigne sur l’intensité du lien entre les deux variables :
ex : « le lien est fort et très significatif ».
Karim DOUMI
84
Analyse de données - SPSS
Corrélation & régression
Analyse bivariée
r et r2 :
• Comme r indique le degré de la relation entre la variation d’une variable et
celle d’une autre variable, il peut également représenter la décomposition de la
variation totale (en étant au carré). On retiendra que
r2 = variation expliquée variation totale
Karim DOUMI
85
Analyse de données - SPSS
Corrélation & régression
Analyse bivariée
Interprétation du R2 :
Karim DOUMI
86
Analyse de données - SPSS
Corrélation & régression
Analyse bivariée
t =r. n−22
1−r
Remarque : sous SPPS, la probabilité critique du test est fournie par la rubrique « sig.
(bilatérale) »
Karim DOUMI
87
SPSS
Corrélation & régression
Analyse bivariée
Exercice
BDD Employes de SPSS : y’a-t-il une corrélation
positive significative entre salaire actuel et salaire à
l’embauche ? Entre salaire actuel et nombre d’année
d’ancienneté ?
Karim DOUMI
88
SPSS
Corrélation & régression
Analyse bivariée
Corrélations
Ancienneté
Salaire Salaire (nombre de
courant d'embauche mois)
Salaire courant Corrélation de Pearson 1,000 ,880** ,084
Sig. (bilatérale) , ,000 ,067
N 474 474 474
Salaire d'embauche Corrélation de Pearson ,880** 1,000 -,020
Sig. (bilatérale) ,000 , ,668
N 474 474 474
Ancienneté (nombre Corrélation de Pearson ,084 -,020 1,000
de mois) Sig. (bilatérale) ,067 ,668 ,
N
474 474 474
Analyse bivariée
La régression simple :
Elle consiste à déterminer une équation qui relie 2 variables quantitatives.
Contrairement à la corrélation simple, elle nécessite d’identifier l’une des 2 variables
comme étant dépendante (à expliquer) et l’autre comme étant indépendante
(explicative). Remarquons tout de même que cette méthode n’implique pas de
causalité.
Le modèle type est de la forme :
Yi = β0 + β1Xi + ei avec Y = variable dépendante (à expliquer)
X = variable indépendante (ou explicative)
β0 = ordonnée à l’origine de la droite β1 = pente de la droite
ei = terme d’erreur associé à la ième observation
Karim DOUMI
90
SPSS
Corrélation & régression
Analyse bivariée
La régression simple, vocabulaire :
Karim DOUMI
91
SPSS
Corrélation & régression
Analyse bivariée
La régression simple, vocabulaire (suite) :
Karim DOUMI
92
SPSS
Corrélation & régression
Analyse bivariée
Karim DOUMI
93
SPSS
Corrélation & régression
Analyse bivariée
12
10
4
ATT_VILL
0
0 10 20
DURÉE_RÉ
Karim DOUMI
94
SPSS
Corrélation & régression
Analyse bivariée
2. Il s’agit ensuite de trouver les caractéristiques de la droite qui décrit le
mieux les données. On utilise généralement la méthode des moindres carrés.
Elle consiste à déterminer la droite de régression qui minimise le carré des
distances verticales entre les points et la droite.
Avec une équation du type Yi = β0 + β1Xi + ei la distance verticale du point à
la droite est représenté par ei.
Les distances de tous les points à la droite élevés au carrés et additionnés
forment la somme des carrés des erreurs, ou « erreur totale », notée
e
2
j
➔ Le but est que cette valeur soit minimale (que les distances verticales soient
minimisées)
Karim DOUMI
95
SPSS
y = β0 + β1x
12
Yi
10
8 ei
4 Ŷi
0
0 10 20
Karim DOUMI
DURÉE_RÉ SPSS
96
La méthode des moindres carrés
• Critère des moindres carrés
où:
yi = valeur observée de la variable
dépendante pour pour la I ème observation
97
La méthode des moindres carrés …
n
SCres = e 2
1 + e 2
2 +
2
e
3 + ... + e = e
2 2
n i Cette mesure donne
i =1
l’ordre de grandeur
n
de la dispersion des
SCres = ( yi − ˆyi )
2
observations Yi
i =1
autour de la droite
n
de régression
SCres = ( yi − b0 − b1 xi )
2
i =1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).
98
Principes de la méthode des moindres carrés …
Comment calculer les coefficients b0 et b1?
Les estimations ponctuelles des paramètres de la droite de
régression obtenues par la méthode des moindres carrés sont :
Taille de l’échantillon
99
À partir des données ci-dessous, déterminez les estimations
ponctuelles des paramètres de la droite de régression selon la
méthode des moindres carrés :
100
101
Corrélation & régression
Analyse bivariée
Exercice
En utilisant la BDD SPSS « attitude envers la ville », réalisez une étude de
corrélation et de régression entre la variable dépendante attitude envers la ville et la
variable indépendante durée de résidence.
Karim DOUMI
102
SPSS
Corrélation & régression
Analyse bivariée
Analyse de corrélation :
Récapitulatif du modèle
Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,936a ,876 ,864 1,2233
a. Valeurs prédites : (constantes), DURÉE_RÉ
Karim DOUMI
103
SPSS
Corrélation & régression
Analyse bivariée
Récapitulatif du modèle
Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,936a ,876 ,864 1,2233 SEE
a. Valeurs prédites : (constantes), DURÉE_RÉ
Karim DOUMI
104
SPSS
Corrélation & régression
Analyse bivariée
Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 105,952 1 105,952 70,803 ,000a
Résidu 14,964 10 1,496
Total 120,917 11
a. Valeurs prédites : (constantes), DURÉE_RÉ
b. Variable dépendante : ATT_VILL
Karim DOUMI
105
SPSS
Corrélation & régression
Analyse bivariée
Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 105,952 1 105,952 70,803 ,000a
Résidu 14,964 10 1,496
Total 120,917 11
a. Valeurs prédites : (constantes), DURÉE_RÉ
b. Variable dépendante : ATT_VILL
La statistique F calculée pour 1 et 10 ddl correspond à une
proba critique < 0,05. La relation entre X et Y est positive
SSY = SSreg + SSres et significative.
Karim DOUMI
106
SPSS
Corrélation & régression
Analyse bivariée
Coefficien
ts
Coefficients non standardi
standardisés sés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 1,079 ,743 1,452 ,177
DURÉE_RÉ ,590 ,070 ,936 8,414 ,000
a. Variable dépendante : ATT_VILL
Karim DOUMI
107
SPSS
Corrélation & régression
Analyse bivariée
Coefficien
ts
Coefficients non standardi
standardisés sés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 1,079 ,743 1,452 ,177
DURÉE_RÉ ,590 ,070 ,936 8,414 ,000
a. Variable dépendante : ATT_VILL
T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique
Attitude (Ŷ) = 1,079 + 0,590 associée < 0,05 ce qui confirme le test F : relation positive
(durée de résidence) significative entre X et Y
Karim DOUMI
109
SPSS
Application numérique.
Au cours de 12 mois, une entreprise a noté le montant des frais
de publicité et le volume du chiffre d'affaires réalisé. Les résultats
sont consignés dans le tableau suivant :
Karim DOUMI
110
SPSS
Corrélation & régression
Exercice
Karim DOUMI
111
SPSS
Analyse de la Variance
ANOVA
Karim DOUMI
112
SPSS
ANALYSE DE VARIANCE
Exemple
15 candidats, 3 examinateurs.
5 candidats pour chaque examinateur.
Effet d’examinateur??
Solution ANOVA
Examinateur
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8
y1 = 4 y2 = 7 y3 = 10
y =7 113
ANALYSE DE VARIANCE
yij = + i + ij
Exemple d’examinateur:
où yij est la variable à expliquer ……………… Note d’un candidat
i est l’effet du ième niveau du facteur …..... Effet d’un examinateur i
est l’effet moyen général ………………. Moyenne générale des notes
ij est la variable aléatoire résiduelle ……… due à l’ensemble des autres causes qui
déterminent la note .
Hypothèses :
- les ij sont indépendants
- E ( ij ) = 0
- var( ij ) = 2
- ij suit une loi N (0, 2 )
114
ANALYSE DE VARIANCE
Exemple :
3 10 13 7 7 7 -3 0 3 -1 3 3
5 8 11 7 7 7 -3 0 3 1 1 1
6 5 7 = 7 7 7 + -3 0 3 + 2 -2 -3
3 7 11 7 7 7 -3 0 3 -1 0 1
3 5 8 7 7 7 -3 0 3 -1 -2 -2
115
Décomposition de la variabilité
2
( yij − y ) 2 = ni ( yi − y ) 2 + ( yij − yi )
i j i i j
Somme des carrés Somme des carrés des Somme des carrés des
= +
des écarts totaux écarts inter-niveaux écarts intra-niveaux
Notre Exemple :
SCETotale = 140
SCEInter = 90
SCEIntra = 50 116
On souhaite tester les hypothèses :
H0 : " Il n’y a pas d’effet d’examinateur "
càd les moyennes pour les notes (niveaux du facteur) sont égales
117
ANALYSE DE VARIANCE
Source de
SCE ddl
variation
Inter-niveaux SCE Inter I-1
Intra-niveaux SCE Intra n-I
Totale SCE Totale n-1
I nombre de niveaux
SCEinter
CMinter =
I −1
et le carré moyen intra-groupes :
SCEintra
CMintra =
n−I
118
ANALYSE DE VARIANCE
CM inter
Pour tester H0 contre H1, on évalue la quantité : F=
CM intra
119
ANALYSE DE VARIANCE
Notre Exemple :
120
SPSS: Analyse de variance
En analyse de la variance, on cherche à expliquer les variations d’une
variable métrique Y par un ou plusieurs facteurs explicatifs nominaux.
Ho: m1 = m2 = ... = mJ
Karim DOUMI
121
SPSS
SPSS: Analyse de variance
L’analyse de la variance à un facteur, ANOVA1 permet d’expliquer les variations
de la variable dépendante Y par un seul facteur explicatif. Les données
proviennent d'échantillons prélevés aléatoirement dans des populations normales
dans lesquelles les variances sont supposées égales. Les données sont regroupées
dans un tableau appelé matrice de données.
Karim DOUMI
122
SPSS
Analyse de variance
Exemple1:
Karim DOUMI
123
SPSS
Analyse de variance
Exemple2:
Existe-t-il une différence entre les niveaux de scolarité sur le nombre
d’heures moyen travaillées par semaine ? Autrement dit, peut-on croire
qu’un plus grand nombre d’années de scolarité rime avec moins
d’heures de travail par semaine ? Pour vérifier cette hypothèse, nous
allons utiliser les données de la base GSSNET.SAV.
Karim DOUMI
124
SPSS
Analyse de variance
Exemple2:
La semaine moyenne à temps plein varie entre 36,82 heures pour les gens sans secondaire et
47,29 pour ceux avec Maîtrise/Doctorat. Au total, l’échantillon travaille en moyenne 42,5 heures
par semaine.
Les écart-types sont sensiblement similaires avec la plus faible variabilité pour les répondants
avec secondaire et la plus grande pour les gens sans secondaire.
La colonne Erreur standard (erreur-type) nous indique la variabilité échantillonnale de la
moyenne. La plus petite est celle des gens avec secondaire en raison du nombre élevé de cas.
Karim DOUMI
125
SPSS
Analyse de variance
Nous sommes à 95 % certains que pour les gens avec Maîtrise/Doctorat, la vraie valeur de la moyenne de la
population se situe entre 44,13 et 50,44 heures. L’intervalle le plus restreint est celui des gens avec secondaire en
raison du grand nombre de sujets qui composent ce groupe (moins d’erreur-type).
Observation importante : Plusieurs des intervalles se chevauchent ! Concrètement, ceci veut dire que la plupart
des groupes possèdent des valeurs de moyennes possibles compatibles !
L’exception est l’intervalle sans secondaire et celui de Maîtrise/Doctorat : ces deux intervalles ne se chevauchent
pas. Donc, leurs valeurs possibles dans l’intervalle de confiance ne sont pas partagées.
Karim DOUMI
126
SPSS
Analyse de variance
Karim DOUMI
127
SPSS
Analyse de variance
Le tableau présente l'effet inter-groupes (effet dû à la variable catégorielle) et l'effet intra-groupes (effet de la
variation dans chacun des groupes). Il présente également le total des deux effets pour la somme des carrés et les
degrés de liberté.
La colonne de la somme des carrés indique
pour la variabilité inter-groupes, la sommation de l'écart de chaque moyenne de groupe par rapport à la moyenne
totale au carré.
pour la variabilité intra-groupes, la variance (écart-type au carré) de chaque groupe multipliée par le nombre de sujets
de ce groupe,
Les degrés de libertés sont les mêmes que pour le test d'homogénéité des variances.
La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par le degré de liberté
associé.
inter-groupes : 5 567,843 / 4 = 1 391,961
intra-groupes : 165 264,14 / 899 = 183,831
La statistique F est le rapport de la somme des carrés moyens inter et intra-groupes (1 391,961 / 183,831 = 7,572)
Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse nulle et dire qu’il est peu probable que
le nombre d’heures moyen travaillées dans chaque groupe soit le même dans la population.
Karim DOUMI
128
SPSS
Analyse de variance
L'analyse de variance nous indique qu'il existe des différences entre les groupes, mais ne
précise pas où sont situées ces différences. Pour remédier à la situation, nous avons fait un
test post-hoc avec la comparaison de Bonferonni.
Karim DOUMI
129
SPSS
Analyse de variance
Conclusion
Karim DOUMI
130
SPSS
Analyse de variance
Exemple3:
T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740
Procédure SPSS:
A partir du menu, sélectionnez :
Analyse/ Modèle linéaire général/Univarié...
Dans la boite de dialogue Univarié :
Dans variables dépendantes, sélectionnez la variable à expliquer métrique.
Dans Facteur(s), sélectionnez les deux facteurs explicatifs.
Karim DOUMI
132
SPSS
Analyse de variance à 2 facteurs
Exemple:
L'expérience suivante avait pour but d'analyser l'impact des 2
facteurs Sexe et Âge sur la consommation d'un certain produit de
luxe. Dans chacun des 6 groupes, le produit a été offert à 100
personnes choisies au hasard. La consommation, en nombre d’unités
achetées, est donnée dans le tableau qui suit:
Karim DOUMI
133
SPSS
Analyse de variance à 2 facteurs
Résultats:
Karim DOUMI
134
SPSS
ANALYSE MULTIVARIEE
Karim DOUMI
135
SPSS
Régression linéaire multiple
Karim DOUMI
136
SPSS
Régression multivariée
Karim DOUMI
137
SPSS
Régression multivariée
Méthode :
Y est la variable quantitative à expliquer (dépendante), et X1, X2, …, Xi, les i
variables explicatives (indépendantes) quantitatives (à la rigueur binaires). La
forme générale du modèle est :
Y = β0 + β1 X1 + β2 X2 + …. + βi Xi + ε avec ε minimum.
➔On recherche une fonction f qui lie les valeurs de Y à celle des X et telle que
f(Xi) soit le « plus proche possible » de Y.
➔Dans la pratique, on calcule l’équation :
Ŷ = b0 + b1 X1 + b2 X2 + …. + bi Xi
• Le coefficient de corrélation multiple R tend vers 1 lorsque la relation est forte, vers
0 lorsqu’elle est nulle
k(1−R )
2
R ajusté=R −
2 2
n−k −1
Karim DOUMI 139
SPSS
Régression multivariée
Présentation des résultats sous SPSS (2/4) :
• Les coefficients β, dits coefficients de régression partiels représentent la variation
attendue de Y quand Xi varie d’une unité mais que les autres variables indépendantes
sont maintenues constantes. A chacun d’entre eux est associé un tests t pour en
estimer la significativité.
• Pour comparer la contribution relative des Xi à Y, il suffit de comparer les valeurs
absolues des t associés ou de lire les coefficients de régression partiels standardisés
Bêta (moyenne=0 et écart-type=1) qui permettent la comparaison entre Xi alors
même que celles-ci ont des unités de mesure différentes (exemple, pour estimer les
ventes d’un magasin : surface en m², nombre de produits en promo, proximité du
centre ville en km etc.)
Karim DOUMI
140
SPSS
Régression multivariée
Karim DOUMI
141
SPSS
Régression multivariée
Karim DOUMI
142
SPSS
Régression multivariée
Méthodes de régression:
•Entrée: toutes les variables évaluées sont entrées au même moment et un
test F évalue l’ensemble du modèle
Exercice
Peut-on expliquer l’attitude envers la ville en fonction de la durée de
résidence et de l’importance accordée au climat ?
Karim DOUMI
144
SPSS
Régression multivariée
Réponse :
Sous SPSS : Analyse ➔ Régression ➔ Linéaire
Récapitulatif du modèle
Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,972a ,945 ,933 ,8597
a. Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉ
Karim DOUMI
145
SPSS
Régression multivariée
Réponse :
Erreur
standard de
Modèle R R-deux R-deux ajusté l'estimation
1 ,972a ,945 ,933 ,8597
a. Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉ
Karim DOUMI
146
SPSS
Régression multivariée
Réponse :
Sous SPSS : Analyse ➔ Régression ➔ Linéaire
Statistiques : test de colinéarité
ANOVAb
Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 114,264 2 57,132 77,294 ,000a
Résidu 6,652 9 ,739
Total 120,917 11
a. Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉ
b. Variable dépendante : ATT_VILL
Karim DOUMI
147
SPSS
Régression multivariée
Réponse :
ANOVAb
Somme
Modèle des carrés ddl Carré moyen F Signification
1 Régression 114,264 2 57,132 77,294 ,000a
Résidu 6,652 9 ,739
Total 120,917 11
a. Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉ
b. Variable dépendante : ATT_VILL
Karim DOUMI
148
SPSS
Régression multivariée
Réponse :
Coefficientsa
Coefficien
ts
Coefficients non standardi Statistiques de
standardisés sés colinéarité
Erreur
Modèle B standard Bêta t Signification Tolérance VIF
1 (constante) ,337 ,567 ,595 ,567
DURÉE_RÉ ,481 ,059 ,764 8,160 ,000 ,698 1,433
IMP_CLIM ,289 ,086 ,314 3,353 ,008 ,698 1,433
a. Variable dépendante : ATT_VILL
Karim DOUMI
149
SPSS
Régression multivariée
Réponse : L’équation de la droite de régression est : Ŷ = 0,337 +
0,481X1 + 0,289X2
Coefficientsa
Coefficien
ts
Coefficients non standardi Statistiques de
standardisés sés colinéarité
Erreur
Modèle B standard Bêta t Signification Tolérance VIF
1 (constante) ,337 ,567 ,595 ,567
DURÉE_RÉ ,481 ,059 ,764 8,160 ,000 ,698 1,433
IMP_CLIM ,289 ,086 ,314 3,353 ,008 ,698 1,433
a. Variable dépendante : ATT_VILL
Karim DOUMI
152
SPSS
Régression logistique
binaire
153
Régression logistique
154
Régression logistique
Karim DOUMI
155
SPSS
Régression logistique
Karim DOUMI
156
SPSS
Régression logistique
.
Régression logistique
Variable dépendante: p( y =1|x)
ln
p( y = 0|x)
où :
P(Y) est la probabilité que Y arrive
e:est la base des logarithmes naturels
Les coefficients b0 et b1 représentent la combinaison linéaire du prédicteur et
de la constante. 159
Régression logistique
160
Régression logistique
R et R2.
La statistique R n’est pas fournie par SPSS.
Une fois que nous savons si le modèle est bien ajusté aux données, il est intéressant
de connaître l’apport de chaque prédicteur à l’amélioration du modèle. Pour ce faire,
nous avons recours à la statistique de Wald.
Régression logistique
165
Analyse de composantes principales
• Il s'agit de trouver le plan tel que, globalement, l’ensemble des mesurés dans le
plan pour tous les couples de points, se rapproche autant que possible des
distances réelles mesurées dans l'espace d'origine.
Analyse du nuage de point des variable
• L'analyse du nuage NK des variables se fait toujours à partir des données centrées
réduites.
• La représentation du nuage NK des variables se situe dans un espace vectoriel à I
dimensions, chaque dimension représentant un individu de la population totale.
• L'analyse du nuage Nk des variables se fera donc par l'étude des angles formés pour une
variable k par Ok et les axes factoriels. Il est bon de noter que le centre de gravité du
nuage Nk n'est pas l'origine de la sphère unité, à la différence du nuage NI où le centre
de gravité correspond au centre du repère lorsque les données sont centrées
Ajustement du nuage de point des individus:
En générale L'approche factorielle consiste donc à approcher ces nuages NI et NK dans des sous
espaces vectoriels permettant de fournir quelques images planes de ces nuages.
Ajustement du nuage des individus :
Ajuster le nuage des individus consiste à à chercher une suite ( Us ; s = 1; _ _ _ ; S) de directions privilégiées -les axes
factoriels - afin de fournir une représentation simplifiée du nuage NI . Chaque direction Us rend maximum l'inertie par
rapport au centre de gravité G de la projection du nuage NI sur l'axe factoriel us. De plus les directions us sont orthogonales
deux à deux..
Le point i se projette en Hi sur U1, l’objectif est de chercher u1 qui rend maximum l’inertie, en effet rendre maximum l’inertie
revient à rendre minimum l’écart entre le nuage des individus et sa projection
ensuite trouver u2 orthogonal à u1qui satisfait le même critère .
Ajustement du nuage de point des variable :
• Nous cherchons ici à obtenir des variables synthétiques et une
représentation approchée des corrélations entre les variables
• la variable k se projette en Hk sur v1. Nous cherchons le premier axe factoriel en déterminant le
vecteur v1 qui rend maximum Puis, nous cherchons le vecteur v2 orthogonal à v1 qui
satisfait ce même critère.
• Nous poursuivons cette démarche jusqu'à l'obtention des S vecteurs recherchés. Le vecteur v1
définit une nouvelle variable qui est la combinaison linéaire la plus liée à l'ensemble des variables
initiales du tableau X.
• Les S nouvelles variables (axes factoriels) sont appelées les composantes
principales, V1 le vecteur qui rend maximum l’inertie , en effet V1 est la composante la plus liée à
l’ensemble des variables initiales ( c’est la variable qui synthétise le mieux l’ensemble des variables
initiales.
Le choix des composantes principales.
✓ Une règle empirique, celle-ci due à Cattell (1966) est appelée test
du talus (scree test) se fonde sur le graphique des valeurs propres
de R en fonction de leur rang; habituellement, la
décroissance est rapide au début et lente par la suite.
Exemple:
• Le fichier « indicateurs économiques » propose 7 variables pour
caractériser les 22 régions françaises.
• L’analyse en composantes principales va permettre la réduction
du nombre de variables afin de déterminer une structure sous-
jacente.
Analyse de composantes principales
Analyse de composantes principales
Pour obtenir une rotation Varimax (rotation maintenant l’orthgonalité des axes), il
faut sélectionner l’option rotation dans la boite de dialogue de l’analyse factorielle:
Les principales limites de l’ACP
194
Classification
Introduction
il faut choisir les variables qui vont caractériser les individus, ce choix
dépend de l’objectif de l’étude d’où la nécessité de choisir les variables
qui sont pertinentes vis-à-vis du problème considéré et, parmi celles-ci,
celles à forte dispersion, c’est à dire celles qui véhiculent la plus grande
quantité d'information.
La distance euclidienne :
La distance euclidienne entre deux individus A et B décrits par un ensemble
de p variables ( X1A, X2A,..., XpA) et ( X1B, X2B,..., XpB), est donné par :
Dans une deuxième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 0,119 entre l’individu
6 et l’individu 8. On a alors les 8 groupes suivants :
Dans une troisième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 0,131 entre l’individu
3 et le groupe [4 ;7]. On a alors les 7 groupes suivants :
Dans une cinquième étape, un nouveau groupe est obtenu par fusion des
2 groupes les plus semblables. La plus petite distance est 1,524 entre
l’individu 10 et le groupe [3 ;4 ;7]. On a alors les 5 groupes suivants :
Dans une sixième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 2,207 entre
l’individu 5 et le groupe [3 ;4 ;7 ;10]. On a alors les 4 groupes suivants :
Dans une huitième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 4,362 entre
l’individu 1 et l’individu 2. On a alors les 2 groupes suivants :
[1;2] ; [3;4;5;6;7;8;9;10]
Dans une neuvième étape, un nouveau groupe est obtenu par fusion des
2 groupes restant. On a alors le groupe suivant :
[1;2;3;4;5;6;7;8;9;10]
Classification
Les groupes et leur composition.
Appartenance à la classe
Classification
Classification
ANALYSE TYPOLOGIQUE
Analyse discriminante
Scoring
208
INTRODUCTION
• L’analyse discriminante intervient dans les problèmes de classement d’un ou plusieurs
individus dans l’un ou l’autre d’une série de groupes préalablement définis.
• En médecine, par exemple pour détecter les groupes à hauts risques cardiaques à partir de
caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux,
etc.
• Dans le domaine bancaire, lorsque l’on veut évaluer la fiabilité d’un demandeur de crédit à
partir de ses revenus, du nombre de personnes à charge, des encours de crédits qu’il
détient, etc.
• En biologie, lorsque l’on veut affecter un objet à sa famille d’appartenance à partir de ses
caractéristiques physiques.
INTRODUCTION
Elle cherche à :
• Déterminer les variables explicatives les plus discriminantes vis à vis des classes
déterminées
• Mais surtout à valider une classification ou à faire un choix entre plusieurs
classifications pour savoir laquelle est la plus pertinente.
• L’analyse discriminante intervient donc a posteriori d’une classification
introduction
Deux conditions sont à remplir :
• Elles ne doivent pas être trop corrélées entre elles. Cela se vérifie par l’observation des
corrélations entre les variables. Si c’est le cas, on peut passer par une analyse factorielle
qui permet de réduire les données à quelques axes. Ces axes sont, par propriété, non
corrélés entre eux.
Exemple 1: Produit d’une banque
Une banque a conçu un nouveau produit destiné à ses anciens clients de plus de 5 ans.
A cet effet, elle a décidé d’envoyer une brochure publicitaire très complète. Pour des
raisons de coût, elle décide de n’envoyer la brochure qu’aux clients susceptibles
d’acheter le produit.
Elle dispose des informations relatives au virement mensuel net et au nombre
d’opérations effectuées durant les 5 dernières années. A titre de test, elle a envoyé la
brochure à un échantillon aléatoire de 12 clients.
Pour obtenir des indicateurs statistiques complémentaires, tels que des statistiques descriptives,
les coefficients de certaines fonctions ou la structure des matrices utilisées, il suffit de cliquer sur
le bouton Statistiques... pour valider vos choix dans la boîte de dialogue correspondante de
l’analyse discriminante :
Statistiques…Dans la boîte qui apparaît, il convient de cocher
« Moyennes»
«ANOVA à 1 facteur» Tests d’analyse de la variance
à un facteur sur l’égalité des moyennes pour chacune
des variables explicatives
«test de Box » Test M de Box sur l’égalité des matrices de variance covariance locales à chacun
des groupes dans « Descriptives »
« Fischer’s » ainsi que «Non standardisés »( Coefficients non standardisés des fonctions linéaires
discriminantes pour le classement des observations dans l’espace des variables d’origine au
moyen d’une équation avec constante) dans « Function Coefficients ».
Classifier…
Dans la boîte qui apparaît, il convient de cocher « récapitulatif» (option qui permet
l’affichage de la matrice de confusion) dans « affichage ».
Analyse des résultats
Une analyse discriminante se déroule en 3 étapes :
Tableau 2 : tests statistiques d’égalité des moyennes Ainsi pour une valeur F ≈ 28,687 et une
significativité de 0, nous sommes conduits à
rejeter l’hypothèse nulle d’égalité des
moyennes pour la variable x1(les fonds de
roulement)
Ainsi pour une valeur F ≈ 2,207 et une
significativité de 0,142>,0,05, nous sommes
conduits à accepter l’hypothèse nulle
d’égalité des moyennes pour la variable x5
(ventes)
2.Vérification de la validité de l’étude.
la performance moyenne du
modèle est de 93,5%, c'est-à-dire
que le modèle d'Altman avait la
capacité de prévoir correctement
l'état futur de 93,5% des
entreprises.