Vous êtes sur la page 1sur 177

SPSS

Techniques d’analyse quantitative des


données

Professeur: Karim DOUMI

Karim DOUMI
1
SPSS
Chapitre 1 : Fonctionnement de SPSS
Généralités
• SPSS est un outil statistique permettant des…
– …analyses simples:
• Statistiques descriptives, statistiques inférentielles,
dépendance entre variables…..
– …analyses plus sophistiquées:
• Analyses multivariées: analyse factorielle, serie
chronologique, classification…
Mais…
– La qualité des analyses statistiques est fonction de
la qualité des données.

Karim DOUMI
2
SPSS
Fonctionnement de SPSS:
Généralités
• Quatre types de fichiers utilisés:
– Un fichier des données de l’étude
• Fichier texte (.txt) ou excel (.xls)
• BD (access, Mysql, oracle…..)
– Un fichier d’édition des données (.sav)
– Un fichier de syntaxe (.sps)
– Un fichier de résultats (.spo /.spv)

Karim DOUMI
3
SPSS
Karim DOUMI
4
SPSS
Description des principales fenêtres :
• File : permet la gestion des fichiers (ex. : ouvrir un nouveau fichier, fermer,
enregistrer,
etc.).
• Edit : permet d’effectuer les opérations de traitement de texte (ex. : copier, couper,
coller,
etc.).
• View : permet de définir les options de l’écran (ex. : barres d’outils).
• Data : traite tout ce qui est lié à la gestion de la barre de données (ex. : définir une
variable, insérer une variable, etc.).
• Transform : permet d’effectuer les différentes opérations de transformation des
variables
(ex. : recodification, catégorisation, création d’indices, etc.).
• Analyse : permet toutes les analyses statistiques que SPSS permet d’effectuer (ex. :
analyses descriptives, corrélations, régressions, etc.).
• Graphs : présente tous les types de graphiques que SPSS permet de créer (ex. :
histogrammes, etc.).
• Utilities : comprend les utilitaires sur le programme (ex. : infos sur les fichiers, infos
sur
les variables, etc.).
• Windows : permet la gestion des fenêtres.
Help : outil d’aide à l’utilisation du logiciel.
Karim DOUMI
5
SPSS
La définition des variables
Name : sert à donner un nom à la variable. Le nom ne doit pas dépasser 8 caractères et il est recommandé de ne
pas utiliser de caractères accentués. Il doit bien représenter la variable pour vous permettre de la
reconnaître facilement.

Type : sert à décrire la variable et le format de la colonne. Il est recommandé de laisser l’option «numeric» qui
est indiquée par défaut. Pour les décimales «decimal places», vous pouvez les laisser égales à 2 ou les
mettre à 0, selon la situation.

Label : permet de donner une identification plus explicite à la variable qui sera affichée dans les différents
calculs statistiques.

Values : permet de définir les valeurs que peuvent prendre la variable.

Missing : permet d’indiquer si la variable peut accepter ou non des valeurs manquantes. Remarque : la saisie des
données manquantes se fait habituellement en effectuant un simple «retour» (c’est la méthode
recommandée). Si vous avez prévu d’utiliser des codes spécifiques (ex. : 9, 99, etc.), il faut les définir dans
«missing».

Columns : permet de terminer la largeur de la colonne. Vous pouvez augmenter ou réduire la taille de la
colonne.

Align : sert à aligner les données à l’intérieur des cellules.

Scale : permet de définir le type de l’échelle (nominale, ordinale, intervalles et ratio).

Karim DOUMI
6
SPSS
Fonctionnement de SPSS:
Fichier de données
• Dans un fichier texte, les données de chaque
sujet sont entrées successivement, séparées par
un « ; » une « , », une espace ou une tabulation.
– Il est préférable d’utiliser un « ; » ou une espace
– Exemple:
• Variables: identification (id), sexe du sujet (sexe, où f=1, h=2) et âge
(age) on entrera:
1 1 28  participant 1 est une femme de 28 ans
2 2 33  participant 2 est un homme de 33 ans
3 2 32  participant 3 est un homme de 32 ans
etc.

Karim DOUMI
7
SPSS
Fonctionnement de SPSS:
Fichier de données
• Le fichier de données inclut les valeurs
numériques associées à vos données
• Ex. 7 pour signifier “totalement en accord” ou 1 pour
signifier que le participant est un homme
• Principes généraux de saisie:
– Chaque ligne = 1 participant
– Chaque colonne = 1 variable

Karim DOUMI
8
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Pour insérer les données dans ce fichier:
– Saisie des données manuellement
– Importation du fichier avec la syntaxe:
GET DATA /TYPE = TXT
/FILE = 'C:\Ex2.txt'
/DELCASE = LINE GET DATA /TYPE=XLS
/DELIMITERS = "\t"
/ARRANGEMENT = DELIMITED /FILE='C:\Ex2.xls'
/FIRSTCASE = 2 /SHEET=name 'Ex2'
/IMPORTCASE = FIRST 1000
/VARIABLES = /CELLRANGE=full
ID F3.2 /READNAMES=on .
L100KM F6.2
CHEVAPEU F3.2
POIDS A9
ACCEL F5.2
ORIGIN F3.2
NBCYL F3.2
ANNEE A8
.
CACHE.
EXECUTE.
Karim DOUMI
9
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Pour insérer les données dans ce fichier:
– Avec le menu
• Suivre les étapes affichées à l’écran

Karim DOUMI
10
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Attribuer un nom/code
à chaque variable
– Pour SPSS 12 et moins,
max de 8 lettres/chiffres,
mais débutant
nécessairement par une
lettre
– Choisir des codes
significatifs
– Conserver par écrit les
codes des variables!!!
Karim DOUMI
11
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Attribuer une étiquette
à chaque variable
– Les codes sont limités.
On peut dans SPSS
attribuer une étiquette
(label), laquelle permet
de mieux se retrouver
• Onglet “variable view”
pour modifier les
paramètres des variables

Karim DOUMI
12
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Les données à saisir
dans SPSS sont
numériques:
– Chaque modalité de
réponse peut se voir
attribuer une étiquette
(Values)

Karim DOUMI
13
SPSS
Fonctionnement de SPSS:
Fichier d’édition des données
• Valeurs manquantes:
– Il importe d’attribuer un
code pour les valeurs
manquantes; ceci facilite
la vérification du fichier
de données
– On doit spécifier à SPSS
un code pour signaler
l’existence d’une valeur
manquante
• Ex. -999 pour une échelle
allant de 1 à 7.

Karim DOUMI
14
SPSS
Fonctionnement de SPSS:
Fichier syntaxe
• Les analyses avec SPSS se font:
1.Par les menus ou
2.Par les syntaxes
• Plus complexe à première vue, elle comporte des
avantages majeurs:
– Certains types d’analyses ou de sous-commandes ne sont pas
disponibles via le menu.
– En spécifiant tous les paramètres de votre analyse vous êtes
plus à même de contrôler les résultats obtenus.

Karim DOUMI
15
SPSS
Fonctionnement de SPSS:
Fichier syntaxe

Karim DOUMI
16
SPSS
Fonctionnement de SPSS:
Fichier syntaxe

Karim DOUMI
17
SPSS
Fonctionnement de SPSS:
Fichier syntaxe
Une règle d’or: documenter!
• ➢Utiliser SPSS implique très rapidement
l’accumulation d’une multitude d’opérations,
de variables, de résultats : créer des variables;
les recoder; analyser une variable de plusieurs
manières différentes; complexifier
progressivement une analyse en prenant en
compte des variables supplémentaires, etc.
18
Fonctionnement de SPSS:
Fichier syntaxe
➢Pour s’y retrouver, il faut garder des traces
de ce que l’on fait :
▪sauvegarder les fichiers de résultats (outputs;
extension .spv) ou/et les imprimer (en les
classant)
▪sauvegarder les données «travaillées»
(variables recodées, nouvelles variables,
etc.) dans un fichier de données (extension
.sav) différent du fichier de données brutes.

19
Fonctionnement de SPSS:
Fichier syntaxe
➢Il est aussi conseillé d’ajouter des
commentaires (qui peuvent être brefs)
décrivant ce que l’on fait et/ou le résultat
de ce que l’on fait
➢Documenter est non seulement utile
pour le déroulement de son propre
travail, mais aussi pour en justifier le
résultat .
➢C’est un support dans les cas où il faut
faire mémoire de ce qui a été fait.
20
Fonctionnement de SPSS:
Fichier syntaxe

Un conseil: travailler avec la syntaxe


• ➢De manière usuelle, on apprend SPSS et on
travaille avec en utilisant son interface
graphique (menus déroulants, fenêtres, etc.)
• ➢De même, durant ce cours, toutes les
opérations (ou presque) pourront être faites au
moyen de l’interface graphique de SPSS
21
Fonctionnement de SPSS:
Fichier syntaxe
Recommandations:

1. Afficher dans la fenêtre résultats (outputs), les


instructions données à SPSS
2. Rassembler dans un fichier ad hoc appelé fichier
syntaxe (extension .sps) les instructions données à
SPSS, ces fichiers syntaxes peuvent être sauvegardés
et ainsi on garde mémoire des instructions données à
SPSS.
3. Enfin, à titre de conseil: travailler directement en mode
syntaxe.

22
Fonctionnement de SPSS:
Fichier syntaxe
• ➢En référence aux points 1 et 2, modifier deux
options de SPSS
▪afin que les instructions données à SPSS
d’effectuer telle ou telle opération s’inscrivent
dans la fenêtre « résultats » (output) de SPSS
(cf. point 1 ci-dessus)
▪afin qu’au démarrage de SPSS, une fenêtre «
syntaxe » s’ouvre automatiquement
23
Fonctionnement de SPSS:
Fichier syntaxe

1. Pour cela, aller dans le menu


Edition Options...
2. Sur l’écran qui apparaît, choisir la rubrique
Généralités et cocher la case Ouvrir la
fenêtre de syntaxe au démarrage
3. Puis dans la rubrique Editeurs de
résultats, cocher la case Afficher syntaxe
4. Cliquer sur Appliquer, puis Ok

24
Fonctionnement de SPSS:
Fichier syntaxe

25
16
17
Calculer une Variable
Exemple

Karim DOUMI
28
SPSS
Calculer une Variable
Il arrive très souvent que les variables brutes d'une base de
données ne soient pas suffisantes pour effectuer certaines
analyses. On peut avoir besoin de créer une ou des nouvelles
variables à partir des variables existantes, comme dans les cas
suivants :
• Créer une variable qui contient la racine carrée d'une variable
existante
• Calculer la moyenne ou la somme d'une série de variables
existantes…
La commande Compute sert à créer de nouvelles variables sur
la base de fonctions arithmétiques, statistiques ou logiques.

Karim DOUMI
29
SPSS
Calculer une Variable
Exemple
• Cette nouvelle variable sera la moyenne des réponses données par chaque sujet
aux questions Q01, Q02, Q03,
• Allez dans le menu Transformer et choisissez Calculer la variable.

• Dans la boite de dialogue, écrivez, dans Variable cible (étiquette), MOYSAT (c’est
le nom de la variable).
• Ensuite, allez dans la boite Groupe de fonctions et cliquez à deux reprises
sur Statistiques (il est dans le bas de la liste, vous devez utiliser l’ascenseur à
droite). Vous verrez dans la boite Fonctions et variables spéciales la
fonction Mean sur laquelle vous devez aussi cliquer à deux reprises.
• Dans la boite du haut, vous verrez apparaître MEAN (?, ?). Vous devez alors insérer
les variables Q01, Q02, Q03 dans la parenthèse

Karim DOUMI
30
SPSS
Calculer une Variable
Exemple
• Vous pouvez également écrire à la main la commande dans la boite…

Karim DOUMI
31
SPSS
Calculer une Variable
Exemple
Exercice sur la commande CALCULER : par syntaxe
• Maintenant, éliminez la variable MOYSAT de la matrice de données (cliquez au
haut de la colonne sur le nom de la variable, puis dans le menu Édition, cliquez
sur Effacer ou, plus simplement, sur le bouton effacer ou supprimer de votre
clavier).
• Pour copier la commande à l’intérieur d’un fichier Syntaxe recommencez les
étapes précédentes et remplacez le par
• Le texte copié dans cette fenêtre devrait se lire comme suit :

Karim DOUMI
32
SPSS
Calculer une Variable
Exemple
faites la même chose en créant la variable « AGEX ».(âge exacte de l’individu)
Voici ce que devrait contenir maintenant votre fichier Syntaxe

Karim DOUMI
33
SPSS
Création d’une variable
La commande recode sert à créer de nouvelles variables (ou à
modifier des variables existantes) sur la base d’un
regroupement des valeurs qu'on appelle aussi clé de
recodage. Voici quelques situations dans lesquelles vous
pouvez utiliser le recodage :
• À partir d'une variable contenant la note d'examen sur 20,
créer une nouvelle variable qui recode la note en lettre (A+, A-
, A, etc..)
• Recoder les valeurs d'items inversés dans une échelle de
mesure
• Diminuer le nombre de catégories d'une variable catégorielle
en les regroupant différemment

Karim DOUMI
34
SPSS
Création d’une Variable
Exemple
Imaginons que nous voulons réaliser des analyses comparant les gens en
formation (STATUT = 1) et les autres (STATUT = 2, 3 ou 4). Pour cela, il nous faut
créer une variable qui diminue le nombre de catégories de 4 à 2. :
Allez encore une fois dans le menu Transformer, puis sélectionnez Création de
variables

Recodez la variable STATUT de sorte que les sujets qui ont répondu 1 auront la
valeur 1 (en formation) alors que ceux qui ont la valeur 2, 3 ou 4 auront
maintenant la valeur 2 (autres).
Dans la boite de dialogue principale, inscrivez STATUTX dans la boite Nom de
l’encadré.
Inscrivez ensuite Statut recodé dans la boite Étiquette du même encadré.
Cliquez sur Karim DOUMI
35
SPSS
Création d’une Variable
Exemple

Apres il faut Changer les anciennes valeurs par les nouvelles valeurs.

Karim DOUMI
36
SPSS
Création d’une Variable
Exemple
Exercice sur la commande Recode : par syntaxe

Pour les 3 variables a la fois la syntaxe est la suivante:

Karim DOUMI
37
SPSS
Expression conditionnelle (IF)
Les expressions conditionnelles permettent de calculer des variables
selon une condition, donc qui s’applique à des sujets ou des observations
(lignes) qui répondent à certains critères que nous allons définir selon nos
besoins avec cette commande.
La résultante des expressions conditionnelles peut créer une nouvelle
variable ou bien transformer les valeurs d'une variable existante. Dans le
dernier cas, il faut s'assurer que l'écrasement des valeurs originales ne
porte pas à conséquence

Voici l’apparence Syntaxe la commande de cet exercice.


IF (sexe = 1) satis1=MEAN (q01, q03, q05).
Littéralement, elle signifie que SI la valeur de la variable SEXE est égale à «
1 », la valeur de la variable SATIS1 sera égale à la moyenne des valeurs des
variables Q01, Q03 et Q05.

Karim DOUMI
38
SPSS
Expression conditionnelle (IF)
Syntaxe
Forme 1 Forme 3
DO IF (expression logique) DO IF (expression logique)
... bloc d'instructions ... ... bloc d'instructions ...
END IF ELSE IF(expression
logique)
... bloc d'instructions ...
Forme 2 ELSE IF ...
DO IF (expression logique) ...
... bloc d'instructions ... ELSE ... (facultatif)
ELSE ...
... bloc d'instructions ... END IF
END IF

Karim DOUMI
39
SPSS
Expression conditionnelle (IF)

En utilisant le langage SPS:

Karim DOUMI
40
SPSS
compter(Count)
• La commande Compter sert à calculer pour chaque observation les
occurrences d’une ou de plusieurs valeurs à l’intérieur d’une série de
variables déterminées par l’utilisateur.
• Exercice sur la commande COMPTER : par menu interactif
• Dans cet exercice, nous tentons de savoir pour chaque répondant le
nombre d’items de satisfaction pour lesquels il indique qu’il est satisfait,
c’est-à-dire auquel il a accordé la valeur 3 lorsque l’item est recodé.
Allez dans le menu Transformer et sélectionnez Compter ….

Karim DOUMI
41
SPSS
Regroupement des variables
• Avec recode:

DATASET ACTIVATE Ensemble_de_données1.


RECODE age (21 thru 30=2) (Lowest thru 20=1) (31 thru
40=3) (41 thru 50=4) (51 thru 60=5) (61 thru Highest=6)
INTO age_reg.
VARIABLE LABELS age_reg 'age regroupé'.
EXECUTE.

Karim DOUMI
42
SPSS
Regroupement des variables
• Avec regroupement visuel:
RECODE age (MISSING=COPY) (LO THRU 20.0=1) (LO THRU 26.286=2) (LO
THRU 32.572=3) (LO THRU 38.858=4) (LO THRU 45.144=5) (LO THRU 51.43=6)
(LO THRU 57.715999999999994=7) (LO THRU HI=8) (ELSE=SYSMIS) INTO
age_reg_v.
VARIABLE LABELS age_reg_v 'age (Regroupé par casiers)'.
FORMATS age_reg_v (F5.0).
VALUE LABELS age_reg_v 1 '<= 20,00' 2 '21,00 - 26,29' 3 '26,30 - 32,57' 4
'32,58 - 38,86' 5 '38,87 - 45,14' 6 '45,15 - 51,43' 7 '51,44 - 57,72' 8 '57,73+'.
VARIABLE LEVEL age_reg_v (ORDINAL).
EXECUTE.

Karim DOUMI
43
SPSS
compter(Count)

Karim DOUMI
44
SPSS
Sélection de cas:
• Pour certaines analyses, il peut être nécessaire de filtrer une partie des
observations (cas) pour obtenir des résultats auprès d'un sous-groupe
spécifique d'observations.
• Il est possible de sélectionner une ou des observations à l’aide de un ou
d'une combinaison de critères, soit par la boite de dialogue, soit en
utilisant une commande SYNTAXE.
• Les conditions de sélection peuvent être uniques ou multiples. Dans le cas
d’une seule condition, on inscrit la variable sur laquelle repose la sélection
avec la condition formulée grâce aux conditions arithmétiques (<, >, =, <=,
>=, <>).
• Toutes les conditions multiples (deux variables ou plus) doivent utiliser les
opérateurs logiques (AND et OR) pour séparer les conditions.
• Pour faire une sélection de cas de manière interactive, allez dans le
menu Données, puis cliquez sur Sélectionnez des observations.
Karim DOUMI
45
SPSS
Sélection de cas:

Pour faire une sélection de cas


de manière interactive, allez
dans le menu Données, puis
cliquez sur Sélectionnez des
observations.

Karim DOUMI
46
SPSS
Sélection de cas:

Dans la première boite de dialogue,


vous devez déterminer la stratégie de
sélection que vous allez utiliser. Vous
avez plusieurs choix, mais le plus
populaire est sans contredit Selon
une condition logique. Dans ce cas, la
sélection se fait à partir de la
condition que vous énoncez. Nous
allons donc voir cette stratégie en
premier et préciser les autres par la
suite

Karim DOUMI
47
SPSS
Sélection de cas

Exemple :
pour choisir
les hommes de plus de
30 ans, on entrerait
dans la boite:
Sexe = 1 AND
age > 30

Karim DOUMI
48
SPSS
Sélection de cas:

Si vous préférez
taper la commande
manuellement,
vous devriez créer
la syntaxe suivante:

Karim DOUMI
49
SPSS
Sélection de cas:

Karim DOUMI
50
SPSS
Les autres stratégies de sélection
• Dans la boite de dialogue Sélection de cas,
vous avez bien sûr la stratégie Si que nous
venons de voir, mais aussi d’autres choix. Voici
une brève description pour chacun.
• Toutes les observations : vous ne faites pas
de sélection, vous utilisez toutes les
observations. Très utile quand vous voulez
revenir à la base initiale et annuler une
condition préalablement établie.
• Par échantillonnage aléatoire : sélection
d'observations aléatoire. Vous choisissez à ce
moment combien de cas vous voulez dans
votre échantillon, soit en pourcentage
(Environ _ % de toutes les observations), soit
en précisant un nombre d'observations parmi
les X premiers (Exactement _ observations à
partir des premières _ Observations).
• Utiliser une variable de filtre : enfin, vous pouvez
faire une sélection en ne conservant que les cas qui
ont des valeurs valides pour une variable filtre. Vous
n'avez qu'à transférer la variable filtre dans la boite
Karim DOUMI
prévue à cet effet. SPSS
51
Exercices

Karim DOUMI
52
SPSS
M anipulation des F ichiers
de D onnées
1. Création d’un Fichier de Travail.
La plupart du temps, les fichiers de données des grosses
enquêtes comportent pIusieurs centaines de variabIes. Or, dans
Ie cadre d’un travaiI de recherche on peut être amené à ne
travaiIIer que sur certaines variabIes.
•par exempIe, vous faites une étude sur Ia santé. Vos données
sont situées dans Ie fichier sante.sav qui contient Ies variabIes
suivantes :
Karim DOUMI
53
SPSS
M anipulation des F ichiers
de D onnées
Nom Libellé
id Identifiant
carnet Possède un carnet de santé
consult A consulté un médecin au cours des 6 derniers mois
datecons Date de la dernière consultation
vacchb Vacciné contre hépatite B
vaccha Vacciné contre hépatite A
vaccroug Vacciné contre la rougeole
vaccgrip Vacciné contre la grippe
sida1 A déjà entendu parler du sida
sida2 A déjà utilisé un préservatif
sida3 A déjà fait un test de dépistage

Karim DOUMI
54
SPSS
M anipulation des F ichiers
de D onnées
• Dans notre cas, nous souhaitons ne pas garder Ies variabIes
sida1, sida2 et sida3.
La syntaxe correspondante sera donc :
SAVE OUTFILE='travail.sav'
/DROP sida1
sida2 sida3.
EXECUTE.

Karim DOUMI
55
SPSS
M anipulation des F ichiers
de D onnées
SAVE OUTFILE='nom_du_fichier.sav'
/DROP var1 var2 var3

/KEEP var11 var12 var13

/RENAME
anc_var21=nouv_var21 anc_var22=nouv_var22

Nom_du_fichier.sav est Ie nom du fichier qui sera créé.


À défaut de précision, ce fichier sera pIacé dans Ie
même répertoire que Ie fichier source.

Karim DOUMI
56
SPSS
M anipulation des F ichiers
de D onnées

SAVE OUTFILE='travail.sav'
/KEEP id
carnet consult datecons
vacchb vaccha vaccroug vaccgrip.
EXECUTE.

Karim DOUMI
57
SPSS
M anipulation des F ichiers
de D onnées

2. Ajout de Variables
Supposons Ies données ont été scindées en pIusieurs fichier de données. Ainsi Ies
caractéristiques individueIIes sont situées dans un fichier indiv.sav aIors que Ies
variabIes sur Ia santé sont dans Ie fichier travail.sav que nous venons de créer.
Le fichier indiv.sav contient Ies variabIes suivantes :
Nom Libellé
id Identifiant
sexe Sexe
age Age
instruct Niveau d'instruction
milieu Milieu de résidence
matri État matrimonial

Karim DOUMI
58
SPSS
M anipulation des F ichiers
de D onnées
Avant de commencer, iI faut trier Ies observations des deux fichiers seIon
I’identifiant
• Ouvrir Ie fichier ivdiv.sav.
• CIiquer dans Ie menu sur Dovvées > Trier les observations…
• SéIectionner Ia variabIe id par ordre croissant.

•CIiquer sur OK.


•Enregistrer Ie fichier de données.
•Recommencer avec Ie fichier travail.sav

•II est égaIement possibIe d’avoir recours à Ia syntaxe suivante :


SORT CASES BY id (A).
EXECUTE.

59
M anipulation des F ichiers
de D onnées

Karim DOUMI
60
SPSS
M anipulation des F ichiers
de D onnées

3. Création d’un Fichier Enfants.


Nous disposons égaIement d’un fichier fecondite.sav comportant
des données sur Ia fécondité des personnes enquêtées.
Ce fichier comporte Ies variabIes suivantes :
Nom Libellé
id Identifiant
nbenf Nombre d'enfants
sexe$1 Sexe enfant 1
annee$1 Année de naissance de l'enfant 1
dc$1 L'enfant 1 est-il décédé ?
sexe$2 Sexe enfant 2
annee$2 Année de naissance de l'enfant 2
dc$2 L'enfant 2 est-il décédé ?
sexe$3 Sexe enfant 3
annee$3 Année de naissance de l'enfant 3
dc$3 L'enfant 3 est-il décédé ?
Karim DOUMI
61
SPSS
M anipulation des F ichiers
de D onnées

Création des fichiers enfant1.sav, enfant2.sav et enfant3.sav

•Dans un premier temps, iI nous faut créer des sous fichiers pour
chaque rang de naissance, avant de fusionner ces différents sous
fichiers en un seuI.
Nous aIIons donc avoir recours à Ia commande SAVE OUTFILE.
Nous aIIons garder Ia variable id qui va nous être indispensable par
Ia suite, ainsi que Ia variabIe nbenf.

Karim DOUMI
62
SPSS
M anipulation des F ichiers
de D onnées
GET FILE='fecondite.sav'.
SAVE OUTFILE='enfant3.sav'
SAVE OUTFILE='enfant1.sav'
/KEEP id
/KEEP id
nbenf
nbenf
sexe$3
sexe$1
annee$3
annee$1
dc$3
dc$1
/RENAME
/RENAME
sexe$3=sexe
sexe$1=sexe
annee$3=annee
annee$1=annee
dc$3=dc.
dc$1=dc,
EXECUTE.
EXECUTE.

63
M anipulation des F ichiers
de D onnées
Création de la Variable R ang de Naissance.
GET FILE='enfant1.sav'.
COMPUTE rang = 1 .
EXECUTE .
SAVE OUTFILE='enfant1.sav'.

GET FILE='enfant2.sav'.
COMPUTE rang = 2 .
EXECUTE .
SAVE OUTFILE='enfant2.sav'.

GET FILE='enfant3.sav'.
COMPUTE rang = 3 .
EXECUTE .
SAVE OUTFILE='enfant3.sav'.

Karim DOUMI
64
SPSS
M anipulation des F ichiers
de D onnées
Fusionner les Fichiers
ADD FILES
/FILE='enfant1.sav'
/FILE='enfant2.sav'
/FILE='enfant3.sav'.
EXECUTE.
SAVE OUTFILE='enfants.sav'.

Karim DOUMI
65
SPSS
M anipulation des F ichiers
de D onnées

Suppression des observations vides.

SELECT IF(rang <= nbenf).


EXECUTE .

Karim DOUMI
66
SPSS
M anipulation des F ichiers
de D onnées

Un nouveau identifiant:
COMPUTE idenf = id*10+rang .
VARIABLE LABELS idenf "Identifiant de l'enfant"
rang "Rang de l'enfant"
sexe "Sexe de l'enfant"
annee "Année de naissance de l'enfant"
dc "L'enfant est-il décéder ?".
EXECUTE .

Karim DOUMI
67
SPSS
M anipulation des F ichiers
de D onnées

GET FILE='indiv.sav'. MATCH FILES


SORT CASES BY id (A) . /FILE=*
EXECUTE. /TABLE='indiv.sav'
SAVE OUTFILE='indiv.sav'. /RENAME sexe=sexepar
/BY id.
GET FILE='enfants.sav'. EXECUTE.
SORT CASES BY id (A) .
EXECUTE. SAVE OUTFILE='enfants.sav'.
SAVE OUTFILE='enfants.sav'.

Karim DOUMI
68
SPSS
Analyse de la Variance
ANOVA

Karim DOUMI
69
SPSS
ANALYSE DE VARIANCE

Exemple
15 candidats, 3 examinateurs.
5 candidats pour chaque examinateur.
Effet d’examinateur??
Solution ANOVA

notes des candidats

Examinateur
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8
y1  4 y2  7 y3  10

y 7 70
ANALYSE DE VARIANCE

Modèle de l’analyse de la variance à 1 facteur :

yij     i   ij

Exemple d’examinateur:
où yij est la variable à expliquer ……………… Note d’un candidat
 i est l’effet du ième niveau du facteur …..... Effet d’un examinateur i
 est l’effet moyen général ………………. Moyenne générale des notes
 ij est la variable aléatoire résiduelle ……… due à l’ensemble des autres causes qui
déterminent la note .

Hypothèses :
- les  ij sont indépendants
- E( ij )  0
- var( ij )   2
-  ij suit une loi N (0,  2 )
71
ANALYSE DE VARIANCE

Décomposition de l’élément : y ij
yij  y  ( yi  y )  ( yij  yi )

Exemple :

3 10 13 7 7 7 -3 0 3 -1 3 3
5 8 11 7 7 7 -3 0 3 1 1 1
6 5 7 = 7 7 7 + -3 0 3 + 2 -2 -3
3 7 11 7 7 7 -3 0 3 -1 0 1
3 5 8 7 7 7 -3 0 3 -1 -2 -2

données moyenne + écarts + écarts


=
globales générale inter-colonnes intra-colonnes

72
Décomposition de la variabilité

En élevant au carré et en sommant, pour toutes les observations :

  
2
( yij  y ) 2  ni ( yi  y ) 2  ( yij  yi )
i j i i j

Somme des carrés Somme des carrés des Somme des carrés des
= +
des écarts totaux écarts inter-niveaux écarts intra-niveaux

SCETotale = SCEInter + SCEIntra

Notre Exemple :
SCETotale = 140
SCEInter = 90
SCEIntra = 50 73
On souhaite tester les hypothèses :
H0 : " Il n’y a pas d’effet produit "
càd les moyennes pour les notes (niveaux du facteur) sont égales

contre H1 : " Il y a un effet produit "


càd deux moyennes au moins sont différentes

 Il s’agit donc de comparer la variabilité inter-niveaux à la variabilité intra-niveaux du


facteur

74
ANALYSE DE VARIANCE

Source de
SCE ddl
variation
Inter-niveaux SCE Inter I-1
Intra-niveaux SCE Intra n-I
Totale SCE Totale n-1

I nombre de niveaux

On définit le carré moyen inter-groupes :

SCE inter
CM inter 
I 1
et le carré moyen intra-groupes :
SCE intra
CM intra 
nI
75
ANALYSE DE VARIANCE

CM inter
Pour tester H0 contre H1, on évalue la quantité : F
CM intra

Si l’hypothèse H0 est vraie, la valeur F est faible,


sinon, en s’éloignant de cette hypothèse, le rapport F augmente

76
ANALYSE DE VARIANCE

Notre Exemple :

Tableau d’analyse de la variance

Source de variation SCE ddl CM F p-value


Examinateur 90 2 45
Résiduelle 10,8 p < 0,05
50 12 4,17
(intra-produit)
Totale 140 14

 H0 rejetée = il existe un effet de l’examinateur

77
SPSS: Analyse de variance
En analyse de la variance, on cherche à expliquer les variations d’une
variable métrique Y par un ou plusieurs facteurs explicatifs nominaux.

L’analyse de la variance permet de tester les hypothèses suivantes :

Ho: m1 = m2 = ... = mJ

H1: au moins une des moyennes est différente des autres.


Quand l'hypothèse de l'égalité des moyennes est rejetée, les méthodes de
comparaisons multiples permettent de déterminer où se situent en réalité
les différences importantes.

Les modèles varient selon le nombre de facteurs contrôlés. On aura ainsi le


modèle à un facteur, le modèle à 2 facteurs.

Karim DOUMI
78
SPSS
SPSS: Analyse de variance
L’analyse de la variance à un facteur, ANOVA1 permet d’expliquer les variations
de la variable dépendante Y par un seul facteur explicatif. Les données
proviennent d'échantillons prélevés aléatoirement dans des populations normales
dans lesquelles les variances sont supposées égales. Les données sont regroupées
dans un tableau appelé matrice de données.

Comparaisons multiples de moyennes.


Quand le test de l'analyse de la variance est significatif, nous devons conclure qu'il
existe des différences importantes entre certaines des moyennes de ces
populations normales. Dans ce cas, la comparaison multiples de moyennes
cherche à déterminer un classement des moyennes en indiquant les différences
significatives et celles qui ne le sont pas.

La théorie statistique a développé plusieurs méthodes de comparaisons multiples


de moyennes.

Karim DOUMI
79
SPSS
Analyse de variance
Exemple1:

Expliquer la production des commerciaux par rapport aux


journées de formation effectués.

Fichier de données: salesperformances.sav


Variables:
Group: Groupe de formation de vente.
Perform: Note à l’examen

Karim DOUMI
80
SPSS
Analyse de variance
Exemple2:
Existe-t-il une différence entre les niveaux de scolarité sur le nombre
d’heures moyen travaillées par semaine ? Autrement dit, peut-on croire
qu’un plus grand nombre d’années de scolarité rime avec moins
d’heures de travail par semaine ? Pour vérifier cette hypothèse, nous
allons utiliser les données de la base GSSNET.SAV.

•La variable indépendante sera DEGREE qui regroupe les répondants


selon le diplôme obtenu, soit en cinq groupes.

•La variable dépendante sera HRS1 qui contient le nombre d’heures


travaillées par semaine pour tous les répondants.

Karim DOUMI
81
SPSS
Analyse de variance
Exemple2:

La semaine moyenne à temps plein varie entre 36,82 heures pour les gens sans secondaire et
47,29 pour ceux avec Maîtrise/Doctorat. Au total, l’échantillon travaille en moyenne 42,5 heures
par semaine.
Les écart-types sont sensiblement similaires avec la plus faible variabilité pour les répondants
avec secondaire et la plus grande pour les gens sans secondaire.
La colonne Erreur standard (erreur-type) nous indique la variabilité échantillonnale de la
moyenne. La plus petite est celle des gens avec secondaire en raison du nombre élevé de cas.
Karim DOUMI
82
SPSS
Analyse de variance

Nous sommes à 95 % certains que pour les gens avec Maîtrise/Doctorat, la vraie valeur de la moyenne de la
population se situe entre 44,13 et 50,44 heures. L’intervalle le plus restreint est celui des gens avec secondaire en
raison du grand nombre de sujets qui composent ce groupe (moins d’erreur-type).
Observation importante : Plusieurs des intervalles se chevauchent ! Concrètement, ceci veut dire que la plupart
des groupes possèdent des valeurs de moyennes possibles compatibles !
L’exception est l’intervalle sans secondaire et celui de Maîtrise/Doctorat : ces deux intervalles ne se chevauchent
pas. Donc, leurs valeurs possibles dans l’intervalle de confiance ne sont pas partagées.
Karim DOUMI
83
SPSS
Analyse de variance

La première colonne donne la statistique proprement dite.


Ensuite, cette statistique est examinée à la lumière de deux degrés de liberté. Le premier est
calculé à partir du nombre de groupes moins 1 (5 - 1 = 4). Le deuxième est calculé à partir
du nombre de sujets moins le nombre de groupes (904 - 5 = 899).
La dernière colonne indique si le test est significatif ou non. Le seuil de signification est
toujours fixé à p < 0,05.
Dans l'exemple, comme le test n’est pas significatif (p > 0,05), on ne peut pas rejeter
l’hypothèse nulle de l’égalité des variances. Elles sont donc considérées semblables, ce qui
nous convient parfaitement et nous permet de passer à l'interprétation de l'ANOVA.

Karim DOUMI
84
SPSS
Analyse de variance

Le tableau présente l'effet inter-groupes (effet dû à la variable catégorielle) et l'effet intra-groupes (effet de la
variation dans chacun des groupes). Il présente également le total des deux effets pour la somme des carrés et les
degrés de liberté.
La colonne de la somme des carrés indique
pour la variabilité inter-groupes, la sommation de l'écart de chaque moyenne de groupe par rapport à la moyenne
totale au carré.
pour la variabilité intra-groupes, la variance (écart-type au carré) de chaque groupe multipliée par le nombre de sujets
de ce groupe,
Les degrés de libertés sont les mêmes que pour le test d'homogénéité des variances.
La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par le degré de liberté
associé.
inter-groupes : 5 567,843 / 4 = 1 391,961
intra-groupes : 165 264,14 / 899 = 183,831
La statistique F est le rapport de la somme des carrés moyens inter et intra-groupes (1 391,961 / 183,831 = 7,572)
Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse nulle et dire qu’il est peu probable que
le nombre d’heures moyen travaillées dans chaque groupe soit le même dans la population.

Karim DOUMI
85
SPSS
Analyse de variance
L'analyse de variance nous indique qu'il existe des différences entre les groupes, mais ne
précise pas où sont situées ces différences. Pour remédier à la situation, nous avons fait un
test post-hoc avec la comparaison de Bonferonni.

Karim DOUMI
86
SPSS
Analyse de variance

Conclusion

- Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse


nulle et dire qu’il est peu probable que le nombre d’heures moyen travaillées
dans chaque groupe soit le même dans la population.

- On constate que plusieurs groupes se distinguent. D'une part, le nombre


d'heures travaillées par les gens sans secondaire se différencie
significativement du nombre d'heures travaillées par les répondants avec
secondaire ainsi que ceux avec un diplôme universitaire. D'autre part, nous
observons une différence significative qui se situe entre le groupe de
répondants avec secondaire et ceux avec Maîtrise/Doctorat.

Karim DOUMI
87
SPSS
Analyse de variance
Exemple3:

24 vendeurs ont utilisé 6 techniques de vente différentes pour constituer 4 répétitions et on


a enregistré les ventes moyennes quotidiennes d’un produit en nombre d’unités vendues :

T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740

Au seuil de 5 %, existe-t-il une différence significative quant à l’effet des différentes


techniques de vente sur les ventes moyennes quotidiennes de ce produit ?
Pour répondre à cette question, il faut comparer les ventes moyennes quotidiennes des 6
techniques de vente. Il s’agit de tester l'égalité de plusieurs moyennes, c’est une analyse de
variance à un facteur (ANOVA1).
Karim DOUMI
88
SPSS
Analyse de variance à 2 facteurs

L’analyse de la variance à deux facteurs, ANOVA2 permet d’expliquer les variations


de la variable dépendante Y par deux facteurs explicatifs. Les données proviennent
d'échantillons prélevés aléatoirement dans des populations normales dans
lesquelles les variances sont supposées égales. Les données sont regroupées dans
un tableau appelé matrice de données.

Procédure SPSS:
A partir du menu, sélectionnez :
Analyse/ Modèle linéaire général/Univarié...
Dans la boite de dialogue Univarié :
Dans variables dépendantes, sélectionnez la variable à expliquer métrique.
Dans Facteur(s), sélectionnez les deux facteurs explicatifs.

Karim DOUMI
89
SPSS
Analyse de variance à 2 facteurs
Exemple:
L'expérience suivante avait pour but d'analyser l'impact des 2
facteurs Sexe et Âge sur la consommation d'un certain produit de
luxe. Dans chacun des 6 groupes, le produit a été offert à 100
personnes choisies au hasard. La consommation, en nombre d’unités
achetées, est donnée dans le tableau qui suit:

Sexe Catégorie d'âge


Moins de 20 ans Entre 20 et 45 ans Plus de 45 ans
Féminin 27 39 54
Masculin 32 45 62
Total 59 84 116

Karim DOUMI
90
SPSS
Analyse de variance à 2 facteurs
Résultats:

Karim DOUMI
91
SPSS
Corrélation, régression linéaire
avec SPSS

Karim DOUMI
92
SPSS
Corrélation, régression et causalité

Introduction : précisions sémantiques

La régression simple indique la nature de la liaison linéaire entre


deux variables (quantitatives). La corrélation indique le degré de
linéarité entre deux variables (quantitatives). Ainsi l’analyse de
régression fournit une fonction entière (une droite par exemple)
alors que l’analyse de corrélation fournit un simple nombre – un
indice qui renseigne sur l’intensité avec laquelle 2 variables évoluent
ensemble. Ces 2 techniques sont donc complémentaires. L’analyse
causale enfin va plus loin en précisant le sens de la relation, le
chemin de la cause à l’effet.
Karim DOUMI
93
SPSS
Corrélation, régression et
causalité
Exemple
Si je m’intéresse au lien entre le temps hebdomadaire moyen passé à travailler (X) et la
note obtenue au partiel (Y) :
• L’analyse de régression permet de déterminer une fonction qui lie les deux
variables :

ex : « Y = aX + b »
• L’analyse de corrélation renseigne sur l’intensité du lien entre les deux variables :
ex : « le lien est fort et très significatif ».

• L’analyse causale détermine le sens de la relation : ex « temps de travail  note au


partiel »

Karim DOUMI
94
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Corrélation entre deux variables quantitatives


– Le coefficient de corrélation de Pearson r est une
mesure d’association (d’interdépendance) entre deux
variables métriques
– Il mesure l’intensité de la co-variation entre les deux
variables.

Karim DOUMI
95
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée


Calcul du coefficient de corrélation de Pearson :

cov(xy)
r
(x).(y)
• r est toujours compris entre –1 et 1
• si r est proche de –1 alors le lien est fort et négatif (quand 1 des 2 variables
augmente l’autre diminue), alors que si r est proche de 1 le lien est fort et positif
(quand 1 des deux variable augmente, l’autre augmente aussi)
• si r est proche de 0 alors il n’y a pas de lien entre x et y

Karim DOUMI
96
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

r et r2 :
• Comme r indique le degré de la relation entre la variation d’une variable et
celle d’une autre variable, il peut également représenter la décomposition de la
variation totale (en étant au carré). On retiendra que
r2 = variation expliquée  variation totale

 r2 mesure la proportion de la variation d’une variable qui est expliquée


par l’autre.
• r et r2 sont des mesures symétriques d’association : la corrélation entre X et Y
est la même que la corrélation entre Y et X. Il n’est pas important de savoir
quelle est la variable indépendante et quelle est la variable dépendante.

Karim DOUMI
97
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Interprétation du R2 :

Variance expliquée : R², coefficient de détermination (proportion de variance totale


de Y qui n’est pas due à l’erreur, ou encore proportion de la variance de Y expliquée
par la variance de X)
–R² = 0 : la variable indépendante n’explique rien
–R² = 1 : la variable explique complètement Y
–R² = 0,11 : 11% des variations de Y sont expliquées par le modèle

Karim DOUMI
98
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée


Précisons tout de suite que r indique la force d’une relation linéaire. Si on a r = 0, cela
signifie qu’il n’y a pas de relation linéaire entre X et Y, mais cela ne signifie pas que les 2
variables ne sont pas liées !!! Il peut très bien y avoir une relation non linéaire entre elles non
traduite par r.  Faites un graph !

Y
Illustration : Il existe
bien une relation entre X
et Y, mais non linéaire. Ici
r=0

X
Karim DOUMI
99
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Le coefficient de corrélation linéaire r renseigne sur l’intensité du lien entre 2


variables quantitatives. Il doit être complété afin de déterminer si l’éventuel lien mis à
jour est significatif ou non. On utilise pour cela un test t :

t r. n22
1r

Remarque : sous SPPS, la probabilité critique du test est fournie par la rubrique « sig.
(bilatérale) »

Karim DOUMI
100
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Exemple SPSS : y a-t-il un lien entre la taille de l’unité sociale de visite (le nombre de personnes
qui forment le groupe) et le temps passé dans le musée d’art ?
• H0 : il n’y a aucun lien entre ces deux variables (r=0)
• H1 : il existe un lien entre ces deux variables (r0)

Analyse  Corrélation Bivariée

Résultat : coefficient de corrélation linéaire de Pearson : r (entre -1 et 1)

Karim DOUMI
101
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée


Corrélations

durée
est imée de taille de l'unité
la visite soc iale
durée es timée de la visite Corrélation de Pears on 1 ,078
Sig. (bilatérale) , ,071
N 542 538
taille de l'unité sociale Corrélation de Pears on ,078 1
Sig. (bilatérale) ,071 ,
N 538 613

Le coefficient de Pearson est faible et non significatif. On conclut qu’il n’existe pas de lien entre
la durée de la visite et la taille de l’unité sociale de visite

Karim DOUMI
102
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Exercice
BDD Employes de SPSS : y’a-t-il une corrélation
positive significative entre salaire actuel et salaire à
l’embauche ? Entre salaire actuel et nombre d’année
d’ancienneté ?

Karim DOUMI
103
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée


Corrélations

Ancienneté
Salaire Salaire (nombre de
courant d'embauche mois)
Salaire c ourant Corrélation de Pears on 1,000 ,880** ,084
Sig. (bilatérale) , ,000 ,067
N 474 474 474
Salaire d'embauche Corrélation de Pears on ,880** 1,000 -,020
Sig. (bilatérale) ,000 , ,668
N 474 474 474
Ancienneté (nombre Corrélation de Pears on ,084 -,020 1,000
de mois) Sig. (bilatérale) ,067 ,668 ,
N
474 474 474

**. La corrélation est signific ative au niveau 0. 01 (bilatéral).


Corrélation positive faible et non
Corrélation positive forte et
significative
significative
Karim DOUMI
104
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

On veut calculer la corrélation entre Y (attitude envers la ville) et X (durée de


résidence dans la ville), après contrôle d’une troisième variable Z (l’importance du
climat).
On commence par calculer les corrélations simples entre chaque variables :
rYX = 0,9361
rYZ = 0,7334
rXZ = 0,5495

Karim DOUMI
105
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Analyse  Corrélation  Bivariée


Corrélations

ATT_VILL DURÉE_RÉ IMP _CLIM


ATT_VILL Corrélation de Pearson 1,000 ,936** ,733**
Sig. (bilatérale) , ,000 ,007
N 12 12 12
DURÉE_RÉ Corrélation de Pearson ,936** 1,000 ,550
Sig. (bilatérale) ,000 , ,064
N 12 12 12
IMP _CLIM Corrélation de Pearson ,733** ,550 1,000
Sig. (bilatérale) ,007 ,064 ,
N 12 12 12
**. La corrélation est s ignific ative au niveau 0.01 (bilatéral).

Karim DOUMI
106
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée


La régression simple :
Elle consiste à déterminer une équation qui relie 2 variables quantitatives.
Contrairement à la corrélation simple, elle nécessite d’identifier l’une des 2 variables
comme étant dépendante (à expliquer) et l’autre comme étant indépendante
(explicative). Remarquons tout de même que cette méthode n’implique pas de
causalité.
Le modèle type est de la forme :
Yi = β0 + β1Xi + ei avec Y = variable dépendante (à expliquer)
X = variable indépendante (ou explicative)
β0 = ordonnée à l’origine de la droite β1 = pente de la droite
ei = terme d’erreur associé à la ième observation

Karim DOUMI
107
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée


La régression simple, vocabulaire :

•Coefficient de détermination r2 : proportion de la variation totale de Y


expliquée par la variation de X
• Valeur estimée (ou prédite) de Yi : Ŷi = a + bx avec Ŷi la valeur estimée
de Yi et a et b les estimateurs respectifs de β0 et β1.
• Coefficient de régression : le paramètre b est appelé coefficient de
régression.
• L’écart-type résiduel (SEE) : c’est l’écart-type des erreurs (valeurs réelles
Y moins valeurs estimées Ŷ).

Karim DOUMI
108
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée


La régression simple, vocabulaire (suite) :

•Coefficient de régression standardisé (coefficient bêta) : il correspond à


la pente obtenue par la régression de Y sur X lorsque les données sont
standardisées.
• Somme des erreurs au carré : les distances de tous les points à la droite de
régression sont élevées au carré et additionnées pour obtenir la somme des
erreurs au carré, qui est une mesure de l’erreur totale
• Statistique t : valeur du t de Student à n-2 degrés de liberté, afin de rejeter
ou non H0. Cette statistique est associée à sa probabilité critique (significative
lorsqu’elle est < 0,05)

Karim DOUMI
109
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Les étapes d’une analyse de régression simple :


1. La première étape consiste à représenter le nuage de points, variable dépendante sur l’axe
vertical et variable indépendante sur l’axe horizontal.
Cela permet de se faire une idée sur le type de lien (est-ce linéaire ?) et de détecter les éventuelles
valeurs extrêmes qui risquent de perturber l’analyse.

Sous SPSS : Graph  Diagramme de dispersion  Simple

Karim DOUMI
110
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée


12

10

4
ATT_VILL

0
0 10 20

DURÉE_RÉ
Karim DOUMI
111
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée


2. Il s’agit ensuite de trouver les caractéristiques de la droite qui décrit le
mieux les données. On utilise généralement la méthode des moindres carrés.
Elle consiste à déterminer la droite de régression qui minimise le carré des
distances verticales entre les points et la droite.
Avec une équation du type Yi = β0 + β1Xi + ei la distance verticale du point à
la droite est représenté par ei.
Les distances de tous les points à la droite élevés au carrés et additionnés
forment la somme des carrés des erreurs, ou « erreur totale », notée

e
2
j
 Le but est que cette valeur soit minimale (que les distances verticales soient
minimisées)

Karim DOUMI
112
SPSS
y = β0 + β1x

12

Yi
10

8 ei

4 Ŷi

0
0 10 20

Karim DOUMI
DURÉE_RÉ SPSS
113
Corrélation, régression et causalité

5.1. Analyse bivariée

Exercice
En utilisant la BDD SPSS « attitude envers la ville », réalisez une étude de
corrélation et de régression entre la variable dépendante attitude envers la ville et la
variable indépendante durée de résidence.

Analyse  Régression  Linéaire

Karim DOUMI
114
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Analyse de corrélation :

Ré capitulatif du m odèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'es timation
1 ,936a ,876 ,864 1,2233
a. Valeurs prédites : (c onstantes), DURÉE_RÉ

Karim DOUMI
115
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Analyse de corrélation : Coefficient de Pearson

Ré capitulatif du m odèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'es timation
1 ,936a ,876 ,864 1,2233 SEE
a. Valeurs prédites : (c onstantes), DURÉE_RÉ

Le R2 ajustée permet de corriger le R2 en


La durée de résidence dans la ville explique à fonction du nombre de variable. Ici, pas
87,6 % l’attitude d’incidence.

Karim DOUMI
116
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Significativité du modèle de corrélation :


ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Significat ion
1 Régression 105,952 1 105,952 70, 803 ,000a
Rés idu 14, 964 10 1,496
Tot al 120,917 11
a. Valeurs prédites : (c onstantes), DURÉE_RÉ
b. Variable dépendante : ATT_VILL

Karim DOUMI
117
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Significativité du modèle de corrélation : Somme des carrés  ddl


ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Significat ion
1 Régression 105,952 1 105,952 70, 803 ,000a
Rés idu 14, 964 10 1,496
Tot al 120,917 11
a. Valeurs prédites : (c onstantes), DURÉE_RÉ
b. Variable dépendante : ATT_VILL
La statistique F calculée pour 1 et 10 ddl correspond à une
proba critique < 0,05. La relation entre X et Y est positive
SSY = SSreg + SSres et significative.

Karim DOUMI
118
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Paramètres du modèle de corrélation :


Coeffici entsa

Coefficien
ts
Coefficients non standardi
standardisés sés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 1,079 ,743 1,452 ,177
DURÉE_RÉ ,590 ,070 ,936 8,414 ,000
a. Variable dépendant e : ATT_VILL

Karim DOUMI
119
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Paramètres du modèle de corrélation :


Coeffici entsa

Coefficien
ts
Coefficients non standardi
standardisés sés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 1,079 ,743 1,452 ,177
DURÉE_RÉ ,590 ,070 ,936 8,414 ,000
a. Variable dépendant e : ATT_VILL
T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique
Attitude (Ŷ) = 1,079 + 0,590 associée < 0,05 ce qui confirme le test F : relation positive
(durée de résidence) significative entre X et Y

Karim DOUMI 120


SPSS
Exemple

Karim DOUMI
121
SPSS
Corrélation, régression et causalité

5.1. Analyse bivariée

Exercice

Réalisez une analyse de corrélation et de régression dans


BDD « Data employés » entre salaire et salaire embauche.

Karim DOUMI
122
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée

Pourquoi réaliser des régressions multivariées ?


Limite de la régression simple : un phénomène a rarement une seule
cause. Par exemple, qu’est-ce qui explique les ventes d’un produit ?
Le budget pub, le budget force de vente, le prix, le nombre de
points de vente, etc.
La régression multiple permet, elle, de confirmer une relation de cause
à effet entre variables, c’est-à-dire expliquer les variations d’une
variable par plusieurs autres variables. Si cette relation est confirmée, il
faut alors évaluer son intensité.

Karim DOUMI
123
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée

Méthode :
Y est la variable quantitative à expliquer (dépendante), et X1, X2, …, Xi, les i
variables explicatives (indépendantes) quantitatives (à la rigueur binaires). La
forme générale du modèle est :
Y = β0 + β1 X1 + β2 X2 + …. + βi Xi + ε avec ε minimum.
On recherche une fonction f qui lie les valeurs de Y à celle des X et telle que
f(Xi) soit le « plus proche possible » de Y.
Dans la pratique, on calcule l’équation :
Ŷ = b0 + b1 X1 + b2 X2 + …. + bi Xi

Karim DOUMI 124


SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée


Présentation des résultats sous SPSS (1/4):

Analyse  Régression  Linéaire


• La significativité globale du modèle est fournie à l’aide d’un test F et une probabilité
associée
• Le R² ajusté indique le % de variance de Y expliquée par l’équation (ajustée au
nombre de variables indépendantes et à la taille de l’échantillon)

• Le coefficient de corrélation multiple R tend vers 1 lorsque la relation est forte, vers
0 lorsqu’elle est nulle

k(1R )
2

R ajustéR  nk 1
2 2

Karim DOUMI 125


SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée


Présentation des résultats sous SPSS (2/4) :
• Les coefficients β, dits coefficients de régression partiels représentent la variation
attendue de Y quand Xi varie d’une unité mais que les autres variables indépendantes
sont maintenues constantes. A chacun d’entre eux est associé un tests t pour en
estimer la significativité.
• Pour comparer la contribution relative des Xi à Y, il suffit de comparer les valeurs
absolues des t associés ou de lire les coefficients de régression partiels standardisés
Bêta (moyenne=0 et écart-type=1) qui permettent la comparaison entre Xi alors
même que celles-ci ont des unités de mesure différentes (exemple, pour estimer les
ventes d’un magasin : surface en m², nombre de produits en promo, proximité du
centre ville en km etc.)

Karim DOUMI
126
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée

Présentation des résultats sous SPSS (3/4) :


• Il est nécessaire de tester la colinéarité, car la multicolinéarité entre
variables explicatives biaisent les estimations de R² :
 Il faut étudier la tolérance : pourcentage de la variable explicative
non expliquée par les autres variables explicatives (elle doit être proche
de 1, et en tout cas > 0,3)
 Il faut aussi étudier le VIF (variance inflation factor) : degré
d’augmentation de l’erreur lié à la multicolinéarité (le VIF doit être
inférieur à 4)

Karim DOUMI
127
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée

Exercice
Peut-on expliquer l’attitude envers la ville en fonction de la durée de
résidence et de l’importance accordée au climat ?

Karim DOUMI
128
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée


Réponse :
Sous SPSS : Analyse  Régression  Linéaire

Ré capitulatif du m odèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'es timation
1 ,972a ,945 ,933 ,8597
a. Valeurs prédites : (c onstantes), IMP_CLIM, DURÉE_RÉ

Karim DOUMI
129
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée


Réponse :

La relation est forte


Ré capitulatif du m odèle

Erreur
standard de
Modèle R R-deux R-deux ajusté l'es timation
1 ,972a ,945 ,933 ,8597
a. Valeurs prédites : (c onstantes), IMP_CLIM, DURÉE_RÉ

Le modèle « explique » 93,3 % de la variance


SEE
de Y

Karim DOUMI
130
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée


Réponse :
Sous SPSS : Analyse  Régression  Linéaire
Statistiques : test de colinéarité

ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Significat ion
1 Régression 114,264 2 57, 132 77, 294 ,000a
Rés idu 6,652 9 ,739
Tot al 120,917 11
a. Valeurs prédites : (c onstantes), IMP_CLIM, DURÉE_RÉ
b. Variable dépendante : ATT_VILL

Karim DOUMI
131
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée


Réponse :

ANOVAb

Somme
Modèle des carrés ddl Carré moyen F Significat ion
1 Régression 114,264 2 57, 132 77, 294 ,000a
Rés idu 6,652 9 ,739
Tot al 120,917 11
a. Valeurs prédites : (c onstantes), IMP_CLIM, DURÉE_RÉ
b. Variable dépendante : ATT_VILL

Le test F est associé à une probabilité d’erreur < 5 %. Le modèle


est donc globalement significatif

Karim DOUMI
132
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée


Réponse :

Coefficie ntsa

Coefficien
ts
Coefficients non standardi Statistiques de
standardisés sés colinéarit é
Erreur
Modèle B standard Bêt a t Significat ion Tolérance VIF
1 (constante) ,337 ,567 ,595 ,567
DURÉE_RÉ ,481 ,059 ,764 8,160 ,000 ,698 1,433
IMP_CLIM ,289 ,086 ,314 3,353 ,008 ,698 1,433
a. Variable dépendante : ATT_VILL

Karim DOUMI
133
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée


Réponse : L’équation de la droite de régression est : Ŷ = 0,337 +
0,481X1 + 0,289X2

Coefficie ntsa

Coefficien
ts
Coefficients non standardi Statistiques de
standardisés sés colinéarit é
Erreur
Modèle B standard Bêt a t Significat ion Tolérance VIF
1 (constante) ,337 ,567 ,595 ,567
DURÉE_RÉ ,481 ,059 ,764 8,160 ,000 ,698 1,433
IMP_CLIM ,289 ,086 ,314 3,353 ,008 ,698 1,433
a. Variable dépendante : ATT_VILL

β1 et β2 sont significatifs. Ces 2 facteurs


sont donc importants pour expliquer Y Pas de problème de
multicolinéarité
Karim DOUMI
134
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée


Méthodes de régression:
•Entrée: toutes les variables évaluées sont entrées au même moment et un
test F évalue l’ensemble du modèle

• Régression ascendante : les variables sont entrées dans le modèle les


unes après les autres, en recherchant d’abord la variable Xi la plus
explicative, puis celle qui explique le plus la part de variance restant à
expliquer etc.

• Régression descendante : les variables sont éliminées du modèle global


les unes après les autres, en éliminant d’abord la variable Xi la moins
explicative de Y, puis celle qui explique le moins la variance restant à
expliquer etc.
Karim DOUMI
135
SPSS
Corrélation, régression et causalité

5.2. Analyse multivariée

Conclusion sur la régression multiple :


•Choisir la régression si l’objectif est un modèle de prédiction
•Bien réfléchir au statut des variables dépendante et indépendantes
•Disposer de variances suffisantes sur les variables introduites dans le modèle.
•Ne retenir que les β significatifs.
•Éviter les données avec des valeurs extrêmes ou aberrantes

Karim DOUMI
136
SPSS
Régression logistique
binaire

137
Régression logistique

Quand la variable dépendante est nominale ou ordinale.


Deux types selon la forme de la variable dépendante:
•Binaire pour deux catégories.
•Polytomique pour plusieurs catégories: multinomiale

Quand les variables indépendantes peuvent être de plusieurs types:


•Nominales (qualitatives)
•Ordinales
•Métriques (quantitatives)

138
Corrélation, régression et causalité

Régression logistique

•Cette méthode se focalise sur les situations où les


valeurs d’une variable à prédire sont binaires (0 ou 1)
– Exemple: Une variable booléenne

•Au lieu de prédire la valeur d’une variable, on prédit


la probabilité de la variable à être égale à 0 et 1.

•Les probabilités décrivent une sigmoïde (courbe en


forme de S) entre 0 et 1

Karim DOUMI
139
SPSS
Corrélation, régression et causalité

Régression logistique

Karim DOUMI
140
SPSS
Régression logistique

Comme la variable dépendante prend soit la valeur 0 ou la valeur 1


(régression logistique ordinaire), la valeur prédite doit donc se situer entre
0 et 1.
C’est pourquoi on transforme la VD en une fonction de probabilité.

.
Régression logistique
Variable dépendante:  p( y 1|x) 
ln
 p( y  0|x)

• On transforme donc la VD de telle sorte que l’on prédit la


probabilité que Y=1 plutôt que 0, étant donné les valeurs de x
(x1,x2,x3,...xn).
• Il s’agit d’une transformation logarithmique, difficile à
interpréter. C’est pourquoi on transforme par l’inverse (Exp)
pour faciliter l’interprétation.
Régression logistique
• Nous avons vu que l’équation de la régression multiple est la
suivante :
Yi= b0 + b1X1 + b2X2 + … + bnXn + εi
Pour la régression logistique, c’est la même chose, mais en
ajoutant la transformation logarithmique. Par exemple,
l’équation pour 1 prédicteur est la suivante :

où :
P(Y) est la probabilité que Y arrive
e:est la base des logarithmes naturels
Les coefficients b0 et b1 représentent la combinaison linéaire du prédicteur et
de la constante. 143
Régression logistique

La régression à plusieurs prédicteurs est donc formulée ainsi :

144
Régression logistique
R et R2.
La statistique R n’est pas fournie par SPSS.

Le R2L de Hosmer et Lemeshow indique la réduction de la proportion de la valeur


absolue de la probabilité log. En ce sens, il s’agit d’une mesure de l’amélioration de
l’ajustement du modèle lorsqu’une variable est retirée. Sa valeur varie entre 0 (lorsque
la variable indépendante ne permet pas de prédire Y) et 1 (lorsque la variable
indépendante prédit parfaitement Y).
Ensuite, le R2 de Cox et Snell (1989) et le R2 Nagelkerke (1991), tous deux fournis
dans un tableau SPSS, ces derniers s’apparentent aussi au R2 de la régression linéaire.
Le premier n’atteint jamais le maximum théorique de 1 et varie en fonction de la taille
de l’échantillon. Le second est une modification du 1er pour obtenir une valeur
théorique plus près de 1. Ils mesurent la force de l’association (la taille d’effet) et
fournissent un indice de l’ajustement au modèle. Ils représentent un estimé de la
variance expliquée par le modèle. Plus leur valeur est élevée, plus la probabilité
prédite par le modèle s’approche de la valeur observée.
Régression logistique
Le test de Hosmer et Lemeshow (1989)

Ce test évalue la présence de différences significatives entre les valeurs observées et


les valeurs prédites pour chaque sujet. Nous cherchons évidemment à ce qu’il ne soit
pas significatif. Par contre, il est très sensible à la taille de l’échantillon. De plus, il ne
peut pas être calculé lorsque le modèle ne comprend qu’un prédicteur dichotomique.
Il doit donc être utilisé à titre indicatif seulement.
Régression logistique

Calcul de l’apport de chaque prédicteur : la statistique de Wald

Une fois que nous savons si le modèle est bien ajusté aux données, il est intéressant
de connaître l’apport de chaque prédicteur à l’amélioration du modèle. Pour ce faire,
nous avons recours à la statistique de Wald.
Régression logistique

Exemple de régression logistique: gssnet.sav

Happy or Not happy


Analyse en composantes
principales

149
Analyse de composantes principales

• L’Analyse en Composantes Principales (ACP) est une méthode


d’analyse des données multivariées.

• Elle permet de décrire et d’explorer les relations qui existent


entre plusieurs variables simultanément à la différence des
méthodes bi-variées qui étudient les relations supposées entre les
variables.

• L’objectif de la méthode est de chercher un nombre plus réduit


de variable pour décrire plus efficacement les phénomènes
structurant d’un groupe de données.
Analyse de composantes principales

• On cherche donc des corrélations qui existent entre les


différentes variables, pour rapprocher au sein de « composantes »
les variables les plus proches entre elles.

• On regroupe donc les variables pour qu’elles « composent » des


dimensions dans le but de réduire le nombre de caractéristiques
décrivant les individus afin de mieux interpréter les données.

• Les composantes sont en quelques sorte des « méta-variables ».

• En pratiques chaque dimension est définie par la meilleure


combinaison linéaire de variables expliquant la variance non
expliquée par la dimension précédente.
Analyse de composantes principales

Exemple:
• Le fichier « indicateurs économiques » propose 7 variables pour
caractériser les 22 régions françaises.
• L’analyse en composantes principales va permettre la réduction
du nombre de variables afin de déterminer une structure sous-
jacente.
Analyse de composantes principales
Analyse de composantes principales

Sous SPSS : Analyse  Réduction des dimensions 


Analyse factorielle.
La procédure propose trois tableaux et un graphique à
analyser:
Analyse de composantes principales

Le tableau présente les 2 dimensions qui permettent de résumer l’information. La


première extraite permet d’expliquer 57% de la variance du phénomène.
La deuxième dimension n’explique que 27% de la variance.
La variance est calculée à partir de la valeur propre initiale.
La variance cumulée (85%) permet d’évaluer si la réduction des 7 variables à 2
composantes permet de conserver l’essentiel du phénomène mesuré par les 7
variables de départ.
Analyse de composantes principales

Permet de répondre à la question: dans quelle mesure mes variables de départ


sont elles prises en comptes par les variables extraites?
Par exemple: la qualité de représentation de la variable « population en milliers »
est 0,936. cela veut dire que 93% de la variance de la variable est prise en compte
par l’une des dimensions extraites.
La variable « superficie en km2 » est mal représentée par les deux dimensions
(seulement 0,516 ).
Analyse de composantes principales

Chaque colonne contienne les coefficients de saturation qui s’interprètent comme


des coefficients de corrélation: le nombre d’entreprises 0,990 avec la dimension 1,
et la corrélation avec la dimension 2 de cette variable est négligeable. On peut
donc dire que la dimension 1 et la variable « nombre d’entreprise » suivent la
même pente.
D’autre part tous ces coefficients forment les coefficient a, b, c …d’une droite de
régression qui est la composition linéaire de la composante.
Analyse de composantes principales

Représentation graphique de la matrice des composantes: les coefficients de


saturations deviennent les coordonnées dans l’espace à 2 dimensions.
Analyse de composantes principales

Représentation graphique des individus:


La matrice des composantes permet également de calculer les coordonnées pour
représenter graphiquement les individus par rapport aux deux dimensions
extraites, dans le but de comparer la position de chacune des observations.
Remplacer dans l’équation des 2 composantes pour obtenir le score factoriel.
Pour cela il faut enregistrer les 2 facteurs dans le fichier des données(Menu:
Enregistrer dans les variables).
Tracer le diagramme de dispersion et étiqueter les observation par région.
Analyse de composantes principales
Analyse de composantes principales

Procédure ACP avec rotation:


Lorsque la matrice des composantes ne permet de discerner clairement quelles
variables composent quelles dimensions, on a recours à une rotation des axes pour
modifier les coordonnées des variables par rapport aux axes.
Analyse de composantes principales

Pour obtenir une rotation Varimax (rotation maintenant l’orthgonalité des axes), il
faut sélectionner l’option rotation dans la boite de dialogue de l’analyse factorielle:
Analyse de composantes principales

Exemple1 : Indicateurs économiques

Exemple2: Etude de comportement bancaire


des clients d’une banque
ANALYSE TYPOLOGIQUE
Classification

164
Classification

Introduction

L'analyse typologique a pour but de décomposer un groupe hétérogène


d'individus ou d’objets, décrits par un ensemble de plusieurs
caractéristiques ( X1, X2,..., Xp) en un certain nombre de sous-groupes
homogènes.

Il s'agit de regrouper les observations pour constituer des groupes


d'individus similaires de façon à ce que les individus appartenant à un
même groupe se ressemblent le plus possible et les groupes soient les plus
différents possibles les un des autres.
Classification

Choix des critères de classification

il faut choisir les variables qui vont caractériser les individus, ce choix
dépend de l’objectif de l’étude d’où la nécessité de choisir les variables
qui sont pertinentes vis-à-vis du problème considéré et, parmi celles-ci,
celles à forte dispersion, c’est à dire celles qui véhiculent la plus grande
quantité d'information.

Dans certaines situations, on peut réaliser une analyse en composantes


principales sur l'ensemble des variables afin de remplacer les groupes de
variables corrélées par des facteurs indépendants les uns des autres, on
utilise ensuite ces composantes comme nouvelles variables.
Classification
Mesure de distance
Il s'agit de mesurer le degré de ressemblance entre individus ou objets, pour
cela on calcule une distance séparant deux individus.

La distance euclidienne :
La distance euclidienne entre deux individus A et B décrits par un ensemble
de p variables ( X1A, X2A,..., XpA) et ( X1B, X2B,..., XpB), est donné par :

Comme la distance euclidienne dépend de l'unité de mesure choisie pour les


variables, la pratique la plus courante est de standardiser les variables c’est-à-
dire les ramener à une moyenne nulle et une variance unitaire.
Classification
Exemple:
10 salariés d’une entreprise sont caractérisés par deux variables : le niveau
d’instruction mesuré par le nombre d’années passées à l’école et
l’expérience mesurée par le nombre de mois dans l’entreprise.
Classification
Procédure SPSS pour effectuer la classification est la suivante :

Analyse  Classification  Classification hiérarchique

Dans Variables, sélectionner les variables de classification.


Dans Statistiques, cocher chaînes des agrégations et Matrice des distances.
Dans Graphique, cocher arbre hiérarchique.
Dans méthode d’agrégation, sélectionner  Distance moyenne entre
classes.
Dans mesure, sélectionner le type de distance, (dans notre exemple, carré
de la distance euclidienne).
Dans transformer les variables, sélectionner standardiser centrer-réduire

Les résultats de l’analyse sont :


Classification
Classification
Classification
Dans une première étape, un premier groupe est obtenu en agglomérant les
2 individus les plus proches, c’est à dire pour lesquels la distance est la plus
faible, il s’agit des individus 4 et 7 pour lesquels on trouve la plus petite
distance (0,010). On a alors les 9 groupes suivants :
[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6] ; [8] ; [9] ; [10]

Dans une deuxième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 0,119 entre l’individu
6 et l’individu 8. On a alors les 8 groupes suivants :

[1] ; [2] ; [3] ; [4 ;7] ; [5] ; [6;8] ; [9] ; [10]

Dans une troisième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 0,131 entre l’individu
3 et le groupe [4 ;7]. On a alors les 7 groupes suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8] ; [9] ; [10]


Classification
Dans une quatrième étape, un nouveau groupe est obtenu par fusion des
2 groupes les plus semblables. La plus petite distance est 0,391 entre
l’individu 9 et le groupe [6 ;8]. On a alors les 6 groupes suivants :

[1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] ; [10]

Dans une cinquième étape, un nouveau groupe est obtenu par fusion des
2 groupes les plus semblables. La plus petite distance est 1,524 entre
l’individu 10 et le groupe [3 ;4 ;7]. On a alors les 5 groupes suivants :

[1] ; [2] ; [3; 4 ;7 ;10] ; [5] ; [6;8;9]

Dans une sixième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 2,207 entre
l’individu 5 et le groupe [3 ;4 ;7 ;10]. On a alors les 4 groupes suivants :

[1] ; [2] ; [3; 4 ;5 ;7 ;10] ; [6;8;9]


Classification
Dans une septième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 3,523 entre le
groupe[6 ;8 ;9] et le groupe [3 ;4 ;5 ;7 ;10]. On a alors les 3 groupes
suivants :

[1] ; [2] ; [3;4;5;6;7;8;9;10]

Dans une huitième étape, un nouveau groupe est obtenu par fusion des 2
groupes les plus semblables. La plus petite distance est 4,362 entre
l’individu 1 et l’individu 2. On a alors les 2 groupes suivants :

[1;2] ; [3;4;5;6;7;8;9;10]

Dans une neuvième étape, un nouveau groupe est obtenu par fusion des
2 groupes restant. On a alors le groupe suivant :

[1;2;3;4;5;6;7;8;9;10]
Classification
Les groupes et leur composition.

On a choisit une solution à 6 groupes. Les 6 groupes retenus par la


typologie sont donc : [1] ; [2] ; [3; 4 ;7] ; [5] ; [6;8;9] et [10].

Appartenance à la classe
Classification
Classification