Académique Documents
Professionnel Documents
Culture Documents
SPSS
• Fichiers et fenêtres SPSS Statistics
○ La fenêtre Editeur de données
○ L’onglet Vue des variables
○ La fenêtre Viewer
○ Utilisation des fonctions
• Transformation des données
○ Transformation des variables
○ Manipulation des observations
• Statistiques descriptives univariées
○ Variables quantitatives
○ Variables qualitatives
• Autres statistiques univariées
• Statistiques descriptives bivariées
○ Variables quantitatives / qualitatives ordinales
○ Variables qualitatives nominales ou ordinales
• Tests sur une moyenne
• Statistiques multivariés
1
I. Fichiers SPSS Statistics
1. Fenêtres SPSS
Cette fenêtre affiche le fichier de données sur lequel les traitements statistiques seront
effectués. Il s’agit d’un tableau dont les lignes correspondent aux observations
(individus) et les colonnes aux variables (caractères):
2
2. Fenêtres SPSS
Il est possible d’utiliser cette fenêtre pour saisir des données, même si en
général, on préfère les saisir dans Excel pour les importer ensuite dans SPSS
Statistics via Fichier > Ouvrir > Données | Fichiers de type > Excel (*.xls, *.xlsx,
*.xlsm).
En bas en gauche de la fenêtre, deux onglets Vue des données et Vue des
variables permettent de passer de l’affichage des données au paramétrage des
variables.
● Nom : nom interne de la variable utilisé par SPSS Statistics. Ce nom doit
être simple, c’est-à-dire, sans accent, sans espace ni caractère exotique.
Se limiter aux 26 lettres de l’alphabet complétées par des chiffres et le tiret
bas (_). En outre, le nom d’une variable est limité à 8 caractères.
● Type : type (informatique) de données contenues dans la variable. Les
deux type principaux sont Numérique (un nombre, éventuellement décimal,
par exemple 123,45) et Chaîne (une chaîne de caractères, par exemple
Limoges)
● Largeur/Décimales : précise le format du type de données : nombre de
caractères/chiffres (largeur) et nombre de chiffres après la virgule
(décimales)
4
6. La fenêtre Viewer
● Cette fenêtre contient la suite chronologique des traitements statistiques
effectués. Le navigateur de résultat, dans la partie gauche de la fenêtre, permet de
passer rapidement d’un résultat à l’autre.
● Il est possible de modifier l’affichage d’un résultat (tableau, graphique, etc) en
double-cliquant dessus. Cette fenêtre peut être enregistrée dans un fichier de
résultats (.spv) via Fichier >Enregistrer.
● Le cadre de gauche affiche la liste de toutes les variables. A l’aide de la flèche, on fait
passer dans le cadre de droite les variables qu’on souhaite étudier. Les boutons, du
type Statistiques..., permettent de préciser le traitement à effectuer.
5
II. Transformation des données
Il arrive très souvent que les variables brutes d'une base de données ne soient pas
suffisantes pour effectuer certaines analyses. On peut avoir besoin de créer une ou des
nouvelles variables à partir des variables existantes, comme dans les cas suivants :
•Créer une variable qui contient la racine carrée d'une variable existante
•Calculer la moyenne ou la somme d'une série de variables existantes…
La commande Compute sert à créer de nouvelles variables sur la base de fonctions
arithmétiques, statistiques ou logiques.
● Transformer > Calculer la variable : permet de définir une nouvelle variable à partir
des variables initiale, en utilisant une formule de type Excel. Par exemple, si un prix
est exprimé en Dirham, il est possible de définir une variable P_euros via la formule
P_dirham / 11.20.
6
2. Manipulation des observations
Les expressions conditionnelles permettent de calculer des variables selon une
condition, donc qui s’applique à des sujets ou des observations (lignes) qui répondent à
certains critères que nous allons définir selon nos besoins avec cette commande.
La résultante des expressions conditionnelles peut créer une nouvelle variable ou
bien transformer les valeurs d'une variable existante. Dans le dernier cas, il faut s'assurer
que l'écrasement des valeurs originales ne porte pas à conséquence
Voici l’apparence Syntaxe la commande de cet exercice.
IF (sexe = 1) satis1=MEAN (q01, q03, q05).
Littéralement, elle signifie que SI la valeur de la variable SEXE est égale à « 1 », la
valeur de la variable SATIS1 sera égale à la moyenne des valeurs des variables Q01,
Q03 et Q05..
7
Sélection de cas
Pour certaines analyses, il peut être nécessaire de filtrer une partie des observations
(cas) pour obtenir des résultats auprès d'un sous-groupe spécifique d'observations.
Il est possible de sélectionner une ou des observations à l’aide de un ou d'une
combinaison de critères, soit par la boîte de dialogue, soit en utilisant une commande
SYNTAXE.
Les conditions de sélection peuvent être uniques ou multiples. Dans le cas d’une
seule condition, on inscrit la variable sur laquelle repose la sélection avec la condition
formulée grâce aux conditions arithmétiques (<, >, =, <=, >=, <>).
Toutes les conditions multiples (deux variables ou plus) doivent utiliser les opérateurs
logiques (AND et OR) pour séparer les conditions.
Pour faire une sélection de cas de manière interactive, allez dans le menu Données,
puis cliquez sur Sélectionnez des observations.
Sélection de cas
8
Sélection de cas
Exemple :
pour choisir les
hommes
de plus de 30 ans,
on entrerait dans la
boîte:
Sexe = 1 AND
âge > 30
Sélection de cas
9
3. Statistiques descriptives univariées
L’ensemble des traitements statistiques et des graphiques est regroupé dans les
menus Analyse et Graphiques.
Analyse > Rapport > Récapitulatif des observations : permet de visualiser les
données, en affichant l’ensemble des observations. Il est aussi possible d’afficher des
statistiques descriptives (moyenne, minimum, maximum,. . . ) et même de demander
l’affichage par groupe, suivant une variable qualitative (critère de regroupement).
10
3.2 Variables qualitatives
Analyse > Statistiques descriptives > Fréquences : statistiques descriptives pour des
variables qualitatives: tris à plat, mode, médiane, quartiles, centiles,. . . (à préciser dans le
dialogue Statistiques). Il est aussi possible d’obtenir des graphiques via le dialogue
Diagrammes (voir ci- dessous)
Graphiques > Boîtes... > Barres > Simple | Récapitulatifs pour groupes
d’observations : diagramme en bâtons des modalités d’une variable qualitative. Possibilité
d’afficher les effectifs ou les pourcentages. Effectifs préférables. Adapté aux variables
qualitatives ordinales
Graphiques > Boîtes... > Circulaire > Récapitulatifs pour groupes d’observations :
diagramme en secteur (camembert) des modalités d’une variable qualitative . Possibilité
d’afficher les effectifs ou les pourcentages. Pourcentages préférables. Adapté aux variables
qualitatives nominales.
11
Introduction : précisions sémantiques
Ainsi l’analyse de régression fournit une fonction entière (une droite par exemple) alors que
l’analyse de corrélation fournit un simple nombre – un indice qui renseigne sur l’intensité avec
laquelle 2 variables évoluent ensemble. Ces 2 techniques sont donc complémentaires.
L’analyse causale enfin va plus loin en précisant le sens de la relation, le chemin de la cause
à l’effet.
Exemple
▪ L’analyse de régression permet de déterminer une fonction qui lie les deux variables :
ex : « Y = aX + b »
▪ L’analyse de corrélation renseigne sur l’intensité du lien entre les deux variables : ex : «
le lien est fort et très significatif ».
▪ L’analyse causale détermine le sens de la relation : ex « temps de travail -- > note au
partiel »
12
Analyse bivariée
Analyse bivariée
Calcul du coefficient de corrélation de Pearson :
13
Analyse bivariée
r et r2 :
● Comme r indique le degré de la relation entre la variation d’une variable et celle d’une
autre variable, il peut également représenter la décomposition de la variation totale (en
étant au carré). On retiendra que r2 = variation expliquée / variation totale
-- > r2 mesure la proportion de la variation d’une variable qui est expliquée par l’autre.
● r et r2 sont des mesures symétriques d’association : la corrélation entre X et Y est la
même que la corrélation entre Y et X. Il n’est pas important de savoir quelle est la variable
indépendante et quelle est la variable dépendante.
14
Analyse bivariée
Interprétation du R2 :
Analyse bivariée
Précisons tout de suite que r indique la force d’une relation linéaire. Si on a r = 0, cela
signifie qu’il n’y a pas de relation linéaire entre X et Y, mais cela ne signifie pas que les 2
variables ne sont pas liées !!! Il peut très bien y avoir une relation non linéaire entre elles non
traduite par r. -- > Faites un graph !
15
Analyse bivariée
● Remarque : sous SPPS, la probabilité critique du test est fournie par la rubrique « sig.
(bilatérale) »
Analyse bivariée
Exemple SPSS : y a-t-il un lien entre la taille de l’unité sociale de visite (le nombre de
personnes qui forment le groupe) et le temps passé dans le musée d’art ?
○ H0 : il n’y a aucun lien entre ces deux variables (r=0)
○ H1 : il existe un lien entre ces deux variables (r 0)
16
Analyse bivariée
Corréla+ons
Le coefficient de Pearson est faible et non significa%f. On conclut qu’il n’existe pas de lien entre
la durée de la visite et la taille de l’unité sociale de visite
Analyse bivariée
Exercice
BDD Employés de SPSS : y’a-t-il une corrélation positive significative entre salaire
actuel et salaire à l’embauche ? Entre salaire actuel et nombre de mois
d’ancienneté ?
17
Analyse bivariée
Analyse bivariée
Exemple :
On veut calculer la corrélation entre Y (attitude envers la ville) et X (durée de résidence dans la
ville), après contrôle d’une troisième variable Z (l’importance du climat).
On commence par calculer les corrélations simples entre chaque variables :
rYX = 0,9361
rYZ = 0,7334
rXZ = 0,5495
18
Analyse bivariée
Est l’une des Méthodes explicatives de l’ADD, elle consiste à déterminer une équation qui relie
2 variables quantitatives. Contrairement à la corrélation simple, elle nécessite d’identifier l’une
des 2 variables comme étant dépendante (à expliquer) et l’autre comme étant indépendante
(explicative). Remarquons tout de même que cette méthode n’implique pas de causalité.
Le modèle type est de la forme :
Yi = β0 + β1Xi + ei avec Y = variable dépendante (à expliquer) X = variable indépendante
(ou explicative) β0 = ordonnée à l’origine de la droite
β1 = pente de la droite
ei = terme d’erreur associé à la ième observation
19
Analyse bivariée (utilité RLS)
Ce modèle permet de :
Pour faire l'analyse, il convient de remplacer le nuage de point par une courbe inspirée par la
forme du nuage de points.
20
Analyse bivariée RLS
La régression simple, vocabulaire :
Analyse bivariée
● Somme des erreurs au carré : les distances de tous les points à la droite de régression
sont élevées au carré et additionnées pour obtenir la somme des erreurs au carré, qui est
une mesure de l’erreur totale
● Statistique t : valeur du t de Student à n-2 degrés de liberté, afin de rejeter ou non H0.
Cette statistique est associée à sa probabilité critique (significative lorsqu’elle est < 0,05)
21
Analyse bivariée
Les étapes d’une analyse de régression simple :
1. La première étape consiste à représenter le nuage de points, variable dépendante sur l’axe
vertical et variable indépendante sur l’axe horizontal.
Cela permet de se faire une idée sur le type de lien (est-ce linéaire ?) et de détecter les
éventuelles valeurs extrêmes qui risquent de perturber l’analyse.
Analyse bivariée
22
Analyse bivariée
2. Il s’agit ensuite de trouver les caractéristiques de la droite qui décrit le mieux les données.
On utilise généralement la méthode des moindres carrés. Elle consiste à déterminer la droite
de régression qui minimise le carré des distances verticales entre les points et la droite.
Avec une équation du type Yi = β0 + β1Xi + ei la distance verticale du point à la droite est
représenté par ei.
Les distances de tous les points à la droite élevés au carrés et additionnés forment la somme
des carrés des erreurs, ou « erreur totale », notée
-- > Le but est que cette valeur soit minimale (que les distances verticales soient minimisées)
Analyse bivariée
23
Analyse bivariée
3. Estimation des paramètres de la droite :
Dans la plupart des cas, β0 et β1 sont inconnues et estimées à partir des observations de
l’échantillon en utilisant l’équation : Ŷi = a + bxi
Où Ŷi est la valeur estimée ou prédite de Yi et a et b sont les estimateurs respectifs de β0 et
β1. La constante b, qui est la pente de la droite de régression est généralement appelée
coefficient de régression non standardisé. C’est la variation attendue de Y quand X varie d’une
unité.
Analyse bivariée
La standardisation est le procédé par lequel les données brutes sont transformées en
nouvelles variables, ayant une moyenne de 0 et une variance de 1.
L’ordonnée à l’origine prend alors une valeur de 0. La pente obtenue par la régression de Y par
rapport à X (BYX) est alors la même que celle obtenue par la régression de X par rapport à Y
(BXY).
En outre, chacun de ces coefficients de régression standardisés (bêta) est égal au coefficient
de régression simple entre X et Y : BYX = BXY = rXY
Il existe une relation simple entre les coefficients de régression standardisés et non
standardisés : BYX = bXY(SX/SY)
24
Analyse bivariée
5. Test d’hypothèse :
En toute rigueur, la signification statistique de la relation linéaire entre X et Y doit faire l’objet
d’un test d’hypothèse.
On pose : H0 : β1 = 0 et H1 : β1 0
H0 implique qu’il n’y a pas de relation linéaire entre X et Y, tandis que l’hypothèse alternative
H1 en suppose une, positive ou négative. On utilise un test bilatéral t à n-2 degrés de liberté
associé à une probabilité critique pour déterminer la significativité de β1.
Analyse bivariée
Exercice
25
Quel test choisir dans l’analyse bivariée?
Le test à choisir varie selon la nature des variables. Le tableau suivant résume
l’application des tests dans l’analyse bivariée :
Deux mesures avec Une mesure avec échelle non Deux mesures avec échelle
Type de mesure
échelle non métrique métrique et une mesure avec métrique
échelle métrique
Analyse multivariée
26
Analyse multivariée
La régression multiple permet, elle, de confirmer une relation de cause à effet entre variables, c’est-à-
dire expliquer les variations d’une variable par plusieurs autres variables. Si cette relation est
confirmée, il faut alors évaluer son intensité.
Analyse multivariée
Méthode :
Y est la variable quantitative à expliquer (dépendante), et X1, X2, …, Xi, les i variables explicatives
(indépendantes) quantitatives (à la rigueur binaires). La forme générale du modèle est :
Y = β0 + β1 X1 + β2 X2 + …. + βi Xi + ε avec ε minimum.
-- On recherche une fonction f qui lie les valeurs de Y à celle des X et telle que f(Xi) soit le « plus
proche possible » de Y.
27
Analyse multivariée
• La significativité globale du modèle est fournie à l’aide d’un test F et une probabilité associée
• Le coefficient de corrélation multiple R tend vers 1 lorsque la relation est forte, vers 0
lorsqu’elle est nulle
Analyse multivariée
• Pour comparer la contribution relative des Xi à Y, il suffit de comparer les valeurs absolues
des t associés ou de lire les coefficients de régression partiels standardisés Bêta (moyenne=0
et écart-type=1) qui permettent la comparaison entre Xi alors même que celles-ci ont des
unités de mesure différentes (exemple, pour estimer les ventes d’un magasin : surface en m²,
nombre de produits en promo, proximité du centre ville en km etc.)
28
Analyse multivariée
✔ Il faut aussi étudier le VIF (variance inflation factor) : degré d’augmentation
de l’erreur lié à la multicolinéarité (le VIF doit être inférieur à 4)
Analyse multivariée
▪ Pour que l’interprétation du modèle soit valide, il faut que les résidus se
répartissent de manière aléatoire autour de la valeur calculée. Pour vérifier
ce dernier point, il suffit d’examiner le diagramme PP-Gaussien : il ne doit y
avoir aucune forme apparente dans la distribution des résidus
29
Analyse multivariée
Exercice
Analyse multivariée
30
Analyse multivariée
Analyse multivariée
31
Analyse multivariée
Analyse multivariée
32
Analyse multivariée
Analyse multivariée
33
Analyse multivariée
La régression pas à pas :
Analyse multivariée
34
Analyse multivariée
35