Vous êtes sur la page 1sur 15

I Analyse univariée sous SPSS (lait.

sav)
1) Décrire une variable qualitative

Analyse > Statistiques descriptives > Fréquences > Variable(s) (Type_lait) > Graphiques > Graphiques circulaires> Valeurs
du graphique (Pourcentages)

Tableau 1. Description de la variable « Type_lait »

Pourcentage va- Pourcentage cu-


Fréquence Pourcentage lide mulé
Valide Lait sans lactose 11 11,0 11,0 11,0
Lait demi-écrémé 38 38,0 38,0 49,0
Lait écrémé 24 24,0 24,0 73,0
Lait entier 27 27,0 27,0 100,0
Total 100 100,0 100,0

Le tableau 1 montre que le lait demi-écrémé est le plus consommé avec un pourcentage de
38%. En deuxième lieu, on trouve le lait entier avec 27%, puis le lait écrémé avec 24% et
finalement le lait sans lactose avec seulement 11%.

Représentation graphique

Figure 1. Diagramme en secteurs de la variable « Type_lait »

1
2) Décrire une variable quantitative

Analyse > Statistiques descriptives > Descriptives > Variable(s) (Age) > Options (Moyenne ; Ecart type ; Minimum ;
Maximum : Kurtosis : Asymétrie)

Tableau 2. Statistiques descriptives de la variable « Age »


N Minimum Maximum Moyenne Ecart type Skewness Kurtosis
Er-
Statis- Statis- Statis- Statis- Statis- Statis- Erreur Statis- reur
tiques tiques tiques tiques tiques tiques std. tiques std.
Age 100 25 60 41,24 8,329 ,050 ,241 -,144 ,478
N va- 100
lide
(liste)

Le tableau 2 montre que l’âge des individus interrogés varie de 25 ans à 60 ans. L’âge moyen
est de 41,24 ans avec un écart type de 8,329 ans. Les valeurs d’asymétrie (Skewness) et
d’aplatissement (Kurtosis) sont inférieures en valeur absolue à 1 et 1,5, respectivement, ce qui
montre que cette variable suit la loi normale.

Remarque

On peut tester la normalité d’une variable en utilisant les tests de normalité de kolmogrov-
Smirnov (n > 50) ou Shapiro-Wilk (n < 50). Soit le test d’hypothèse suivant :

H0 : la variable suit une loi normale


H1 : la variable ne suit pas une loi normale
Analyse > Statistiques descriptives > Explorer > Liste variables dépendantes (Depenses_mensuelles) > Tracés > Tracés de
répartition gaussiens avec tests

Tableau 3. Tests de normalité


Kolmogorov-Smirnova Shapiro-Wilk
Statistiques ddl Sig. Statistiques ddl Sig.
*
Age ,069 100 ,200 ,980 100 ,130
*. Il s'agit de la borne inférieure de la vraie signification.
a. Correction de signification de Lilliefors

La statistique de K-S montre une Sig. =0,2 > 0,05 ce qui mène à accepter l’hypothèse nulle de
normalité c’est-à-dire la variable âge suit une loi normale (tableau 3).

2
Représentation graphique

Analyse > Statistiques descriptives > Fréquences > Graphiques > Histogrammes (Afficher la courbe gaussienne sur
l’histogramme ‘facultatif’)

Figure 2. Représentation graphique de la variable « Age »

Une autre représentation graphique intéressante qu’on peut avoir avec une variable
quantitative à savoir la boîte à moustaches (box plot). Cette représentation permet de
récapituler une variable numérique en représentant la médiane, les quartiles et les valeurs
extrêmes.

Analyse > Statistiques descriptives > Explorer > Liste variables dépendantes (âge) > Statistiques > Valeurs extrêmes

Figure 3. Boite à moustaches de la variable « Age »

3
II Analyse bivariée sous SPSS
1) Relation entre 2 variables qualitatives : Test du khi deux

H0 : Il n’y a pas une relation entre la fréquence de consommation et le lieu de résidence.


H1 : Il y a une relation entre la fréquence de consommation et le lieu de résidence.

 Analyse graphique (diagramme à barres juxtaposé ou superposé)


Cliquer sur Graphiques > Boîtes de dialogue ancienne version > Barres (choisir En cluster ou Pile) > Les barres représentent
(% des observations) > Définir > Axe des catégories (Fréquence consommation) > Définir les clusters par (Lieu résidence)

Figure 4. Diagramme à barre

 Tableau croisé
Analyse > Statistiques descriptives > Tableaux croisés> lignes (Fréquence_consommation) > colonnes (Lieu_residence) >
Statistiques (cocher Khi-deux, Phi et V de Cramer)

Pour faire apparaitre les % dans le tableau croisé : Cellules > Pourcentages (Colonne)

Tableau 4. Tableau croisé Fréquence_consommation * Lieu_residence


Lieu_residence
Banlieue Centre-ville Rural Total
Fréquence_consomma- Régulier Effectif 13 13 7 33
tion % dans Lieu_resi- 40,6% 37,1% 21,2% 33,0%
dence
Fréquent Effectif 12 12 7 31

4
% dans Lieu_resi- 37,5% 34,3% 21,2% 31,0%
dence
Occasionnel Effectif 7 10 19 36
% dans Lieu_resi- 21,9% 28,6% 57,6% 36,0%
dence
Total Effectif 32 35 33 100
% dans Lieu_resi- 100,0% 100,0% 100,0% 100,0%
dence

Les consommateurs réguliers et fréquents proviennent principalement de la banlieue avec


des pourcentages de 40,6% et 37,5%, respectivement. Les consommateurs occasionnels pro-
viennent essentiellement du milieu rural avec un pourcentage de 57 ,6% (tableau 4).
 Test khi-deux

Tableau 5. Tests du khi-carré


Signification
asymptotique
Valeur df (bilatérale)
a
Khi-deux de Pearson 10,290 4 ,036
Rapport de vraisemblance 10,215 4 ,037
Association linéaire par li- 7,138 1 ,008
néaire
N d'observations valides 100
a. 0 cellules (0,0%) ont un effectif théorique inférieur à 5. L'effectif théo-
rique minimum est de 9,92.
Signification (ou p-value) = 0,036 < 0,05, donc on rejette H 0 c’est-à-dire il y a une relation
significative entre la fréquence de consommation et le lieu de résidence (tableau 5).

 Force de la relation entre les 2 variables

Tableau 6. Force de relation


Signification ap-
Valeur proximative
Nominal par Nominal Phi ,321 ,036
V de Cramer ,227 ,036
N d'observations valides 100
V de cramer = 0,227 donc la relation entre les deux variables est faible (tableau 6).

Autour de 0,1 : corrélation faible


Autour de 0,3 : corrélation moyenne
Autour de 0,5 : corrélation forte

5
2) Association entre 2 variables quantitatives (métriques) : Corrélation

H0 : Il n’y a pas une relation entre le nombre de produits laitiers achetés par mois et les
dépenses mensuelles.
H1 : Il y a une relation entre le nombre de produits laitiers achetés par mois et les dépenses
mensuelles.

 Analyse graphique : nuage de points « scatter plot »


Graphiques > Boites de dialogue ancienne version > Dispersion/points > dispersion simple > axe des Y
(depenses_mensuelles) > axe des X (nombre_pdts_laitiers_achetés_par_mois)

Figure 5. Nuage de points

 Corrélation
Analyse > Corrélation > Bivariée > variables (Depenses_mensuelles, Nombre_produits_laitiers_achetés_par_mois)

Tableau 7. Corrélations

Depenses_ Nombre_produits_laitiers_achetés_
mensuelles par_mois
Corrélation de Pear- 1 ,715**
Depenses_mensuelles
son
Sig. (bilatérale) ,000
N 100 100
Corrélation de Pear- ,715** 1
Nombre_produits_laitiers_ache-
son
tés_par_mois Sig. (bilatérale) ,000
N 100 100

**. La corrélation est significative au niveau 0,01 (bilatéral).

6
D’après le tableau 7, on Sig. = 0,000 < 0,05 donc on rejette H 0 c’est-à-dire il existe une
corrélation significative entre le nombre de produits laitiers achetés par mois et les dépenses
mensuelles. La valeur de corrélation de Pearson = 0,715 donc on a une forte corrélation
positive entre les deux variables.
Autour de 0,3 et moins : corrélation faible
Autour de 0,5 : corrélation moyenne
Autour de 0,7 : corrélation forte

7
3) Relation entre une variable quantitative et une variable qualitative (à 2 catégories) :
T-test (test de Student)
H0 : il n’y a pas une relation entre les dépenses mensuelles et la connaissance de substituts.
H1 : il y a une relation entre les dépenses mensuelles et la connaissance de substituts.

 Analyse graphique (boîte à moustaches)


Graphiques > Boites de dialogue ancienne version > Diagramme à surfaces > Simple > Définir > Variable
(Dépenses_mensuelles) > Axe des catégories (Connaissance_substitus)

Figure 6. Boîte à moustaches

 Test de student (T-test)


Analyse > Comparer les moyennes > Test T pour échantillons indépendants > Variable à tester (Dépenses_mensuelles) >
Variable de regroupement (Connaissance_substitus) > Définir groupes > Groupe 1 (1) > Groupe 2 (2)

Tableau 7. Statistiques de groupe


Moyenne erreur
Connaissance_substituts N Moyenne Ecart type standard
Depenses_mensuelles Oui 47 63,76 25,701 3,749
Non 53 75,88 29,408 4,039

La taille du premier groupe est égale à 47. La dépense moyenne dans ce groupe est égale à
63,76 avec un écart type de 25,701. Pour le deuxième groupe de taille 53, la dépense moyenne
est de 75,88 avec un écart type de 29,408. On peut dire donc qu’il y a une légère variabilité
entre les deux groupes dans la distribution des dépenses mensuelles (tableau 7).

8
Tableau 8. Test des échantillons indépendants

Test de Le-
vene sur
l'égalité des
variances Test t pour égalité des moyennes

Intervalle de
confiance de la dif-
férence à 95 %
Différence
Sig. (Bila- Différence erreur
F Sig. t ddl téral) moyenne standard Inférieur Supérieur
Depenses_mensuelles Hypothèse 1,335 ,251 -2,181 98 ,032 -12,119 5,556 -23,145 -1,093
de va-
riances
égales

Hypothèse -2,199 97,98 ,030 -12,119 5,511 -23,056 -1,183


de va- 3
riances in-
égales

Pour le test T on a Sig. (Bilatéral) = 0,032 < 0,05 donc on rejette H 0 c’est-à-dire une
différence significative entre les deux groupes dans la distribution des dépenses mensuelles
(tableau 8).

 Force de la différence
2
2 t2 (−2,181)
η= 2 = =0 , 05
t +( N 1 + N 2−2) (−2,181)2+(47+53−2)

Autour de 0,01 : effet de petite taille


Autour de 0,06 : effet de taille moyenne
Autour de 0,14 et plus : effet de grande taille

Dans notre exemple, η2=0 , 05 donc on a une différence est de taille moyenne.

9
4) Relation entre une variable quantitative et une variable qualitative (à plus de 2
catégories) : ANOVA

Mesurer l’effet de la fréquence de consommation (occasionnel, fréquent, régulier) sur le


nombre de produits laitiers achetés par mois :

H0 : Il n’y a pas une différence entre les 3 catégories.


H1 : Il y a une différence d’au moins une catégorie.
Analyse graphique : (boîte à moustaches)
Graphiques > Boites de dialogue ancienne version > Diagramme à surfaces > Simple > Définir > Variable
(Nombre_produits_laitiers_achetés_par_mois) > Axe des catégories (Fréquence_consommation)

Figure 7. Boîte à moustaches

Test ANOVA
Analyse > Comparer les moyennes > Anova à 1 facteur > liste Variables dépendantes
(Nombre_produits_laitiers_achetés_par_mois) > Facteur (Fréquence_consommation) > Options > Caractéristiques

10
Tableau 9. Descriptives
Nombre_produits_laitiers_achetés_par_mois
Intervalle de confiance à 95
% pour la moyenne
Ecart Erreur stan- Borne infé- Borne supé-
N Moyenne type dard rieure rieure Minimum Maximum
Régulier 33 4,98 1,168 ,203 4,57 5,40 3 8
Fréquent 31 2,00 ,336 ,060 1,88 2,13 1 3
Occasionnel 36 3,18 ,546 ,091 2,99 3,36 2 4
Total 100 3,41 1,430 ,143 3,13 3,69 1 8

Le tableau 9 montre que le nombre moyen de produits laitiers achetés par mois est plus
important dans la 1ère catégorie (régulier) que dans les deux autres catégories (fréquent et
occasionnel). Il y a donc une différence entre au moins 2 catégories (entre les réguliers et les
deux autres catégories).

Tableau 10. ANOVA


Nombre_produits_laitiers_achetés_par_mois
Somme des car-
rés ddl Carré moyen F Sig.
Inter-groupes 144,820 2 72,410 122,156 ,000
Intragroupes 57,499 97 ,593
Total 202,319 99

Le test ANOVA (tableau 10) montre une statistique de Fisher avec une Sig. = 0,000 < 0,05
donc on rejette H0 c-à-d il y a une différence significative d’au moins une catégorie.

 Force de la différence

R=
√ Somme des carrésintergroupes
Somme totale des carrés
=
144,820
202,319
=0,846

R=0,846 Donc on a une différence de grande taille.

Autour de 0,1 : effet de petite taille


Autour de 0,3 : effet de taille moyenne
Autour de 0,5 et plus : effet de grande taille

11
III Analyse multivariée sous SPSS
1) Méthodes explicatives
a) Régression linéaire multiple (salaire.sav)
Nous cherchons à expliquer (ou à prédire) une variable dépendante (endogène) en fonction de
plusieurs variables exogènes indépendantes (exogènes).

La variable dépendante : variable quantitative


Les variables indépendantes : quantitatives ou qualitatives (nominales ou ordinales).

Ecriture économétrique du modèle

Salairei=a 0+ a1 educationi +a2 experience i +a3 genrei +a 4 mariagei + ε i

Avec ε i est un terme d’erreur.

Sous SPSS :
Analyse > Régression > Linéaire > Dépendant (salaire) > Variables indépendantes (education, experience, genre, mariage) >
Statistiques (Tests de colinéarité, Durbin-Watson)

Qualité de la régression

Tableau 11. Récapitulatif des modèlesb


Erreur standard
Modèle R R-deux R-deux ajusté de l'estimation Durbin-Watson
a
1 ,562 ,316 ,311 3,06649 1,807
a. Prédicteurs : (Constante), mariage, éducation, genre, expérience
b. Variable dépendante : salaire

Le tableau 11 montre que les variables prises en compte expliquent 31,1 % de la variance
totale de la variable dépendante (salaire). Le test de Durbin-Watson montre une valeur de
1,807 (plus la valeur est près de 2, moins il y a de problème au niveau de l’indépendance des
erreurs).

Significativité globale
Tableau 12. ANOVAa
Somme des car-
Modèle rés ddl Carré moyen F Sig.
1 Régression 2261,259 4 565,315 60,118 ,000b
Résidu 4899,155 521 9,403
Total 7160,414 525
a. Variable dépendante : salaire

12
b. Prédicteurs : (Constante), mariage, éducation, genre, expérience

Le tableau 12 montre que le modèle est globalement significatif au seuil de 1% (Sig. = 0,000
< 0,01). Les variables introduites dans le modèle expliquent bel et bien la variable salaire avec
un risque d’erreur de 1%.

Interprétation des coefficients

Tableau 13. Coefficientsa

Coefficients non standardi- Coefficients Statistiques de colinéa-


sés standardisés rité
Erreur stan-
Modèle Coefficient dard Bêta t Sig. Tolérance VIF
1 (Constante) -1,791 ,751 -2,384 ,017
Éducation ,583 ,052 ,437 11,292 ,000 ,875 1,142
Expérience ,056 ,011 ,205 5,035 ,000 ,796 1,257
Genre -2,067 ,272 -,280 -7,594 ,000 ,967 1,034
Mariage ,660 ,297 ,087 2,224 ,027 ,851 1,174
a. Variable dépendante : salaire

Le tableau 13 montre que les valeurs de tolérances et VIF (facteurs d’inflation de la variance)
sont dans les limites recommandées (tolérance > 0,3 et VIF < 3,3). Les variables explicatives
sont donc peu corrélées entre elles, ce qui est un indice de qualité du modèle.

Les variables introduites dans le modèle sont tous significatif au seuil de 1% (sauf pour la
variable mariage qui est significative au seuil de 5%). Les coefficients des variables éducation
(0,583), expérience (0,056) et mariage (0,660) sont positifs. Celui associé à la variable genre
(-2,067) est négatif. Le modèle final s’écrit donc :

salairei=−1,791+0,583 education+0,056 experience i +0,660 maria≥¿i−2,067 genrei ¿Une


augmentation de l’éducation d’une unité augmente le salaire de 0,583 unités. Une
augmentation de l’expérience d’une unité, augmente le salaire de 0.056 unités. En passant de
ne pas être marié à être marié, augmente également le salaire de 0,660 unités. Finalement, être
une femme diminue le salaire de 2,067 unités.

13
b) Régression logistique binaire (comportement achat.sav)
Nous cherchons à identifier les variables qui permettent de prédire le plus efficacement la
probabilité d’occurrence (de réalisation) d’un évènement.

La variable dépendante : variable qualitative binaire


Les variables indépendantes : quantitatives ou qualitatives (nominales ou ordinales).

Dans notre exemple on veut déterminer l’influence des variables âge, genre et temps passé
dans une boutique en ligne sur la probabilité d’achat.

Sous SPSS :

Analyse > Régression > Logistique binaire > Dépendant (comportemen_achat) > covariables (genre, age, temps) > cova-
riables catégorielles (genre) > catégorie de référence (première) > changer > Poursuivre > ok

Significativité globale
Tableau 14. Tests composites des coeffi-
cients du modèle
Khi-deux ddl Sig.
Pas 1 Pas 14,435 3 ,002
Bloc 14,435 3 ,002
Modèle 14,435 3 ,002

Le test khi-deux est utilisé comme indicateur statistique de la significativité globale du mo-
dèle. On a Sig. = 0,002 < 0,01 donc le modèle est globalement significatif au seuil de 1% : le
modèle final permet de prédire significativement mieux la probabilité d’achat que le modèle
incluant seulement la constante (tableau 14).

Qualité de la régression

Tableau 15. Récapitulatif des modèles


Pas Log de vraisemblance -2 R-deux de Cox et Snell R-deux de Nagelkerke
a
1 16,118 ,452 ,628
a. L'estimation s'est arrêtée à l'itération numéro 7, car le nombre de modifications des estimations du paramètre
est inférieur à ,001.

Entre 45,2% et 62,8% de la variance de la probabilité d’achat est expliquée par le modèle (ta-
bleau 15).

14
Tableau 16. Tableau de classificationa
Prévisions
Comportement d'achat Pourcentage
Observé Ne pas acheter Acheter correct
Pas 1 Comportement d'achat Ne pas acheter 5 3 62,5
Acheter 2 14 87,5
Pourcentage global 79,2
a. La valeur de coupe est ,500

Le tableau 16 montre que le modèle final a une précision de 79,2% (taux de classification cor -
recte) et donc le taux d’erreur est de 20,8%. Rappelons ici que le modèle nul (sans l’introduc-
tion des variables indépendantes), a une précision de seulement 66,7% (taux d’erreur =
33,3%).

Interprétation des coefficients

Tableau 17. Variables de l'équation


B E. S Wald ddl Sig. Exp(B)
Pas 1a Genre (1) -3,987 2,283 3,049 1 ,081 ,019
Age -,133 ,076 3,105 1 ,078 ,875
Temps passé dans une -,053 ,031 2,859 1 ,091 ,949
boutique en ligne
Constante 10,547 4,766 4,898 1 ,027 38063,663
a. Introduction des variables au pas 1 : genre, âge, temps passé dans une boutique en ligne.

Les coefficients associés aux variables indépendantes introduites dans le modèle sont tous né-
gatifs, cela signifie qu’une augmentation de chacune de ces variables diminue la probabilité
d’effectuer des achats. Cependant leur p-value < 5% ce qui indique que cette influence n’est
pas statistiquement significative.

Le « odds ratio » de la variable âge est égal à 0,875 c’est-à-dire une augmentation d’une unité
de la variable âge, diminuent les chances d’achat d’environ de 12,5% (1-0,875 = 0,922).

Le « odds ratio » de la variable genre est égale à 0,019, donc la probabilité d’achat pour les
femmes (comparées à celle des hommes), est environ 98.1% inférieure (1-0,019=0,981). Donc
les femmes ont une probabilité d’achat beaucoup plus faible par rapport aux hommes.

Le « odds ratio » de la variable temps passé dans une boutique en ligne est égal à 0,949, donc
pour chaque unité d’augmentation du temps passé dans la boutique en ligne, la probabilité
d’achat diminue d’environ 5,1% (1-0,949=0,051).

15

Vous aimerez peut-être aussi