Académique Documents
Professionnel Documents
Culture Documents
sav)
1) Décrire une variable qualitative
Analyse > Statistiques descriptives > Fréquences > Variable(s) (Type_lait) > Graphiques > Graphiques circulaires> Valeurs
du graphique (Pourcentages)
Le tableau 1 montre que le lait demi-écrémé est le plus consommé avec un pourcentage de
38%. En deuxième lieu, on trouve le lait entier avec 27%, puis le lait écrémé avec 24% et
finalement le lait sans lactose avec seulement 11%.
Représentation graphique
1
2) Décrire une variable quantitative
Analyse > Statistiques descriptives > Descriptives > Variable(s) (Age) > Options (Moyenne ; Ecart type ; Minimum ;
Maximum : Kurtosis : Asymétrie)
Le tableau 2 montre que l’âge des individus interrogés varie de 25 ans à 60 ans. L’âge moyen
est de 41,24 ans avec un écart type de 8,329 ans. Les valeurs d’asymétrie (Skewness) et
d’aplatissement (Kurtosis) sont inférieures en valeur absolue à 1 et 1,5, respectivement, ce qui
montre que cette variable suit la loi normale.
Remarque
On peut tester la normalité d’une variable en utilisant les tests de normalité de kolmogrov-
Smirnov (n > 50) ou Shapiro-Wilk (n < 50). Soit le test d’hypothèse suivant :
La statistique de K-S montre une Sig. =0,2 > 0,05 ce qui mène à accepter l’hypothèse nulle de
normalité c’est-à-dire la variable âge suit une loi normale (tableau 3).
2
Représentation graphique
Analyse > Statistiques descriptives > Fréquences > Graphiques > Histogrammes (Afficher la courbe gaussienne sur
l’histogramme ‘facultatif’)
Une autre représentation graphique intéressante qu’on peut avoir avec une variable
quantitative à savoir la boîte à moustaches (box plot). Cette représentation permet de
récapituler une variable numérique en représentant la médiane, les quartiles et les valeurs
extrêmes.
Analyse > Statistiques descriptives > Explorer > Liste variables dépendantes (âge) > Statistiques > Valeurs extrêmes
3
II Analyse bivariée sous SPSS
1) Relation entre 2 variables qualitatives : Test du khi deux
Tableau croisé
Analyse > Statistiques descriptives > Tableaux croisés> lignes (Fréquence_consommation) > colonnes (Lieu_residence) >
Statistiques (cocher Khi-deux, Phi et V de Cramer)
Pour faire apparaitre les % dans le tableau croisé : Cellules > Pourcentages (Colonne)
4
% dans Lieu_resi- 37,5% 34,3% 21,2% 31,0%
dence
Occasionnel Effectif 7 10 19 36
% dans Lieu_resi- 21,9% 28,6% 57,6% 36,0%
dence
Total Effectif 32 35 33 100
% dans Lieu_resi- 100,0% 100,0% 100,0% 100,0%
dence
5
2) Association entre 2 variables quantitatives (métriques) : Corrélation
H0 : Il n’y a pas une relation entre le nombre de produits laitiers achetés par mois et les
dépenses mensuelles.
H1 : Il y a une relation entre le nombre de produits laitiers achetés par mois et les dépenses
mensuelles.
Corrélation
Analyse > Corrélation > Bivariée > variables (Depenses_mensuelles, Nombre_produits_laitiers_achetés_par_mois)
Tableau 7. Corrélations
Depenses_ Nombre_produits_laitiers_achetés_
mensuelles par_mois
Corrélation de Pear- 1 ,715**
Depenses_mensuelles
son
Sig. (bilatérale) ,000
N 100 100
Corrélation de Pear- ,715** 1
Nombre_produits_laitiers_ache-
son
tés_par_mois Sig. (bilatérale) ,000
N 100 100
6
D’après le tableau 7, on Sig. = 0,000 < 0,05 donc on rejette H 0 c’est-à-dire il existe une
corrélation significative entre le nombre de produits laitiers achetés par mois et les dépenses
mensuelles. La valeur de corrélation de Pearson = 0,715 donc on a une forte corrélation
positive entre les deux variables.
Autour de 0,3 et moins : corrélation faible
Autour de 0,5 : corrélation moyenne
Autour de 0,7 : corrélation forte
7
3) Relation entre une variable quantitative et une variable qualitative (à 2 catégories) :
T-test (test de Student)
H0 : il n’y a pas une relation entre les dépenses mensuelles et la connaissance de substituts.
H1 : il y a une relation entre les dépenses mensuelles et la connaissance de substituts.
La taille du premier groupe est égale à 47. La dépense moyenne dans ce groupe est égale à
63,76 avec un écart type de 25,701. Pour le deuxième groupe de taille 53, la dépense moyenne
est de 75,88 avec un écart type de 29,408. On peut dire donc qu’il y a une légère variabilité
entre les deux groupes dans la distribution des dépenses mensuelles (tableau 7).
8
Tableau 8. Test des échantillons indépendants
Test de Le-
vene sur
l'égalité des
variances Test t pour égalité des moyennes
Intervalle de
confiance de la dif-
férence à 95 %
Différence
Sig. (Bila- Différence erreur
F Sig. t ddl téral) moyenne standard Inférieur Supérieur
Depenses_mensuelles Hypothèse 1,335 ,251 -2,181 98 ,032 -12,119 5,556 -23,145 -1,093
de va-
riances
égales
Pour le test T on a Sig. (Bilatéral) = 0,032 < 0,05 donc on rejette H 0 c’est-à-dire une
différence significative entre les deux groupes dans la distribution des dépenses mensuelles
(tableau 8).
Force de la différence
2
2 t2 (−2,181)
η= 2 = =0 , 05
t +( N 1 + N 2−2) (−2,181)2+(47+53−2)
Dans notre exemple, η2=0 , 05 donc on a une différence est de taille moyenne.
9
4) Relation entre une variable quantitative et une variable qualitative (à plus de 2
catégories) : ANOVA
Test ANOVA
Analyse > Comparer les moyennes > Anova à 1 facteur > liste Variables dépendantes
(Nombre_produits_laitiers_achetés_par_mois) > Facteur (Fréquence_consommation) > Options > Caractéristiques
10
Tableau 9. Descriptives
Nombre_produits_laitiers_achetés_par_mois
Intervalle de confiance à 95
% pour la moyenne
Ecart Erreur stan- Borne infé- Borne supé-
N Moyenne type dard rieure rieure Minimum Maximum
Régulier 33 4,98 1,168 ,203 4,57 5,40 3 8
Fréquent 31 2,00 ,336 ,060 1,88 2,13 1 3
Occasionnel 36 3,18 ,546 ,091 2,99 3,36 2 4
Total 100 3,41 1,430 ,143 3,13 3,69 1 8
Le tableau 9 montre que le nombre moyen de produits laitiers achetés par mois est plus
important dans la 1ère catégorie (régulier) que dans les deux autres catégories (fréquent et
occasionnel). Il y a donc une différence entre au moins 2 catégories (entre les réguliers et les
deux autres catégories).
Le test ANOVA (tableau 10) montre une statistique de Fisher avec une Sig. = 0,000 < 0,05
donc on rejette H0 c-à-d il y a une différence significative d’au moins une catégorie.
Force de la différence
R=
√ Somme des carrésintergroupes
Somme totale des carrés
=
144,820
202,319
=0,846
√
R=0,846 Donc on a une différence de grande taille.
11
III Analyse multivariée sous SPSS
1) Méthodes explicatives
a) Régression linéaire multiple (salaire.sav)
Nous cherchons à expliquer (ou à prédire) une variable dépendante (endogène) en fonction de
plusieurs variables exogènes indépendantes (exogènes).
Sous SPSS :
Analyse > Régression > Linéaire > Dépendant (salaire) > Variables indépendantes (education, experience, genre, mariage) >
Statistiques (Tests de colinéarité, Durbin-Watson)
Qualité de la régression
Le tableau 11 montre que les variables prises en compte expliquent 31,1 % de la variance
totale de la variable dépendante (salaire). Le test de Durbin-Watson montre une valeur de
1,807 (plus la valeur est près de 2, moins il y a de problème au niveau de l’indépendance des
erreurs).
Significativité globale
Tableau 12. ANOVAa
Somme des car-
Modèle rés ddl Carré moyen F Sig.
1 Régression 2261,259 4 565,315 60,118 ,000b
Résidu 4899,155 521 9,403
Total 7160,414 525
a. Variable dépendante : salaire
12
b. Prédicteurs : (Constante), mariage, éducation, genre, expérience
Le tableau 12 montre que le modèle est globalement significatif au seuil de 1% (Sig. = 0,000
< 0,01). Les variables introduites dans le modèle expliquent bel et bien la variable salaire avec
un risque d’erreur de 1%.
Le tableau 13 montre que les valeurs de tolérances et VIF (facteurs d’inflation de la variance)
sont dans les limites recommandées (tolérance > 0,3 et VIF < 3,3). Les variables explicatives
sont donc peu corrélées entre elles, ce qui est un indice de qualité du modèle.
Les variables introduites dans le modèle sont tous significatif au seuil de 1% (sauf pour la
variable mariage qui est significative au seuil de 5%). Les coefficients des variables éducation
(0,583), expérience (0,056) et mariage (0,660) sont positifs. Celui associé à la variable genre
(-2,067) est négatif. Le modèle final s’écrit donc :
13
b) Régression logistique binaire (comportement achat.sav)
Nous cherchons à identifier les variables qui permettent de prédire le plus efficacement la
probabilité d’occurrence (de réalisation) d’un évènement.
Dans notre exemple on veut déterminer l’influence des variables âge, genre et temps passé
dans une boutique en ligne sur la probabilité d’achat.
Sous SPSS :
Analyse > Régression > Logistique binaire > Dépendant (comportemen_achat) > covariables (genre, age, temps) > cova-
riables catégorielles (genre) > catégorie de référence (première) > changer > Poursuivre > ok
Significativité globale
Tableau 14. Tests composites des coeffi-
cients du modèle
Khi-deux ddl Sig.
Pas 1 Pas 14,435 3 ,002
Bloc 14,435 3 ,002
Modèle 14,435 3 ,002
Le test khi-deux est utilisé comme indicateur statistique de la significativité globale du mo-
dèle. On a Sig. = 0,002 < 0,01 donc le modèle est globalement significatif au seuil de 1% : le
modèle final permet de prédire significativement mieux la probabilité d’achat que le modèle
incluant seulement la constante (tableau 14).
Qualité de la régression
Entre 45,2% et 62,8% de la variance de la probabilité d’achat est expliquée par le modèle (ta-
bleau 15).
14
Tableau 16. Tableau de classificationa
Prévisions
Comportement d'achat Pourcentage
Observé Ne pas acheter Acheter correct
Pas 1 Comportement d'achat Ne pas acheter 5 3 62,5
Acheter 2 14 87,5
Pourcentage global 79,2
a. La valeur de coupe est ,500
Le tableau 16 montre que le modèle final a une précision de 79,2% (taux de classification cor -
recte) et donc le taux d’erreur est de 20,8%. Rappelons ici que le modèle nul (sans l’introduc-
tion des variables indépendantes), a une précision de seulement 66,7% (taux d’erreur =
33,3%).
Les coefficients associés aux variables indépendantes introduites dans le modèle sont tous né-
gatifs, cela signifie qu’une augmentation de chacune de ces variables diminue la probabilité
d’effectuer des achats. Cependant leur p-value < 5% ce qui indique que cette influence n’est
pas statistiquement significative.
Le « odds ratio » de la variable âge est égal à 0,875 c’est-à-dire une augmentation d’une unité
de la variable âge, diminuent les chances d’achat d’environ de 12,5% (1-0,875 = 0,922).
Le « odds ratio » de la variable genre est égale à 0,019, donc la probabilité d’achat pour les
femmes (comparées à celle des hommes), est environ 98.1% inférieure (1-0,019=0,981). Donc
les femmes ont une probabilité d’achat beaucoup plus faible par rapport aux hommes.
Le « odds ratio » de la variable temps passé dans une boutique en ligne est égal à 0,949, donc
pour chaque unité d’augmentation du temps passé dans la boutique en ligne, la probabilité
d’achat diminue d’environ 5,1% (1-0,949=0,051).
15