Académique Documents
Professionnel Documents
Culture Documents
DEUXIEME PARTIE
INTRODUCTION A SPSS
INTRODUCTION
Démarrage de SPSS
Avant de travailler dans un programme, il faut l’avoir ouvert. Pour démarrer une
session IBM SPSS 20 pour Windows:
- Dans le sous-menu « Tous les Programmes » du menu « Démarrer de Windows »,
choisir le programme « IBM SPSS Statistics »
- Ensuite on sélectionne IBM SPSS 20 pour Windows
- La fenêtre éditeur des données apparaît. Nous en parlerons en détails dans la
section trois de ce chapitre
3) Editeur des tableaux pivotants. Les résultats dans un tableau pivotant peuvent
être modifiés de différentes manières. En utilisant cet éditeur, il est possible
d’éditer du texte, réarranger les lignes et colonnes, ajouter des couleurs et créer
des tableaux multidimensionnels et parfois cacher et afficher sélectivement des
résultats. On ouvre cet éditeur en sélectionnant un tableau à modifier puis par un
click droit on ouvre cette fenêtre.
4) Editeur ou gestionnaire des diagrammes. Il permet l’édition des diagrammes tels
que les histogrammes, les diagrammes en bâtons, les diagrammes en aires
interactifs, et des diagrammes 3-D. La procédure pour accéder à cet éditeur est
similaire à celle présentée ci-dessus.
5) Editeur du texte. Le texte dans le Viewer qui n’est pas affiché dans les tableaux
pivotants ou diagrammes peut être modifié en utilisant l’Editeur du texte. Les
modifications possibles sont la couleur, le type, et la taille de la police.
6) Editeur des syntaxes. Malgré que la plupart des tâches puisse être accomplies en
cliquant simplement, SPSS vient aussi avec un puissant langage de commande
qui permet à ce que vous puissiez enregistrer et automatiser certaines tâches très
communes. En plus il donne certaines fonctionnalités que l’on ne retrouve pas
dans les menus et les boîtes de dialogue.
7) L’éditeur des scripts. Celui-ci vous permet de créer et de modifier des scripts très
élémentaires au sein du programme de SPSS.
1) Le menu fichier permet la création des nouveaux fichiers, l’ouverture des fichiers
existants, la lecture des fichiers à partir d’autres logiciels comme Microsoft Excel,
enregistrer, imprimer, etc.
Traitement de données statistiques avec SPSS
Collection de Jacques Munaha/L2 ISTM-Bbo/2019
4
2) Le menu Edition (Edit en anglais) permet de modifier ou copier du texte dans une
fenêtre d’affichage ou de syntaxe et permet la recherche et le remplacement du
texte ou des données. Il permet aussi d’insérer des variables ou des observations.
Il offre aussi plusieurs options de personnalisation de SPSS.
3) Le menu Affichage (« View ») permet à ce que vous puissiez rendre active la
barre d’état ou la barre des menus et à changer certaines caractéristiques
particulières de la fenêtre (par exemple en enlevant la grille, en affichant les
étiquettes des valeurs et en changeant la couleur ou la taille de la police).
4) Le menu Données(« Data ») permet de définir les variables (« Define variables
properties »), d’insérer d’autres variables, copier les propriétés des données
(« Copy data properties »), scinder le fichier (« Splite File »). En plus des
changements plus globaux aux fichiers des données SPSS sont disponibles,
comme fusionner les fichiers (« Merge files »), trier les variables (« Sort
variables »), trier les observations (« Sort cases »), sélectionner les observations
(« Select cases ») et pondérer des observations (« Weight cases »).
5) Le menu Transformer («Transform ») permet de changer certaines variables dans
votre fichier des données en utilisant les commandes telles que Recoder
(« Recode intosame variables or recode intodifferent variables ») et Ordonner les
observations. En plus, il permet de créer d’autres variables en utilisant la
commande Calculer (« Compute Variable »).
6) Le menu Analyser (« Analyze ») permet la sélection de l’analyse que vous voulez
effectuer avec vos données. Une grande variété des procédures statistiques sont
disponibles, allant de l’agrégation des données (moyenne, écart-type) à des
statistiques plus complexes comme la régression, l’analyse de la variance, etc.
7) Le menu Graphes vous permet de créer des diagrammes à bâtons, en aires,
courbes, des histogrammes aussi bien que des boîtes à moustaches.
8) Le menu Outils permet d’afficher différentes informations concernant les variables
et les fichiers.
9) Le menu Fenêtre permet à ce que vous puissiez arranger, sélectionner et
contrôler les attributs des différentes fenêtres. En utilisant ce menu, vous pouvez
mouvoir efficacement entre les données, syntaxes, et les différentes fenêtres de
résultats et des diagrammes.
10) Le menu Aide permet d’accéder au didacticiel et à l’aide qui vient avec SPSS.
Avec cette aide vous pouvez apprendre de vous-même comment utiliser
efficacement SPSS.
Les menus Analyse et Graphes sont disponibles dans toutes les fenêtres, ce qui
facilite la génération de nouveaux résultats sans changer de fenêtre.
les bases des données. Nous allons essayer de présenter ici comment obtenir les
données à partir d’un tableur et d’une base des données.
Pour lire des données à partir d’une base des données, sélectionnez Capturer
base de données du menu Fichier et choisissez alors Nouvelle requête.
Dans l’assistant de base de données, cliquez sur la source de données
appropriées puis sur suivant. Si la source des données n’est pas incluse dans la
liste, cliquez sur Ajouter sources des données.
Pour certaines sources de données, vous devez également sélectionner un
fichier. Il faut également fournir un nom d’utilisateur et un mot de passe.
Chaque table est affichée dans la liste des Tables disponibles. Cliquez sur le
signe plus (+) pour afficher tous les champs d’une table.
Faites glisser les tables à importer vers la liste Rétablir les champs.
Dans l’Editeur des données, les champs deviennent des variables.
Vous pouvez aussi affecter des étiquettes de valeurs descriptives pour chaque
valeur d’une variable. Les étiquettes facilitent l’interprétation des données, des
diagrammes, et des résultats statistiques. Pour ce faire :
- Cliquez sur le bouton de la cellule Valeurs pour la variable sexe. Une boite de
dialogue apparaît.
- Saisissez 0 dans la zone de texte Valeur puis saisissez Femelle dans la zone de
texte Etiquette.
- Cliquez sur ajouter. Faites la même opération pour Male dans la zone de texte
Etiquette et 1 dans la zone de texte Valeur. Vous pouvez alors utiliser le code 0
et 1 pour la saisie des données.
- Pour saisir des données vous devez accéder à l’Affichage des données (Cliquez
pour cela sur l’onglet Affichage des données)
ensuite le fichier recherché dans la liste des fichiers affichés. Puis cliquez sur Ouvrir ou
appuyez sur la touche Entrée.
Les techniques de transformation et trie des données sont très utiles pour s’assurer
que les données ont été entrées correctement et que les distributions des variables à
utiliser dans les analyses sont normales. Si la distribution d’une variable s’écarte
dramatiquement de la courbe normale, ceci peut avoir un impact sur la validité des
résultats obtenus. Ces distributions non normales peuvent être transformées avant de
faire des plus amples analyses. En plus, si les déviations sont très fortes, les techniques
non paramétriques pourront être utilisées parce qu’elles sont moins puissantes que les
techniques paramétriques et ont moins d’exigences.
Les données peuvent ainsi être transformées en utilisant les commandes Calculer
et Recoder du menu Transformation. En plus si certaines données ont des valeurs
manquantes, la moyenne comme substitution peut devenir une alternative. Ces
procédures seront expérimentées à travers notre recherche « lubumbashi firme
enquete.sav ».
Limiteinférieure
120
100
80
Q3
60
Q2
40
Limitesupérieure
20
N= 70
Salaire en milliers
est représentée par une ligne noire dans la boîte. Si la ligne de la médiane dans la boîte
n’est pas équidistante de deux bordures, alors la distribution est asymétrique. Si la
médiane se trouve au centre du bloc, la distribution est normale. La fin et le début de la
ligne verticale indiquent le minimum ou le maximum des observations (la valeur la plus
petite et la valeur la plus grande). Les points au-delà de la limite de la droite verticale sont
appelés des « outliers » ou variables singulières. Soulignons qu’il ne faut jamais utiliser le
boxplot avec des variables nominales. Il est idéal pour les variables ordinales et échelles
en SPSS.
- Cocher le bouton d’option « Intervalle : de la plus petite a » taper ici 10 Puis dans
la zone «Nouvelle valeur » taper « 1 ». Puis cliquer sur « Ajouter ».
- Cocher maintenant « Intervalle». taper ici 11 dans la première zone puis 20 dans
la deuxième zone. Dans la zone Nouvelle valeur, taper « 2 » puis cliquer sur
ajouter.
- Cocher enfin sur « Intervalle … à la plus grande » tape ici 21. Dans la zone
Nouvelle valeur tapez 3 puis cliquer sur ajouter.
- Cliquez alors sur poursuivre puis enfin sur Ok
Remarques
Si vous désirez recoder une variable numérique en une variable chaîne, vous
devez aussi sélectionner les «Variables de destination sont des chaînes».
Soulignons que les valeurs que vous avez entré 1, 2, et 3 n’ont pas d’étiquettes.
Vous pouvez le faire de la même façon que nous l’avons fait tout juste au début
de ce cours dans l’éditeur des données.
Une fois la variable calculée, il faut recoder les valeurs trouvées enfin de faciliter leur
interprétation. En voici un exemple :
1 – 1.49 : Très en désaccord. 1.5 – 2.49 : Désaccord
On peut aussi calculer une nouvelle variable sur base de certaines conditions. Par
exemple, calculer le niveau de motivation moyen pour les étudiants célibataires. Il suffit
d’utiliser la fonction « Si » de la boite de dialogue précédente et y indiquer les conditions à
remplir.
La sélection avec l’option « SI » est la plus utilisée. Elle est utilisée lorsque par
exemple on aimera analyser les statistiques descriptives de femmes ou hommes
seulement ou bien une moitié de l’ensemble de vos données.
Supposons que nous voulons avoir les statistiques descriptives des hommes
seulement dans notre étude de Lubumbashi.
- Sélectionner « Sélectionner des observations » a partir du menu « Données »
- Dans la boite de dialogue qui s’ouvre choisir « selon une condition logique » puis
cliquer sur « SI » pour ouvrir la boîte de dialogue « Sélectionner des
observations :si ».
- Choisir la variable sexe et déplacer la dans la zone. Le résultat obtenu sera sexe=1
(avec 1 représentant le sexe male dans nos données initiales). Puis cliquer sur
« Poursuivre » et enfin sur Ok.
Les statistiques descriptives sont utilisées pour explorer les données collectées ainsi
que les résumer. Les statistiques descriptives peuvent être particulièrement utiles si
quelqu’un veut seulement décrire l’échantillon par exemple dire combien il y a des
hommes et des femmes, l’intervalle d’âge, le salaire moyen, etc. D’autres statistiques
comme l’écart-type et la variance donnent plus d’information concernant la distribution de
chaque variable dans une étude donnée.
La distribution de fréquence peut être représentée sous forme tabulaire ou bien sous
forme d’un graphique. Pour les variables continues, mesurées par une échelle de rapport
ou d’intervalle, les histogrammes sont appropriés. Pour des variables mesurées à l’échelle
nominale ou ordinale, les graphiques à barres sont appropriés.
Les trois mesures de tendance centrale sont le mode, la médiane et la moyenne. Les
mesures de variabilité sont l’étendu, l’étendu interquartile, l’écart-type et la variance.
Toutes les mesures de variabilité sont plus appropriées aux données mesurées avec
l’échelle d’intervalle ou de ratio.
Exemple
Supposons que nous voulons avoir la table des fréquences, les mesures de
tendance centrale et de variabilité pour la variable nombre de jours de maladie dans
l’année. Pour ce nous allons procéder de cette manière :
- Choisir « Statistiques Descriptives » du menu « Analyse »
- Cliquez ensuite sur « Fréquences » pour ouvrir la boite de dialogue « Fréquence »
- Choisir la variable dont vous avez besoin (jmaladi) et cliquez sur le bouton déplaçant
la variable dans la zone « Variables ».
- Cliquer alors sur la commande « Statistiques », la boite de dialogue « Fréquences :
Statistiques » s’affiche
- Dans la zone “Fractiles”, cocher “Quartiles”
- Dans la zone « tendance centrale », cocher moyenne, médiane, mode
- Dans la zone « dispersion » choisir écart-type, variance, minimum, maximum. On
peut aussi calculer si la distribution est symétrique ou asymétrique.
- Cliquez sur continue et ensuite sur « Diagrammes ». Choisir le type de diagrammes
« Histogrammes » et cocher également « Avec courbe gaussienne »
N Valide 70
Manquante 0
Moyenne 8.81
Médiane 10.00
Mode 10
Ecart-type 4.83
Variance 23.28
Intervalle 20
Minimum 0
Maximum 20
Centiles 25 5.75
50 10.00
75 12.00
10
Fréquence
Sigma = 4,83
Moyenne = 8,8
0 N = 70,00
0,0 2,5 5,0 7,5 10,0 12,5 15,0 17,5 20,0
Pour le cas des variables a l’échelle nominale ou sous forme de catégorie, les
statistiques que vous aurez à sélectionner ne seront les mêmes que celles sélectionnées
pour la variable jmaladi. Par exemple pour la variable sexe, vous allez prendre seulement
le mode. Ensuite pour les diagrammes vous allez sélectionnez le « Diagrammes a
bâtons » ou « a secteurs ».
Le test t de student est utilisé pour déterminer s’il existe une différence significative
entre deux groupes des données. Trois types de test de student peuvent être appliqués:
- Un seul échantillon (Test T pour échantillon unique)
- Deux groupes indépendants (Test T pour échantillons indépendants)
- Mesures répétées (Test T pour échantillons appariés)
Valeur du test = 60
t ddl Sig. Différence Intervalle de confiance
(bilatérale) moyenne 95% de la différence
Inférieure Supérieure
Salaire en milliers de 5,046 69 ,000 13,80 8,34 19,26
franc
Lorsque l’on étudie la différence entre deux groupes indépendants (dans le cas qui
va suivre entre les hommes et les femmes), une variable approximativement normale est
nécessaire pour que l’on puisse choisir le test T pour échantillon indépendant.
Les hypothèses de base pour l’utilisation de ce test sont :
- Les variances de la variable dépendante pour les deux populations doivent être
égales.
- La variable dépendante doit être normalement distribuée au sein de chacune des
populations.
- Les données doivent être indépendantes (les données d’un participant ne sont pas
systématiquement en relation avec les données des autres)
Statistiques de groupe
Infér: Supér:
Salaire Hypothèse ,207 ,651 -5,198 68 ,000 -24,73 4,76 -34,22 -15,23
de
variances
égales
Hypothèse -5,387 64,408 ,000 -24,73 4,59 -33,89 -15,56
de
variances
inégales
Ce tableau contient deux tests statistiques. Dans les deux premières colonnes, il
s’agit du test de Levene pour vérifier si les variances de deux groupes des données (male
et femelle) sont égales. Si le test F est no significatif, l’hypothèse d’égale variance n’est
pas violée et l’on utilise la première ligne de variances égales. Dans le cas contraire c’est
la deuxième ligne qui sera utilisée pour avoir la valeur de T. Le test F de Levene est
significatif si sig. < α (dans notre cas α=0.05). La deuxième partie du tableau contient les
résultats du test T. L’interprétation est similaire à celle de la section 5.2.
Ce test est utilisé lorsqu’on a des données obtenues d’un groupe seulement des
participants. En d’autres mots, un individu obtient deux scores sous différents niveaux de
la variable indépendante. La procédure pour trouver la valeur de T de student est la
suivante :
- Cliquez sur « Analyse » → « Comparer les moyennes » → « Test T pour
échantillons appariés»
- Choisir les variables dont vous aurez besoin et déplacez ces dernières dans la
zone « Variables appariées ». Ici on peut essayer avec les variables nchambre
(nombre des chambres dans la maison) et npersfam (nombre de personnes dans la
famille). Puis enfin sur OK.
Travail Pratique
Effectuez ce test et interpréter les résultats obtenus.
Lorsque les conditions d’utilisation des tests paramétriques ne sont pas réunies, on
peut utiliser les tests non paramétriques. Ces derniers tendent à être moins puissants que
les tests paramétriques. Cependant certains tests non paramétriques sont plus appropriés
si les données ont été collectées à l’échelle nominale et ordinale. SPSS a une vaste
collection de ces tests. Dans ce chapitre nous allons d’abord apprendre le calcul du Khi-
deux afin de suivre la même structure que notre cours de statistique inférentielle.
Il y a trois conditions que vous devez considérer pour effectuer un test de khi-deux :
- Echantillon aléatoire : les observations doivent être tirées de manière aléatoire de la
population.
- Observations indépendantes : aucun sujet ne devra être compté deux fois.
- La taille des fréquences attendues. Lorsque le nombre de cellules est inferieur à 10
et particulièrement lorsque la taille de l’échantillon est très petite, la plus petite
fréquence relative que l’on doit avoir dans une case pour un test de khi-deux est 5.
Cependant, les fréquences observées peuvent prendre n’importe quelle valeur
voire 0.
Traitement de données statistiques avec SPSS
Collection de Jacques Munaha/L2 ISTM-Bbo/2019
25
Le test khi-deux d’ajustement est utilisé pour analyser une seule variable dont les
données sont groupées en catégories. En effet, il est parfois utile de vérifier si une variable
est distribuée selon une loi normale ou un certain modèle théorique. On peut utiliser alors
le test du Khi carré pour ce faire. Dans les faits, on compare la distribution de fréquences
observées à une distribution de fréquences théoriques. Si la différence entre ces deux
distributions est petite nous conclurons que la variable considérée obéit à une loi normale.
Exemple
Le tableau ci-dessous indique le sexe de 70 personnes dans notre échantillon de
Lubumbashi Firme. Dans la déclaration du parlement on devrait respecter la parité. Un
test khi-deux d’ajustement va nous permettre de déterminer si cette parité a été respectée
au sein de l’usine de Lubumbashi.
Pour réaliser ce test :
- Cliquez sur «Analyse» → «Tests non paramétriques» → «Khi-deux»
- Choisir la variable à tester et déplacez cette dernière dans la zone «Variables à
tester». Dans ce cas, il s’agit de la variable sexe. Cliquez enfin Ok.
Effectif observé Effectif théorique Résidu
Femelle 28 35,0 -7,0
Male 42 35,0 7,0
Total 70
Test
Khi-deux 2,800
Ddl 1
Signification asymptotique ,094
On peut voir à partir de ce résultat que la valeur du khi-deux n’est pas significative
car la signification asymptotique est supérieure à α. On peut conclure que la parité a été
respectée.
N.B. Comme on peut le voir, les effectifs théoriques représentent une subdivision par
2 c'est-à-dire 1/2, 1/2. Quelque fois les effectifs théoriques peuvent ne pas être
équitablement distribués au sein des différentes catégories. Si par exemple, les
fréquences théoriques pour chaque groupe étaient de 20 (femme) et 50(homme). SPSS
vous permet également de spécifier cela. Il suffit de cliquez sur « Valeurs » dans la fenêtre
ci-dessous et d’entrer les différentes valeurs dans l’ordre.
Le khi-deux peut être également utilisé comme test d’indépendance. Dans ce cas on
examine deux variables et on vise à vérifier si les deux variables sont indépendantes l’une
de l’autre.
Par exemple on voudrait déterminer si l’âge de l’employé influence son ancienneté
au sein de l’entreprise. Les données des ces deux variables sont groupées en catégories.
On peut y aller avec le test de khi-deux.
La procédure est la suivante :
- Cliquez sur « Analyse » → «Statistiques Descriptives » → « Tableaux croisés.»
Le test Khi-deux est utilisé pour savoir s’il existe une relation entre deux variables. Le
résultat montre que Khi-deux est significatif. Cependant 70% des cellules ont un effectif
théorique inferieur a 5. Il faudrait procéder au regroupement de nos différentes données
pour avoir un khi-deux fiable. Dans le cas contraire, une des conditions d’utilisation du test
de khi-deux est abrogée. En règle générale, pas plus de 20% de cellules ne doivent
avoir des fréquences théoriques inferieures à 5.
Mesures symétriques
Valeur Signification approchée
Nominal par Nominal Phi 1,086 ,000
V de Cramer ,627 ,000
Nombre d'observations valides 70
Traitement de données statistiques avec SPSS
Collection de Jacques Munaha/L2 ISTM-Bbo/2019
28
Supposons que nous voulons connaitre s’il existe une différence significative en
termes de salaire moyen selon le groupe d’âge des employés. Dans notre étude nous
avons quatre groupes d’âge. Ce que nous aurons a comparer quatre moyennes. Par
conséquent, l’utilisation de l’ANOVA est nécessaire.
La procédure est la suivante :
Traitement de données statistiques avec SPSS
Collection de Jacques Munaha/L2 ISTM-Bbo/2019
29
- Cliquez sur « Continuer » puis sur OK et comparer votre résultat avec celui-ci
Salaire en milliers de franc
N Moyenne Ecart- Erreur Intervalle de confiance à 95% Min Max
type standard
Borne inférieur Borne supérieur
20 - 29 10 46,00 12,73 4,02 36,89 55,11 32 75
ans
30 - 39 22 59,64 15,82 3,37 52,62 66,65 32 110
ans
40 - 49 19 80,63 9,08 2,08 76,26 85,01 70 105
ans
Plus de 50 19 98,00 14,47 3,32 91,03 104,97 77 125
ans
Traitement de données statistiques avec SPSS
Collection de Jacques Munaha/L2 ISTM-Bbo/2019
30
ANOVA
Somme des ddl Moyenne des F Signification
carrés carrés
Inter-groupes 24155,688 3 8051,896 44,420 ,000
Intra-groupes 11963,512 66 181,265
Total 36119,200 69
Lorsque l’on compare les moyennes de trois ou plusieurs groupes, vous saurez qu’il
existe une différence significative quelque part si F est significatif. Cependant, vous
voudriez bien savoir quelles moyennes sont différentes des autres moyennes. En vue de
connaitre cela, vous pouvez utilisez plusieurs tests post hoc de SPSS. Le test Scheffe est
plus conservative c’est pourquoi plusieurs statisticiens recommande le test de Tukey HSD
si le test de Levene n’est pas significatif et le test de Games-Howel si le test de Levene est
significatif. D’habitude on fait l’analyse post hoc si F est significatif. C’est pour cela que
nous avons séparé les étapes. On aurait pu faire tout à la première étape de calcul de F.
La procédure est la même que la précédente. Apres l’étape qui consistait à cliquer
sur « options », il faut cliquez maintenant sur « Post Hoc » et dans la dialogue ci-dessous,
cochez Scheffe et Tukey.
Comparaisons multiples
En considérant le test de Scheffe ce tableau montre que les salaires moyens des
individus des groupes d’âges 40-49 ans et plus de 50 ans diffèrent significativement du
salaire moyen du groupe d’âge 20-29 ans. Cependant le salaire moyen de ce dernier
groupe ne diffère pas significativement de celui du groupe d’âge 30-39 ans car leur
différence n’est pas significatif (p=0.08>0.05).
Le résultat de Tukey est légèrement différent de celui de Scheffe. Pour Tukey, les
moyennes de 4 groupes différent toutes entre elles. C’est pour cela que l’on dit que Tukey
est moins rigoureux que Scheffe. Ce tableau ci-dessus sera exploité pour l’interprétation
lorsque les tailles des différents échantillons sont plus ou moins similaires. Dans les cas
où elles différent significativement, les sous-ensembles homogènes donnent des résultats
plus appropriés. .
Sous-groupes homogènes
Ce tableau montre un Scheffe et un Tukey ajusté qui est approprié lorsque les tailles
des groupes d’âges ne sont pas similaires. Notez qu’il n’existe pas de différence
significative entre le salaire moyen des employés âgés entre 20 à 29 ans et de 30 à 39
ans parce que leurs moyennes sont toutes montrées dans un seul sous-ensemble
homogène. Lorsque les moyennes de deux groupes n’apparaissent pas dans un même
sous-ensemble, cela signifie que ces moyennes sont différentes entre elles.
Test (a)
Nombre de jours de maladie
U de Mann-Whitney 531,500
W de Wilcoxon 1434,500
Z -,684
Signification asymptotique (bilatérale) ,494
a Critère de regroupement : sexe
Le premier tableau montre la moyenne des rangs des hommes et des femmes pour
la variable jour de maladie (jmaladi). SPSS rangent les 70 employés du 70 e (plus grand)
au 1er (le plus petit) de sorte que, contrairement a la procédure normale, un rang élevé
indique que l’individu a eu un score élevé.
Ce tableau montre non seulement le rang moyen mais aussi par exemple le nombre
d’employés ayant le nombre de personne dans la famille inferieur au nombre de chambre
qu’ils avaient dans la maison (24). Notez aussi qu’il y avait des familles où le nombre de
chambres correspondait au nombre des personnes dans la famille (35) et des familles où
le nombre de personnes dans la famille était supérieur au nombre de chambres dans la
maison (11).
Test de Wilcoxon
- Cliquez sur continuer et s’assurer que « H de Kruskall Wallis » est coché puis enfin
cliquez sur Ok.
Les résultats obtenus sont :
Rangs
Groupe d'age N Rang moyen
Salaire en milliers de 20 - 29 ans 10 11,05
franc
30 - 39 ans 22 21,48
40 - 49 ans 19 42,58
Plus de 50 ans 19 57,53
Total 70
Un rang moyen élevé indique le groupe avec le salaire le plus élevé. Le test de
Kruskal-Wallis va comparer les rangs moyens de 4 groupes d’âge. Il s’agit de vérifier si
ces rangs moyens différent entre-elles.
Test
Salaire en milliers de franc
Khi-deux 49,503
Ddl 3
Signification asymptotique ,000
a Test de Kruskal Wallis
b Critère de regroupement : Groupe d'âge
Le tableau ci-dessus montre s’il existe une différence significative entre les groupes
d’âges. Pour interpréter le résultat affiché dans ce tableau du test de Kruskal-Wallis, il faut
considérer la valeur du Khi-deux, le degré de liberté (dl) et la signification asymptotique
(p). Notez qu’il existe une différence significative entre les 4 groupes d’âges à ce qui
concerne le salaire (p < 0.05). Malheureusement, il n’y a pas de test post hoc
accompagnant le test de Kruskal-Wallis. Par conséquent, on ne peut dire avec certitude
entre quel groupe d’âge existe une différence. Un des moyens de résolution de ce
problème et d’exécuter 4 tests de Mann Whitney comparant chaque pair de groupes
d’âges par rapport au rang moyen.
8.4. Remarques
Il existe une multitude des tests non paramétriques. C’est le cas du test de
Friedman, qui permet de comparer deux ou plusieurs échantillons appariés et qui est
équivalent au test d’ANOVA avec des mesures répétées. D’autres tests pour
- 2 échantillons appariés : les tests de McNemar, le test de signe, etc.
- k échantillons appariés : le test W de Kendall, Q de Cochran
- 2 échantillons indépendants : Z de Kolmogorov-Smirnow, Suites de Wald-
Wolfowitz, Réactions extrêmes de Moses, etc.
- k échantillons indépendants : test de la médiane
Tous ces tests sont retrouvés dans la commande « Tests non paramétriques » du
menu « Analyse ». En part ces différents tests il existe d’autres éparpillés dans le menu
« Analyse ». C’est le cas du test non paramétrique mesurant la corrélation entre deux
variables, le test de corrélation de Spearman. Nous allons exposer son utilisation dans le
chapitre suivant traitant de la corrélation.
CHAPITRE 9 CORRELATION
9. 2. Diagramme de dispersion
300
200
100
20 40 60 80 100 120 140
Comme nous voyons la manière dont les points sont présentés, ils donnent
l’impression d’une droite.
Il y a 70 personnes avec les données pour les deux variables. Ce tableau des
descriptives donnes la moyenne et l’écart-type des variables à corréler. Dans le tableau
suivant nous retrouvons le degré de relation entre ces deux variables.
Corrélations
Salaire en milliers de Valeur maison en
franc milliers de franc
Salaire en milliers de Corrélation de 1,000 0,710**
franc Pearson
Sig. (bilatérale) , ,000
Valeur maison en Corrélation de 0,710** 1,000
milliers de franc Pearson
Sig. (bilatérale) ,000 ,
** La corrélation est significative au niveau 0.01 (bilatéral).
Correlations
Salaire Valmaiso
Salaire 1,000 0,6935**
Sign (bilateral) , ,000
distmais Dl (0) (67)
Valeur 0,6935** 1,000
Sign (bilateral) ,000 ,
Dl (67) (0)
** La corrélation est significative au niveau 0.01 (bilatéral).
Comme nous pouvons le voir, le résultat obtenu est presque similaire à celui de la
corrélation bivariée. Il indique qu’il existe une relation significative entre le salaire et la
valeur de la maison même après avoir contrôlé l’influence de la distance du lieu de travail
de la maison.
Correlations
Salaire Valeur maison
Rho de Salaire Coefficient de 1,000 ,740**
Spearman corrélation
Sig. (bilatérale) , ,000
N 70 70
Valeur maison Coefficient de ,740** 1,000
corrélation
Sig. (bilatérale) ,000 ,
N 70 70
** La corrélation est significative au niveau .01 (bilatéral).
CHAPITRE 10 LA REGRESSION
ANOVA
Modèle Somme des ddl Carré F Signification
carrés moyen
1 Régression 111361,806 1 111361,806 69,077 ,000 (a)
Résidu 109625,065 68 1612,133
Total 220986,871 69
(a) Valeurs prédites : (constantes), Salaire en milliers de franc
(b) Variable dépendante : Valeur maison en milliers de franc
Coefficients
Coefficients
non
Modèle standardisés
standardisés T Signification
Erreur
B Bêta
standard
1 (constante) 100,172 16,313 6,140 ,000
Salaire 1,756 ,211 ,710 8,311 ,000
Cependant on doit faire attention en utilisant cette estimation car le salaire explique
seulement 50.4% de la variance dans la valeur de la maison. Par conséquent l’estimation
ne sera pas très précise.
Le coefficient standardisé est égal au coefficient de corrélation entre ces deux
variables.
Une large entreprise se trouve à 10 km de Lubumbashi. L’entreprise a presque 4000 employés dont
3250 ont été avec l’entreprise pendant au moins 10 ans et possèdent chacun sa propre maison. La firme
veut développer le profile de ces 3250 employés en y incorporant un certain nombre des variables et
attributs. 70 employés de ce groupe sont choisis aléatoirement. Les données des variables suivantes
proviennent de ces 70 employés.
X1 = sexe de l’employé. 0. Femelle 1. Male
X2 = salaire en milliers de franc
X3 = groupe d’âge
1. 20 – 29 ans 2. 30 – 39 ans 3.40 – 49 ans 5.Plus de 50 ans
X4 = nombre de chambres dans la maison
X5 = valeur de la maison en milliers de franc
X6 = Distance en km de la maison au lieu de travail
X7 = nombre de personnes dans la famille
X8 = Education de l’employé
1. Primaire 2. Secondaire 3. Gradue 4. Licencie 5.Docteur
X9 = Confession religieuse
1. Catholique 2. Protestante 3.Adventiste 4.Autres
X10 = nombre de jours de maladie pendant l’année précédente
X11 = Nombre d’années au sein de l’entreprise
1. Moins de 5 ans 2.5 à 10 ans 3.10 à 15 ans 4.15 à 20 ans
5. Plus de 20 ans
Les données récoltées sont les suivantes :
sexe Salaire age nchambre valmaiso distmais npersfam etude religion jrmaladi Ancienet
1 52 2 2 150 18 3 3 4 10 3
0 40 1 2 145 10 2 3 2 11 1
1 73 3 3 190 15 3 4 3 8 3
1 80 3 4 230 10 4 4 4 12 2
0 37 1 2 140 12 3 3 2 15 1
1 68 2 3 180 6 2 3 1 10 2
0 45 2 2 160 12 3 3 2 15 1
1 120 4 4 250 8 4 4 3 10 2
1 120 4 3 220 11 3 5 2 10 5
1 95 3 3 200 25 3 4 3 4 3
0 52 2 2 172 10 4 3 4 12 1
0 75 2 3 200 5 3 3 2 0 2
1 90 3 4 250 17 4 5 3 15 3
0 47 2 2 180 15 3 2 1 10 2
1 80 3 4 260 10 4 4 4 10 3
1 100 4 4 250 8 4 4 4 8 4
1 110 2 3 230 12 3 5 3 9 3
0 50 1 3 180 8 2 4 1 10 2
0 75 3 4 280 20 3 4 4 20 3
1 72 3 3 200 6 3 3 1 15 3
0 35 1 2 120 25 1 2 2 5 1
1 82 4 4 250 17 5 4 4 0 3
1 65 2 3 200 10 3 4 2 7 2
1 82 3 4 280 9 3 5 2 0 3
1 49 1 3 160 20 1 4 3 5 1
1 95 4 5 300 15 4 3 4 11 4
Traitement de données statistiques avec SPSS
Collection de Jacques Munaha/L2 ISTM-Bbo/2019
49
0 52 2 3 192 15 3 3 1 8 3
0 32 2 2 130 26 2 1 2 4 1
1 65 2 3 180 18 3 3 4 10 2
1 70 2 3 200 15 2 4 3 12 2
1 80 3 3 200 15 2 4 3 10 3
1 100 4 4 250 10 4 4 2 8 4
1 85 4 4 270 12 3 3 4 10 4
0 45 2 3 190 12 2 3 2 16 3
0 60 2 3 200 15 3 3 4 12 2
0 57 2 3 172 17 3 3 2 8 2
0 82 3 4 200 27 4 4 3 10 3
1 107 4 4 280 12 4 4 4 8 4
1 110 4 5 310 10 3 4 3 0 4
1 105 3 4 292 12 2 5 1 15 5
0 97 4 3 220 35 3 3 1 12 3
0 72 3 3 210 27 2 2 2 10 3
1 80 4 3 250 11 2 3 4 4 2
0 66 2 3 300 30 2 5 4 0 3
0 55 2 3 210 27 3 3 3 0 2
1 85 3 4 280 10 2 4 1 20 3
0 45 1 2 160 30 2 4 2 12 1
1 40 1 2 180 20 2 4 3 7 1
1 77 2 3 240 15 3 5 4 5 2
1 80 3 4 320 6 3 5 3 5 2
0 85 4 3 275 18 4 4 4 12 3
0 48 2 3 200 12 3 3 1 10 2
1 70 3 3 190 10 4 4 1 8 2
1 84 3 4 310 5 5 5 2 16 5
1 92 4 3 220 32 3 4 4 12 4
1 125 4 4 350 15 2 4 3 6 5
1 112 4 4 320 12 3 4 2 10 5
0 90 4 3 280 10 4 3 3 0 4
0 57 1 3 240 18 2 5 2 0 2
1 75 1 3 260 12 2 5 4 7 1
0 49 2 3 210 10 3 4 3 12 2
1 85 3 4 280 7 4 3 2 8 4
1 85 4 4 300 20 4 4 3 8 5
0 72 3 3 240 20 3 4 4 10 4
1 100 4 4 375 7 3 5 3 5 4
0 77 4 4 320 25 5 3 4 10 5
1 32 1 2 160 30 2 4 2 15 1
0 54 2 3 260 20 3 3 1 6 2
1 68 2 4 300 12 3 4 3 0 2
1 70 3 3 180 10 3 3 2 14 3
Les items suivant mesurent la motivation des étudiants de G2 économie à résoudre des
problèmes de statistique.
1. Je m’exerce en statistique jusqu'à ce-que je maitrise la procédure
2. Je me décourage très facilement au lieu de persévérer si un problème de
statistique est très difficile
3. Je préfère découvrir de moi-même comment résoudre un problème sans demander
de l’aide
4. Je ne patiente pas pour longtemps si un problème est trop difficile
5. J’explore toutes les solutions possibles à un exercice complexe de statistique avant
de passer à un autre exercice.
Il était demandé à ces étudiants d’indiquer leur niveau d’accord ou de désaccord
avec les affirmations précédentes. Les niveaux à mettre a cote de chaque affirmation sont
les suivants : 1. Très en désaccord 2. Désaccord 3. Neutre 4. D’accord 5.
Très d’accord
Les résultats de 20 de ces étudiants sont les suivants :
EtatCivil Sexe Item1 Item2 Item3 Item4 Item5
M M 3 4 4 3 4
C M 4 3 5 2 3
M M 3 2 4 4 5
C F 4 4 3 3 5
M F 5 5 4 2 5
C F 4 4 5 3 4
M M 3 3 4 4 3
V M 5 2 3 3 4
M F 5 2 2 2 5
V F 4 2 3 5 4
M M 4 3 4 3 3
C M 5 4 5 2 4
V F 5 3 4 2 5
C F 4 4 5 4 4
M M 2 3 4 5 3
C M 3 4 5 3 4
M F 3 3 4 2 5
V F 4 4 3 4 4
V F 2 4 3 4 3
C F 4 3 4 3 3
M F 5 4 5 2 4
M M 5 3 4 2 5
M M 4 4 5 4 4
C F 2 3 4 5 3
C F 3 4 5 3 4
V M 3 3 4 2 5
V M 4 4 3 4 4
M F 2 4 3 4 3
TABLE DE MATIERES