Vous êtes sur la page 1sur 16

1- Etablir le livre de codes de la base employée data (permet de

comprendre comment la base de données a été élaborer)


Analyse ➔Rapports➔Livre de Code➔Sélectionner les ∆bles

id
Valeur
Attributs standard Position 1
Libellé Code de
l'employé
Type Numérique
Format F4
Mesure Echelle
Rôle Entrée
N Valide 474
Manquant 0
Tendance et dispersion Moyenne 237,50
centrales Ecart type 136,976
25ème percentile 119,00
50ème percentile 237,50
75ème percentile 356,00

La variable Id(identifiant) occupe la première position dans la base de données,


représente de code de l’employée, est une variable de type numérique et de
mesure l’échelle. Elle dispose de 474 d’observations valides et 0 données
manquantes.

Sexe
Valeur Nombre Pourcentage
Attributs standard Position 2
Libellé Sexe de
l'employé
Type Chaîne
Format A1
Mesure Nominales
Rôle Entrée
Valeurs valides f Féminin 216 45,6%
m Masculin 258 54,4%
La variable Sexe (sexe de l’employées) occupe la deuxième position dans la
base de données, est une variable de type chaîne, de mesure nominale, à deux
modalités « f », « m » désignant respectivement les employés de sexe féminin
et ceux de sexe masculin. Les hommes et les femmes représentent 54,4% et
45,6%. Les hommes sont donc majoritaires et les femmes minoritaires

educ
Valeur Nombre Pourcentage
Attributs standard Position 4
Libellé Niveau
d'éducation
(années)
Type Numérique
Format F2
Mesure Ordinales
Rôle Entrée
Valeurs valides 8 8 53 11,2%
12 12 190 40,1%
14 14 6 1,3%
15 15 116 24,5%
16 16 59 12,4%
17 17 11 2,3%
18 18 9 1,9%
19 19 27 5,7%
20 20 2 0,4%
21 21 1 0,2%
Valeurs manquantes 0 0 (Manquant) 0 0,0%

Le niveau d’éducation en année (educ) est la quatrième variable de la base de


données, est une variable de type numérique et de mesure ordinales, à 10
modalités.
Les employées ayant 12 ans de niveau d’éducation sont majoritaires et
représentent environ 4/10ème de l’échantillon. Ceux ayant entre 15 ans et 16 ans
représentent 36,9%. Nous avons qu’un seul individu ayant 21 ans de niveau
d’éducation.
catemp
Valeur Nombre Pourcentage
Attributs standard Position 5
Libellé Catégorie
d'employé
Type Numérique
Format F1
Mesure Nominales
Rôle Entrée
Valeurs valides 1 Secrétariat 363 76,6%
2 Cadre 27 5,7%
3 Responsable 84 17,7%
Valeurs manquantes 0 0 (Manquant) 0 0,0%

La variable catégorie d’employée, est la cinquième dans la base de données. Est


une variable de type numérique et mesure nominale. Le secrétariat a un
pourcentage de 76,6 % ; les cadres et les responsables occupent respectivement
5,6 et 17,7%.

salact
Valeur Nombre Pourcentage
Attributs standard Position 6
Libellé Salaire actuel
Type Numérique
Format DOLLAR8
Mesure Echelle
Rôle Entrée
N Valide 474
Manquant 0
Tendance et dispersion Moyenne $34,419.57
centrales Ecart type $17,075.661
25ème percentile $24,000.00
50ème percentile $28,875.00
75ème percentile $37,050.00
Valeurs de libellé $0 Manquant 0 0,0%

La variable Salaire actuel occupe la sixième position dans la base de données.


C’est une variable de type numérique et de mesure échelle. Elle dispose de 474
observations valides et 0 donnée manquante ; avec un salaire moyen est de
34.419,57$ et l’écart type est de 17.075,661$. Le calcul du coefficient variation,
ressort un coefficient de 50% environ et illustrant la forte dispersée du revenu
au sein de l’échantillon. Comme Q1 = 24000$ alors 25% des employés gagnent
moins que 24000$ ; donc moins que le salaire moyen. Q2 étant égale à
28 875$ ; alors ma moitié des employés gagnent au plus 28 875$ donc moins
que le salaire moyen. Ceci révèle une inégalité sociale dans la répartition du
revenu au sein de l’échantillon.
2- Etudier la corrélation entre les ∆bles Salact et Sabed
Analyse ➔Corrélation➔bivariée➔variables=salat ; sadeb➔ok

Les deux variables étant les variables quantitatives, l’étude de relation qui
existe entre elle, se fera par le biais d’un test de corrélation.
Les hypothèses de test de corrélation :

H0 : r (x ; y) = 0 ; la corrélation n’est pas significative

H1 : r (x ; y) ≠ 0 ; la corrélation entre x et y est significative.

Conditions de validation :
*Si la p-value ≤ 5% ; alors l’hypothèse H0 est rejetée et H1 acceptée.
*Si la p-value > 5% ; alors l’hypothèse H0 est acceptée et H1 est rejetée.
Corrélations
Salaire
Salaire actuel d'embauche
Salaire actuel Corrélation de Pearson 1 ,880**
Sig. (bilatérale) ,000
N 474 474
Salaire d'embauche Corrélation de Pearson ,880** 1
Sig. (bilatérale) ,000
N 474 474
**. La corrélation est significative au niveau 0.01 (bilatéral).

Ce tableau, présente le test de corrélation entre les variables salact et saldeb.


La p-value du tes étant égale à 0.000 donc inférieure à 5% alors l’hypothèse
nulle (H0) selon laquelle le coefficient de corrélation entre les deux variables est
nulle (n’est pas significative) est rejetée et l’hypothèse alternative H1 est
accepté. Nous pouvons donc conclure que le coefficient de corrélation linéaire
entre les variables salact et saldeb est significativement différent de 0.
Le coefficient de corrélation étant égale à 0.88 ; donc supérieur à 0(positive),
alors le salaire actuel et le salaire d’embauche évoluent dans le même sens. Un
employé ayant un salaire d’embauche élevé aura un salaire actuel élevé et vice
versa.

Comme | r |> 0.87 ; alors il existe une forte corrélation entre le salaire
d’embauche et le salaire actuel.
3- Etudier la relation de liaison (dépendance) entre la catégorie
d’employé et le sexe.
Analyse ➔Statistiques descriptive ➔ Tableaux croisés➔ligne = sexe➔
colonne = catemp➔Statistiques➔Khi-carré➔Poursuivre➔ok
Les deux variables étant des variable quantitatives, l’étude de la relation
qui existe entre elle sera faire par le biais d’un tes d’indépendance de
Khi-2, Khi -carré

H0 : pas de liaison entre x et y (il y a indépendance)

H1 £ une liaison entre x et y (dépendance entre x et y)

➔Conditions de validation

• Si la p-value est ≤ 5% ; alors H0 est rejetée et H1 est acceptée


• Si la p-value est > 5% ; alors H0 est acceptée et H1 est rejetée

Tableau croisé Sexe de l'employé * Catégorie d'employé


Effectif
Catégorie d'employé
Secrétariat Cadre Responsable Total
Sexe de l'employé Féminin 206 0 10 216

Masculin 157 27 74 258


Total 363 27 84 474

Le tableau ci-dessus présente la répartition de la catégorie de l’employé


selon le sexe. De son analyse, il ressort les informations suivantes :
- sur les 216 femmes de l’échantillon, 206 travaillent au secrétariat ;
- tous les cadres sont des hommes
- et sur les 84 responsables, seulement 10 qui sont de sexe féminin.
Les femmes ont donc une forte préférence pour les métiers du secrétariat et
les hommes sont prioritaires pour les postes de cadres et de responsables au
sein de l’échantillon d’étude. Qu’en est- il alors de la population mère d’où
provient cet échantillon ?
Les résultats du test d’indépendance de Khi-2, nous permettrons de répondre à
cette interrogation.

Tests du khi-carré
Signification
asymptotique
Valeur ddl (bilatérale)
khi-carré de Pearson 79,277a 2 ,000
Rapport de vraisemblance 95,463 2 ,000
N d'observations valides 474
a. 0 cellules (0,0%) ont un effectif théorique inférieur à 5. L'effectif
théorique minimum est de 12,30.

A l’issu du test d’indépendance de Khi-2 dont la p-value est de0.000 (inférieure


à 5%) nous pouvons conclure qu’il existe une relation de dépendance entre la
catégorie de l’employé et le sexe.
4- Comparer le salaire actuel des hommes et des femmes.
Nous implémentons un test de comparaison de moyennes.
Hypothèses de test de comparaison de moyennes.
Analyse➔Comparer les moyennes➔ test T sur échantillons
indépendances➔variables à tester= salact➔ variable de regroupement = sexe
➔ définir des groupes ➔ group1= f ; group2= m➔ poursuivre➔

H0 : Salact moyen (homme)=Salact moyen (femmes)

H1 : Salact moyen (homme)≠Salact moyen (femmes)

➔Conditions de validation

• Si la p-value est ≤ 5% ; alors H0 est rejetée et H1 est acceptée


• Si la p-value est > 5% ; alors H0 est acceptée et H1 est rejetée
Statistiques de groupe
Moyenne erreur
Sexe de l'employé N Moyenne Ecart type standard
Salaire actuel Féminin 216 $26,031.92 $7,558.021 $514.258
Masculin 258 $41,441.78 $19,499.214 $1,213.968

Ce tableau présente la statistique descriptive du salaire actuel des hommes et des femmes. Il
ressort de cet analyse que le salaire moyen des femmes est de 26031 et celui des hommes
41441 dollars avec des écart types respectifs de 7558 dollars et 19499 dollars. Le calcul des
coefficients de variations (0 .29 pour des femmes e t de 0.47 pour les hommes) montre que le
salaire de hommes est plus dispersé que celui de femmes.
Au sein de l’échantillons d’étude le salaire moyen des hommes est supérieur au salaire moyen
des femmes. Qu’en est il alors de la population mère d’où sont tirer les employés ? Le test de
comparaison de moyenne nous permettra de répondre à cette interrogation.
Test des échantillons indépendants

Test de Levene sur l'égalité


des variances Test t pour égalité des moyennes
Différence Intervalle de confiance de la
Sig. Différence erreur différence à 95 %
F Sig. t ddl (bilatéral) moyenne standard Inférieur Supérieur
Salaire Hypothèse de 119,669 ,000 -10,945 472 ,000 -$15,409.862 $1,407.906 -$18,176.401 -$12,643.322
actuel variances égales
Hypothèse de -11,688 344,262 ,000 -$15,409.862 $1,318.400 -$18,002.996 -$12,816.728
variances inégales

H0 : var (homme) = var (femme) homoscédasticité

H1 : var (homme) ≠ var (femme) hétéroscédasticité

Ce tableau présente les résultats du test de Levine sur l’égalité des variations dans sa première partie et le test t pour l’égalité de moyenne dans sa
deuxième partie. L’interprétation du test de comparaison des résultats du test de Levine. En effet, si les variation égales(homoscédasticité), nous
interprétons la première ligne du test de comparaison des moyennes ; mais si les variances sont inégales, nous interprétons la deuxième ligne (en bleu)

Le test de Levine révèle une p-value de 0.000( en jeune) < 5%, alors l’hypothèse nulle d’égalité de moyenne entre les salaire des hommes et des femmes est
donc rejetée. Nous sommes donc en présence d’une inégalité de variance (hétéroscédasticité), nous allons donc interpréter la deuxième ligne du test de
comparaison moyenne en Bleu. Le test de moyenne révèle un p-value de 0.000 (en vert)>5%, alors l’hypothèse nulle d’égalité de moyenne entre le salaire
des hommes et des fem
mes est donc rejetée. Aux vues de la statistique descriptive ci haut, nous pouvons conclure que le salaire moyen des hommes est significativement supérieur
au salaire des au salaire moyen des femmes.
5- Créer la ∆ble diplôme qui respecte les conditions suivantes :

1 si educ=8
.
Diplôme= 2 si educ=12

3 sinon

➔Transformation➔Création de ∆ble➔∆ble entréé= educ➔∆bles de destination ➔nom=


diplôme➔libelle = diplôme➔changer➔anciennes et nouvelles valeurs
Anciennes valeurs Nouvelles valeur
8 1 ➔ Toutes les autres valeurs➔nouvelles
valeurs=3➔poursuivre➔ok
12 2

6-Fairee la statistique descriptive sur la ∆ble diplôme


Analyse ➔ statistique descriptive➔ Fréquence ➔ Diplôme➔graphiques➔ graphique
circulaire➔ Poursuivre➔ok

7- Labelliser la ∆bles diplôme suivent les conditions :

1 = BAC

Diplôme 2 = BTS

3= Licenc
8- Etudier la relation entre le diplôme et le salaire actuel
➔Analyse➔Comparer les moyennes➔ANOVA à un facteur➔∆bles dépendante =
Salact➔facteur=Diplôme ➔options➔caractéristique➔tracé de des moyennes➔Test
d’homogénéité de variance➔Brown Forsyth➔Welch➔Poursuivre➔Post
hoc➔Scheffe➔T2-de Tamhane➔Poursuivre➔ok
Hypothèses du test ANOVA

H0 : Salact (BAC)= Salact ( DTS)= Salact ( LICENCE)


H1 Au moins 2 salact différent
Le salaire actuel étant une variable quantitative, et le diplôme une variable
qualitative(ordinale), l’étude de la relation entre elles se fera par le biais d’une ANOVA
(Analyse de la Variance)
Processus de réalisation d’un ANOVA :
1) Echantillon aléatoire
2) Groupages indépendants
3) Normalité de Y dans les groupes (Dans SPSS, voir KS-SW)
4) Homogénéité de la variance, de Y dans les groupes (Dans SPSS, Levence) (En cas
d’hétérogénéité, Utiliser la statistique corrigée de Welch, Brown-Forsythe)
5) ANOVA non paramétrique(kruskal-wallis,Dunn) quand la normalité ne tient plus.
6) Pas de points extrêmes(outliers)
7) Post-hoc test : SPSS, Scheffe, Tukey, Bonferrroni (lorsque les variables sont égales) (si
variance inégales, Tamhane, Dunnett)

Descriptives
Salaire actuel

Intervalle de confiance à 95
% pour la moyenne
Erreur Borne Borne
N Moyenne Ecart type standard inférieure supérieure Minimum Maximum
BAC 53 $24,399.0 $5,190.482 $712.968 $22,968.38 $25,829.73 $15,750 $34,500
6
BTS 190 $25,887.1 $5,559.764 $403.348 $25,091.52 $26,682.80 $16,200 $59,400
6
Licence 231 $43,736.6 $19,941.93 $1,312.083 $41,151.41 $46,321.88 $18,750 $135,000
5 8
Total 474 $34,419.5 $17,075.66 $784.311 $32,878.40 $35,960.73 $15,750 $135,000
7 1

Ce tableau présente la statistique descriptive du salaire actuel des employés en


fonction de leur diplôme. De son analyse, il ressort que les employés ayant le BAC, le
BTS et la LICENCE ont des salaire actuels moyens respectif de $24,399.06 ;
$25,887.16 et $43,736.65, les écart types de ces groupes de salariés sont
respectivement de : $5,190.482 ; $5,559.764 ; $19,941.938. De ces données, l’on
peut déduire les constats suivants :
• Il y un grand écart entre le salaire de employés ayant la Licence et celui des
employés ayant le BAC et le BTS.
• Au sein de l’échantillon d’étude, nous observons une hétérogénéité(inégalité) des
variances
A présent vérifions la présence d’hétérogénéité des variances au sein de la
population Mère

Test d'homogénéité des variances


Statistique de
Levene ddl1 ddl2 Sig.
Salaire actuel Basé sur la moyenne 100,815 2 471 ,000
Basé sur la médiane 53,653 2 471 ,000
Basé sur la médiane avec 53,653 2 256,656 ,000
ddl ajusté
Basé sur la moyenne 84,964 2 471 ,000
tronquée

Ce tableau présente le test d’homogénéité des variances au sein de la population


Mère. La p-value du test étant égale à 0.000<5%, alors hypothèse nulle(H0)
d’homogénéité des variances est rejetée. Nous sommes donc en présence d’une
hétérogénéité des variances. Pour ce fait, nous n’interprèterons plus les résultats du
test ANOVA, mais plutôt ceux du test de Welch ou de Brown Forsyth

ANOVA
Salaire actuel
Somme des
carrés ddl Carré moyen F Sig.
Intergroupes 39206779093,3 2 19603389546,6 93,539 ,000
55 77
Intragroupes 98709716342,9 471 209574769,306
85
Total 137916495436, 473
340

Tests robustes d'égalité des moyennes


Salaire actuel
Statistiquesa ddl1 ddl2 Sig.
Welch 91,169 2 169,271 ,000
Brown-Forsythe 159,168 2 313,499 ,000
a. F distribué asymptotiquement
La p-value du test de welch étant égale à0.000<5%, alors l’hypothèse nulle d’égalité de
moyenne des salaires actuels des employés ayant le BAC, le BTS et la Licence est rejetée.
Nous pouvons donc conclure qu’au sein de la population Mère, il y a au moins deux salaires
moyens qui différent dans le groupe.
Les résultats du test de post-hoc nous permettrons d’identifier ces groupes.

Comparaisons multiples :
Variable dépendante: Salaire actuel
Intervalle de confiance à 95 %
Différence Borne
(I) Dipôme (J) Dipôme moyenne (I-J) Erreur standard Sig. Borne inférieure supérieure
Scheffé BAC BTS -$1,488.101 $2,248.837 ,803 -$7,010.24 $4,034.03
Licence -$19,337.588* $2,204.879 ,000 -$24,751.78 -$13,923.39
BTS BAC $1,488.101 $2,248.837 ,803 -$4,034.03 $7,010.24
Licence -$17,849.487* $1,417.842 ,000 -$21,331.07 -$14,367.90
Licence BAC $19,337.588* $2,204.879 ,000 $13,923.39 $24,751.78
BTS $17,849.487* $1,417.842 ,000 $14,367.90 $21,331.07
Tamhane BAC BTS -$1,488.101 $819.153 ,203 -$3,481.89 $505.69
Licence -$19,337.588* $1,493.280 ,000 -$22,924.72 -$15,750.45
BTS BAC $1,488.101 $819.153 ,203 -$505.69 $3,481.89
Licence -$17,849.487* $1,372.680 ,000 -$21,147.35 -$14,551.62
Licence BAC $19,337.588* $1,493.280 ,000 $15,750.45 $22,924.72
BTS $17,849.487* $1,372.680 ,000 $14,551.62 $21,147.35
*. La différence moyenne est significative au niveau 0.05.

Etant en présence d’une hétérogénéité des variances, nous interpréterons les resultats de
Tamhane plutôt que ceux de Scheffé qui se font en cas d’homogénéité des variances
Ces résultats révèlent que la différence de moyenne entre le salaire aynat le BAC et ceux
ayant le BTS est de -$1488.101 mais snon significative car la p-value = 0.203>5%. Au sein de
la population, la différence de moyenne entre BAC et le BTS n’est donc pas significative.
La différence de moyenne en le BAD et la Licence est de -$19337.588 avec une p-value de
0.000< 5%. Nous pouvons donc conclure qu’au sein de la population Mère, il existe une
différence significative entre le salaire actuel du BAC et celui de la Licenc.
Salaire actuel
Sous-ensemble pour alpha = 0.05
Dipôme N 1 2
Schefféa,b BAC 53 $24,399.06
BTS 190 $25,887.16
Licence 231 $43,736.65
Sig. ,757 1,000
Les moyennes des groupes des sous-ensembles homogènes sont
affichées.
a. Utilise la taille d'échantillon de la moyenne harmonique = 105,411.
b. Les tailles de groupes ne sont pas égales. La moyenne harmonique des
tailles de groupe est utilisée. Les niveaux d'erreur de type I ne sont pas
garantis.

Au vue de ces résultats, sheffé nous propose le regroupement des employés ayant le BAC et le
BTS dans un sous-groupe d’une part et ceux de la Licence d’autre part

Vous aimerez peut-être aussi