Vous êtes sur la page 1sur 154

lOMoARcPSD|6842479

Résumé - Syllabus de statistique

Statistiques et méthodes de recherche (Haute École Louvain en Hainaut)

StuDocu n'est pas sponsorisé ou supporté par une université ou école


Téléchargé par MF K (mfoundja.k@gmail.com)
lOMoARcPSD|6842479

Statistique 1
Marielle BRUYNINCKX

Version provisoire

Année académique 2013-2014

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Plan du cours

Chapitre 1 : statistique descriptive


! Tableaux de données et représentations graphiques
! Indices statistiques (moyenne, mode, écart type, quantiles, note z, note u,...)
! Corrélation paramétrique (coefficient r de Bravais-Pearson) - aspects descriptifs

Chapitre 2: statistique inférentielle


! Notions de probabilités et distributions théoriques (normale et binomiale)
! Échantillonnage
! Intervalles de confiance
! Tests statistiques (F de Snédecor, t de Student pour 1 échantillon, pour 2 échantillons
indépendants/appareillés)

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Table des matières


Chapitre 1 : statistique descriptive (descriptive statistics) ..................................................................... 9
1. Présenter et organiser les données recueillies ......................................................................... 10
1.1. Tableaux de données : introduction.................................................................................. 10
1.2. Ensembles et tableaux de données ................................................................................... 10
1.2.1. Ensemble homogène (homogeneous population): ................................................... 11
1.2.2. Ensemble hétérogène (heterogeneous population): ..................................................... 12
a. Groupes indépendants .................................................................................................. 12
b. Groupes appareillés....................................................................................................... 13
c. Groupes hybrides .......................................................................................................... 14
1.2.3. Effectifs ............................................................................................................................ 15
1.2.4. Données (data) ................................................................................................................ 16
1.3. Différents types de données ............................................................................................. 17
a. Données métriques (numerical data)............................................................................ 17
b. Données non métriques (non numerical data) ............................................................. 18
! Ordinales par rang ..................................................................................................... 18
! Ordinales par catégories ........................................................................................... 19
! Nominales .................................................................................................................. 20
1.4. Comment présenter les données? Situation 1 : petits effectifs (N<50) ............................ 22
1.4.1. Données brutes ......................................................................................................... 22
1.4.2. Suite ordonnée .......................................................................................................... 22
1.4.3. Notation données/fréquences .................................................................................. 23
1.4.4. Représentations graphiques ..................................................................................... 24
a. Données non métriques ................................................................................................ 24
! Données ordinales par rang ...................................................................................... 24
! Données ordinales par catégories ............................................................................. 24
! Données nominales ................................................................................................... 25
b. Données métriques ....................................................................................................... 29
1.5. Comment présenter les données? Situation 2 : grands effectifs (N>50) .......................... 30
1.5.1 Notions de base ................................................................................................................ 30
a. Domaine de la variable .................................................................................................. 30
b. Etendue des données .................................................................................................... 31
c. Nombre de valeurs possibles ........................................................................................ 31
1.5.2. Représentation graphique des données métriques en classes ....................................... 31

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

a. Limites de classe ............................................................................................................ 32


b. Bornes de classe ............................................................................................................ 32
c. Centres de classe ........................................................................................................... 33
d. Intervalle de classe ........................................................................................................ 33
e. Effectifs de classe .......................................................................................................... 33
f. Proportions d’effectifs................................................................................................... 34
g. Densités d’effectifs ........................................................................................................ 35
h. Comment grouper les données en classes ? ................................................................. 35
i. Présentation numérique des données groupées en classes ......................................... 35
j. Construction de l’histogramme ..................................................................................... 36
1.5.3. En résumé ............................................................................................................................ 37
2. Caractériser l’ensemble des données par une valeur numérique ............................................ 39
2.1. Indices de position............................................................................................................. 39
2.1.1. Moyenne ................................................................................................................... 39
a. Moyenne pondérée ....................................................................................................... 41
! A partir de nombres .................................................................................................. 41
! A partir de moyennes ................................................................................................ 43
! A partir des centres de classe ................................................................................... 44
2.1.2. Médiane..................................................................................................................... 44
2.1.3. Mode ......................................................................................................................... 45
2.1.4. Indices quantiles ........................................................................................................ 48
! Les quartiles (the quartiles) ....................................................................................... 48
! Les déciles (the deciles) .......................................................................................... 49
! Les (per)centiles (the (per)centiles) ...................................................................... 49
2.2. Indices de dispersion ......................................................................................................... 51
2.2.1. Etendue des données (the range) ............................................................................. 51
2.2.2. Ecart type (the standard deviation) .......................................................................... 51
2.2.3. Variance (the variance) ............................................................................................. 52
2.2.4. En résumé .................................................................................................................. 52
2.3. La fonction de densité ....................................................................................................... 53
2.3.1. Caractéristiques ......................................................................................................... 53
2.3.2. Les formes les plus courantes ................................................................................... 54
a. Symétrique (symmetrical distribution) ......................................................................... 54
b. Biaisée à droite (skewed distribution - positive skew) .................................................. 55

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

c. Biaisée à gauche (skewed distribution - negative skew) ............................................... 56


d. Monomodales ............................................................................................................... 56
e. Plurimodales .................................................................................................................. 57
2.3.3. Eléments remarquables............................................................................................. 57
2.3.4. Travail d’intégration .................................................................................................. 62
2.4. Loi normale ou loi de Laplace-Gauss (the normal distribution or the normal curve) ....... 63
2.4.1. Caractéristiques ............................................................................................................... 63
2.4.2. Allure .............................................................................................................................. 64
2.5. Indices de relation ............................................................................................................. 66
2.5.1. La note z ou variable centrée réduite ....................................................................... 66
a. Définition ....................................................................................................................... 66
b. Propriétés de la moyenne et de l’écart type ................................................................. 66
! Propriété de la moyenne ........................................................................................... 66
! Corollaire ................................................................................................................... 67
! Propriété de l’écart type ........................................................................................... 68
! Corollaire ................................................................................................................... 69
c. Formule de la note z ...................................................................................................... 70
d. Distribution centrée réduite .......................................................................................... 72
e. Calcul de proportions sous la loi normale centrée réduite ........................................... 72
! Calcul d’une proportion entre deux points (a et b) : principes ................................. 72
! Utilisation de la table des aires sous la courbe normale centrée réduite................. 73
! Surface délimitée par la moyenne et une coupure à droite ................................. 73
! Surface délimitée par la moyenne et une coupure à gauche ............................... 74
! Surface délimitée par une coupure à gauche et une coupure à droite ................ 74
! Surface délimitée par deux coupures à droite ...................................................... 74
! Surface délimitée par deux coupures à gauche .................................................... 75
! Surface inférieure à une coupure à droite ............................................................ 75
! Surface supérieure à une coupure à gauche ......................................................... 75
! Surface supérieure à une coupure à droite ........................................................... 76
! Surface inférieure à une coupure à gauche .......................................................... 76
! En résumé .............................................................................................................. 76
2.5.2. Calcul d’aires sous n’importe quelle courbe normale ............................................... 77
2.6. Le coefficient de corrélation r de Bravais-Pearson ........................................................... 81
2.6.1. Concepts de base....................................................................................................... 81

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

a. Groupes appareillés (paired groups) ............................................................................. 81


b. Coefficient de corrélation (correlation coefficient) ...................................................... 81
c. Diagramme de dispersion (scatter plot ; scatter diagram) ........................................... 81
d. Ligne de régression (regression line)............................................................................. 82
e. Corrélation et régression simples.................................................................................. 83
f. Corrélation et régression multiples ............................................................................... 83
g. Corrélation linéaire........................................................................................................ 84
h. Corrélation non linéaire ................................................................................................ 84
2.6.2. Caractéristiques du coefficient r de Bravais-Pearson............................................... 85
a. Diagrammes de dispersion: situations .......................................................................... 85
! r = 1 ............................................................................................................................ 85
! r = -1 .......................................................................................................................... 86
! r = 0 ............................................................................................................................ 87
! 0 < r < 1 ...................................................................................................................... 88
! -1 < r < 0 ..................................................................................................................... 89
b. Droite de régression de y en x ...................................................................................... 90
c. Droite de régression de x en y ...................................................................................... 90
d. Droites de régression: situations................................................................................... 90
! r = 1 ............................................................................................................................ 90
! r = -1 .......................................................................................................................... 91
! r = 0 ............................................................................................................................ 91
! 0 < r < 1 ...................................................................................................................... 91
! -1 < r < 0 ..................................................................................................................... 92
e. Droites de régression: synthèse .................................................................................... 92
2.6.3. Comment interpréter un coefficient de corrélation ?............................................... 92
2.6.4. Synthèse .................................................................................................................... 93
2.7. En résumé .......................................................................................................................... 94
Chapitre 2 : statistique inférentielle.............................................................................................. 95
1. Notions élémentaires de probabilités ....................................................................................... 95
1.1. Probabilité simple.............................................................................................................. 95
1.2. Probabilité a priori (the a priori probability) ..................................................................... 97
1.3. Evènements impossible et certain .................................................................................... 99
1.4. Probabilités complémentaires, variable dichotomique et évènements incompatibles . 100

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

1.5. Théorèmes d’addition et de multiplication ; tirages exhaustifs et non exhaustifs ;


évènements indépendants et dépendants ................................................................................. 101
1.5.1. Théorème d’addition (addition rule) ....................................................................... 102
1.5.2. Théorème de multiplication(multiplication rule) .................................................... 102
1.5.3. Synthèse .................................................................................................................. 110
1.5.4. Travail d’intégration ................................................................................................ 110
1.6. En résumé ........................................................................................................................ 111
2. Loi binomiale (binomial distribution) ...................................................................................... 112
2.1. Binôme de Newton.......................................................................................................... 112
2.2. Description et utilisation de la loi binomiale................................................................... 114
2.3. Propriétés de la loi binomiale.......................................................................................... 118
2.4. Approche de la loi binomiale par la loi normale ............................................................. 122
2.5. Synthèse .......................................................................................................................... 123
3. Techniques inférentielles ........................................................................................................ 123
3.1. Objectifs........................................................................................................................... 123
3.2. Echantillonnage ............................................................................................................... 124
3.2.1. Concepts de base..................................................................................................... 124
3.2.2. Représentativité de l’échantillon ............................................................................ 125
3.2.3. Statistiques et paramètres ...................................................................................... 126
3.2.4. Nombre de degrés de liberté .................................................................................. 127
3.2.5. Distributions d’échantillonnage .............................................................................. 130
3.2.6. Paramètre estimé et erreur type sur l’indice .......................................................... 131
a. Distribution d’échantillonnage de la moyenne ........................................................... 131
b. Distribution d’échantillonnage de l’écart type............................................................ 131
c. Distribution d’échantillonnage des proportions ......................................................... 132
3.2.7. Intervalle de confiance ............................................................................................ 132
3.2.8. Quelles questions faut-il se poser lorsqu’on cherche à déterminer un intervalle de
confiance? ............................................................................................................................... 133
a. Dans quelle distribution d’échantillonnage dois-je travailler? ................................... 133
b. Quelle est la forme de cette distribution d’échantillonnage? .................................... 133
! Distribution d’échantillonnage de la moyenne ....................................................... 133
! Distribution d’échantillonnage de l’écart type........................................................ 134
! Distribution d’échantillonnage des proportions ................................................. 134
! Synthèse.................................................................................................................. 134
c. Quelle est la probabilité que je souhaite associer à l’intervalle de confiance? .......... 134

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.2.9. Détermination de la note z (u ou t) ......................................................................... 135


3.2.10. En résumé ................................................................................................................ 135
3.2.11. Rédaction des phrases de conclusion ..................................................................... 137
3.2.12. Travail d’intégration ................................................................................................ 137
3.3. Tests d’hypothèse (hypothesis testing)........................................................................... 138
3.3.1. Tests de conformité (test of conformity) ................................................................ 138
3.3.2. Tests d’homogénéité(test of homogeneity) ............................................................ 139
3.3.3. Principes .................................................................................................................. 139
3.3.4. Hypothèse nulle (null hypothesis) ........................................................................... 140
3.3.5. Intervalle de confiance (I.C.)(Confidence interval).................................................. 141
3.3.6. Test à deux issues (two-tailed test) ........................................................................ 142
3.3.7. Test à une issue (one-tailed test) ............................................................................ 144
3.3.8. Exercices d’intégration ............................................................................................ 146
3.3.9. Transformer un résultat pour un test à 1 issue en un résultat pour un test à 2 issues
147
3.3.10. Transformer un résultat pour un test à 2 issues en un résultat pour un test à 1 issue
148
3.3.11. En résumé ................................................................................................................ 148
3.3.12. Comment décider si le résultat d’un test est globalement significatif? (conventional
levels of significance)............................................................................................................... 149
3.3.13. Le test F de Snedecor .............................................................................................. 149
3.3.14. Le test t de Student pour échantillons indépendants ............................................. 150
3.3.15. Le test t de Student pour échantillons appareillés.................................................. 151
3.3.16. Le test t de conformité ............................................................................................ 152

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Chapitre 1 : statistique descriptive (descriptive statistics)

Premier objectif : organiser et présenter les données recueillies lors d’une expérimentation,
d’une enquête ou d’une observation

Second objectif: caractériser l’ensemble des données par une valeur numérique

La statistique descriptive offre ainsi des techniques pour organiser et présenter les données
sous forme de tableaux ou de graphes. Elle permet également de caractériser l'ensemble à
l’aide de valeurs numériques spécifiques (ou indices) comme la moyenne arithmétique par
exemple. La plupart des techniques de la statistique descriptive reposent sur des traitements
arithmétiques élémentaires, fournissant des images simples d'une réalité parfois complexe.

Exemple

Un chercheur a pour mission d’évaluer la taille des garçons à la fin de l'adolescence. Il


procède pour ce faire à la mesure d’un groupe d’étudiants de dernière année du secondaire
et consigne ces données sur une liste alphabétique. La simple consultation de cette liste ne
permet pas de se faire aisément une idée d’ensemble. Il est nécessaire de traiter les données
recueillies pour en extraire les éléments pertinents comme, par exemple, la taille moyenne
ou encore, la taille la plus fréquemment présente (cet indice particulier est appelé le mode).
Il peut également résumer les données sous la forme d'un tableau ordonné ou encore, d'un
graphique.

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

1. Présenter et organiser les données recueillies

1.1. Tableaux de données : introduction

Hommes Femmes

Haïti 61 63
Rép. Dom. 70 76
Jamaïque 70 76
Belgique 77 83
Norvège 79 83
RDC 47 50
Tableau 1 : espérance de vie à la naissance (2010) hommes/femmes – en années (source:
worldbank, 2012)

Questions

! Qui a la plus grande espérance de vie? Les hommes ou les femmes?

! Cette constatation est-elle valable pour tous les pays présentés dans le tableau?

! Dans quel pays les femmes ont-elles l’espérance de vie la plus courte?

! Dans quel pays les hommes ont-ils l’espérance de vie la plus longue?

! De combien est l’espérance de vie pour les femmes en Belgique?

Le tableau de données permet d’organiser et de présenter les données simplement. Grâce à


la légende qui se trouve sous le tableau, chacun peut effectuer une lecture aisée des
données.

On verra plus tard que les graphiques permettent, eux aussi, une présentation aisément
lisible des données.

1.2. Ensembles et tableaux de données

Une expérience en sciences humaines conduit à recueillir des données à partir de mesures,
ou d’observations, effectuées sur les éléments constituant l’ensemble considéré. Ces

10

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

éléments seront ainsi appelés, selon les cas, objets de mesure ou d’objets d’observation. Le
choix de la méthode statistique dépend d’une part, des caractéristiques de cet ensemble et
d’autre part, du type de données recueillies.

L’ensemble peut être constitué :

! d’un seul groupe de données (on parlera dans ce cas d’ensemble homogène)
! de plusieurs groupes de données (on parlera dans ce cas d’ensemble hétérogène).

1.2.1. Ensemble homogène (homogeneous population):

Ensemble de données recueillies à l’occasion d’une seule prise de mesures et formant un


ensemble homogène.

Julie 8

Anna 9

Franco 3

Gaëlle 6

Jules 5

Hassan 8

Lola 9

Tom 3

Dylan 8

Nathan 10

Tableau 2 : résultats au test de calcul (/10) de la classe de 1ère A de l’Ecole Victor Hugo

11

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

1.2.2. Ensemble hétérogène (heterogeneous population):

Ces groupes peuvent être indépendants, appareillés ou hybrides

a. Groupes indépendants

Des groupes sont dits indépendants


si, a priori, il n'y a aucune raison
d'associer les données d’un groupe
à celles de l’autre.

Ensemble de données recueillies à l’occasion de deux prises de mesure parallèles et formant


un ensemble hétérogène.

Ex.: résultats de deux classes à un même test de calcul

Le nombre de données du premier groupe peut être différent de celui du second groupe.

12

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

ère ère
Classe de 1 A Classe de 1 B Décrivez l’ensemble des
données ci-contre :
Julie 8 Steve 5

Anna 9 Laura 7

Franco 3 Emma 4

Gaëlle 6 Kevin 7

Jules 5 Thomas 3

Hassan 8 Milo 8

Lola 9 Leila 6

Tom 3 Zara 9

Dylan 8

Nathan 10

Tableau 3 : résultats au test de calcul (/10) des deux classes de première année de l’Ecole
Victor Hugo

Ensemble hétérogène de données, constitué de 2 groupes indépendants

b. Groupes appareillés

Des groupes sont dits appareillés


si on peut associer chaque
donnée d'un groupe à une seule
donnée d'un autre groupe.

Ensemble de données recueillies à l’occasion de deux prises de mesure sur les mêmes sujets
et formant un ensemble hétérogène.

Ex. : les résultats d'une classe à deux examens

Le nombre de données du premier groupe doit être identique à celui du second groupe : on
travaille avec des paires de données.

13

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Test de calcul Test de lecture Décrivez l’ensemble des données ci-


Julie 8 7 contre :

Anna 9 8
Franco 3 4
Gaëlle 6 7
Jules 5 3
Hassan 8 10
Lola 9 7
Tom 3 5
Dylan 8 7
Nathan 10 8
Tableau 4 : résultats au test de calcul (/10) et au test de lecture (/10) de la classe de 1ère A de l’Ecole
Victor Hugo

Note : des groupes appareillés sont généralement constitués à partir de plusieurs mesures, ou
observations, effectuées sur les mêmes objets. Ces mesures, ou observations, sont soit similaires et
effectuées à des moments différents, soit différentes et réalisées au cours d’une même période.

Exemples :

a. Les résultats d’une classe à l’examen de mathématique en janvier et en juin " pour chaque élève,
on peut associer une note de mathématique en janvier à une note de mathématique en juin.

b. Les résultats d’une classe aux examens de physique et de mathématique " pour chaque élève, on
peut associer une note de mathématique à une note de physique.

c. Groupes hybrides

Les groupes sont hybrides s'ils


possèdent certains éléments
communs.

Ex. : dans une classe, le groupe des élèves qui pèsent plus de 60 kg et celui de ceux qui
mesurent plus de 160 cm.

Ce type d’ensemble ne se prête généralement pas aux traitements statistiques.

14

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

1.2.3. Effectifs

Dans le cas d’un ensemble homogène, on recueille une donnée pour chaque objet; l’effectif
total est donc égal au nombre d’objets de mesure ou d’observation (donc, de données).
L’effectif total est noté N.

Ex : donner l’effectif du tableau 1 "

Donnez les effectifs des différents groupes ainsi que l’effectif total des tableaux 3 et 4 ; utilisez
les notations correctes :

ère ère
Classe de 1 A Classe de 1 B Calculez les effectifs et
décrivez l’ensemble des
Julie 8 Steve 5
données ci-contre :
Anna 9 Laura 7
Franco 3 Emma 4
Gaëlle 6 Kevin 7
Jules 5 Thomas 3
Hassan 8 Milo 8
Lola 9 Leila 6
Tom 3 Zara 9
Dylan 8
Nathan 10

Tableau 3 : résultats au test de calcul (/10) des deux classes de première année de l’Ecole
Victor Hugo

15

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Test de calcul Test de lecture Calculez les effectifs et


décrivez l’ensemble des
Julie 8 7 données ci-contre :
Anna 9 8

Franco 3 4

Gaëlle 6 7

Jules 5 3

Hassan 8 10

Lola 9 7

Tom 3 5

Dylan 8 7

Nathan 10 8

Tableau 4 : résultats au test de calcul (/10) et au test de lecture (/10) de la classe de 1ère A de l’Ecole
Victor Hugo

1.2.4. Données (data)


Les données sont notées Xi

Julie 8 Donnez la valeur des données demandées :

Anna 9 X=
1

Franco 3
X=
3
Gaëlle 6
X=
Jules 5 7

Hassan 8 X=
9
Lola 9

Tom 3

Dylan 8

Nathan 10
Tableau 2 : résultats au test de calcul (/10) de la classe de 1ère A de l’Ecole Victor Hugo

16

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

1.3. Différents types de données

Pour réaliser des représentations graphiques, il faut pouvoir reconnaître les différents types
de données:

1. Données métriques

2. Données non métriques

! Ordinales par rang (ranked ordinal data; ordinal ranking)


! Ordinales par catégories (grouped ordinal data; ordinal data organized by category)
! Nominales (nominal data)

a. Données métriques (numerical data)

Les données métriques proviennent de mesures, ou de comptages, effectués sur les


éléments de l'ensemble.

Exemples.

a. La taille et le poids des élèves d’une classe (données métriques issues de mesures).

b. Le nombre de fautes dans une dictée (données métriques issues de comptages).

Chaque donnée peut être située sur un axe pourvu d'une unité correspondant à la mesure.

Si elles sont issues de mesures, elles sont théoriquement continues (c’est-à-dire sans
interruption) car tous les points de l'axe peuvent théoriquement représenter une donnée. En
pratique, la mesure est déterminée par la précision de la mesure et les données ne peuvent
se situer qu'en des endroits précis, discrets de l'axe, ce qui a pour conséquence que toutes
les données métriques peuvent, au final, être considérées comme discrètes.

Ex. : tailles mesurées avec une précision de mesure de 1 cm

17

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Si elles proviennent de comptages, les données métriques se répartissent sur l'axe de


manière discontinue (ou discrète).

Ex : nombres de fautes dans une dictée

b. Données non métriques (non numerical data)

Les données non métriques ne sont pas issues d’une mesure ou d’un comptage mais
proviennent plutôt d’un processus de classement ou de répartition (individuelle ou en
catégories) des éléments de l'ensemble.

! Ordinales par rang

Hiérarchie, ordre

# classement individuel et ordonné

Chaque élément est caractérisé par un nombre correspondant à sa place dans le classement
(ou rang). Lorsque deux ou plusieurs valeurs sont identiques, leur rang est égal à la moyenne
arithmétique des rangs de ces valeurs.

Autres exemples : classement des élèves par ordre de tailles (prof de gym) ; chevaux à
l’arrivée d’une course (premier, deuxième et troisième).

Attribuez un rang à chacune de ces 8 tailles:

155 160 162 162 170 176 182 187

18

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! Ordinales par catégories

Hiérarchie, ordre

# données réparties en classes mutuellement exclusives et ordonnées

La caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif
est toujours un nombre entier) : 5 grands, 6 moyens, 10 petits.

Les données ordinales peuvent également faire l’objet de présentations sous la forme de
pourcentages.

Degré de satisfaction Pourcentages

Je la recommande 74%

Très satisfait 17%

satisfait 5%

Moyennement satisfait 3%

Pas du tout satisfait 1%

Tableau 5 : degré de satisfaction des participants à une formation

19

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! Nominales

Hiérarchie, ordre

# données réparties en classes mutuellement exclusives mais pas ordonnées, pas


hiérarchisées

La caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif
est toujours un nombre entier) : 6 cheveux blonds; 10 cheveux bruns; 4 cheveux noirs.

Les données nominales peuvent également faire l’objet de présentations sous la forme de
pourcentages.

Religions Pourcentages

Hindouisme 49%

Christianisme 32%

Islam 17%

Bouddhisme et religions chinoises 0,4%

Sans religion et autres 1%

Tableau 6 : Principales religions en présence à l’Ile Maurice (selon le recensement de 2011)

20

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

21

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

1.4. Comment présenter les données? Situation 1 : petits effectifs (N<50)

1.4.1. Données brutes


Julie 8
Anna 9
Franco 3
Gaëlle 6
Jules 5
Hassan 8
Lola 9
Tom 3 Les données brutes sont les données
Dylan 8 telles qu’elles ont été récoltées, sans
aucun souci d’ordonnancement.
Nathan 10
N =10
Tableau 2 : résultats au test de calcul (/10) de la classe de 1ère A de l’Ecole Victor Hugo

Ex. : Les résultats à l’évaluation du cours de “Questions approfondies de sciences cognitives”, donnés
au point près et présentés en fonction de l'ordre de passage des étudiants lors de cet examen oral.

1.4.2. Suite ordonnée

Une suite ordonnée est le résultat


du rangement des données brutes
par ordre croissant (de la plus
petite donnée à la plus grande) ou
décroissant (de la plus grande
donnée à la plus petite)

N = 10
Tableau 2 : résultats au test de calcul (/10), ordonnés par ordre croissant, de la classe de 1ère A de
l’Ecole Victor Hugo

22

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

N = 10
Tableau 2 : résultats au test de calcul (/10), ordonnés par ordre décroissant, de la classe de 1ère A de
l’Ecole Victor Hugo

Ordonnez par ordre décroissant les données suivantes:


34 45 67 94 23 15 61 89
20 71 56 7 0 11 92 76

1.4.3. Notation données/fréquences


A chaque donnée Xi, on associe un nombre fi qui indique combien d’éléments de l’ensemble
sont caractérisés par cette donnée.

N = ∑ fi
L’effectif total est égal à la
somme des fréquences
d’apparition des données.

Tableau 2 : résultats au test de calcul (/10) de la classe de 1ère A de l’Ecole Victor Hugo

23

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Ex. : soit la suite ordonnée suivante (résultats, donnés au point près, d’un groupe à un test d’habileté
/20):

14 13 13 12 12 12 10 10 10 9

Nous voyons que la donnée 9 n’apparaît qu’une seule fois, tout comme la donnée 14; les
données 10 et 12 sont présentes à 3 reprises, tandis que la donnée 13 n’apparaît que 2 fois.
L'effectif associé aux notes 9 et 14 est donc1; celui associé aux notes 10 et 12 est 3 et celui
associé à la note 12 est de 2. Les autres notes sont associées à un effectif égal à 0.

Nous pouvons donc présenter les données de départ sous la forme d’un tableau résumant
les données (notées xi) et les effectifs qui y sont associés (notés fi):

xi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

fi 0 0 0 0 0 0 0 0 1 3 0 3 2 1 0 0 0 0 0 0

On voit que, dans le cas de cet exemple, les données possibles sont comprises entre 0 et 20.
Par contre, les données réellement observées se situent entre 9 et 14. La précision de la
mesure est égale à 1 (puisque les notes sont données au point près).

1.4.4. Représentations graphiques

a. Données non métriques

! Données ordinales par rang

Les données sont réparties individuellement de manière ordonnée. Chaque élément est
caractérisé par un nombre correspondant à sa place dans le classement (ou rang).

Les données ordinales par rang n’ont pas de représentation graphique.

! Données ordinales par catégories

Les données sont réparties en classes ordonnées. La caractérisation d'une catégorie se fait
par le dénombrement de ses éléments (cet effectif est toujours un nombre entier).

Graphiquement, chaque catégorie est représentée par une portion de la surface d’un
rectangle, proportionnelle à la proportion d’effectif de cette catégorie.

La surface totale de la représentation graphique = 1 = 100%

24

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Après catégorisation d’un ensemble de poissons, on recense 40% de petits, 10% de moyens
et 50% de grands. Représentez ces données graphiquement de manière adéquate. Utilisez
un rectangle de 10 cm de long.

! Données nominales

Les données sont réparties en classes mutuellement exclusives, sans notion de hiérarchie. La
caractérisation d'une catégorie se fait par le dénombrement de ses éléments (cet effectif est
toujours un nombre entier).

Graphiquement, les catégories nominales sont souvent représentées par des portions de
disque, proportionnelles à leur effectif (sans priorité). Cette représentation est, dans le
langage courant, dite représentation en “camembert”.

La totalité de la surface du disque = 1 (100%)

Donc, 360° = 1 = 100%

25

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Exemples :

26

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

A partir du tableau 2, déterminons le pourcentage de filles et de garçons et représentons


graphiquement.

5 filles et 5 garçons

100% " 360°


50% (filles) " 180°
50% (garçons) " 180°

Tableau 2

8 filles et 10 garçons

8 filles/18 "44.4%
10 garçons/18 "55.6%
Représentez graphiquement

Tableau 3

27

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Représentez graphiquement les données du tableau 6.

Religions Pourcentages

Hindouisme 49%

Christianisme 32%

Islam 17%

Bouddhisme et religions chinoises 0,4%

Sans religion et autres 1%

Tableau 6 : Principales religions en présence à l’Ile Maurice (selon le recensement de 2011)

28

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

b. Données métriques

! Données métriques ordonnées

Lorsque l’effectif total est relativement restreint, il est rare qu’il soit nécessaire de
représenter graphiquement la distribution. Néanmoins, si l’effectif total est suffisant, il est
possible d’envisager de réaliser un graphe en bâtonnets. Pour réaliser cette représentation,
les données sont portées en abscisse et les fréquences, en ordonnée.

Données Fréquences
(X ) (f )
i i

3 2 L’effectif total est égal à la


5 1 somme des bâtonnets puisque
ceux-ci représentent les
6 1 fréquences d’apparition des
8 3 données
9 2 f
i

10 1
N = 10

3 5 8 10
X
i

Représentez graphiquement les données suivantes:

X 1 2 3 4 5 6 7
i

fi 2 2 1 1 0 3 5

29

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

1.5. Comment présenter les données? Situation 2 : grands effectifs (N>50)

Lorsque l’effectif de l’échantillon augmente, on va procéder à un groupement en classes des


données brutes (ex: maternité où on va « classer » les bébés nés cette année en fonction de
leur poids à la naissance).

Graphiquement, les données groupées en classes seront représentées par un histogramme:


représentation graphique des données métriques groupées en classes, constituée d’un
ensemble de rectangles.

1 classe = 1 rectangle

1.5.1 Notions de base

a. Domaine de la variable

On appelle domaine de la variable, l’ensemble de toutes les données théoriquement


observables. Le domaine de la variable est déterminé par les valeurs théoriques extrêmes
en-dehors desquelles il n'est pas possible de trouver des données.

Ex. :

30

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

b. Etendue des données

On appelle étendue des données, l'écart (donc, la différence) entre la plus grande et la plus
petite valeur réellement observées.

Ex. :

c. Nombre de valeurs possibles

On appelle nombre de valeurs possibles, le nombre de valeurs différentes que peuvent


prendre les données réelles à l'intérieur de l'étendue des données. Il peut être calculé
comme suit:

!"#$%&# %#( %)$$é#(


01
+,é-.(.)$ /#(&,#

Ex. :

1.5.2. Représentation graphique des données métriques en classes

31

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Lorsque l’effectif de l’échantillon augmente et que le nombre de valeurs possibles est


supérieur à 20 ou 25, le groupement des données en classes métriques s'avère plus
commode que la présentation sous la forme d'une suite ordonnée.

Pour effectuer une distribution en classes métriques, nous devons définir l'intervalle, les
limites, le centre, les bornes et l'effectif de chacune des classes.

a. Limites de classe

On appelle limites de classe (lk) les valeurs extrêmes des données de chaque classe. Les
limites de classes sont toujours des données de la distribution

Ex. :

b. Bornes de classe

On appelle borne de classe la valeur située entre la limite supérieure d'une classe et la limite
inférieure de la classe suivante. Son utilité est de délimiter des classes continues ; elle est
notée B
k

32

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

c. Centres de classe

On appelle centre de classe la valeur qui se situe au centre de la classe; c’est la moyenne des
deux bornes entre lesquelles il se trouve; il est noté C
k

d. Intervalle de classe

L’intervalle de classe représente l’amplitude de chaque classe (c’est-à-dire Bs-Bi); il est noté ik

e. Effectifs de classe

On appelle effectif de classe (fk) le nombre de données comprises dans une classe.

Ce nombre entier peut être transformé en proportion d'effectifs. En effet, lorsque le nombre
N d'éléments de l'ensemble est grand, on obtient une meilleure idée générale de la
distribution des données en convertissant les effectifs fk de chaque catégorie en proportions
d'effectifs

33

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

f. Proportions d’effectifs

La proportion d’effectif (pk) d’une classe est égale à l’effectif de la classe divisé par l’effectif
total:

42
+2 =
5

Avec +2 : #$%#%$&'%( )* +,,+-&',


,. : +,,+-&', )+ -/011+
2: +,,+-&', &%&0/

Note : au lieu de parler de proportions d'effectifs, qui sont toujours des nombres décimaux,
on parle de la même manière de pourcentages d'effectifs, c'est-à-dire, la proportion
d'effectifs multipliée par 100.

Ex: dans un auditoire de 200 étudiants, il y en a 60 dont la taille est comprise entre 1.70 m et
1.75 m. Quelle proportion représentent ces étudiants?

Nous pouvons également calculer la densité d’effectifs qui exprime la concentration des
données à l’intérieur de chacune des classes.

34

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

g. Densités d’effectifs

La densité d’effectif (yk) d’une classe est égale à la proportion d’effectif de la classe divisée
par l’intervalle de celle-ci.
#.
3. =
'

Avec : 3. : )+(1'&é )* +,,+-&',


#. : #$%#%$&'%( )* +,,+-&',
'. : '(&+$60//+ )+ -/011+

h. Comment grouper les données en classes ?

! Déterminer l’étendue des données (E.D.)


! Déterminer le nombre de valeurs possibles (V.P.)
! Choisir le nombre de classes (entre 5 et 20) avec un intervalle constant
! Pas de classes vides
! Si possible, nombre de valeurs par classe impair pour que le centre soit une
donnée

i. Présentation numérique des données groupées en classes

Bk Lk ck fk pk yk
------------------- 136.5 -------------------------------------------------
137
classe 1.................................... 141 4 .0500 .0056
145
------------------- 145.5 -------------------------------------------------
146
classe 2.................................... 150 10 .1250 .0139
154
------------------- 154.5 -------------------------------------------------
155
classe 3.................................... 159 22 .2750 .0306
163
------------------- 163.5 -------------------------------------------------
164
classe 4.................................... 168 25 .3125 .0347
172
------------------- 172.5 -------------------------------------------------
173
classe 5.................................... 177 14 .1750 .0194
181
------------------- 181.5 --------------------------------------------------
182
classe 6.................................... 186 5 .0625 .0069
190
------------------- 190.5 --------------------------------------------------
Total ....................................................80 1

35

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Nous observons que la somme des effectifs de classe est égale au N de l’échantillon et que, à
l’arrondi près, la somme des proportions est égale à 1 (100% des données).

j. Construction de l’histogramme

L’histogramme est la représentation graphique des données groupées en classes. Il est


constitué d’un ensemble de rectangles ayant comme base (sur l'axe d’abscisse), l'amplitude
(notée ik) de la classe et comme hauteur (sur l’axe d’ordonnée) la densité d’effectifs (notée
yk) de la classe.

Rappel :

Graphiquement, la proportion d’effectif est donc représentée par une surface.

36

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Pour construire l'histogramme, nous avons porté les bornes de classes (et donc, l’intervalle)
en abscisse et la densité d'effectifs en ordonnée. Toutes les classes ont la même étendue
(intervalle de classe constant) mais ont une densité d'effectifs différente, puisque
proportionnelle à l'effectif de chacune d’entre elles.

1.5.3. En résumé

La présentation numérique et la représentation graphique dépend du type de données:

! données non métriques

$ Ordinales par rang

On attribue un nombre correspondant au rang de chaque donnée.

Pas de représentation graphique.

$ Ordinales par catégories

On procède au dénombrement des données dans chaque catégorie


hiérarchisée et on calcule les proportions d’effectifs.

La représentation graphique est hiérarchisée (rectangle).

$ Nominales

On procède au dénombrement des données dans chaque catégorie et on


calcule les proportions d’effectifs.

La représentation graphique n’est pas hiérarchisée (disque).

37

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! données métriques

$ Données brutes

Données présentées sans aucun souci d’ordonnancement.

$ Suite ordonnée

Données présentées sous la forme d’une suite ordonnée par ordre croissant
ou décroissant; chaque donnée est associée à un effectif.

Représentation graphique “en bâtonnets”.

$ Données groupées en classe (N>50)

Données groupées en classes métriques. Pour chacune des classes, on précise


intervalle, bornes, limites, centres et effectifs.

Leur représentation graphique est l’histogramme.

38

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2. Caractériser l’ensemble des données par une valeur numérique

Introduction à la notion d’indices statistiques (statistical indices)

Si la forme de l'histogramme permet de se faire une idée générale de la distribution des


données, il est également possible de calculer certaines valeurs numériques (ou indices) qui
permettent de résumer les caractéristiques essentielles de cette distribution. Ces indices
représentent, selon les cas, des points ou des distances sur l'histogramme. Ils peuvent
également exprimer des relations entre les données.

Un indice statistique est donc une valeur numérique qui représente un ensemble de
données. On peut essentiellement en rencontrer trois types :

! Indices de position
! Indices de dispersion
! Indices de relation

2.1. Indices de position

! Moyenne
! Médiane
! Mode
! Indices quantiles
$ Quartiles
$ Déciles
$ Centiles

2.1.1. Moyenne

La moyenne arithmétique d'un ensemble de données métriques est un indice de tendance


centrale. C’est la valeur de la variable qui représente au mieux l’ensemble des données;
c’est le point central autour duquel semblent se concentrer toutes les valeurs de la
distribution. Elle est influencée par les valeurs extrêmes de la distribution.

8.
Elle est notée m, mx ou 7

39

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Géométriquement, la moyenne arithmétique est l'abscisse du centre de gravité de


l'histogramme.

La moyenne est égale à la somme des données (Σ X ) sur l’effectif total (N) :
i

∑ ;<
9=
2

Ex. : Voici les notes obtenues par un étudiant durant le premier semestre (notes sur 10).
Calculez sa moyenne.

7 4 6 2 7 3 1 7 2 6 7 7
1 6

40

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Attention aux notations (cf p.1 du recueil de formules et tables).

1 groupe 2 groupes 2 groupes


indépendants appareillés

8
; ;= 67 ;? 89
9 9@ 9A
Moyenne
9= 9>

Complétez le tableau suivant :

Recueil de formules
et tables p. 1

Ensemble
hétérogène
constitué de deux
groupes
appareillés de
données

Notations:
Nx et mx
Ny et my

a. Moyenne pondérée

! A partir de nombres

Nous avons vu dans le module précédent qu’il est parfois plus pratique d’envisager une
présentation où l’on associe à chaque donnée, un nombre entier (effectif) qui indique le
nombre d'éléments de l'ensemble caractérisés par cette donnée. Chaque donnée est ainsi
affectée d’un certain “poids” : on dit que la donnée est pondérée par son nombre

41

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

d'apparitions (ou effectif). La moyenne pondérée peut dès lors être obtenue de la manière
suivante:

∑ ,< ;<
;? =
2
Exemple :

Tableau 2

Exercice :

Un psychologue fait passer un test de connaissances aux 14 enfants d’une classe de sixième
année. Les résultats sont les suivants (test noté sur 10):

1 6 7 7 2 3 1 2 4 6
6 7 7 7
1. Calculez la moyenne
2. Rangez les données par ordre croissant et associez chacune d’entre elles à sa
fréquence d’apparition
3. Calculez la moyenne pondérée

42

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! A partir de moyennes

Si parmi N nombres, f1 ont une moyenne m1; f2 une moyenne m2, ... fk une moyenne mk, et
que f1 + f2 + ... fk = N, la moyenne des N nombres est:

∑ 2< 9<
;? =
2
Exemple :

Un établissement d’enseignement primaire comporte 6 classes de sixième année. A l’issue


des épreuves du CEB, chaque instituteur calcule la moyenne obtenue (/100) par sa classe à
cette certification extérieure. Le directeur souhaite maintenant disposer de la moyenne de
son établissement à cette épreuve. Comment va-t-il procéder? Aidez-le à calculer la
moyenne globale.

6A 2= = 15 9= = 76

6B 2> = 22 9> = 54

6C 2H = 32 9H = 87

6D 2K = 16 9K = 68

6E 2L = 20 9L = 48

6F 2N = 27 9N = 90
Tableau 7 : résultats des 6 classes de sixième année aux épreuves du CEB

43

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! A partir des centres de classe

Lorsque les données sont groupées en classes, on considère que les données sont réparties
de manière homogène à l'intérieur de chaque classe et que la moyenne de la classe se situe
donc au centre de gravité de la classe, c'est-à-dire au centre de la classe. La moyenne
arithmétique de l'ensemble peut alors être approchée par la moyenne pondérée de chaque
classe.

∑ ,. P.
;? =
2
Note : cette moyenne est en fait une approximation, puisque chaque donnée réelle est
remplacée par le centre de la classe à laquelle elle appartient. Cependant, les erreurs
introduites par cette approximation sont d’autant plus négligeables que les effectifs de classe
sont élevés et que l'intervalle de classe est petit.

2.1.2. Médiane

La médiane d’une distribution est un indice de tendance centrale, relatif aux rangs des données.
C’est le point d’abscisse tel que 50% des données se trouvent à sa gauche et 50% des données se
trouvent à sa droite. Elle est notée méd.

Valeur de l’abscisse qui divise un


histogramme en deux surfaces égales.

44

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Sur l’histogramme suivant, indiquez la médiane par un point rouge :

Géométriquement, la médiane n’est pas l'abscisse du centre de gravité de l'histogramme


(sauf dans le cas d’un graphique symétrique ; ce que nous verrons plus loin).

2.1.3. Mode

Le mode est la donnée qui a la plus grande fréquence d’apparition. Graphiquement, c’est
un point d’abscisse.

45

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Ex: soient les données suivantes:

4 6 4 7 8 4

Déterminez le mode, représentez graphiquement et vérifiez votre réponse.

Lorsque les données sont groupées en classes (histogramme), le mode est alors le centre de
la classe modale, c'est-à-dire la classe qui a la densité la plus élevée.

46

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Sur l’histogramme suivant, indiquez le mode par un point rouge :

Situations

Dans ce cas, il n’y a qu’une seule classe


modale: on va donc parler de distribution
unimodale ou monomodale.

Dans ce cas, il y a deux classes


modales: on va parler de distribution
bimodale.

47

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Dans ce cas, il y a plusieurs classes


modales: on va parler de
distribution multimodale ou
plurimodale.

2.1.4. Indices quantiles

Les indices quantiles sont des valeurs qui divisent l’ensemble des données en plusieurs
parties égales.

Note : la médiane est un indice quantile

Les autres indices quantiles constituent une généralisation de la notion de médiane qui
divise la distribution en deux parties égales.

! Les quartiles (the quartiles)

Ils sont notés Q1, Q2, Q3 et sont les valeurs qui divisent l’ensemble des données en quatre
parties égales.

48

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! Les déciles (the deciles)

Ils sont notés D1, D2, … D9 et sont les valeurs qui divisent l’ensemble des données en dix
parties égales.

! Les (per)centiles (the (per)centiles)

Ils sont notés C1, C2, … C99 et sont les valeurs qui divisent l’ensemble des données en cent
parties égales.

Les (per)centiles sont utilisés dans la construction des courbes pédiatriques :

49

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Complétez : la médiane correspond:

! au quartile;
! au décile ;
! au centile.

Note : la méthode de calcul des indices quantiles est basée sur les mêmes principes de celle
utilisée pour le calcul de la médiane.

50

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.2. Indices de dispersion

L'étalement plus ou moins important des données sur l'axe de mesure est appelé la
dispersion des données. Un indice de dispersion est une mesure qui exprime une certaine
distance sur l'axe des données. Il est donc défini dans les mêmes unités que la grandeur
mesurée.

! Etendue des données


! Ecart type
! Variance

2.2.1. Etendue des données (the range)

Nous avons vu précédemment que l’étendue des données est l'écart (donc, la distance)
entre la plus grande et la plus petite valeur de la distribution. Elle constitue, par
conséquent, une mesure de la dispersion (pour les extrêmes). En effet, plus cette étendue
est grande, plus les données sont dispersées. Mais l'étendue des données est définie
uniquement à partir des deux valeurs extrêmes et ne tient donc pas compte de la
répartition des autres données à l’intérieur de la distribution. Ainsi, même à étendue des
données constante, la répartition interne des données peut être totalement différente.

2.2.2. Ecart type (the standard deviation)

L'écart type (noté σ) est un indice qui exprime la dispersion des données autour de la
moyenne de la distribution. L’écart type est défini dans les mêmes unités que la grandeur
distribuée. Il est d’autant plus grand que les éléments sont dispersés.

L'écart type est défini comme la racine carrée de la moyenne du carré des écarts de chaque
donnée à la moyenne de la distribution.

51

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Q=R
∑(TU VT
: )<
=

Note :

L'écart type est une distance entre chaque donnée et la moyenne (donc, (;< − ;
: ) ). Mais
c'est une distance qui doit tenir compte en moyenne de tous les points de la distribution

(donc, ). Pour mesurer la dispersion des points autour de la moyenne, peu importe que la
=
distance soit négative (points à gauche) ou positive (points à droite), la dispersion dépend de
la distance (plus celle-ci est grande, plus les points sont dispersés) et non de son orientation,
donc de son signe. Nous devons donc éliminer le signe et un moyen mathématique de faire
devenir positif un nombre négatif est de l'élever au carré et de prendre la racine carrée.

2.2.3. Variance (the variance)

La variance est une mesure servant à caractériser la dispersion d'un échantillon ou d'une
population. Elle est définie comme le carré de l'écart-type et est notée avec la lettre de
l’alphabet grec σ (sigma minuscule) élevée au carré.
La variance est égale à la moyenne arithmétique des carrés des écarts entre les données et
la moyenne.

∑(;< − ;
Q =
>
: )7
5
2.2.4. En résumé

Il est possible de calculer certaines valeurs numériques (ou indices) qui permettent de
résumer les caractéristiques essentielles d’une distribution.

! Indices de position
$ Moyenne
$ Médiane
$ Autres indices quantiles (quartiles, déciles, centiles)
$ Mode

! Indices de dispersion
$ Etendue des données
$ Ecart type
$ Variance

52

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Avant d’aborder les indices de relation, nous allons approcher deux notions très
importantes pour la suite : la fonction de densité et la loi de Laplace-Gauss.

2.3. La fonction de densité

Lorsque les intervalles de classe deviennent de plus en plus petits, l’histogramme se réduit à
une suite infinie de points - une courbe - qui définit une fonction de densité d’effectifs.

2.3.1. Caractéristiques

Représentation graphique où l’on


porte
! en abscisse: données (X )
i
! en ordonnée : densités
d’effectifs (y )
i
et où la surface représente une
proportion

53

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.3.2. Les formes les plus courantes

a. Symétrique (symmetrical distribution)

La courbe est symétrique par rapport à un axe vertical passant par son sommet. Le mode de
la distribution est le point d’abscisse correspondant à ce sommet.

Les données se répartissent de manière identique de part et d’autre de la médiane.

La surface totale sous la courbe est égale à 1 (c’est-à-dire 100% des données) " la surface
d’une demi-courbe est égale à .5 (c’est-à-dire 50% des données).

54

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Dans le cas d’une courbe symétrique, moyenne, mode et médiane sont confondus en un
même point d’abscisse. Lorsque la distribution est dissymétrique, la position respective de
ces trois indices permettra de déterminer si la distribution est biaisée à droite ou à gauche.

b. Biaisée à droite (skewed distribution - positive skew)

Dans une fonction de densité biaisée à droite, la portion à droite du sommet est plus longue
que l’autre. La moyenne étant attirée par les valeurs extrêmes, où se situent le mode, la
moyenne et la médiane ?

55

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

c. Biaisée à gauche (skewed distribution - negative skew)

Dans une fonction de densité biaisée à gauche, la portion à gauche du sommet est plus
longue que l’autre. La moyenne étant attirée par les valeurs extrêmes, où se situent le
mode, la moyenne et la médiane ?

d. Monomodales

La distribution est caractérisée par un seul mode.

56

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

e. Plurimodales

La distribution est caractérisée par plusieurs pics, plusieurs «modes».

2.3.3. Eléments remarquables

Dans une distribution +/- symétrique, les points d’inflexion (c’est-à-dire les endroits où la
courbure est inversée) se situent à une distance de un écart type de part et d’autre de la
moyenne.

Ex.: dessinez une distribution symétrique de moyenne égale à 150 et un écart type égal à 5;
placez les points m+1σ et m-1σ

57

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Dans une distribution +/- symétrique :

68% (soit environ 2/3) des données sont comprises entre m-1σ et m+1σ

95% des données sont comprises entre m-2σ et m+2σ

99% des données sont comprises entre m-3σ et m+3σ

58

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Dans une distribution +/- théorique, la quasi-totalité des données (E.D.) se répartit sur 6 σ.

Ex. : Calculez la surface entre :


• m-2σ et m+1σ
• m+1σ et m+2σ
• m-2σ et m-1σ

Exprimez votre résultat en % de données.

• m-2σ et m+1σ

59

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

• m+1σ et m+2σ

• m-2σ et m-1σ

60

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Illustration : le quotient intellectuel

2.5% de la population ont un QI inférieur à 70, ce qui est généralement considéré comme
une insuffisance mentale ; 2.5 % ont un QI supérieur à 130, ce qui est généralement
considéré comme une intelligence supérieure présentée par quelqu’un de très doué.

61

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.3.4. Travail d’intégration

Dans une distribution « en cloche » plus ou moins symétrique, la plus petite donnée est 30
et la plus grande est 90.

Dessinez la distribution; déterminez l’étendue des données, la moyenne, le mode, la


médiane et l’écart type; placez-les sur le graphique;

! estimez la valeur de Q1 : 45 50 55
! estimez la valeur de D1 : 40 45 50

62

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.4. Loi normale ou loi de Laplace-Gauss (the normal distribution or the normal curve)

2.4.1. Caractéristiques

La loi de Laplace-Gauss est une fonction mathématique, élaborée initialement par Laplace et
Gauss et dont la forme générale en cloche est bien connue. Cette loi, très fréquemment
utilisée en sciences humaines, est aussi appelée loi normale.

La loi normale ou loi de Laplace-Gauss est une fonction de densité ; sa surface totale = 1
(100% des données).

Elle est continue et toujours symétrique.

Comme elle est asymptotique par rapport à l’axe OX (elle tend vers l’axe en s'en
rapprochant de plus en plus mais sans jamais l'atteindre), la courbe normale s’étend donc
théoriquement de - ∞ à + ∞.

Comme elle est symétrique, son mode, sa moyenne et sa médiane sont confondus.

Il y a 3 σ à gauche de la moyenne et 3 σ à droite. La quasi-totalité des données se répartit


donc sur 6 σ.

63

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.4.2. Allure

L’allure dépend de la valeur de la moyenne et de l’écart type.

Décrivez les deux situations suivantes (moyennes et écart types) :

64

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Que pouvez-vous dire des dessins suivants :

65

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.5. Indices de relation

$ La variable centrée réduite

$ Le coefficient de corrélation

2.5.1. La note z ou variable centrée réduite

a. Définition

La note z est un indice de relation qui permet de résoudre des problèmes où il est nécessaire
de comparer des distributions qui se répartissent différemment.

Ex: un élève du secondaire obtient 24/30 en physique et 80/100 en mathématiques. Dans


laquelle de ces deux matières est-il le mieux classé?

# Il faudrait une variable sans unité de mesure qui permette de mettre en relation des
grandeurs mesurées dans des unités différentes

b. Propriétés de la moyenne et de l’écart type

! Propriété de la moyenne

Lorsqu’on soustrait à chacune des données X d’un échantillon un nombre constant (noté b),
i
la moyenne du nouvel ensemble ainsi créé est égale à la moyenne des X soustraite de la
i
même constante.

66

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Si T = X - b alors m = m - b
i i T X

Ex. : Calculez la moyenne sur base des données suivantes (Xi):

7 4 6 2 7 3 1

7 2 6 7 7 1 6

Idem (Ti):

6 3 5 1 6 2 0

6 1 5 6 6 0 5

Si T = X - b alors m = m - b
i i T X

! Corollaire

Si l’on soustrait la moyenne (m ) d’un échantillon à chacune des données de celui-ci, la


x
moyenne (m ) du nouvel ensemble ainsi créé sera nulle.
T

Ici b = m
x

Si T = X - m alors m = m - m =0
i i x T x x

On dit qu’une telle transformation centre la distribution autour de l’abscisse 0; la nouvelle


distribution ainsi créée est appelée distribution centrée. Cette opération ne modifie pas la
forme générale.

67

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Note : lorsqu’on additionne à chacune des données X d’un échantillon un nombre constant
i
(noté b), la moyenne du nouvel ensemble ainsi créé est égale à la moyenne des X additionnée
i
de la même constante.

Si T = X + b alors m = m + b
i i T X

! Propriété de l’écart type

Lorsqu’on divise chacune des données X d’un échantillon par un nombre constant (noté a),
i
l’écart type du nouvel ensemble ainsi créé est égal à l’écart type des X divisé par la même
i
constante.

Xi σ
Si Ti = alors σ T = X
a a

Ex. : Calculez l’écart type sur base des données suivantes (Xi):

8 4 6 2 8 4 2

8 2 6 8 8 2 6

Calculez l’écart type sur base des données suivantes (Ti):

4 2 3 1 4 2 1

4 1 3 4 4 1 3

68

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Xi σ
Si Ti = alors σ T = X
a a

! Corollaire

Si l’on divise chacune des données X par un nombre constant a = σ , l’écart type du nouvel
i x
ensemble ainsi créé est égal à 1.

Xi σ
Si Ti = alors σ T = X donc σ T = 1
σX σX

On dit qu’une telle transformation réduit la distribution à un écart type égal à 1; la nouvelle
distribution ainsi créée est appelée distribution réduite. La distribution réduite est sans
unité.

Note : Lorsqu’on multiplie chacune des données Xi d’un échantillon par un nombre constant
(noté a), l’écart type du nouvel ensemble ainsi créé est égal à l’écart type des Xi multiplié par
la même constante.

Revenons à notre exemple de départ :

Soient deux distributions uniformes. La première a une moyenne égale à 160 et un écart
type de 10; la seconde a une moyenne de 190 et un écart type de 5. Les deux distributions se
situent à des endroits différents sur l'échelle mais ont des formes proches.

69

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Si nous centrons ces distributions autour d’une moyenne égale à zéro, nous obtenons deux
distributions qui ne diffèrent plus que par leur allure générale et leur dispersion

Si nous réduisons l’écart type de chacune des distributions à 1 " il ne reste que quelques
différences d’allure générale

c. Formule de la note z

La variable centrée réduite mesure l’écart à la moyenne rapporté à l’écart type :

Xi − X
z=
σi
70

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

C’est une variable sans dimension, indépendante du choix des unités de mesure et qui
permet, par conséquent, de mettre en relation des grandeurs mesurées dans des unités
différentes.

Comme elle est centrée par rapport à la moyenne, elle permet de supprimer des effets
extérieurs tels que différences de méthode ou d'échelle de mesure.

Puisqu’elle est réduite par rapport à l’indice de dispersion, elle permet d'éliminer des effets
dûs à la difficulté relative des épreuves, la diversité des éléments, la complexité de la tâche,
etc..

Revenons à notre exemple de départ :

Soient deux distributions uniformes. La première a une moyenne égale à 160 et un écart
type de 10; la seconde a une moyenne de 190 et un écart type de 5. Par rapport à
l’ensemble de la classe, en quoi est-il mieux classé? Utilisez la note z.

71

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

d. Distribution centrée réduite

La distribution centrée réduite est une distribution centrée autour d’une moyenne égale à zéro et
réduite à un écart type égal à 1.

e. Calcul de proportions sous la loi normale centrée réduite

! Calcul d’une proportion entre deux points (a et b) : principes

Le calcul d’une surface sous une courbe s’effectue généralement au travers de la résolution
d’une intégrale.

Rappel: SURFACE = PROPORTION

a et b sont les coupures qui délimitent la surface.

Cette procédure, relativement complexe, peut cependant être avantageusement remplacée


par la consultation d’une table qui fournit directement le résultat de différentes intégrales. Il
est évident que, pour être aisément consultée, cette table doit être néanmoins totalement
indépendante de la grandeur distribuée (sinon, on aurait une table pour chaque
distribution!).

Table des aires délimitées par la loi normale centrée réduite (voir p.9 du Recueil de formules
et tables) entre 0 et u (valeur de la coupure).

72

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! Utilisation de la table des aires sous la courbe normale centrée réduite

! Entrée «gauche»: partie entière et première décimale de la valeur de coupure (u)


! Entrée «haut»: deuxième décimale de la valeur de coupure (u)
! «intérieur» de la table: surfaces comprises entre 0 et u sous la courbe normale
centrée réduite
Ex. : déterminez la surface allant de 0 à u = 0.32

Note : la table de la loi normale centrée réduite est en fait une demi table (car courbe
symétrique) " Surface maximum = .5

! Surface délimitée par la moyenne et une coupure à droite

On procède, dans ce cas, à une détermination directe de la surface dans la table.

Ex. : entre 0 et 1.56

73

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! Surface délimitée par la moyenne et une coupure à gauche

On procède, dans ce cas, à une détermination directe de la surface dans la table.

Ex. : entre -1.63 et 0

! Surface délimitée par une coupure à gauche et une coupure à droite

Dans ce cas, on additionne les deux surfaces : celle qui se trouve à gauche de la moyenne et
celle qui se trouve à droite de la moyenne.

Ex. : entre -0.92 et 0.92

! Surface délimitée par deux coupures à droite

Dans ce cas, on soustrait les deux surfaces : la plus grande moins la plus petite.

Ex. : entre 1.35 et 1.67

74

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! Surface délimitée par deux coupures à gauche

Dans ce cas, on soustrait les deux surfaces : la plus grande moins la plus petite.

Ex. : entre -2.31 et - .80

! Surface inférieure à une coupure à droite

Dans ce cas, on additionne .5 à la surface de droite (qui a été trouvée dans la table par
détermination directe).

Ex. : inf. ou égale à 2.50

! Surface supérieure à une coupure à gauche

Dans ce cas, on additionne .5 à la surface de gauche (qui a été trouvée dans la table par
détermination directe).

Ex. : sup. ou égale à – 1.28

75

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! Surface supérieure à une coupure à droite

Dans ce cas, on soustrait de .5 la surface de droite (qui a été trouvée dans la table par
détermination directe).

Ex. : sup. ou égale à 1.07

! Surface inférieure à une coupure à gauche

Dans ce cas, on soustrait de .5 la surface de gauche (qui a été trouvée dans la table par
détermination directe).

Ex. : inf.. ou égale à -1.11

! En résumé

! Moyenne - 1 coupure à droite " surface dans la table

! Moyenne - 1 coupure à gauche " surface dans la table

! 1 coupure à G et 1 coupure à D " addition des 2 surfaces

! 2 coupures à D " la grande surface – la petite

! 2 coupures à G " la grande surface – la petite

76

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! Inférieure à une coupure à D ".5 + surface

! Supérieure à une coupure à G " .5 + surface

! Inférieure à une coupure à G " .5 – surface

! Supérieure à une coupure à D " .5 - surface

Note : théoriquement la loi normale s’étend de -∞ à +∞. Cependant, si l’on observe la table
de la loi normale centrée réduite, il apparaît clairement que les surfaces se situant à la droite
des notes u deviennent rapidement très petites lorsqu’on s’éloigne de la moyenne. On
constate que, si on borne la distribution à gauche par u = -3.5 et à droite par u = +3.5, les
surfaces (c’est-à-dire les proportions ou les probabilités) se situant à l’extérieur de ces bornes
sont, tout au plus, égales à .0005 (soit, 5 pour 10.000). Dans la plupart des problèmes de
probabilité, on considère qu’une erreur de cet ordre est négligeable. Nous pouvons donc
raisonnablement en conclure que la partie réellement “pertinente” de la loi normale se situe
entre deux valeurs se trouvant à 3.5 σ de part et d’autre de la moyenne.

2.5.2. Calcul d’aires sous n’importe quelle courbe normale

Dans la mesure où la loi normale n’est définie que par sa moyenne et son écart type, il est
possible de ramener n’importe quelle loi normale réelle à une distribution standard et
unique en utilisant la variable centrée réduite (qui a une moyenne égale à 0 et un écart type
égal à 1). A partir de la nouvelle distribution ainsi construite (la loi normale centrée réduite),
on peut facilement consulter une table (voir annexe 1) qui donne la surface comprise entre 0
(la moyenne) et une valeur quelconque de z.

Pour passer de la distribution de départ à la distribution normale centrée réduite, on va


utiliser la variable centrée réduite. La note z est appelée dans ce cas, note u.

77

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Reprenons l’exemple quotient intellectuel et tentons de répondre à quelques questions.

! Quelle est la proportion d’individus ayant un Q.I. entre 100 et 115 (valeurs incluses)?

! Quelle est la proportion d’individus ayant un Q.I. entre 110 et 120 (valeurs incluses)?

78

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! Quelle est la proportion d’individus ayant un Q.I. entre 85 et 130 (valeurs incluses)?

! Quelle est la proportion d’individus ayant un Q.I. supérieur ou égal à 115?

! Quelle est la proportion d’individus ayant un Q.I. inférieur ou égal à 110?

79

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Note : vu que la loi normale est continue, lorsqu’on travaille sur base de mesures (ex:
distributions de tailles), on placera à la demi-précision de la mesure la (les) coupure(s) qui
délimite(nt) la surface à calculer

Ex: calculez la proportion d’individus ayant une taille comprise entre la moyenne et 1.70 m
(valeurs comprises) sachant que la moyenne de la distribution vaut 1.60 m, l’écart type 5 cm
et que la précision de la mesure est 1 cm.

80

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.6. Le coefficient de corrélation r de Bravais-Pearson

2.6.1. Concepts de base

a. Groupes appareillés (paired groups)

Lorsque l’ensemble des données est constitué de groupes appareillés, chaque élément de
l’ensemble est associé à la valeur de deux variables.

On parle, dans ce cas, de séries bivariées de données. Pour chaque élément de l’ensemble,
on a donc une paire de données (Xi ,Yi).

Ex. 1: les notes en math (Xi) et en physique (Yi) d’un ensemble de 30 élèves

Ex. 2 : les résultats de 25 sujets à un pré-test (Xi) et à un post-test (Yi)

b. Coefficient de corrélation (correlation coefficient)

Un coefficient de corrélation est un indice statistique qui traduit la tendance des données Xi
et Yi (appareillées) à varier ensemble.

Ex. : plus on est grand, plus on est lourd " relation positive entre la taille et le poids

c. Diagramme de dispersion (scatter plot ; scatter diagram)

Le diagramme de dispersion propose une répartition graphique des variables sur deux axes
perpendiculaires : l’une distribuée en abscisse et l’autre en ordonnée.

81

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Exemples

d. Ligne de régression (regression line)

La ligne de régression est la droite qui, sur le diagramme de dispersion, représente au mieux
l’ensemble des données. Elle permet de prédire les valeurs théoriques attendues d’une
variable en fonction des valeurs de l’autre variable.

82

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

e. Corrélation et régression simples

On parle de corrélation et régression simples lorsqu’il y a que deux variables qui


interviennent (x , y).

f. Corrélation et régression multiples

On parle de corrélation et régression multiples lorsqu’il y a plus de deux variables qui


interviennent.

83

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

g. Corrélation linéaire

On parle de corrélation linéaire lorsque tous les points ont tendance à se rapprocher d’une
même droite.

Ex. : le coefficient r de Bravais-Pearson

h. Corrélation non linéaire

On parle de corrélation non linéaire lorsque tous les points ont tendance à se rapprocher
d’une courbe.

Ex: le rho de Spearman

84

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.6.2. Caractéristiques du coefficient r de Bravais-Pearson

Le coefficient r de Bravais-Pearson est un coefficient de corrélation linéaire, calculé à partir


de deux séries appareillées de données métriques. Sa valeur varie de –1 à 1.

a. Diagrammes de dispersion: situations

! r=1

La corrélation est positive (il y a une relation directe entre les deux variables) et
parfaitement linéaire (à toute valeur de xi, correspond une et une seule valeur de yi ; tous les
points se situent parfaitement sur une droite).

Ex : le temps écoulé et le nombre de km parcourus (mobile à vitesse constante).

Ex.: Décrivez ce qu’il se passe sur le graphique suivant :

Lien entre les notes obtenues par des étudiants (sur 100) et les mêmes notes ramenées sur 20.

85

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! r = -1

La corrélation est négative (il y a une relation inversée entre les deux variables) et
parfaitement linéaire (tous les points se situent parfaitement sur une droite).

Ex: le temps écoulé et le nombre de km qu’il reste à parcourir (mobile à vitesse constante)

Ex.: Décrivez ce qu’il se passe sur le graphique suivant :

Mesure de l’essence restante en fonction de la distance parcourue

86

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! r=0

La corrélation est nulle.

Ex: la longueur des cheveux et l’intelligence

Ex.: Décrivez ce qu’il se passe sur le graphique suivant :

Lien entre la longitude d’une ville et le nombre de lettres constituant son nom

87

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! 0<r<1

La relation est positive (il y a une relation directe entre les deux variables) mais pas
parfaitement linéaire. Les points ne se situent donc plus sur une même droite, mais à
l’intérieur d’une ellipse montante.

Ex : taille et poids

Ex.: Décrivez ce qu’il se passe sur le graphique suivant :

Mesure de la participation politique en fonction du nombre d’années d’études

88

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! -1 < r < 0

La relation est négative (il y a une relation inversée entre les deux variables) mais pas
parfaitement linéaire. Les points ne se situent donc plus sur une même droite, mais à
l’intérieur d’une ellipse descendante.

Ex : agilité et poids

Ex.: Décrivez ce qu’il se passe sur le graphique suivant :

Scores à un test de dextérité en fonction du nombre de verres bus par le sujet

89

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

b. Droite de régression de y en x

C’est la droite qui permet de prévoir, pour chaque valeur des données Xi une valeur
théorique de la variable yi

y = aX+b

c. Droite de régression de x en y

C’est la droite qui permet de prévoir, pour chaque valeur des données Yi une valeur
théorique de la variable xi.

x = a’Y+b’

d. Droites de régression: situations

! r=1

Les deux droites de régression sont confondues.

90

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! r = -1

Les deux droites de régression sont confondues.

! r=0

Les deux droites de régression se coupent en un point de coordonnée(;?, Y?Z.


Les deux droites de régression sont perpendiculaires entre elles et parallèles aux axes X et Y.

! 0<r<1

Les deux droites de régression se coupent en un point de coordonnée(;?, Y?Z.

91

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! -1 < r < 0

Les deux droites de régression se coupent en un point de coordonnée(;?, Y?Z.

e. Droites de régression: synthèse

L’angle formé par les deux droites de régression est une indication du degré de relation qui
existe entre les deux variables :

! il est droit si la relation est nulle;


! il est nul si la relation est parfaitement linéaire.

2.6.3. Comment interpréter un coefficient de corrélation ?

Un moyen assez simple d’interpréter un coefficient de corrélation est de considérer son


carré. Le carré du coefficient de corrélation peut, en effet, être interprété comme la
proportion de la variance de Y qui est attribuable à la variance de X.

En résumé:
2
! r = proportion de liaison entre X et Y
2
! 1 - r = proportion d’aliénation (absence de liaison entre les deux variables)

Ex. : r =.232

92

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

r =.914

r =.510

r =.725

En conclusion: des coefficients inférieurs à .7 sont considérés comme « peu concluants ».

2.6.4. Synthèse

! La corrélation est une mesure de la relation existant entre deux variables. La valeur
et le signe du coefficient de corrélation informe sur les caractéristiques de cette
relation.
! Le coefficient de corrélation r de Bravais-Pearson varie de -1 à 1.
! Le signe du coefficient indique si la relation est positive ou négative.
! La valeur numérique décrit la force de la relation. Quand la relation est parfaitement
linéaire, le coefficient est égal à 1. Si la relation est nulle, le coefficient vaut 0. Si la
relation est imparfaite, la valeur numérique se situe entre 0 et 1.
! Le carré du coefficient de corrélation peut, en effet, être interprété comme la
proportion de la variance de Y qui est attribuable à la variance de X.

93

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.7. En résumé

Il est possible de calculer certaines valeurs numériques (ou indices) qui permettent de
résumer les caractéristiques essentielles d’une distribution.

! Indices de position:

$ La moyenne
$ La médiane
$ Les indices quantiles
$ Le mode

! Indices de dispersion:

$ L’étendue des données


$ L’écart type
$ La variance

! Indices de relation:

$ La variable centrée réduite


$ Le coefficient de corrélation

94

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Chapitre 2 : statistique inférentielle

1. Notions élémentaires de probabilités


1.1. Probabilité simple

Les termes « probable » et « probabilité » sont couramment utilisés dans le langage


usuel. Il n’est ainsi pas inhabituel d’entendre des affirmations telles que “il est fort probable
qu’il pleuve demain” ou encore “la probabilité qu’il guérisse est plutôt faible”.

Si le chercheur utilise également ce genre d’expressions, il se doit cependant de leur


associer une certaine quantification, destinée à traduire le degré de vraisemblance associé à
la réalisation de l’événement.

La probabilité de réalisation d’un événement peut-être définie par une valeur numérique qui
exprime le degré de vraisemblance associé à la réalisation de cet événement.

Ex. : dans un auditoire de la Faculté polytechnique, se trouvent 100 étudiants. Parmi ceux-ci,
on dénombre 10 filles. Le professeur sélectionne au hasard un étudiant. Quelle est la
probabilité que ce soit un garçon?

Probabilité = proportion = surface

95

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Ex. : Je jette un dé en l’air. Quelle est la probabilité de « faire 5 »?

Je jette un dé en l’air. Quelle est la probabilité de « faire 3 »?

Je jette un dé en l’air. Quelle est la probabilité de « faire 6 »?

96

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Tous ces événements ont la même probabilité de réalisation. On parle donc d’événements
équiprobables.

Lorsque plusieurs événements aléatoires E1, E2, ... En peuvent se produire au cours d’une
même expérience, et que la probabilité de réalisation de chacun d’entre eux est identique,
on dit que la réalisation de chaque événement est équiprobable.

1.2. Probabilité a priori (the a priori probability)

Ex. : à partir d’un jeu de 52 cartes, quelle est la probabilité de tirer un roi?

97

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

A partir d’un jeu de 52 cartes, quelle est la probabilité de tirer un cœur?

A partir d’un jeu de 52 cartes, quelle est la probabilité de tirer un as de pique?

98

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Ce que nous venons de calculer intuitivement est la probabilité a priori d’un événement.

La probabilité a priori de réalisation d’un événement est, si tous les cas possibles sont
équiprobables, le rapport du nombre de cas favorables sur le nombre de cas possibles.

Donc : si tous les cas possibles sont équiprobables:

(%9[$+ %# -?( 4?@),?AB#(


#=
$)/A,# %# -?( +)((.AB#(

1.3. Evènements impossible et certain

Je jette un dé en l’air. Quelle est la probabilité de « faire 7 »?

Un évènement impossible est un évènement dont la probabilité est égale à 0.

Je jette un dé en l’air. Quelle est la probabilité de « faire 1, 2, 3, 4, 5 ou 6 »?

Un événement certain est un évènement dont la probabilité est égale à 1.

99

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

La réflexion que nous venons d’avoir sur ces deux événements extrêmes (l’événement
impossible et l’événement certain), nous montre qu’une probabilité est toujours un nombre
compris entre 0 et 1.

1.4. Probabilités complémentaires, variable dichotomique et évènements


incompatibles

Je jette une pièce en l’air. Quelle est la probabilité de « faire face »?

Je jette une pièce en l’air. Quelle est la probabilité de « ne pas faire face »?

100

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Les événements «faire face» et «ne pas faire face» sont des événements complémentaires.

On appelle probabilité complémentaire d’un événement E au cours d’une expérience, la


probabilité de non-réalisation de cet événement E. Elle est notée q.

Les évènements complémentaires peuvent


se traduire par une variable dichotomique
(c’est-à-dire qui ne peut prendre que deux
valeurs, l’une excluant automatiquement
l’autre).

Les événements qui peuvent se traduire par une variable dichotomique sont incompatibles.

Des événements sont dits incompatibles si, au cours d’une même expérience, la réalisation
de l’un exclut automatiquement la réalisation des autres.

La probabilité de réalisation simultanée de deux événements incompatibles au cours d’une


même expérience est nulle.

1.5. Théorèmes d’addition et de multiplication ; tirages exhaustifs et non


exhaustifs ; évènements indépendants et dépendants

Une urne contient 3 boules rouges et 5 boules bleues. J’extrais au hasard une boule. Quelle
est la probabilité a priori de tirer:

! une boule rouge?


! une boule bleue?

101

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Une urne contient 3 boules rouges et 5 boules bleues. Quelle est la probabilité a priori de
tirer au cours de deux tirages avec remise:

! deux boules rouges?


! deux boules bleues?
! une boule rouge et une boule bleue (peu importe dans quel ordre) ?

Pour résoudre ce genre d’exercice, nous devons faire appel au théorème d’addition et de
multiplication.

1.5.1. Théorème d’addition (addition rule)

Au cours d’une même expérience, la probabilité de réalisation d’un quelconque événement


parmi n événements incompatibles possibles est égale à la somme des probabilités de
réalisation de chacun de ces événements.

1.5.2. Théorème de multiplication(multiplication rule)

La probabilité de réalisation répétée d’un même événement lors de plusieurs expériences


consécutives est égale au produit de la probabilité de réalisation de cet événement au cours
de chaque expérience.

102

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Ex. Vous êtes amené à sélectionner deux individus dans une population de 160 personnes
constituée de 70 hommes et 90 femmes. La sélection est réalisée sur la base de 2 tirages non
exhaustifs. Quelle est la probabilité que les deux sujets sélectionnés soient des femmes ?

Ex. : vous êtes amené à sélectionner un individu dans une population de 150 personnes,
constituée de 45 enfants, 35 adolescents et 70 adultes. Quelle est la probabilité que
l’individu sélectionné soit un adolescent ou un adulte ?

103

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Une urne contient 3 boules rouges et 5 boules bleues. Quelle est la probabilité a priori de
tirer au cours de deux tirages avec remise:

! deux boules rouges?

! deux boules bleues?

104

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! une boule rouge et une boule bleue (peu importe dans quel ordre) ?

Nous voyons que la probabilité de réalisation des événements reste identique au cours de
chaque expérience (c’est-à-dire de chaque tirage). Dans le cas de tirages non exhaustifs
(avec remise) les événements sont indépendants (la probabilité de réalisation de l’un
d’entre eux au cours d’une expérience n’est pas affectée par le résultat d’expériences
antérieures).

En d’autres termes, si la répétition successive d’une expérience engendre la réalisation


d’événements dont la probabilité de réalisation reste identique au cours de chaque
expérience, les événements sont indépendants.

Une urne contient 3 boules rouges et 5 boules bleues. Quelle est la probabilité a priori de
tirer au cours de deux tirages sans remise:

! deux boules rouges?


! deux boules bleues?
! une boule rouge et une boule bleue (peu importe dans quel ordre) ?

105

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! deux boules rouges?

! deux boules bleues?

106

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

! une boule rouge et une boule bleue (peu importe dans quel ordre) ?

Nous voyons que la probabilité de réalisation des événements change au cours de chaque
expérience (c’est-à-dire de chaque tirage).

Dans le cas de tirages exhaustifs (sans remise) les événements sont dépendants (la
probabilité de réalisation de l’un d’entre eux au cours d’une expérience est affectée par le
résultat d’expériences antérieures). Le nombre maximum n de tirages est égal au nombre N
d’éléments de l’ensemble.

En d’autres termes, si la répétition successive d’une expérience engendre la réalisation


d’événements dont la probabilité de réalisation varie d’une expérience à l’autre, les
événements sont indépendants.

107

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Exemples

1. Dans un jeu de 52 cartes, quelle est la probabilité de tirer deux cœurs lors de deux
premiers tirages consécutifs?

Tirage non exhaustif

Les événements sont indépendants; la probabilité p de tirer un «cœur au cours de chaque


=H =
L> K
expérience est donc toujours égale à , soit .
En appliquant le théorème de multiplication, on peut calculer que la probabilité de tirer deux
= =
cœurs lors des deux premiers tirages est égale à . soit .063. K K

Tirage exhaustif

=H =
L> K
La probabilité p de tirer un cœur au cours de la première expérience est égale à , soit .
=>
L=
Au cours de la seconde expérience, elle est de .
En appliquant le théorème de multiplication, on peut calculer que la probabilité de tirer deux
=H =>
cœurs lors des deux premiers tirages est égale à . soit .0597
L> L=

# Les probabilités sont différentes

2. Dans un jeu de 52 cartes, quelle est la probabilité de tirer deux cœurs lors de deux
tirages consécutifs quelconques?

Tirage non exhaustif

Les événements sont indépendants; la probabilité p de tirer un cœur au cours de chaque


=H N
expérience est donc toujours égale à L> soit O.
En appliquant le théorème de multiplication, on peut calculer que la probabilité de tirer deux
N N
cœurs lors des deux tirages quelconque est toujours égale à . soit .063.
O O

Tirage exhaustif

Il est impossible de calculer la probabilité de tirer deux cœurs lors de deux tirages
consécutifs quelconques car celle-ci dépend de leur ordre dans la série de tirages et dépend
des résultats des tirages antérieurs.

# Les probabilités sont différentes

108

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3. Dans un jeu de 52 cartes, quelle est la probabilité de tirer cinq “as” lors de cinq
tirages consécutifs?

Tirage non exhaustif

4 L
] ^ ()." 2.7 . 10N
52

Tirage exhaustif

p = 0 car événement impossible

# Les probabilités sont différentes

109

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

1.5.3. Synthèse

! Si l’on remet, après chaque tirage effectué, l’élément extrait dans l’ensemble de
départ, ce dernier sera, à chaque nouveau tirage, toujours constitué du même
nombre d’éléments. Dans ce type de tirage avec remise (appelé aussi tirage non
exhaustif), le résultat d’un tirage n’est pas influencé par les résultats des expériences
antérieures et la probabilité de réalisation de chaque événement au cours de chaque
expérience est donc identique et les événements sont indépendants.

! Si l’on ne remet pas, après chaque tirage effectué, l’élément extrait dans l’ensemble
de départ, ce dernier sera, à chaque nouveau tirage, diminué d’un élément. Dans ce
type de tirage sans remise (appelé aussi tirage exhaustif), le résultat d’un tirage est
influencé par les résultats des expériences antérieures et la probabilité de réalisation
de chaque événement varie au cours de chaque expérience en fonction du nombre
restreint d’éléments (nombre de cas possibles) et du nombre de fois que
l’événement s’est réalisé précédemment (nombre de cas favorables); les événements
sont dépendants.

! Les tirages non exhaustifs conduisent à des expériences équiprobables.

! Les tirages exhaustifs ne conduisent pas à des expériences équiprobables.

1.5.4. Travail d’intégration

On tire au hasard, et sans remise, deux cartes dans un jeu de 52 cartes.

1. Quelle est la probabilité pour que les deux cartes soient des piques?

2. Quelle est la probabilité pour que la première des deux cartes soit un pique et que la
deuxième ne soit pas un pique?

3. Quelle est la probabilité pour que la première des deux cartes soit un pique et que la
deuxième soit un cœur?

4. Quelle est la probabilité pour que les deux cartes ne soient pas de la même famille (pique,
cœur, carreau, trèfle) ?

110

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

1.6. En résumé

La probabilité de réalisation d’un événement peut-être définie par une valeur numérique
qui exprime le degré de vraisemblance associé à la réalisation de cet événement.

! Probabilité a priori

La probabilité a priori de réalisation d’un événement E est, si tous les cas possibles sont
équiprobables, le nombre de cas favorables sur le nombre de cas possibles.

! Probabilité

Une probabilité est une proportion théorique de chances de réalisation d’un événement

$ La probabilité d’un événement impossible est égale à 0.


$ La probabilité d’un événement certain est égale à 1.
$ La probabilité est toujours un nombre compris entre 0 et 1.

! Au cours d’une même expérience

Des événements sont dits équiprobables si la probabilité de réalisation de chacun d’entre


eux est identique.

La probabilité complémentaire est la probabilité de non-réalisation de l’événement. Elle est


notée q et est égale à 1-p.

Des événements sont dits incompatibles si la réalisation de l’un exclut automatiquement la


réalisation des autres.

! Au cours d’expériences répétées

$ Théorème d’addition (ou/+)


$ Théorème de multiplication (et/x)

Tirages non exhaustifs (avec remise) " événements indépendants " pas d’influence des
résultats antérieurs.

Tirages exhaustifs (sans remise) " événements dépendants " influence des résultats
antérieurs.

111

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2. Loi binomiale (binomial distribution)

Ex. : je jette 20 fois une pièce en l’air; quelle est la probabilité de « faire 15 piles »?

Avec les techniques vues jusqu’à présent, la réalisation de cet exercice serait trop longue et
fastidieuse. Le recours à des lois de probabilité peut alors se révéler efficace. Une des lois
fréquemment utilisées est la loi binomiale.

2.1. Binôme de Newton

La probabilité de r réalisations de l’événement E au cours de N expériences indépendantes


est :

P_` . #` . a _V`
Avec :

P_` , donné par la machine ou par la table

2, le nombre d’expériences

$, le nombre de réalisations de l’événement E

#, la probabilité a priori de réalisation de l’événement E

a, la probabilité a priori de non-réalisation de l’événement E

Notes :

112

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Je jette 20 fois une pièce en l’air; quelle est la probabilité de « faire 15 piles »?

Je jette 30 fois une pièce en l’air; quelle est la probabilité de « faire 17 faces »?

113

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.2. Description et utilisation de la loi binomiale

La loi binomiale est une loi de probabilité qui concerne uniquement des événements
indépendants qui peuvent se traduire par une variable dichotomique.

Elle s’applique lorsqu’on souhaite calculer la probabilité de r réalisations simultanées d’un


événement au cours de N tirages non exhaustifs.

La distribution binomiale est une distribution théorique discrète (discontinue) où chaque


bâtonnet représente le résultat d’un binôme de Newton.

! en abscisse: le nombre d’événements réalisé


! en ordonnée: la probabilité associée

! Lorsque p = q = .5

Ex. : on joue à “pile ou face”(événements incompatibles équiprobables) en lançant à deux


reprises une pièce (tirages non exhaustifs). On s’intéresse à l’évènement «faire 1 pile ».

Note : p est la probabilité a priori de réalisation de l’événement “tirer un pile”; dans ce cas, p
= .5. La probabilité complémentaire, c’est-à-dire la probabilité de non réalisation de
l’événement est égale à la probabilité de réalisation de l’événement “tirer un face”. La
probabilité complémentaire est notée q et peut être calculée aisément puisque + 0 Q = 1.

114

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Les réalisations possibles sont:

1. “pile” au premier lancer suivi de “pile” au deuxième


2. “pile” au premier lancer suivi de “face” au deuxième ou “face” au premier lancer
suivi de “pile” au deuxième
3. “face” au premier lancer suivi de “face” au deuxième

= " "
p (1 pile et 1 pile) = > . # $ % soit .25

" " " " " "


p (1 pile et 1 face) = # . # $ % soit .25 ou p (1face et 1 pile) = # . # $ % soit .25 (c’est-à-dire, .5
au total en vertu du théorème d’addition)

" " "


p (1 face et 1 face) = # . # $ % soit .25

Si nous portons sur un graphique, le nombre de piles réalisé en abscisse et la probabilité


associée en ordonnée, nous obtenons:

Nous voyons que la distribution est discontinue, symétrique et bornée par 0 et 2.

Si nous considérons le même jeu mais en lançant à 3 reprises, nous obtenons :

115

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Nous voyons que la distribution est toujours discontinue, symétrique mais, cette fois, bornée
par 0 et 3.

Si nous augmentons le nombre n d’expériences où p = q = .5, nous obtiendrons une


distribution symétrique, discrète avec un nombre de réalisations possibles égal à n +1 et
bornée par 0 et n. Nous pouvons calculer les probabilités comme dans les exemples
précédents mais cette manière de procéder peut rapidement se révéler longue et
fastidieuse. La loi binomiale permet de calculer mathématiquement ces probabilités.

On joue à “pile ou face”(événements indépendants, incompatibles et équiprobables) en


lançant à vingt reprises une pièce (tirages non exhaustifs) " on peut appliquer le binôme de
Newton.

p = q = .5 N = 20

P (0 “pile”): -#.
.
. 5b . 5>b = .000000954 (r = 0)

P (1 “pile”): P>b
"
. 5= . 5=c = .000019073 (r = 1)

P (2 “pile”): P>b
#
. 5> . 5=d = .000181198 (r = 2)

P (10 “pile”) P>b . 5 . 5 = .1762


….
". =b =b
(r = 10)
….

P (18 “pile”): P>b . 5 . 5 = .000181198


"/ =d >
(r = 18)

P (19 “pile”): P>b . 5 . 5 = .000019073


"0 =c =
(r = 19)

P (20 “pile”): P>b . 5 . 5 = .000000954


#. >b b
(r = 20)

Si nous portons sur un graphique, le nombre de piles réalisé en abscisse et la probabilité


associée en ordonnée, nous obtenons:

116

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

La distribution est discontinue, symétrique et bornée par 0 et 20. Chaque bâtonnet


représente le résultat d’un binôme de Newton.

! Lorsque p ≠ q ≠ .5

Ex. : on lance un dé à cinq reprises et on s’intéresse à l’événement “faire un six”.


"
1 $ 2 soit .17 q = 1 - .17 q = .83 N=5

P (0 “six”): -5. . 17. . 835 $ .39 (r = 0)

P (1 “six”): -5" . 17" . 83% $ .40 (r = 1)

P (2 “six”): -5# . 17# . 83; $ .16 (r = 2)

P (3 “six”): -5; . 17; . 83# $ .03 (r = 3)

P (4 “six”): -5% . 17% . 83" $ .003 (r = 4)

P (5 “six”): -55 . 175 . 83. $ .0001 (r = 5)

Si nous portons sur un graphique, le nombre de “six” réalisés en abscisse et la probabilité


associée en ordonnée, nous obtenons:

117

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

La distribution est toujours discontinue et bornée par 0 et N mais qu’elle est cette fois
dissymétrique.

2.3. Propriétés de la loi binomiale

! La distribution binomiale est une loi de probabilité qui concerne des événements
indépendants qui peuvent se traduire par une variable dichotomique ;
! c’est une distribution théorique discrète ;
! elle est toujours bornée par 0 et N ;
! elle est symétrique uniquement lorsque p = q = .5 ;
! sa moyenne m et son écart type peuvent être calculés mathématiquement à partir
des valeurs de p, q et N.

= $ >1 ?@ A $ >1B

118

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Ex. : je jette 20 fois une pièce en l’air; quelle est la probabilité de « faire 3 piles et moins »?

119

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

r = 3 " se trouve à gauche de la moyenne

" a = 3 avec N = 20 " p = .0013

Je jette 20 fois une pièce en l’air; quelle est la probabilité de « faire 14 piles et plus »?

120

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

L’addition des binômes de Newton devient longue et fastidieuse. On va donc approcher la loi
binomiale par la loi normale.

121

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.4. Approche de la loi binomiale par la loi normale

Lorsque le nombre d’expériences n augmente encore, le calcul des binômes de Newton


devient très rapidement fastidieux et inutile. Dans ce cas et si p = q =.5, on peut approcher la
distribution binomiale par la loi normale.

Si la distribution sur laquelle on travaille est dissymétrique, on peut montrer que le même
phénomène est réalisé lorsque N.p et N.q > 10.

Remarque: la loi normale étant continue, on délimitera la surface calculée à la demi-


précision de la mesure (qui, en ce qui concerne le calcul des probabilités, vaut toujours 1).

Ex. : Je jette 20 fois une pièce en l’air; quelle est la probabilité de « faire 14 piles et plus »?

122

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

2.5. Synthèse

! Loi normale ! Loi binomiale

- continue
- toujours symétrique
- discontinue
- s’étend de - ∞ à + ∞
- symétrique quand p=q=.5
- excellente approximation
- bornée par 0 et N
- calcul précis de probabilité

3. Techniques inférentielles
3.1. Objectifs

Les techniques inférentielles sont utilisées avec deux objectifs :

! généraliser à la population la description obtenue dans un échantillon ;


! tester des hypothèses (déterminer si les variations observées entre les données sont
dues au hasard ou à une cause systématiquement présente).

Lorsque la population à partir de laquelle le chercheur souhaite recueillir des données est
trop grande, celui-ci effectue généralement ses observations, ou mesures, à partir d’un sous-
ensemble pour ensuite généraliser les résultats obtenus.

Cependant, si les méthodes de la statistique inférentielle permettent d’induire, à partir des


indices caractéristiques de l'échantillon, des informations sur les valeurs correspondantes
dans la population, cette généralisation ne peut être effectuée avec une certitude absolue et
qu’elle est donc présentée sous la forme d’une “fourchette” (I.C.), associée à une
probabilité (ou taux de confiance).

123

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.2. Echantillonnage

3.2.1. Concepts de base

Le terme “échantillonner” recouvre l’ensemble des opérations destinées à extraire un


échantillon d’une population.

Pour rappel, on appelle population la totalité des éléments constituant l’ensemble sur lequel
on souhaite recueillir des informations et échantillon, un sous-ensemble de cette
population, sur lequel on recueille effectivement des données.

Ex. : un chercheur souhaite évaluer la taille des jeunes âgés de 16 à 18 ans en Belgique. Il est
évident qu’il est matériellement impossible de les mesurer tous. Aussi, va-t-il extraire un
échantillon parmi ces jeunes et procéder à la mesure de la taille d’un nombre déterminé
d'individus (1000 par exemple), choisis au hasard au sein de la population.

124

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.2.2. Représentativité de l’échantillon

Un des objectifs étant de généraliser à la population les données issues d'une


expérimentation, ou d’une observation, effectuée sur un échantillon, il est important que cet
échantillon représente correctement cette population, qu’il soit représentatif de celle-ci.

Un échantillon est dit représentatif d’une population lorsqu’on a toute raison de croire que
la propriété mesurée est, au hasard près, identique dans l’échantillon et dans la population.

Pour qu’un échantillon soit représentatif, il faut s’assurer d’une part, que son effectif soit
suffisamment grand et d’autre part, que tous les éléments de la population aient la même
probabilité d’être sélectionnés (on parle, dans ce cas, de méthode d’échantillonnage
aléatoire simple). Des techniques précises ont été élaborées pour extraire de la sorte des
échantillons mais elles impliquent bien souvent des procédures longues et difficiles.

Aussi, dans de nombreux cas en sciences humaines le chercheur prend en considération un


échantillon occasionnel, c’est-à-dire un échantillon extrait selon une méthode de sélection
guidée par la facilité (c’est la disponibilité des sujets qui forme l’argument essentiel de la
sélection). On considère alors que ce type d’échantillon est représentatif d’une population
beaucoup plus vaste, dans la mesure où il n’y a aucune raison de croire a priori que la
propriété mesurée est différente dans la population et dans l’échantillon.

Exemples

1. Un chercheur veut tester la discrimination sensorielle auditive d’une population


constituée de jeunes adultes de 18 à 23 ans. Il peut considérer que les étudiants de
l’Université, qui sont dans cette fourchette d’âge, constitue un échantillon représentatif de
l’ensemble de cette population. En effet, il n’y a aucune raison de croire à priori que les
sensations auditives des étudiants universitaires diffèrent autrement que par le hasard de
celles des autres jeunes de leur âge. L’échantillon occasionnel est représentatif de la
population des jeunes adultes.

2. Si ce même chercheur désire tester les capacités de mémoire de cette population,


l’échantillon occasionnel ci- avant n’est représentatif que de la population des jeunes
adultes ayant terminé leurs études secondaires et non pas de tous les jeunes adultes. En
effet, il y a de bonnes raisons de croire que le niveau d’études influence les capacités
mnémoniques.

125

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.2.3. Statistiques et paramètres

Les techniques de la statistique descriptive ont pour objectif de déterminer des valeurs
caractéristiques de l'échantillon, appelées aussi statistiques. A partir de celles-ci, les méthodes de la
statistique inférentielle permettent d’induire des informations sur les valeurs correspondantes dans
la population, appelés aussi paramètres.

Lorsque l’échantillon est représentatif, on peut admettre, en première approximation, que


les statistiques calculées sur l’échantillon, à l’exception de l’écart type, sont une bonne
estimation des paramètres correspondants de la population.

Tandis que A
FFFFF
CDE est donné par :

En fait, la détermination de FFFFF


ACDE , fait appel à une notion très importante en statistique
inférentielle: le nombre de degrés de liberté L (ici, L=N-1) .

126

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.2.4. Nombre de degrés de liberté

On appelle nombre de degrés de liberté L d’un ensemble de N valeurs, le nombre de ces


valeurs qui ne peuvent être calculées par des relations entre elles. Si nous avons N valeurs et
r relations entre ces valeurs, le nombre de degrés de liberté vaut :

L = N – r.

Exemples

1. Soit 3 nombres x, y et z dont la somme vaut 20 # x + y + z = 20. Il y a une infinité de


solutions à cette équation. En effet, si nous choisissons au hasard les valeurs de x et y, il y
aura toujours une valeur de z qui permettra de résoudre l’équation.

Si par exemple x = 10 et y = 8, z devra valoir 2 pour satisfaire la relation.

Si x = 20 et y = 20, z devra valoir –20.

En d’autres mots si nous considérons 3 nombres (N=3) et une relation entre ces 3 nombres
(r = 1), nous aurons la liberté de fixer arbitrairement la valeur de 2 de ces nombres (L = 2), le
troisième étant imposé par la relation (somme constante). Donc, L=N-r

2. Soit 3 nombres x, y et z reliés entre eux par les 2 relations suivantes:

x + y + z = 20 x + y – z = 10

Nous ne pouvons fixer qu’un des 3 nombres de manière arbitraire, les 2 autres étant
imposés par les relations. Le nombre de degrés de liberté est donc de 1. Si par exemple,
nous fixons x = 5, nous obtenons:

y + z = 15 y–z=5

ce qui impose que y = 10 et z = 5.

Si nous fixons x = 10, nous obtenons obligatoirement y = 5 et z = 5.

Applications

1. Soit un échantillon d’effectif total = N et dont les données sont distribuées en k classes,
d’effectifs respectifs f1, f2, f3 … fk.

127

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Classes 1 2 3 .... k

Effectifs f1 f2 f3 fk

Dans un tel échantillon, la seule relation existante est celle qui relie les effectifs de classes fi
car le nombre total d’effectifs N est obligatoirement égal à la somme des effectifs de
classe; le nombre de relations r est donc égal à 1. Le nombre de degrés de liberté vaut: L =
N – 1.

3. Soient r échantillons, distribués chacun en n classes.

Echantillon 1:

Classes 1 2 3 ... n

Effectifs f11 f12 f13 f1n

#∑JIK" H"I $ >" # une relation

Echantillon 2:

Classes 1 2 3 ... n

Effectifs f21 f22 f23 f2n

#∑JIK" H#I $ ># # une relation

......

Echantillon r:

Classes 1 2 3 ... Classe n

Effectifs fr1 fr2 fr3 frn

#∑JIK" HLI $ >L # une relation

128

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Nous observons, pour les r échantillons, r relations (une par échantillon).

L’effectif total étant égal à N, le nombre de degrés de liberté vaut: L = N – r.

3. Données sous forme de tableau

Soit un sondage d’opinion effectué sur 4 catégories socio-économiques (I, II, III et IV) et dont
chacune des questions donne lieu à 5 réponses sont possibles (++, +, o, -, --). Le chercheur
s’impose1000 réponses par catégorie (soit, un total de 4000).

I II III IV T

++ % % % o T1

+ % % % o T2

o % % % o T3

- % % % o T4

-- o o o o T5

NI = 1000 NII = 1000 NIII = 1000 NIV = 1000 NTOT = 4000

Le chercheur dépouille en vrac et obtient les totaux Ti de chaque réponse. Les Ni et Ti sont
donc connus. Les résultats notés par des croix % étant décomptés, les chiffres manquants
dans le tableau (notés par des o) peuvent être déduits par simple calcul (ils sont donc liés par
des relations). Par conséquent, dans ce tableau, nous pouvons observer 12 degrés de liberté
(les croix % qui occupent r-1 rangées et k-1 colonnes) # dans un tableau:

Le nombre de degrés de liberté est égal à :

L = (k – 1) (r – 1)

k est le nombre de colonnes et r, le nombre de rangées.

129

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.2.5. Distributions d’échantillonnage

Nous venons de voir qu’à partir des statistiques m et σ, calculées sur un échantillon de N
éléments, il était possible d’obtenir une bonne estimation des paramètres correspondants
de la population. Cependant, si nous extrayons un autre échantillon de N éléments à partir
de la même population, les fluctuations aléatoires de l’échantillonnage sont telles que les
statistiques m2 et σ2 caractérisant ce deuxième échantillon diffèrent quelque peu des
statistiques m1 et σ1 du premier échantillon.

Considérons une population bien définie et la distribution de tous les échantillons non
exhaustifs de taille N que l’on peut en extraire ou distribution des échantillons.

Les différentes statistiques (moyenne, écart type) que l’on calcule à partir de chacun de ces
échantillons varient d’un échantillon à l’autre (car les données ne sont pas les mêmes). On
peut donc considérer que l’ensemble des valeurs trouvées pour chacune de ces statistiques
forment une distribution que l’on appellera distribution d’échantillonnage de cette
statistique. Ainsi, si nous considérons tous les échantillons de N éléments pouvant être
extraits d’une population très grande, il est clair que chaque échantillon peut être
caractérisé par une moyenne. L’ensemble de toutes ces moyennes forment la distribution
d’échantillonnage de la moyenne. De la même manière, nous obtiendrons également k
valeurs de l’écart type, ces k nombres formant la distribution d’échantillonnage de l’écart
type ou encore, k valeurs de proportions formant la distribution d’échantillonnage des
proportions.

130

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.2.6. Paramètre estimé et erreur type sur l’indice

La moyenne de la distribution d’échantillonnage s’appelle le paramètre estimé et l’écart


type de la distribution d’échantillonnage s’appelle l’erreur type sur l’indice (voir tableau de
formules dans le Recueil de formules et tables, p.4).

a. Distribution d’échantillonnage de la moyenne

Le paramètre estimé de la distribution d’échantillonnage des moyennes (qui est donc une
moyenne de moyennes) est égal à la moyenne de la population = M et ce, quel que soit le
nombre N de l’échantillon. Nous avons aussi vu précédemment que, lorsque l’échantillon est
représentatif, on peut admettre, en première approximation, que les statistiques calculées
sur l’échantillon, à l’exception de l’écart type, sont une bonne estimation des paramètres
correspondant de la population. Nous pouvons dès lors dire que :

=CDE $ =
L’écart type de la distribution d’échantillonnage des moyennes, appelé erreur type sur la
moyenne et noté Sm, peut être calculé à partir de l’écart type de la population et le nombre
N d’éléments des échantillons:
A
NO $
√Q

b. Distribution d’échantillonnage de l’écart type

Le paramètre estimé de la distribution d’échantillonnage de l’écart type (qui est donc une
moyenne d’écarts type) est égal à :

2
Qefg = Qh
i

131

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

L’écart type de la distribution d’échantillonnage de l’écart type est appelé erreur type sur
l’écart type et est noté Sσ. Il peut être calculé de la manière suivante :

ACDE
NR $
√2. 2

c. Distribution d’échantillonnage des proportions

La moyenne de la distribution d’échantillonnage d’une proportion (qui est donc une


moyenne de proportions) est égale à la proportion moyenne correspondante 1̅ de la
population. Nous avons aussi vu précédemment que, lorsque l’échantillon est représentatif,
on peut admettre, en première approximation, que les statistiques calculées sur
l’échantillon, à l’exception de l’écart type, sont une bonne estimation des paramètres
correspondant de la population. Nous pouvons dès lors dire que :

1CDE $ 1
L’écart type de la distribution d’échantillonnage d’une proportion est appelé erreur type sur
la proportion et est noté Sp. Il peut être calculé de la manière suivante :

1. (1 − #Z
NT $ U
2

3.2.7. Intervalle de confiance

L’intervalle de confiance (noté I.C.) peut être défini comme une fourchette autour du
paramètre estimé, délimitée par une borne inférieure et une borne supérieure, et associée à
une probabilité (ou taux de confiance). On peut calculer ses bornes grâce à la formule
suivante :

VID $ WXYX=è@Y?CDE ± \. j<kl<me

Graphiquement, c’est une surface sous la courbe représentant la probabilité (ou taux de
confiance) associée à l’I.C

132

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.2.8. Quelles questions faut-il se poser lorsqu’on cherche à déterminer un intervalle de


confiance?

! Dans quelle distribution d’échantillonnage dois-je travailler?


! Quelle est la forme de cette distribution d’échantillonnage?
! Quelle est la probabilité que je souhaite associer à l’intervalle de confiance?

a. Dans quelle distribution d’échantillonnage dois-je travailler?

Nous nous limiterons, dans le cadre de ce cours à trois distributions d’échantillonnage : celles
de la moyenne, de l’écart type et des proportions. Le choix de la distribution
d’échantillonnage dépend du paramètre sur lequel il faut inférer (en fonction de l’énoncé ou
au regard de la recherche que vous êtes en train de réaliser). Ce choix aura une incidence sur
le calcul du paramètre estimé et de l’erreur type (voir points précédents et tableau des
formules dans le Recueil de formules et tables, p.4).

b. Quelle est la forme de cette distribution d’échantillonnage?

Les distributions d’échantillonnage avec lesquelles nous travaillons dans le cadre de ce cours
peuvent être soit de forme normale soit en t de Student.

La distribution normale a été longuement abordée précédemment.

La distribution en t de Student ressemble à la distribution normale. Elle est symétrique et


centrée sur 0. Sa forme exacte dépend de la taille de l'échantillon (N). Elle est plus aplatie
que la distribution normale. Mais, à mesure que la taille de l’échantillon augmente, la
distribution t tend à se confondre avec la distribution normale.

! Distribution d’échantillonnage de la moyenne

La forme générale de la distribution d’échantillonnage de la moyenne est symétrique, « en


cloche ». De manière générale, c’est une distribution en t de Student mais lorsque le nombre

133

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

d’éléments N de l’échantillon est grand (N>100, et même déjà N>60), elle tend à se
confondre avec une loi normale.

! Distribution d’échantillonnage de l’écart type

Si le nombre d’éléments N de l’échantillon est grand (N>100), on peut considérer que la


distribution d’échantillonnage de l’écart type a une forme normale.

! Distribution d’échantillonnage des proportions

Si le nombre d’éléments N de l’échantillon est grand (N>100), on peut considérer que la


distribution d’échantillonnage des proportions a une forme normale.

! Synthèse

La forme de la distribution d’échantillonnage aura donc une incidence sur le choix de la note
z (qui sera, selon les cas, soit une note t soit une note u) dans la formule permettant de
calculer Bis (voir page 4 du Recueil de formules et tables).

c. Quelle est la probabilité que je souhaite associer à l’intervalle de confiance?

La probabilité que l’on souhaite associer à l’intervalle de confiance aura une incidence sur la
valeur des bornes de l’intervalle de confiance. En effet, pour augmenter la probabilité, il faut
augmenter la taille de la fourchette.

134

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.2.9. Détermination de la note z (u ou t)

La détermination de la note u se fera à l’aide de la table de la normale centrée réduite qui,


rappelons-le, est une demi-table. Il faut donc diviser la probabilité associée par deux ;
rechercher cette surface dans la table pour ensuite trouver la valeur de u correspondante.

La détermination de la note t se fera à l’aide de la Table du test t de Student à 2 issues (p.13


du Recueil de formules et tables). Pour l’entrée « gauche », prendre la valeur du degré de
liberté (variable d’un exercice à l’autre) et pour l’entrée « haut », choisir le taux de confiance
souhaité à 2 issues.

3.2.10. En résumé

Grâce aux techniques inférentielles, on peut, en partant des statistiques de l’échantillon,


estimer les paramètres de la population à l’intérieur d’une fourchette ou I.C. (borne
inférieure et borne supérieure) et avec un certain taux de confiance (probabilité).

135

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

136

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.2.11. Rédaction des phrases de conclusion

Il y a plusieurs manières de rédiger les phrases de conclusion des exercices d’inférence mais
on peut, sans problème, se baser sur le canevas suivant :

« Etant donné les caractéristiques de l’échantillon de départ, il y a x% de chances que le


paramètre auquel je m’intéresse (la moyenne, l’écart type…) soit, dans la population, compris
entre telle valeur (borne inférieure de l’I.C.) et telle valeur (borne supérieure de l’I.C.) ».

3.2.12. Travail d’intégration

Ex. : Un chercheur travaille sur un échantillon de 37 personnes et mesure des tailles. La


moyenne de l’échantillon est de 160 cm et l’écart type de 6 cm. Inférez à .95 sur la moyenne
de la population.

Refaites le même exercice mais avec un effectif de 137 et tirez-en les conclusions.

137

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.3. Tests d’hypothèse (hypothesis testing)

Les tests statistiques, ou tests d’hypothèse, sont utilisés pour déterminer si les variations
observées entre les données sont dues au hasard ou à une cause systématiquement
présente. Concrètement, ce sont des méthodes qui permettent de comparer:

! un échantillon à une population connue (on parle dans ce cas de tests de conformité)
! deux ou plusieurs échantillons entre eux (on parle ici de tests d’homogénéité)

afin de déterminer si les différences observées sont dues au hasard ou à une cause
systématique.

3.3.1. Tests de conformité (test of conformity)

Les tests de conformité sont destinés à vérifier si un échantillon peut être considéré comme
extrait d’une population donnée, ou représentatif de cette population, vis-à-vis d'un
paramètre comme la moyenne ou l’écart type par exemple.

Exemple:
! Test t de Student : comparaison de moyennes (p. 6 Recueil Formules & tables)

Avec :

=, la moyenne de l’échantillon
], la moyenne de la population
A
NO $
√Q

138

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.3.2. Tests d’homogénéité(test of homogeneity)

Les tests d’homogénéité sont destinés à vérifier si deux (ou plusieurs) échantillons peuvent
être considérés comme extraits d’une même population, ou représentatifs de cette
population, vis-à-vis d'un paramètre comme la moyenne ou l’écart type par ex.

Exemple :

Deux échantillons indépendants de données métriques (p.5 Recueil Formules &


tables)

! Test F de Snédecor : comparaison de variances


! Test t de Student : comparaison de moyennes

Deux échantillons appareillés de données métriques (p. 6 Recueil Formules & tables)

! Test t de Student : comparaison de moyennes

3.3.3. Principes

En statistiques, un test d'hypothèse est une démarche consistant à rejeter ou à accepter une
hypothèse statistique.

139

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

L’utilisation des tests nécessite la formulation d’hypothèses. Une hypothèse est une
affirmation que le chercheur formule au départ et qu’il cherche ensuite à vérifier. Dans
certains cas, il va pouvoir accepter (c’est-à-dire confirmer) ; dans d’autres, il sera amené à la
rejeter (c’est-à-dire à l’infirmer).

3.3.4. Hypothèse nulle (null hypothesis)

L’hypothèse de base en statistique est de considérer que les différences entre les indices
statistiques que le test permet de comparer sont dues au hasard1.

L’hypothèse nulle sera formulée différemment selon qu’on applique un test de conformité
ou un test d’homogénéité :

Accepter H0 :

! c’est confirmer l’hypothèse nulle posée au départ ;


! c’est accepter que :
$ les différences observées sont dues au hasard, sont statistiquement nulles,
ne sont pas statistiquement significatives ;
$ l’échantillon est extrait d’une population théorique considérée par un indice
statistiquement égal (test de conformité) ;
$ les deux échantillons sont issus de populations identiques quant à l’indice
considéré (test d’homogénéité)

1
On pourrait aussi formuler une hypothèse mettant en œuvre l’idée qu’il existe une différence statistiquement
significative : on parle dans ce cas d’hypothèse rivale. Celle-ci est notée H1. Refuser H0 revient donc à accepter
H1.

140

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Rejeter H0 :

! c’est infirmer l’hypothèse nulle posée au départ ;


! c’est accepter que :
$ les différences observées ne sont pas dues au hasard, ne sont pas
statistiquement nulles, sont statistiquement significatives ;
$ l’échantillon n’est pas extrait d’une population théorique considérée par un
indice statistiquement égal (test de conformité) ;
$ les deux échantillons ne sont pas issus de populations identiques quant à
l’indice considéré (test d’homogénéité)

3.3.5. Intervalle de confiance (I.C.)(Confidence interval)

Les tests statistiques sont basés sur les intervalles de confiance calculés à partir de la
distribution d’échantillonnage. Ce sont ces I.C. qui servent de référence en vue de la prise de
décision.

Un intervalle de confiance autour d’un paramètre est une surface délimitée par une borne
inférieure et une borne supérieure.

La surface (blanche) se trouvant à l’extérieur de ces deux bornes représente la probabilité


notée α que l’hypothèse nulle soit vraie (ou la probabilité d’accepter celle-ci) C’est donc
aussi la probabilité que les éléments comparés soient statistiquement égaux et que les
différences existantes soient dues au hasard (c’est-à-dire à une cause aléatoire).

La surface (verte) à l’intérieur de ces deux bornes représente la probabilité notée (1-α) que
l’hypothèse nulle soit fausse (ou la probabilité de rejeter celle-ci). C’est donc aussi la
probabilité que les éléments comparés soient statistiquement différents et que les
différences existantes soient dues à une cause systématiquement présente.

141

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.3.6. Test à deux issues (two-tailed test)

Lorsqu'on ne peut pas spécifier une direction particulière pour l'hypothèse, on dit que le test
est à deux issues ou bilatéral.

Dans ce cas, il n’y a aucune raison de penser que, si une différence existe, elle devrait avoir
lieu dans un sens plutôt que dans l’autre. Le « hasard » (α) a deux issues : à gauche ou à
droite.

Ex : Dans un centre spécialisé, on soigne des troubles phobiques à l’aide de deux méthodes
thérapeutiques différentes.

Sur les 26 patients traités, 11 le sont avec la méthode A et parmi eux, 6 guérissent. Parmi
ceux traités avec la méthode B, 3 seulement guérissent. Une méthode est-elle plus efficace
que l’autre? " le résultat peut aller dans un sens ou dans l’autre.

Exemple: I.C. à .95

Dans ce cas, le hasard (α)


est réparti à gauche et à
droite " test à 2 issues.

Représentation graphique simplifiée d’un test à 2 issues :

142

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Exemple: I.C. à .95

Sur base des représentations graphiques ci-dessous, complétez les phrases :

Il y a plus de 95% de chance ……………………………………… l’hypothèse nulle.

Il y a moins de 5% de chance ………………………………………..l’hypothèse nulle.

Il y a plus de 95% de chance que la différence entre A et B soit due à une cause
……………………………………

Il y a moins de 5% de chance que la différence entre A et B soit due à une cause


………………………………….

Il y a plus de 95% de chance que A soit statistiquement ……………………………………… de B.

Il y a moins de 5% de chance que A soit statistiquement ……………………………………………… à B.

143

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

l y a plus de 95% de chance ……………………………………… l’hypothèse nulle.

Il y a moins de 5% de chance ………………………………………..l’hypothèse nulle.

Il y a plus de 95% de chance que la différence entre A et B soit due à une cause
……………………………………

Il y a moins de 5% de chance que la différence entre A et B soit due à une cause


………………………………….

Il y a plus de 95% de chance que A soit statistiquement ……………………………………… de B.

Il y a moins de 5% de chance que A soit statistiquement ……………………………………………… à B.

3.3.7. Test à une issue (one-tailed test)

Lorsqu'on peut spécifier une direction particulière pour l'hypothèse, on dit que le test est à
une issue ou unilatéral.

Dans ce cas, on a toute raison de penser que, si une différence existe, elle devrait avoir lieu
dans un sens déterminé. Le « hasard » (α) n’a qu’une issue : soit à gauche, soit à droite.

Ex: un psychologue travaille à la mise en œuvre d’un programme d’éducation à la santé


destiné à de jeunes mères.

En vue de déterminer l’efficacité de celui-ci, il évalue le nombre de principes d’hygiène et de


soins des nourrissons que ces femmes sont capables d’énoncer avant et après le
déroulement du module de formation. Evaluez si le nombre de principes énoncés augmente
bien après la formation " logiquement, on peut poser l’hypothèse selon laquelle le résultat
devrait s’améliorer après la formation.

144

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Le taux de confiance de l’I.C. varie selon qu’il est à une ou deux issue(s).

Sur base des représentations graphiques ci-dessous, complétez les phrases :

Il y a plus de 95% de chance ……………………………………… l’hypothèse nulle.

Il y a moins de 5% de chance ………………………………………..l’hypothèse nulle.

Il y a plus de 95% de chance que la différence entre A et B soit due à une cause
……………………………………

Il y a moins de 5% de chance que la différence entre A et B soit due à une cause


………………………………….

Il y a plus de 95% de chance que A soit statistiquement ……………………………………… de B.

Il y a moins de 5% de chance que A soit statistiquement ……………………………………………… à B.

145

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Il y a plus de 95% de chance ……………………………………… l’hypothèse nulle.

Il y a moins de 5% de chance ………………………………………..l’hypothèse nulle.

Il y a plus de 95% de chance que la différence entre A et B soit due à une cause
……………………………………

Il y a moins de 5% de chance que la différence entre A et B soit due à une cause


………………………………….

Il y a plus de 95% de chance que A soit statistiquement ……………………………………… de B.

Il y a moins de 5% que A soit statistiquement ……………………………………………… à B.

3.3.8. Exercices d’intégration

Soit un intervalle de confiance à .90 à 2 issues. Sur le même axe, dessinez :

- un intervalle à .95 à 2 issues

- un intervalle à .95 à 1 issue

- un intervalle à .80 à 2 issues

- un intervalle à .90 à 1 issue

en positionnant les intervalles à 2 issues au-dessus de l’axe et les intervalles à 1 issue au-dessous de
l’axe.

146

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Placer 4 points (A, B, C et D) tels que :

Il y a – de 90% de chance que A soit diff. De m

Il y a + de 95% de chance que B soit diff. De m

Il y a – de 1% de chance que C soit égal à m

Il y a + de 5% de chance que D soit égal à m

Certains tests fournissent un résultat à 1 issue, d’autres, un résultat à 2 issues. En fonction


du plan de la recherche que l’on souhaite mener, il arrive qu’il faille transformer ce résultat.

3.3.9. Transformer un résultat pour un test à 1 issue en un résultat pour un test à 2


issues

Pour transformer un résultat pour un test à 1 issue en un résultat pour un test à 2 issues, il suffit de
doubler la probabilité du hasard (α).

147

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.3.10. Transformer un résultat pour un test à 2 issues en un résultat pour un test à 1


issue

Pour transformer un résultat pour un test à 2 issues en un résultat pour un test à 1 issue, il suffit de
diviser par 2 la probabilité du hasard (α).

3.3.11. En résumé

α, c’est la probabilité : 1-α, c’est la probabilité :

d’accepter l’H0 de refuser l’H0

de confirmer l’hypothèse nulle posée au départ d’infirmer l’hypothèse nulle posée au départ

que les différences observées : que les différences observées :


$ soient dues au hasard $ ne soient pas dues au hasard,
$ sont statistiquement nulles, $ ne soient pas statistiquement nulles,
$ ne sont pas statistiquement $ soient statistiquement significatives ;
significatives ;

que l’échantillon soit extrait d’une population que l’échantillon ne soit pas extrait d’une
théorique considérée par un indice population théorique considérée par un indice
statistiquement égal (test de conformité) ; statistiquement égal (test de conformité) ;

que les deux échantillons soient issus de que es deux échantillons ne soient pas issus de
populations identiques quant à l’indice populations identiques quant à l’indice
considéré (test d’homogénéité). considéré (test d’homogénéité)

148

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

3.3.12. Comment décider si le résultat d’un test est globalement significatif?


(conventional levels of significance)

Par convention, on considère généralement :

Ces niveaux de signification sont largement admis et utilisés en sciences humaines, même si
le biveau intermédiaire tend de plus en plus à ne plus être utilisé dans la littérature.

3.3.13. Le test F de Snedecor

Le test F de Snedecor est un test statistique qui compare les variances de deux échantillons
indépendants de données métriques. C’est donc un test d’homogénéité.

Dans ce cas, l’hypothèse nulle peut être formulée comme suit : les deux échantillons sont
issus de populations identiques, à tout le moins en ce qui concerne leur variance.

Cette hypothèse nulle sera testée au moyen d’un rapport F à une issue (la plus grande des
deux variances estimées est toujours positionnée au numérateur pour « forcer » le résultat
dans un sens ou dans l’autre).

149

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

Dans chacun des deux échantillons, on calcule ^c_`ab et ^cc`ab et selon les cas, on applique la
formule du F appropriée. Ensuite, on interprète la valeur du F dans la table du F de Snédécor
(page 10 du Recueil de formules et tables) en utilisant les degrés de liberté appropriés :

F L1 L2

^c_`ab > ^cc`ab A"CDE


#
e$ Q" $ >" − 1 i> = 2> − 1
A#CDE
#

pqqrst > pqvrst A#CDE


# Q" $ ># − 1 i> = 2= − 1
e$
A"CDE
#

Pour prendre la bonne décision lors de l’interprétation, on utilise les niveaux de signification
conventionnels repris au point 3.3.12.

3.3.14. Le test t de Student pour échantillons indépendants

Le test t de Student est un test statistique qui compare les moyennes de deux échantillons
indépendants de données métriques. C’est donc un test d’homogénéité.

Dans ce cas, l’hypothèse nulle peut être formulée comme suit : les deux échantillons sont
issus de populations identiques, à tout le moins en ce qui concerne leur moyenne.

Cette hypothèse nulle sera testée au moyen d’une statistique t dont la formule varie selon
que le test F de Snédécor appliqué précédemment donne lieu à un résultat statistiquement
significatif ou non.

Ensuite, on interprète la valeur du F dans la table du t de Student (page 13 du Recueil de


formules et tables) en utilisant les degrés de liberté appropriés. La table du t de Student
comporte une portion « à 1 issue » et une portion « à deux issues » qui seront utilisées selon
le plan de la recherche.

150

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

t L

|=" − =# |
@$
F non significatif
2= + 2> i = 2= + 2> − 2
ACDE . R
2= . 2>
Avec :

2= . Q=> + 2> . Q>>


Qefg =h
2= + 2> − 2

|=" − =# | >" + ># − 2


@$ Q$
2
F significatif

UA"CDE + A#CDE
# #

>" >#

Pour prendre la bonne décision lors de l’interprétation, on utilise les niveaux de signification
conventionnels repris au point 3.3.12.

3.3.15. Le test t de Student pour échantillons appareillés

Le test t de Student est un test statistique qui compare les moyennes de deux échantillons
appareillés de données métriques (ex : résultats d’un prétest comparés avec les résultats
d’un post-test). C’est donc un test d’homogénéité.

Dans ce cas, l’hypothèse nulle peut être formulée comme suit : les deux échantillons sont
issus de populations identiques, à tout le moins en ce qui concerne leur moyenne.

Cette hypothèse nulle sera testée au moyen d’une statistique t dont la formule est reprise ci-
après.

Ensuite, on interprète la valeur du F dans la table du t de Student (page 13 du Recueil de


formules et tables) en utilisant les degrés de liberté appropriés. La table du t de Student

151

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

comporte une portion « à 1 issue » et une portion « à deux issues » qui seront utilisées selon
le plan de la recherche.

t L

=i
@$
1 L$N−1
Ai .
√2 − 1

Avec :

=i , la moyenne des différences


Ai , écart type des différences

Pour prendre la bonne décision lors de l’interprétation, on utilise les niveaux de signification
conventionnels repris au point 3.3.12.

3.3.16. Le test t de conformité

Le test t de Student de conformité est un test statistique qui compare la moyenne d’un
échantillon de données métriques avec celle d’une population théorique donnée. C’est donc
un test de conformité.

Dans ce cas, l’hypothèse nulle peut être formulée comme suit : l’échantillon est conforme à
la population, à tout le moins en ce qui concerne leur moyenne.

Cette hypothèse nulle sera testée au moyen d’une statistique t dont la formule est reprise ci-
après.

Ensuite, on interprète la valeur du F dans la table du t de Student (page 13 du Recueil de


formules et tables) en utilisant les degrés de liberté appropriés. La table du t de Student
comporte une portion « à 1 issue » et une portion « à deux issues » qui seront utilisées selon
le plan de la recherche.

152

Téléchargé par MF K (mfoundja.k@gmail.com)


lOMoARcPSD|6842479

t L

|= − ]|
@$ L$N−1
NO

Avec :

=, la moyenne de l’échantillon
], la moyenne de la population
A
NO $
√Q

Pour prendre la bonne décision lors de l’interprétation, on utilise les niveaux de signification
conventionnels repris au point 3.3.12.

153

Téléchargé par MF K (mfoundja.k@gmail.com)