Académique Documents
Professionnel Documents
Culture Documents
ISSHA – Mons
BLOC 1
Statistique
Théorie
Myriam Leleu
Pierre-Olivier Robert
1. Introduction
1.1. Objectifs
1.2. Sens du chiffre, esprit critique et relativisation
1.3. Approche générale des statistiques
1.3.1. Statistique ou statistiques ?
1.3.2. Statistique descriptive
1.3.2. Statistique inductive ou inférentielle
2. Notions de base
2.1. Terminologie : population/échantillon, unité statistique, …
2.2. Types de variables
2.2.1. Variables qualitatives ou quantitatives
2.2.2. Variables quantitatives discrètes ou continues
2.2.3. Variables ordinales, nominales ou métriques
2.2.4. Variables dichotomiques ou multichotomiques
2.3. Tableaux et graphiques
2.3.1. Types de tableaux
Tableau univarié : à une entrée
Tableau bivarié : à deux entrées
Tableau multivarié : à trois entrées ou plus
2.3.2. Représentations graphiques
Diagramme circulaire ou en secteurs (« pie charts »)
Diagramme à barres ou en bâtons
Histogramme
Polygone de fréquences
Cartogramme
Graphe linéaire
Graphe de dispersion
Boite à moustache (« boxplot »)
2.3.3. Lecture de tableaux et analyse de données
2.4. Les données
Données primaires, données secondaires
Données manquantes et cas déviants
Valeurs indicées
3. Statistique descriptive
3.1. Distribution à une variable
3.1.1. Regroupement de données en distributions de fréquences
Fréquences absolues ou données brutes
Fréquences relatives ou proportions
Fréquences relatives en pourcentages
Rapports
Effectifs cumulés
Pourcentages cumulés
3.1.2. Regroupement de données en classes
Limites d’une classe
Amplitude d’une classe
Point milieu d’une classe
4.2. Test du X2
4.2.1. Définition du X2
2
4.2.2. Méthode de calcul du X
4.2.3. Distribution d’échantillonnage du X2
2
4.2.4. Test de signification du X
Annexes
Mesures de dispersion
Notion de corrélation
! ALBARELLO, L., BOURGEOIS E. & GUYOT, J.L. (2007). Statistique descriptive, Un outil pour les
praticiens-chercheurs, Paris-Bruxelles : De Boeck Université
! ANCELLE, T. (2011-3è éd.). Statistique. Epidémiologie. Paris : Maloine
! AURIOL, C. (2007-2008). Cours de statistiques et démographie, Mons : ISSHA
! BLOSS, Th. & GROSSETTI, M. (1999). Introduction aux méthodes statistiques en sociologie,
Paris : PUF
! DREZE, J. (1982). Cours d’analyse statistique, Louvain-la-Neuve : Université Catholique de
Louvain
! DROESBEKE, F. (1977-1978). Eléments de statistiques, Notes de cours, Bruxelles : ULB
! FOX, W. (2000). Statistiques sociales. Paris-Bruxelles : De Boeck Université
! GONICK, L. & HUFFMAN, A. (2016). Les statistiques en BD. Paris : Larousse
! HOWELL, D.C. (2008). Méthodes statistiques en sciences humaines, Bruxelles : De Boeck
! MAES, R. (2022). Démocratiser les outils statistiques. Revue Nouvelle. N°2. p. 2-6
! MARTIN, O. (2009-2è éd.). L’enquête et ses méthodes. L’analyse de données quantitatives,
Paris : Armand Colin
! MEOT, A. (2003) Introduction aux statistiques inférentielles, De la logique à la pratique, Paris-
Bruxelles : De Boeck Université
! SANDERS, D.H., MURPH, A.Fr. & ENG, R.J. (1984). Les statistiques. Une approche nouvelle,
Montréal : Mc Graw Hill
! TRIOLA, M.M. & TRIOLA, M.F. (2009). Biostatistique pour les sciences de la vie et de la santé.
Pearson France
! VALLIN, J. in MESURE, S. & SAVIDAN, P. (dir.) (2006). Le dictionnaire des sciences humaines,
Paris : PUF
Bases de données
Evaluation
L’évaluation est basée sur un examen écrit qui vise à tester le niveau d’appropriation des
acquis d’apprentissage. Les éléments suivants seront évalués en particulier :
- connaissance des définitions théoriques et des formules de base,
- réalisation d’exercices pratiques et interprétation de données,
- construction et lecture de tableaux de données.
La participation au cours et aux séances d’exercices ainsi que la réalisation des exercices sont
indispensables !
Tous les étudiants doivent remettre un travail d’analyse de données, comme exercice introductif
au cours.
1.1. Objectifs
Nous sommes constamment confrontés aux chiffres. Nous les côtoyons au quotidien, que ce soit
dans la vie de tous les jours, pour réguler des horaires de cours ou de travail, ou dans la vie
publique, dans les médias, le monde socio-politique, etc. Il est donc important de comprendre la
portée des chiffres, a fortiori dans le métier d’assistant(e) social(e) qui demande l’analyse de
données chiffrées et leur production comme soutien à l’évaluation de l’action sociale et à la prise
de décision.
De manière générale, l’activité d’apprentissage des statistiques cherche à développer chez les
futurs travailleurs sociaux un esprit scientifique rigoureux, se méfiant des approximations et
généralisations hâtives.
Si les nombres importent, ce que nous en faisons importe peut-être plus encore. Le nombre
représente une entité supposée fixe, déterminée, invariable. Cependant, la manière de parler
de cette entité chiffrée lui conférera une orientation. Le chiffre est donc manipulable ; son sens
peut être construit en fonction du contexte dans lequel il est cité, des personnes qui y recourent,
des grands enjeux de société.
On peut en effet parler de taux de chômage en accentuant ce qui est supposé être un problème
ou en minimisant son effet. Objectivement, il représentait 11,2% de la population active belge
au 1er février 2009. On peut en parler de deux manières différentes :
- « il ne représente que 11,2% de la population active »
- « il présente une part de la population active qui s’élève à 11,2% ».
Le travail du scientifique consiste à relativiser les différents points de vue émis autour des
chiffres et à préserver un esprit critique. Il doit pouvoir analyser ce que le chiffre montre,
regarder l’envers du décor présenté par les chiffres, en toute objectivité.
Ainsi que l’a affirmé Pierre Bourdieu, « objectiver l’objectivation » doit être un constant souci de
l’observateur en sciences sociales. Car si le chiffre est supposé objectif, son interprétation ne
l’est pas nécessairement. Elle est empreinte de facteurs culturels et idéologiques qui lui
confèrent des sens variables…
Ces deux méthodes font l’objet de controverses ou plus simplement de choix méthodologiques.
Historiquement, il existe une tradition de recherche sociologique qui s’inscrit dans la filière de
l’Ecole de Chicago (début du XXème siècle), clairement orientée sur l’usage de techniques
qualitatives comme les entretiens, l’observation. Cette optique a longtemps été opposée aux
adeptes de la méthode par questionnaire et de l’analyse statistique de données, dont Paul
Lazarsfeld, sociologue américain d’origine autrichienne (1901-1976), fut la figure de proue.
Le mot ‘statistique’ provient de l’allemand « statistik » dont on trouve la trace en 1749. La racine
de ce mot est latine, « status », qui renvoie à l’état, et de manière plus large à l’homme d’état.
- les statistiques renvoient à des faits numériques : employé au pluriel, ce terme désigne
un ensemble de données,
- la statistique est une science : employé au singulier, ce terme désigne un ensemble de
méthodes destinées à étudier des données.
On considère que l’usage des statistiques a été introduit dans les sciences sociales par Emile
Durkheim (1858-1917) qui fait dans Les règles de la méthode sociologique (1895, 1ère éd.)
l’apologie des variations concomitantes (ou analyse de corrélations). Plus tard, il fondera son
étude du suicide, publiée en 1897, sur l’analyse des variations de taux de suicide pour diverses
populations en fonction du degré de cohésion sociale et de croyance religieuse. Durkheim va
en fait prolonger un mouvement entamé avant lui par un astronome et statisticien belge,
Adolphe Quetelet (1796-1874), qui, dans les années 1830, cherchait déjà à mesurer les
caractéristiques de « l’homme moyen ». Adolphe Quetelet fut aussi un pionnier dans le
domaine des études démographiques.
Quelques décennies plus tard, Vilfredo Pareto (1848-1923), ingénieur de formation, économiste
et sociologue italien, formalisera la distribution des hauts revenus dans une loi statistique qui
porte toujours son nom, « la loi de Pareto ». Il est en effet célèbre pour son observation des
20% de la population qui possède 80% des richesses en Italie, généralisée plus tard en
distribution Pareto. Par extension, on appelle diagramme de Pareto un histogramme où les
classes sont représentées par ordre décroissant de fréquence, ce qui permet de mettre en
évidence les classes les plus importantes. Pour Vilfredo Pareto, l’économie politique est une
partie de la sociologie…
On utilise les outils de la statistique descriptive pour résumer des informations sur un ensemble
d’individus fini. Un ensemble est dit fini ou complet lorsqu’il comprend tous les individus ou
unités statistiques de la population observée.
Par définition, les données de la statistique descriptive sont des données de population.
Les mesures habituelles sont des distributions de fréquence, des mesures de tendance centrale
et de dispersion, le croisement de variables.
L’inférence statistique va plus loin que la simple description des données de l’échantillon car
elle dispose d’outils qui permettent de réduire le niveau d’incertitude inhérent à la prise de
décisions. Elle est de nature inductive car elle passe du particulier au général. Une inférence
consiste en une opération logique par laquelle on admet une proposition en vertu de sa liaison
avec d’autres propositions déjà tenues pour vraies.
Par définition, les données de la statistique inférentielle sont des données d’échantillon.
Les sondages d’opinion et les tests d’hypothèses sont l’objet de ce type de méthode.
Les trois éléments essentiels de la statistique descriptive sont les suivants : la population,
l’individu ou l’unité statistique et l’observation ou la variable observée. Luc Albarello (2007)
parle à ce propos de « triptyque de la statistique descriptive ».
2.1. Terminologie
Population
Echantillon
Unité statistique
Les unités statistiques ne sont pas nécessairement des individus. Elles peuvent être des
entités collectives (entreprises, écoles, familles), des objets (textes, images, voitures),
des événements (interactions, comportements, migrations, grèves, divorces), etc.
Variable
Tout caractère ou trait distinctif que l’on veut observer pour chaque unité statistique
retenue.
Toutes les valeurs prises par la variable observée, qui peuvent aussi prendre
l’appellation de scores (pour une variable métrique) ou modalités (pour une variable
qualitative).
Fréquence relative
soit en proportions fi
N
soit en pourcentages fi .100
N
Série statistique
Ensemble des résultats d’une étude ou liste des observations faites pour les modalités
d’une variable.
Distribution de fréquences
Répartition ordonnée des individus d’un échantillon ou d’une population totale suivant
les valeurs que prend la variable observée.
Ex.1 : une personne peut être protestante ou catholique mais ne peut être à la
fois protestante et catholique
-> Collectivement exhaustives car l’ensemble des catégories de valeurs inclut tous les
cas et chaque cas tombe dans au moins une catégorie.
- La racine carrée d’un nombre positif x est un nombre positif a qui, multiplié par lui-
même, donne x (ex. : racine carrée de 9 = 3).
Une variable est une caractéristique ou une propriété quelconque dont la valeur diffère d’un cas
à l’autre. Le contraire d’une variable est une constante.
Une constante ne présente pas de variation ; c’est une valeur établie, comme la valeur de ∏ en
géométrie. Il y très peu de constantes en sciences sociales.
La statistique étudie les variables, aussi appelées caractères, d’un ensemble qualifié de
population. Les éléments de cette population sont les effectifs ou unités statistiques.
Variables qualitatives
Tout caractère (ou caractéristique) dont les modalités sont désignées par un mot, un
symbole. On parle de variables qualitatives lorsqu’il y a une répartition des observations
d’une population en un certain nombre de classes qu’on ne peut associer à un nombre.
Tout caractère dont les scores peuvent s’exprimer par un nombre ou une valeur
numérique. Les variables quantitatives introduisent la notion de quantité et de grandeur ;
elles peuvent être ordonnées.
Ex. : nombre de personnes dans une famille, nombre d’enfants à charge, nombre
d’employés dans une entreprise, nombre de nuitées enregistrées dans un hôtel
On parle de distribution discrète pour des données présentées valeur par valeur.
Variables qui peuvent prendre toutes les valeurs numériques situées dans un ensemble
défini, appelé intervalle. Ces valeurs sont, théoriquement, divisibles à l’infini.
" Particularité de la variable ‘âge’ : c’est une variable discrète lorsqu’on s’intéresse à l’âge
révolu et une variable continue si on s’intéresse à l’âge exact !
Variables nominales
Variables de nature qualitative dont les valeurs sont des catégories non ordonnées.
Ex. : la variable ‘sexe’ car il est impossible de dire si les hommes sont supérieurs
ou inférieurs, meilleurs ou pires que les femmes ; le statut de l’occupant d’un
logement (propriétaire ou locataire)
Variables ordinales
Variables généralement de nature qualitative, dont les valeurs peuvent être ordonnées
mais qui ne reposent pas sur une unité de mesure standard.
Ex. : la classe sociale évaluée par des modalités comme ‘inférieure’, ‘moyenne’
et ‘supérieure’ ; le niveau de confort d’un logement exprimé en ‘grand’, ‘moyen’,
‘élevé’ (voire par les chiffres ’1’ ‘2’ ‘3’ mais qui ne peuvent être additionnés)
Variables de nature quantitative, dont les valeurs sont ordonnées et basées sur une
unité de mesure standard.
Variables dichotomiques
Variables multichotomiques
Variable qualitative
quantitative discrète
continue
Variable nominale
ordinale
métrique
Variable dichotomique
multichotomique
Derrière l’outil, derrière les chiffres, les tableaux, « derrière la visualisation d’une distribution
dans un graphique, et plus particulièrement dans le dessin d’une courbe, ce sont des
phénomènes sociaux, économiques, pédagogiques, démographiques qui apparaissent »
L. Albarello et al. (2007). p. 141
Il existe différents types de tableaux selon le nombre de variables que l’on veut présenter.
Tableau univarié
Tableau bivarié
Tableau multivarié
Il existe différentes façons de représenter des données graphiquement, qui varient en fonction
du type de données et de variables.
!!! Consulter le document suivant : Albarello L. et al. (2007). Statistique descriptive, Chap. 7
« Représentations graphiques », pp. 131-152
Il est utilisé pour des variables qualitatives (nominales), mais aussi pour des variables
quantitatives (après regroupement en classes, à condition qu’il y ait peu de classes).
Dans un diagramme à barres, la fréquence est mesurée par la hauteur de chaque barre.
La hauteur de chaque barre est donc proportionnelle à l’effectif (ou au pourcentage) se
rapportant à une des modalités de la variable étudiée.
Les autres paramètres (distance entre les barres, largeur des barres, ordre des barres)
ne contiennent pas d’information sur la distribution étudiée.
les résidents considèrent que les activités quotidiennes sont
Adaptation - Bien-être n %
inexistantes, la satisfaction est moins souvent bonne (70%
Comment trouvez-vous le cadre de vie de la résidence ?
contre 90%). Cette proportion diminue également avec la
Agréable/Très agréable 136 85% quantité de visites reçues passant de 100% de résidents
Satisfaction de la nouvelle situation raisonnablement ou très satisfaits parmi les pensionnaires
Très/Raisonnablement satisfait 136 85% estimant recevoir plus de visites qu’avant à 73% parmi les
Craintes pour l'avenir 46 29% résidents n’en recevant pas.
50%
LES
40% INDICATEURS SYNTHÉTIQUES ET LES DÉTERMINANTS DE L’ADAPTATION
37
30% 21
Des indicateurs 18 synthétiques de la participation de la per- latives (faible, moyen, bon). On observe que les résidents
20%
Le diagramme à barres empilées
sonne âgée dans les démarches préalables à son entrée en est une variante
qui présententdulesdiagramme
meilleurs scoresàenbarres. Il permet
matière d’autonomie,
de10%visualiser facilement le résultat du croisement de deux variables.
institution, de son autonomie avant 8 l’entrée et de7son adap- d’une part et de participation aux décisions relatives à leur
0%
tation ensuite ont été construits sur base des réponses. Ces déménagement, d’autre part, semblent s’être mieux adaptés
Participation Participation Forte
Adaptation
indicateurs ont
faible
des personnes
ensuite été synthétisés
moyenne
âgées
en à la
catégories
participation
vie
re-en maison
au nouveau decadre
repos
de vie.
(N = 37) (N = 62) (N = 61)
Figure 5 Adaptation en Bonne adaptation Figure Adaptation en fonction
6 adaptation
Bonne
fonction de l’autonomie Adaptation moyenne de Adaptation
la participation aux démarches
moyenne
Faible adaptation Faible adaptation
100% 100% 100%
4 4
90% 10 90% 90%
17 17
28
80% 80% 16 80%
33 33
70% 70% 15 70% 15
60% 60% 60%
50%
18 50% 50%
38 40% 37 37
au bénéfice d’une meilleure santé pour tous
40% 40%
17
30% 30% 30% 21 21
18 18
20% 20% 20%
12
Connaître, analyser et comprendre
10% 17 10% 8
10%
7 8
4 7
0% 0% 0%
Faible Autonomie Participation
Bonne Participation Forte
Participation Participation Forte
autonomie moyenne faible
autonomie moyenne participation
faible moyenne participation
(N = 40) (N = 83) (N (N
= 37)
= 37) (N = 62) (N(N = 61)
= 37) (N = 62) (N = 61)
Histogramme
Il se distingue du diagramme en bâtons car les classes sont placées sur l’axe horizontal
dans un ordre croissant de gauche à droite. Les rectangles sont donc adjacents et
placés sur une échelle continue.
Si l’amplitude de classe est identique, les rectangles présenteront une largeur identique.
En général, l’histogramme présente des barres de largeur égale.
Polygone de fréquences
Un polygone de fréquences (ou effectifs) est un graphe linéaire. C’est une ligne brisée
qui représente une distribution de fréquences.
Dans le cas des variables discrètes, il s’obtient en joignant les sommets des bâtons du
diagramme.
Dans le cas de variables continues, il s’obtient en joignant les points milieux des
sommets des rectangles de l’histogramme.
Dans le cas des variables continues, il ne peut être dessiné si une classe est restée
ouverte.
Variable discrète
``
Variable continue
Un nombre important de valeurs peut être observé grâce à ce procédé qui repose sur
des unités d’analyse spatiales ou géographiques, comme un pays, une région, une
province, etc.
Le jeu des couleurs, leur intensité permet de diversifier la signification des variables
étudiées.
Graphe linéaire
La ligne brisée permet aussi de rendre compte avec précision de la relation d’ordre
croissant ou décroissant entre les modalités de la variable observée.
Ce type de graphe est utilisé pour des variables quantitatives. Il permet de synthétiser la
situation de deux variables en regard l’une de l’autre. Chaque individu (ou effectif) y est
présenté par un point dans un espace bidimensionnel. Les coordonnées (xi et yi) de ce
point sont les valeurs observées pour l’individu par rapport aux deux variables X et Y
considérées.
L'ensemble des points est reporté sur un graphique à deux dimensions, afin d'estimer
graphiquement la dispersion des données.
Thèmes : pouvoir d’achat, drogues, emploi, enseignement, santé, maison de repos etc.
Les données manquantes et les cas déviants sont généralement rejetés de l’analyse.
Concernant les données manquantes, il arrive en effet que les répondants à une enquête ne
veulent pas répondre ou ne savent pas répondre à certaines questions.
Dans ces cas-là, on note les items suivants : « Ne sait pas », « Refus de répondre », « Pas de
réponse », « Pas d’opinion ».
Les cas déviants présentent des scores anormalement élevés ou faibles ; ils se retrouvent donc
éloignés aux extrémités d’une distribution, détachés de la plupart des autres scores.
Données indicées
On désigne par indice la grandeur statistique avec laquelle on mesure des variations dans le
temps.
Lorsqu’on veut comparer des données, on peut attribuer un indice 100 à l’une d’entre elles.
Celle-ci devient la donnée de référence.
Un indice en base 100 exprime la variation entre une valeur de départ et une valeur d’arrivée
proportionnellement à la valeur de départ lorsque celle-ci est ramenée à 100.
Pour calculer une donnée d’un tableau indicé, il suffit de majorer ou de minorer la donnée de
référence en utilisant l’indice de celle-ci.
Ex. : Une donnée qui possède l’indice 117 vaut 117 % de la donnée de référence.
Une donnée qui possède l’indice 98 vaut 98 % de la donnée de référence.
L’indice des prix à la consommation mesure l’évolution du niveau moyen des prix des biens et
services consommés par les ménages, pondérés par leur part dans la consommation moyenne
des ménages. C’est un indicateur économique qui a pour objectif de mesurer l’évolution, au
cours du temps, des prix d’un panier de biens et services achetés par les ménages et censé
être représentatif de leur consommation.
Une distribution de fréquences à une variable reprend des données concernant une seule
variable, soit Xi
Une façon simple de résumer des informations concernant une variable est de compter le
nombre de cas pour chaque valeur de la variable. Ce résumé de la variation de la variable est
une distribution de fréquences. La distribution d’une variable est la forme prise par les
fréquences d’apparition des différentes valeurs.
Pour une variable discrète, la distribution se présente sous la forme d’un diagramme en
bâtons ; on prend les sommets des bâtons comme points de la courbe des fréquences.
Pour une variable continue (dont les valeurs possibles peuvent se situer n’importe où dans un
intervalle donné), la distribution peut se représenter sous la forme d’un histogramme ou d’une
courbe ; on prend les centres de classe comme points de la courbe.
Une proportion permet une comparaison entre l’effectif d’une des valeurs de la
variable et la totalité des unités statistiques considérées.
Se note fi
N f = fréquence
i = nombre de valeurs de la variable
N = nombre total de cas
C’est aussi une façon de standardiser des informations afin de les rendre comparables,
en partant d’une base 100 (ou 1000), Cela revient à calculer quel serait le nombre de
fréquences si le nombre total de cas était égal à 100.
Rapports
Un rapport (ou ratio) permet une comparaison entre l’effectif d’une valeur de la
variable et celui d’une autre valeur de la variable.
Se note f1
f2
Effectifs cumulés
Se note F ou ficc
Il est aussi possible de calculer des effectifs cumulés par ordre décroissant ; on part
alors du total des effectifs pour descendre vers la valeur de la dernière classe de la
distribution.
Se note ficd
Les mesures de tendance centrale visent à rendre compte de manière synthétique d’un aspect
important d’une distribution, ce que l’on pourrait appeler intuitivement la valeur dominante (ou
centrale) de cette distribution.
Il est possible qu’il y ait deux modes, lorsque la distribution de la variable se caractérise
par la présence de deux valeurs modales, c’est-à-dire de deux valeurs extrêmes. Dans
ce cas, la distribution est bimodale.
Se note Mo
b) Médiane
La médiane est donc la valeur de la variable telle que la moitié de l’effectif total (50%)
présente une valeur qui lui est inférieure et l’autre moitié (50%) de l’effectif total présente
une valeur qui lui est supérieure.
Se note Mé
!! Pour calculer la médiane, il est indispensable que les valeurs de la variable soient
rangées par ordre croissant. Il faut ensuite ranger les effectifs par ordre croissant.
Le calcul de la médiane varie selon que l’on a un nombre pair ou impair d’individus (ou
effectifs).
Après avoir rangé toutes les données par ordre croissant, on repère la valeur
observée au rang N +1
2
-> Nombre pair
Lorsque les valeurs de la variable sont groupées en classes, la médiane s’obtient par
interpolation linéaire, après avoir identifié la classe qui contient la médiane. Les
effectifs doivent impérativement être rangés par ordre croissant.
N _ F
La valeur de la médiane s’obtient par la formule Mé = L1 + 2_____ . A
f
-> Repérer la classe médiane se fait selon le principe des nombres pairs et impairs
mentionné pour les données individuelles.
c) Moyenne
La moyenne arithmétique d’une série de valeurs d’une variable est égale au quotient de
la somme de ces valeurs par l’effectif total de la population concernée.
X (pour un échantillon)
S’il n’y a qu’un effectif par valeur de la variable, le calcul de la moyenne s’obtient par
la formule :
µ = ∑ Xi
N
Si plusieurs unités statistiques présentent une même valeur de la variable X, ou dit plus
simplement, s’il y a plus d’un effectif par valeur de la variable, on utilise la formule
suivante :
µ = ∑ f i . Xi
N
Il arrive que l’on doive calculer la moyenne sur une population dont on ne connaît pas
toutes les valeurs individuelles observées mais uniquement des valeurs moyennes et les
effectifs globaux des différents sous-groupes qui composent cette population.
On considère que la moyenne arithmétique est pondérée dans le cas où il faut calculer
une moyenne générale sur base de moyennes particulières.
Formule µ = ∑ Nk . µ k
N
Formule µ = ∑ f i . mi
N
- La somme des écarts des valeurs de la variable par rapport à la moyenne est
égale à 0.
∑ (Xi - µ) = 0
∑ (Xi - µ)2
Lorsque la forme de la distribution est symétrique, les trois mesures de tendance centrale ont
une valeur identique. C’est le cas d’une distribution normale qui se présente sous la forme
d’une cloche.
Autrement dit, Mo = Mé = µ
Lorsque la forme de la distribution n’est pas symétrique, les trois mesures de tendance centrale
ont des valeurs différentes.
Une distribution peut être asymétrique – ou étirée - à gauche à cause de valeurs anormalement
faibles. La moyenne est alors plus petite que la médiane.
-> µ < Mé
Une distribution peut être asymétrique – ou étirée - à droite à cause de valeurs anormalement
fortes. La moyenne est alors plus grande que la médiane.
-> µ > Mé
Lorsqu’une distribution est asymétrique, la moyenne est affectée, mais la médiane ne l’est pas.
Il est donc préférable d’utiliser la médiane dans le cas de distributions fortement asymétriques.
En effet, les scores extrêmes tirent vers eux la moyenne (vers le haut ou vers le bas) tandis que
la médiane ne dépend que du score se trouvant au milieu de la distribution.
Plus une distribution est asymétrique, plus la différence entre la moyenne et la médiane est
importante. La moyenne est toujours plus proche du point de l’asymétrie que la médiane.
Les mesures de la dispersion s’intéressent à la dispersion des données autour des mesures de
tendance centrale. La dispersion des données autour de la tendance centrale est aussi
importante que la tendance centrale pour l’analyse et la compréhension des observations faites
sur le terrain observé (cf. ex. des résultats scolaires).
L’étendue consiste en l’écart (en valeur absolue) entre les valeurs extrêmes de la variable,
observées au moins une fois au sein de la population.
Ces mesures consistent à observer la dispersion des valeurs observées autour de la médiane.
Elles supposent un rangement des valeurs observées, de préférence par ordre croissant.
Les quartiles, déciles et centiles représentent des parts ou fractiles, c’est-à-dire des fractions
d’effectifs. Ce sont des mesures de dispersion absolue.
Se notent Q - D - C
La mesure des valeurs prises par les quartiles, déciles et centiles est semblable à celle qui est
appliquée pour la recherche de la valeur médiane d’une distribution de valeurs pour une
variable.
Quartiles
Les quartiles sont les 3 valeurs de la distribution qui séparent l’effectif en 4 parts égales.
-> Le 1er quartile est la valeur de la variable telle que 25% du total des effectifs
présentent une valeur qui lui est inférieure et 75% une valeur supérieure. On désigne
souvent par le premier quartile le premier quart des unités statistiques présentant les
valeurs les plus petites de la distribution.
-> Le 3ème quartile est la valeur de la variable telle que 75% du total des effectifs
présentent une valeur qui lui est inférieure et 25% une valeur supérieure.
Dans le cas de nombres pairs ou impairs, on utilise le même principe que pour la
médiane.
Données individuelles
N.3 _ F
ème
La valeur du 3 quartile s’obtient par la formule Q3 = L1 + 4____ .A
f
Déciles
Les déciles sont les 9 valeurs de la distribution qui séparent l’effectif en 10 parts égales.
-> Le premier décile est la valeur de la variable telle que 10% du total des effectifs
présentent une valeur qui lui est inférieure et 90% une valeur qui lui est supérieure. Le
premier décile désigne aussi les 10% du total des effectifs qui présentent les valeurs les
plus petites, etc. Le neuvième décile désigne les 10% des effectifs qui présentent les
valeurs les plus élevées de la variable.
-> Le troisième décile est la valeur de la variable telle que 30% du total des effectifs
présentent une valeur qui lui est inférieure et 70% une valeur qui lui est supérieure.
Données individuelles
Les centiles sont les 99 valeurs de la distribution qui séparent l’effectif en 100 parts
égales.
-> Le premier centile est la valeur de la variable telle que 1% du total des effectifs
présentent une valeur qui lui est inférieure et 99% une valeur qui lui est supérieure. Le
premier centile désigne aussi 1% du total des effectifs qui présentent les valeurs les plus
petites, etc.
-> Le nonantième centile désigne les 10% des effectifs qui présentent les valeurs les
plus élevées de la variable.
Données individuelles
L’écart interquartile et l’écart semi-interquartile sont des mesures de dispersion absolue. Elles
indiquent l’importance de la dispersion autour de la médiane.
L’intervalle compris entre le 1er et le 3ème quartile porte le nom d’écart interquartile. Calculer
l’écart interquartile consiste à calculer l’intervalle entre les deux valeurs de la distribution
comprenant la moitié de la population totale répartie en 2 parts égales autour de la médiane.
Autrement dit, cet écart correspond à l’intervalle des valeurs de la variable qui comprend la
moitié centrale de la distribution, c’est-à-dire le 2ème et le 3ème quart des individus rangés par
ordre croissant.
Plus l’écart interquartile est faible, moins les observations sont dispersées ; de même, plus
l’écart semi-interquartile est faible, moins les observations sont dispersées.
L’écart semi-interquartile permet de donner une mesure plus précise de la dispersion autour de
la médiane.
Par exemple, constater un écart semi-interquartile de 3 revient à dire que les points obtenus par
une classe d’élèves varient de +/- 3 points autour de 13/20, sachant que la valeur de la
médiane est égale à 13/20 si la distribution est symétrique.
Ecart interquartile Q3 - Q1
Ecart semi-interquartile Q3 - Q1
2
Ces mesures consistent à calculer les écarts entre chaque valeur observée et la moyenne des
valeurs observées pour la distribution, et à faire ensuite la moyenne arithmétique de tous les
écarts. Le degré de dispersion est d’autant plus grand que cette moyenne est élevée ; à
l’inverse, le degré de concentration de la distribution d’une variable est d’autant plus important
que cette moyenne est faible.
La variance et l’écart-type sont deux mesures de dispersion qui résument dans quelle mesure
les scores ou modalités de la variable sont concentrés autour de la moyenne. Une variance
faible signifie que la dispersion des valeurs observées autour de la moyenne est faible ; de
même, un écart-type faible signifie que la dispersion des valeurs observées autour de la
moyenne est faible. Ou encore, et inversement, plus il y a de variation dans les scores, plus la
variance et l’écart-type sont élevés.
L’écart moyen consiste à calculer la moyenne arithmétique des écarts par rapport à la moyenne
en valeur absolue, c’est-à-dire en ignorant le signe négatif ou positif de l’écart.
-> Variance
Se note σ2 (population)
S2 (échantillon)
Pour calculer la variance, on considère d’abord l’écart de chaque valeur de la variable par
rapport à la moyenne arithmétique et on l’élève au carré.
(Xi - µ)2
On effectue ensuite la somme des écarts au carré qu’on divise par le nombre total des effectifs.
Lorsque des données sont groupées en classes, on considère que toutes les valeurs
d’un intervalle de classe coïncident avec le centre de cette classe. On calcule l’écart au
carré entre ce centre (ou point milieu) et la moyenne arithmétique que l’on multiplie par
le nombre d’effectifs s’il y a plusieurs effectifs par classe.
S2 = ∑ (Xi - X )2
N-1
Le degré de liberté signifie que si nous connaissons tous les écarts excepté un seul, il
est aisé de calculer ce dernier écart. Une fois que tous les écarts sont déterminés, le
dernier est forcément connu (cas d’une équation à une inconnue).
-> Ecart-type
L’écart-type (‘standard deviation’ en anglais) est une mesure de dispersion absolue. Il permet de
donner une mesure des écarts des valeurs de la variable par rapport à la moyenne, dans la
même unité que les observations.
Le coefficient de variation est une mesure de dispersion relative autour de la moyenne. Pour
N. Guégen (1997), ce coefficient indique ce que l’écart-type représente comme proportion de la
moyenne.
Le coefficient V permet de comparer entre elles des dispersions qui ne sont pas comparables
autrement car elles sont exprimées dans des échelles de grandeur différente ou dans des
Le score Z est un score standardisé. C’est une mesure de dispersion relative qui permet de
mesurer à combien d’écarts-types de la moyenne se situe un score donné.
Les scores Z sont particulièrement utiles lorsqu’on compare des scores provenant de
distributions dont les moyennes et les écarts-types sont différents.
Une valeur positive signifie que le score est supérieur à la moyenne ; une valeur négative
signifie que le score est inférieur à la moyenne.
Standardiser les scores permet de comparer l’emplacement relatif de ces scores à l’intérieur
des distributions.
Formule Zi = Xi - µ
σ
La variable centrée réduite, ou variable standardisée, est une autre mesure de dispersion
relative autour de la moyenne. C’est une variable dont tous les scores ont été convertis en
scores standardisés. Chaque score est ainsi transformé pour correspondre au nombre précis
d’écarts-types qui le séparent de la moyenne.
Toutes les variables standardisées ont donc la même échelle, et se distribuent autour d’une
moyenne égale à 0, avec un écart-type égal à 1. Cela veut dire que toutes les distributions de
scores Z ont une moyenne de 0 et un écart-type de 1.
La variable standardisée permet d’exprimer l’écart par rapport à la moyenne en unités d’écarts-
types. Elle permet de comparer la situation d’une unité statistique par rapport aux autres unités
de la distribution.
d) Mesure de l’asymétrie
Comme indiqué plus haut, certaines variables présentent une distribution symétrique et d’autres
présentent une distribution asymétrique.
Il faut donc diviser la différence entre la moyenne et la médiane multipliée par 3 par l’écart-type.
Comme précédemment, diviser cette mesure par l’écart-type permet de revenir à l’unité de
mesure de la variable.
Pour rappel, les scores extrêmes « tirent vers eux » la moyenne alors que la médiane ne
dépend que du score se situant au milieu de la distribution. La moyenne se rapproche donc
toujours plus du point de l’asymétrie que la médiane.
Plus une distribution est asymétrique, plus la différence entre la moyenne et la médiane est
importante, et plus le numérateur est important.
Dans le cas d’une asymétrie égale à zéro, la distribution est symétrique, puisque la moyenne
est égale à la médiane !
Les distributions à deux variables permettent d’étudier une population (ou un échantillon)
suivant deux variables qui prennent chacune diverses modalités.
Une distribution à deux variables reprend des données concernant deux variables, soit Xi et Yj
Chaque cellule (ou case) du tableau contient l’effectif correspondant au croisement d’une
modalité de la première variable avec une modalité de l’autre variable. On utilise donc des
tableaux à deux dimensions pour présenter la distribution des effectifs pour chaque modalité
d’une variable par rapport aux modalités de l’autre variable ; on obtient alors des fij
Ces deux séries de sous-totaux sont appelées des distributions marginales. On nomme
fréquences marginales les fréquences qui les composent. Les distributions marginales
correspondent à la distribution univariée de chacune des variables considérées.
Il y a aussi autant de distributions univariées qu’il y a de modalités pour les deux variables
croisées.
Dans le cas d’un tableau à 2 variables dont une variable comprend 2 modalités et
l’autre variable comprend 4 modalités, il y aura 6 distributions univariées.
Trois questions se posent lorsqu’on s’intéresse aux relations entre deux variables.
TOTAL Ni Ni Ni Ni Nij
a) Des pourcentages
Comme pour les distributions à une variable, les valeurs prises par le croisement de deux
variables peuvent être exprimées sous la forme de fréquences relatives et de pourcentages.
Pour effectuer des comparaisons entre les distributions d’effectifs des différentes modalités
d’une variable par rapport aux modalités de l’autre variable, on calcule des effectifs relatifs
ou des proportions en %. Les pourcentages sont une façon de standardiser une distribution.
Les pourcentages s’obtiennent sur base des sous-totaux. Il existe trois possibilités : les sous-
totaux peuvent se présenter soit par rapport à l’ensemble de la population, soit en ligne, soit
en colonne, selon ce que l’on veut comparer. C’est l’orientation d’une question de recherche
ou d’une hypothèse qui oriente le mode de calcul des pourcentages.
On effectue un rapport entre les effectifs de chacune des cellules du tableau et l’ensemble
de la population.
On effectue un rapport entre les effectifs de chacune des cellules du tableau et le sous-total
des effectifs observés sur sa ligne.
On effectue un rapport entre les effectifs de chacune des cellules du tableau et le sous-total
des effectifs observés sur sa colonne.
L’association est cependant indispensable pour que l’on puisse parler de causalité. Les
variables ayant une relation causale doivent nécessairement être associées.
Ex. Durkheim, dans son étude sur le suicide, ne s’est pas contenté d’associer le
suicide à la religion. Il a expliqué pourquoi ces deux variables sont liées en observant
un effet du degré de religiosité et de la cohésion sociale sur le taux de suicide.
Lors de l’analyse des proportions obtenues, on peut donc parfois découvrir l’influence d’une
variable sur une autre. Il y a alors une variable dépendante par rapport à une variable
indépendante.
VD = effet de VI VI = cause de VD
Ex. : le niveau d’instruction (VI) influence l’opinion d’un individu par rapport au fait
d’obéir ou non aux lois (VD).
VI # VD
Pour la VD (-> var. Y), en ligne, disposer les valeurs de la variable de haut en
bas, en ordre décroissant.
Veiller à avoir un nombre N suffisant sous peine d’avoir des pourcentages établis sur
trop peu de cas et donc peu fiables. Idéalement, il faut compter au moins 30 effectifs
ou cas par cellule pour que les pourcentages reposent sur des bases solides.
REGLE 2 : Pour lire un tableau bivarié, comparer les pourcentages entre les
catégories de la variable indépendante.
Plus les différences entre les pourcentages de chacune des catégories de la variable
indépendante sont petites, plus la relation est faible (jusqu’à l’absence d’association
qui en soit peut aussi être une information pertinente en matière de recherche). Plus
ces différences sont grandes, plus la relation est forte.
Une direction peut être donnée à la relation entre deux variables dans le cas des variables
d’intervalles/ratio et des variables ordinales, mais pas pour des variables nominales car il
n’est pas possible de proposer un ordre pour une variable comme le sexe ou l’origine
ethnique.
Une relation positive est une relation dans laquelle les scores les plus élevés d’une variable
sont associés aux scores les plus élevés de l’autre variable.
Une relation négative est une relation dans laquelle les scores les plus élevés d’une
variable sont associés aux scores les plus faibles de l’autre variable.
Une relation curvilinéaire peut prendre plusieurs formes. Dans le cas d’une relation en U,
les cas présentant des valeurs fortes et faibles pour la variable indépendante présentent des
valeurs élevées pour la variable dépendante.
Il existe diverses mesures d’association pour des données de tableaux croisés, spécifiques
selon qu’il s’agit de variables nominales ou ordinales, ou de variables numériques
(d’intervalles ou de proportions).
Nous nous intéressons ici uniquement aux mesures d’association concernant les variables
numériques (d’intervalles ou de proportions).
Par corrélation, on entend le lien entre deux (ou plusieurs) variables quantitatives. Pour
chaque unité observée dans l’échantillon N, on note les valeurs observées respectivement
pour la variable X et pour la variable Y, soit X1 Y1 , X2 Y2 , …. jusque XN YN
Ces couples de valeurs peuvent être situés par des points dans un système d’axes
rectangulaires. On obtient ainsi un diagramme de dispersion, qui peut aussi être qualifié de
nuage de points.
L’axe horizontal (axe des abscisses) s’appelle l’axe des X et présente les valeurs de la
variable indépendante.
L’axe vertical (axe des ordonnées) s’appelle l’axe des Y et présente les valeurs de la variable
dépendante.
Les diagrammes de dispersion sont construits de telle façon que l’axe des X et l’axe des Y
se croisent à l’origine, ce qui correspond généralement à la valeur ‘zéro’ de chacune des
échelles.
Si la relation est positive, les points du diagramme forment un nuage de points allant de la
partie inférieure gauche vers la partie supérieure droite du diagramme. Les scores les plus
élevés de la variable indépendante sont associés aux scores les plus élevés de la variable
dépendante et les scores les plus bas de la variable indépendante sont associés aux scores
les plus bas de la variable dépendante.
Si la relation est négative, les points du diagramme forment un nuage de points allant de la
partie supérieure gauche vers la partie inférieure droite du diagramme. Les scores les plus
élevés de la variable indépendante sont associés aux scores les plus faibles de la variable
dépendante et les scores les plus bas de la variable indépendante sont associés aux scores
les plus élevés de la variable dépendante.
Dans ces deux cas, la plupart des points se tiennent le long d’une diagonale qu’on appelle
droite de régression ou droite des moindres carrés. On se situe dans le cas d’une relation
linéaire !
Si la relation est curvilinéaire, les points ont tendance à se rapprocher d’une courbe. On se
situe alors dans le cas d’une relation non linéaire !
Lorsque tous les points ont tendance à se rapprocher d’une même droite, la corrélation est
linéaire.
Une corrélation ou relation est parfaite lorsque les points représentant les scores pris par
rapport au croisement des deux variables forment une ligne absolument droite.
Une relation est forte, mais imparfaite, lorsque les points du diagramme de dispersion se
regroupent le long d’une droite qu’on pourrait imaginer traversant le nuage de points.
Une relation est modérée lorsque les points sont plus dispersés bien que la direction de la
relation soit encore visible.
Une relation est faible lorsque les points sont très dispersés.
Une relation est insignifiante lorsque les points sont dispersés de façon aléatoire dans le
diagramme.
Quand la relation est parfaite, la variance des scores de la variable dépendante associés à
un score donné de la variable indépendante est égale à zéro.
Dans le cas d’une corrélation linéaire, la droite qui traverse le nuage de points est dite droite
d’ajustement des données.
Y = aX + b
C’est l’équation de la droite de régression. L’utilisation d’une ligne droite pour décrire une
relation est appelée régression linéaire. La régression linéaire consiste donc en une
opération d’ajustement d’un nuage de points autour d’une droite.
La droite de régression est la droite qui résume le mieux la relation entre deux variables.
On l’appelle aussi droite des moindres carrés car elle permet de minimiser la somme des
carrés des distances entre la droite et les scores de la variable dépendante.
Autrement dit, la droite de régression minimise la somme des carrés des erreurs. C’est donc
la meilleure droite pour prédire les scores de la variable dépendante. Moins il y a d’erreurs,
plus la somme des carrés des distances est petite, et plus faible est la variance.
Les erreurs restantes se nomment les résidus. Graphiquement, on peut les représenter par
un tracé vertical montrant la distance entre les points représentant les observations et la
droite de régression. Ces résidus ou erreurs sont donc ce qui n’est pas expliqué par la
variable indépendante. Plus les résidus sont nombreux, moins la droite de régression est
intéressante.
a = N . ∑ XY – (∑ X . ∑ Y)
N . ∑ X2 – (∑ X) 2
b = (∑ Y .∑ X2) – (∑ X . ∑ XY)
N . ∑ X2 – (∑ X) 2
Il est possible d’estimer une valeur de Y à partir d’une valeur donnée de X sur base de la
droite des moindres carrés. On réalise alors une opération de régression de Y (VD) en X
(VI). Cette opération consiste en une estimation d’une valeur inconnue.
c) Corrélation
Il existe une méthode qui permet de mesurer de façon précise le degré de concentration
(intensité) des points le long de la droite de régression. C’est le coefficient de corrélation
de Bravais-Pearson.
Il se note r
∑ XY – (N. µX . µY)
rxy = -----------------------------------------
√ (∑ X2 - N .µX2) (∑ Y2 - N .µY2)
Si les cas se regroupent de façon étroite le long de la droite de régression, le r est grand,
indiquant ainsi une forte corrélation. Si les cas sont plus dispersés par rapport à la droite de
régression, le r est petit, indiquant une faible relation.
Une corrélation peut être positive ou négative, parfaite, modérée ou nulle. Le signe indique la
direction de la relation et la grandeur indique l’intensité de la relation.
Attention, toutes les relations ne sont pas linéaires, certaines peuvent être curvilinéaires. On
peut donc dans certains cas observer un coefficient de corrélation r = 0, qui indique de façon
inexacte que les variables ne sont pas corrélées ; elles le sont mais pas linéairement.
- 1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 + 1,00
parfaite forte modérée faible nulle faible modérée forte parfaite
rxy = ∑ ZX ZY
N
Les scores Z se basent sur des calculs de variance et d’écarts-types. Ils renvoient donc aux
mesures de dispersion autour de la moyenne. On peut donc bien affirmer ici que les
mesures de corrélation sont des mesures qui s’intéressent à la covariance.
r2 = variation expliquée
variation totale
1 - r2
La statistique inférentielle ou inductive consiste à extrapoler des résultats observés sur des
échantillons de population à une population générale. Elle désigne l’ensemble des méthodes
qui permettent de tirer des conclusions sur un groupe déterminé, une population, à partir de
données provenant de sous-ensembles de cette population (échantillons).
Pour rappel,
Dans la plupart des cas, les caractéristiques statistiques des populations globales sont
inconnues. Une population générale représente en effet une importante quantité d’unités ou
effectifs, qu’il est difficile de sonder complètement.
Ex. Les intentions de vote des belges au temps t sont inconnues. Pour les connaître,
on peut envisager d’interroger tous les belges, mais cela demanderait un effort
considérable de collecte de données et serait fort coûteux. C’est pourquoi, il est
préférable de construire un échantillon de la population belge auprès duquel sera
effectué un sondage. Les données de ce sondage seront ensuite extrapolées à la
population générale.
Dans le cas du lancer de dé, qui est un jeu de hasard en soi, on ne connaît pas avec
certitude le résultat du lancer, mais on connaît au préalable l’ensemble T de tous les
résultats possibles pour 1 lancer.
Au lancer de dé correspond :
- une expérience aléatoire dont le résultat est inconnu,
- une variable aléatoire qui représente l’ensemble des résultats possibles,
- une distribution de probabilités de cette variable aléatoire qui représente
l’ensemble des probabilités des divers résultats possibles, si plusieurs lancers de
dés sont réalisés.
Il existe :
- des variables aléatoires discrètes (lancer de dé),
- des variables aléatoires continues (température, durée d’attente du bus).
Une distribution de probabilités est semblable à une distribution d’effectifs relatifs : les
probabilités remplacent en quelque sorte les effectifs. On peut ainsi penser qu’une
distribution de probabilités est théoriquement et à la limite la forme idéale d’une distribution
d’effectifs relatifs quand le nombre d’observations est très grand. Pour cette raison, on peut
dire qu’une distribution de probabilités correspond à la distribution d’une population, tandis
qu’une distribution d’effectifs relatifs correspond à la distribution d’un échantillon tiré dans
cette population.
Pour J. Bernouilli, la fréquence d’un phénomène ayant une probabilité donnée (1/2 dans le
jeu de pile ou face avec une pièce de monnaie) tend vers cette probabilité lorsque le nombre
d’essais grandit. Autrement dit, au-delà d’un certain nombre de répétitions d’un même type
d’expérience, l’essentiel des variations possibles est observé et la fréquence d’apparition des
valeurs se stabilise.
Ce phénomène est aussi qualifié de loi des grands nombres ; cette loi repose sur un
principe de redondance de l’information.
En 1812, Pierre Simon de Laplace a établi les bases de la loi normale en construisant le
théorème de la limite centrale. Selon ce théorème, dans certaines conditions, non
seulement la moyenne, mais aussi la dispersion des valeurs obtenues et leur distribution
restent stables et suivent une loi normale.
La loi normale est la limite vers laquelle tend la loi binomiale lorsque n tend vers l’infini.
Notons ici que les distributions normales sont plus rares dans le domaine social que dans le
domaine de la biologie ou de la physique.
Une distribution d’échantillonnage est la distribution d’une statistique d’échantillon pour tous
les échantillons d’une taille donnée qu’il est possible de tirer d’une population précise. C’est
une distribution de tous les échantillons possibles sur une population. Une distribution
d’échantillonnage est une distribution de probabilités continues.
Dans la plupart des cas, les échantillons sont assez semblables à la population d’où ils
proviennent ; certains cependant sont peu représentatifs de la population. En effet, un
échantillon de la population tiré au hasard pour sonder l’avis de la population belge sur les
futures élections pourrait contenir un nombre de personnes de âgées de plus de 60 ans trop
important, ou un nombre trop important de femmes…
C’est pourquoi il est intéressant d’observer les résultats d’une distribution d’échantillonnage,
c’est-à-dire d’imaginer un tirage de tous les échantillons possibles de 650 personnes (par
exemple) extraits d’une population. En comparant les résultats de l’échantillon avec le résultat
de la distribution d’échantillonnage, on peut se rendre compte de la proximité du résultat de
cet échantillon avec la réalité, c’est-à-dire la population totale telle qu’elle se présenterait si
on interrogeait tout le monde.
La loi normale est entièrement déterminée par sa moyenne et son écart-type, ce qui signifie
qu’on connaît exactement la proportion d’observations se situant dans certains intervalles.
Quelle que soit la variable observée, on rencontre toujours les mêmes proportions entre les
intervalles.
Grâce au théorème de la limite centrale, on connaît donc le nombre de cas (ici le nombre de
moyennes d’échantillons) se retrouvant dans un intervalle délimité d’écarts-types par rapport à
la moyenne de la distribution d’échantillonnage.
σ élevé σ faible
-> forte dispersion -> faible dispersion
2
4.2.1. Définition du X
2
Le test du X est un test d’hypothèse ou de signification qui permet de vérifier si une
corrélation entre des variables observée au niveau d’un échantillon peut être extrapolée à la
population générale.
Par ce test, on cherche à savoir si les effectifs observés diffèrent significativement des
effectifs théoriques. Ce test permet de déterminer jusqu’à quel point les résultats observés
reflètent la réalité plutôt que l’effet du hasard dû au procédé d’échantillonnage. Il permet
d’éviter de conclure à une relation significative entre deux variables dans la population alors
que cette relation est imputable à l’effet du hasard.
2
Le test du X estime la probabilité qu’un coefficient de corrélation apparaisse entre deux
variables observées à partir d’un échantillon alors qu’on part de l’hypothèse théorique qu’il
n’y a pas de relation entre ces variables dans la population.
C’est une forme de raisonnement par l’absurde… Pour montrer l’existence et la significativité
d’une relation entre deux variables dans un échantillon, on présuppose qu’il n’y en a pas
dans la population. On cherche donc à invalider une hypothèse d’indépendance, ce qui
équivaut à valider la dépendance.
Ce test part donc du postulat suivant : celui de l’hypothèse nulle, c’est-à-dire de l’hypothèse
selon laquelle il n’y a pas de relation significative entre les deux variables observées dans la
population !
L’hypothèse nulle
° se note H0
° signifie que les résultats constatés dans l’échantillon ne sont pas généralisables à la
population.
° signifie que les résultats constatés dans l’échantillon sont dus à la distribution
aléatoire de l’échantillonnage.
° correspond au cas où les effectifs observés sont identiques aux effectifs théoriques,
c’est-à-dire qu’il n’y a pas d’écart entre les effectifs observés et les effectifs
théoriques.
° soutient qu’il y a indépendance entre les variables.
A l’hypothèse nulle s’oppose l’hypothèse alternative, selon laquelle on peut observer une
relation entre deux variables qui est significative et donc généralisable à la population.
2
La question fondamentale du test du X est la suivante :
2 2
Pour répondre à cette question, on passe par l’estimation du X . Le X est un indice
statistique qui calcule de manière synthétique (pour l’ensemble des données présentées dans un
tableau croisé) l’écart à l’hypothèse nulle.
2
4.2.2. Méthode de calcul du X
Quand le X2 n’est pas significatif, les données d’une rangée du tableau de contingence sont
équivalentes aux données des autres rangées. Donc, les variables n’interagissent pas entre
elles et on peut les considérer comme indépendantes.
Quand le X2 est significatif, les données d’une rangée du tableau varient avec les données
d’une autre rangée. Il y a donc interdépendance entre les rangées et les colonnes, et donc
entre les variables.
X2 = ∑ (f0 - fa)2
fa
2 2
On compare le X expérimental (càd le X2 calculé) au X maximum ou théorique indiqué dans
2
la table des X , en tenant compote du degré de liberté.
2 2
Si le X expérimental est inférieur au X maximum, alors H0 n’est pas rejetée.
Ce qui signifie qu’il n’y a pas de différence significative entre les variables.
2 2
Si le X expérimental est supérieur au X maximum, alors H0 est rejetée.
Ce qui signifie qu’il y a une relation significative entre les variables.
2
Si X = 0, les effectifs observés sont égaux aux effectifs théoriques.
2
Si X > 0, les deux distributions sont différentes.
2
Plus la valeur de X est grande, plus la différence entre les deux distributions est
grande, plus la probabilité d’une relation significative entre les variables observées
est vraie.
2
4.2.3. Distribution d’échantillonnage du X
Si, dans une population normale d’écart-type σ , on extrait des échantillons de taille N, et si,
2 2
pour chaque échantillon, on calcule X , on obtient la distribution d’échantillonnage de X .
2
L’allure de la distribution d’échantillonnage du X dépend du nombre de degrés de liberté.
Le degré de liberté désigne le nombre d’effectifs qu’on doit connaître, les autres effectifs
s’obtenant par déduction.
2
La loi du X indique comment se comporte la distribution d'échantillonnage de la statistique
2 2
de X si l'hypothèse nulle Ho est vraie, c'est-à-dire lorsque le X se rapproche de zéro. Grâce
à cette distribution, on peut déterminer quelle est la proportion d'échantillons qui se trouvent
dans une zone du graphique qui suit.
2 2
La distribution de probabilités du X est une distribution de probabilités continues car le X
peut prendre n’importe quelle valeur.
Le seuil de signification de 0,05 est généralement celui auquel on se réfère dans les tests de
signification statistique utilisés en sciences sociales. Ce seuil permet de dire que le risque
d’erreur d’affirmer qu’une relation entre deux variables est significative alors qu’elle ne l’est
pas est faible. Il y a donc peu de risque de se tromper en disant qu’il y a une relation
significative entre deux variables observées pour la population générale. Ceci équivaut au
rejet de l’hypothèse nulle.
Dans la pratique, on calcule les fréquences anticipées (ou effectifs théoriques) à partir de
l’hypothèse nulle H0.
2 2
Si, sous l’hypothèse H0, la valeur du X calculée (ou X expérimental) est plus grande
2 2
qu’une certaine valeur critique (comme X 0,95 ou X 0,99 qui sont les valeurs critiques aux
seuils de signification de 0,05 et 0,01 respectivement), on en conclut que les fréquences
observées diffèrent significativement des fréquences anticipées, et on rejette l’hypothèse
nulle au seuil de signification correspondant.
Le seuil de signification représente le seuil de risque que le rejet de l’hypothèse nulle soit
une erreur, c’est-à-dire d’estimer une relation significative alors qu’elle ne l’est pas ou de
façon trop faible.
Il existe dès lors un écart entre la réalité observée et la théorie, ce qui veut dire que la
réalité observée n’est pas due au hasard.
Rejet de Ho
Ce qui correspond à un X2 assez élevé
Le résultat de l'échantillon est donc dû à un facteur aléatoire, ce qui signifie qu’il n'est
pas incompatible avec Ho.
Non rejet de Ho
Ce qui correspond à un X2 assez faible
On ne peut jamais déterminer avec une certitude totale si Ho est vraie ou fausse. Il est
seulement probable ou improbable de ne pas rejeter Ho, car elle n'est pas contredite par les
données.
L'objectif d'une mesure de tendance centrale est de résumer en un seul nombre la valeur
typique ou la plus représentative d'un ensemble de résultats.
Il existe différentes mesures de tendance centrale :
- Moyenne : somme des valeurs divisée par le nombre de résultats
- Médiane : valeur pour laquelle 50% des mesures sont en dessous (ou au-dessus)
- Mode : valeur observée la plus fréquente (pas nécessairement unique)
95 79 68 61 52
90 78 66 60 50
88 74 65 59 49
87 72 65 57 47
85 69 65 56 42
81 68 63 55 41
La moyenne
On additionne tous les scores -> 1987
On divise par le nombre de scores (30) -> 1987/30 = 66,23
La médiane
On place les valeurs en ordre
On trouve la valeur qui divise les scores en deux : on a 30 valeurs,
donc on prend la valeur située entre la 15 et la 16 donnée -> 65
e e
Le mode
On prend la valeur la plus fréquente -> 65
*
Source : site Internet : http://www.er.uqam.ca/nobel/r30574/PSY1282/C3P6.html
L'objectif d'une mesure de dispersion est de quantifier le taux de variabilité des données
autour de la valeur centrale. Afin de juger de la représentativité de la «tendance centrale».
*
Source : site Internet : http://www.er.uqam.ca/nobel/r30574/PSY1282/C3P6.html
Étapes
Calcul de la moyenne arithmétique (M)
Calcul de la différence entre chaque score et la moyenne (x)
Ces différences sont mises au carré (x ) 2
X x = (X-M) x2
68 1,77 3,12
74 7,77 60,32
42 -24,23 587,25
... ... ...
85 18,77 352,19
95 28,77 827,52
1987 0,00 6083,37
M = 66,23 On divise σ = 202,78
2
Point central : plus la variance (ou l'écart type) est élevée, plus les données sont
dispersées autour de la moyenne.
La distribution normale est une distribution théorique en forme de « cloche » qui ressemble à
la distribution de nombreuses mesures (poids, attitudes, ...)
Sa forme générale est illustrée ci-dessous
Figure1
*
Source : site Internet : http://www.er.uqam.ca/nobel/r30574/PSY1282/C3P6.html, consulté en 2009
Plus la courbe en forme de cloche est plate, plus l’écart-type est élevé.
Lorsque les résultats individuels à un test se distribuent à peu près normalement, il peut être
utile de les exprimer en termes de score standard.
Ce «score standard» (ou score Z) représente la différence entre un score et la moyenne (M)
de la distribution, exprimée en unités d'écart type (ÉT)
En formule, on a
X-M
Z = ----------
ET
Exemple : un test où la moyenne est 50 et l'écart type est 10
70 – 50 20
X = 70 -> Z = ----------- = ------ = 2
10 10
40 – 50 -10
X = 40 -> Z = ----------- = ------ = -1
10 10
Il existe des tables pour calculer les valeurs correspondant à d'autres proportions…
*
Source: site Internet: http://www.er.uqam.ca/nobel/r30574/PSY1282/C3P7.html, consulté le 14.12.2009