Vous êtes sur la page 1sur 72

Haute Ecole Louvain en Hainaut

ISSHA – Mons

BLOC 1

Statistique
Théorie

Myriam Leleu
Pierre-Olivier Robert

Année académique 2023 – 2024


Statistique
Théorie

Table des matières

1. Introduction
1.1. Objectifs
1.2. Sens du chiffre, esprit critique et relativisation
1.3. Approche générale des statistiques
1.3.1. Statistique ou statistiques ?
1.3.2. Statistique descriptive
1.3.2. Statistique inductive ou inférentielle

2. Notions de base
2.1. Terminologie : population/échantillon, unité statistique, …
2.2. Types de variables
2.2.1. Variables qualitatives ou quantitatives
2.2.2. Variables quantitatives discrètes ou continues
2.2.3. Variables ordinales, nominales ou métriques
2.2.4. Variables dichotomiques ou multichotomiques
2.3. Tableaux et graphiques
2.3.1. Types de tableaux
Tableau univarié : à une entrée
Tableau bivarié : à deux entrées
Tableau multivarié : à trois entrées ou plus
2.3.2. Représentations graphiques
Diagramme circulaire ou en secteurs (« pie charts »)
Diagramme à barres ou en bâtons
Histogramme
Polygone de fréquences
Cartogramme
Graphe linéaire
Graphe de dispersion
Boite à moustache (« boxplot »)
2.3.3. Lecture de tableaux et analyse de données
2.4. Les données
Données primaires, données secondaires
Données manquantes et cas déviants
Valeurs indicées

3. Statistique descriptive
3.1. Distribution à une variable
3.1.1. Regroupement de données en distributions de fréquences
Fréquences absolues ou données brutes
Fréquences relatives ou proportions
Fréquences relatives en pourcentages
Rapports
Effectifs cumulés
Pourcentages cumulés
3.1.2. Regroupement de données en classes
Limites d’une classe
Amplitude d’une classe
Point milieu d’une classe

Statistique - Aspects théoriques - 1


3.1.3. Mesures de tendance centrale
Mode
Médiane
Moyenne arithmétique
Forme des distributions de variables
3.1.4. Mesures de dispersion
Mesure de l’étendue
Mesures de dispersion autour de la médiane
Quartiles, déciles, centiles
Ecart interquartile et écart semi-interquartile
Coefficient interquartile
Mesures de dispersion autour de la moyenne
Ecart moyen absolu
Variance
Ecart-type
Coefficient de variation
Score Z et variable centrée réduite
3.2. Distribution à deux variables
3.2.1. Croisement des effectifs
Pourcentages par rapport à l’ensemble de la population
Pourcentages en ligne
Pourcentages en colonne
Variables dépendantes/indépendantes
Direction de la relation entre deux variables
3.2.2. Corrélation, ajustement et régression
Diagrammes de dispersion
Direction de la relation
Intensité de la relation
Régression et droite des moindres carrés
Corrélation et coefficient de Bravais-Pearson

4. Statistique inductive ou inférentielle


4.1. Principes généraux
4.1.1. Du particulier vers le général…
4.1.2. Variables aléatoires
4.1.3. Distributions de probabilités
Distribution de probabilités discrètes
Distribution de probabilités continues
Distribution d’échantillonnage

4.2. Test du X2
4.2.1. Définition du X2
2
4.2.2. Méthode de calcul du X
4.2.3. Distribution d’échantillonnage du X2
2
4.2.4. Test de signification du X

Annexes
Mesures de dispersion
Notion de corrélation

Statistique - Aspects théoriques - 2


Références

! ALBARELLO, L., BOURGEOIS E. & GUYOT, J.L. (2007). Statistique descriptive, Un outil pour les
praticiens-chercheurs, Paris-Bruxelles : De Boeck Université
! ANCELLE, T. (2011-3è éd.). Statistique. Epidémiologie. Paris : Maloine
! AURIOL, C. (2007-2008). Cours de statistiques et démographie, Mons : ISSHA
! BLOSS, Th. & GROSSETTI, M. (1999). Introduction aux méthodes statistiques en sociologie,
Paris : PUF
! DREZE, J. (1982). Cours d’analyse statistique, Louvain-la-Neuve : Université Catholique de
Louvain
! DROESBEKE, F. (1977-1978). Eléments de statistiques, Notes de cours, Bruxelles : ULB
! FOX, W. (2000). Statistiques sociales. Paris-Bruxelles : De Boeck Université
! GONICK, L. & HUFFMAN, A. (2016). Les statistiques en BD. Paris : Larousse
! HOWELL, D.C. (2008). Méthodes statistiques en sciences humaines, Bruxelles : De Boeck
! MAES, R. (2022). Démocratiser les outils statistiques. Revue Nouvelle. N°2. p. 2-6
! MARTIN, O. (2009-2è éd.). L’enquête et ses méthodes. L’analyse de données quantitatives,
Paris : Armand Colin
! MEOT, A. (2003) Introduction aux statistiques inférentielles, De la logique à la pratique, Paris-
Bruxelles : De Boeck Université
! SANDERS, D.H., MURPH, A.Fr. & ENG, R.J. (1984). Les statistiques. Une approche nouvelle,
Montréal : Mc Graw Hill
! TRIOLA, M.M. & TRIOLA, M.F. (2009). Biostatistique pour les sciences de la vie et de la santé.
Pearson France
! VALLIN, J. in MESURE, S. & SAVIDAN, P. (dir.) (2006). Le dictionnaire des sciences humaines,
Paris : PUF

Bases de données

! Service Public Fédéral (SPF) - Direction générale Statistique et Information économique :


http://statbel.fgov.be -> Belgique
! Institut scientifique de Santé publique : www.iph.fgov.be/EPIDEMIO >< https://sciensano.be ->
Belgique
! Institut Wallon de l’Evaluation, de la Prospective et de la Statistique (IWEPS) :
http://statistiques.wallonie.be -> Belgique
! Observatoire de la Santé du Hainaut : http://observatoiresante.hainaut.be -> Belgique
! Institut National d’Etudes Démographiques (INED) : http://www.ined.fr/ -> France
! Institut National de la Statistique et des Etudes Economiques (INSEE) : http://www.insee.fr/fr -> France
! Eurostat, Commission européenne : epp.eurostat.ec.europa.eu

Evaluation
L’évaluation est basée sur un examen écrit qui vise à tester le niveau d’appropriation des
acquis d’apprentissage. Les éléments suivants seront évalués en particulier :
- connaissance des définitions théoriques et des formules de base,
- réalisation d’exercices pratiques et interprétation de données,
- construction et lecture de tableaux de données.

La participation au cours et aux séances d’exercices ainsi que la réalisation des exercices sont
indispensables !

Tous les étudiants doivent remettre un travail d’analyse de données, comme exercice introductif
au cours.

Statistique - Aspects théoriques - 3


1. Introduction

« Assoyons-nous sur ce rondin au bord de la route et oublions l’inhumanité et la


grivoiserie des poètes. C’est dans les merveilleuses énumérations de faits vérifiés
et de mesures bien précises que se trouve la vraie beauté. Dans ce rondin sur
lequel nous sommes assis, Mme Sampson, se cachent des statistiques plus
magnifiques que n’importe quel poème. Les cercles nous indiquent que l’arbre
avait soixante ans. Enfoui à deux mille pieds sous terre, il serait devenu charbon
en trois mille ans… » Mr Pratt à Mme Sampson

1.1. Objectifs

Nous sommes constamment confrontés aux chiffres. Nous les côtoyons au quotidien, que ce soit
dans la vie de tous les jours, pour réguler des horaires de cours ou de travail, ou dans la vie
publique, dans les médias, le monde socio-politique, etc. Il est donc important de comprendre la
portée des chiffres, a fortiori dans le métier d’assistant(e) social(e) qui demande l’analyse de
données chiffrées et leur production comme soutien à l’évaluation de l’action sociale et à la prise
de décision.

De manière générale, l’activité d’apprentissage des statistiques cherche à développer chez les
futurs travailleurs sociaux un esprit scientifique rigoureux, se méfiant des approximations et
généralisations hâtives.

Plus particulièrement, cette activité d’apprentissage vise à :


- familiariser à la lecture de graphiques et de tableaux de données statistiques,
- développer le regard critique par rapport au sens du chiffre,
- évaluer la fiabilité de données chiffrées,
- appliquer des techniques statistiques simples pour décrire, analyser et expliquer une
situation collective,
- utiliser des outils statistiques comme bases de décision pour l'action,
- percevoir l’utilité de la démarche statistique dans la recherche scientifique et la
compréhension des phénomènes sociaux.

Au niveau du travail social, cette activité d’apprentissage peut aider à :


- décrire et interpréter les relations entre les personnes, entre des événements et des
personnes, entre des structures, entre les actions menées sur le terrain et les
différents niveaux de pouvoir, etc.
- prendre des décisions circonstanciées sur base de faits objectifs,
- faire face au changement, adapter les interventions sociales, voire les politiques
sociales, aux besoins de la population.

Les statistiques, une question de logique plutôt qu’un travail mathématique ?

La démographie, un outil d’analyse de la société, au-delà du chiffre…

Statistique - Aspects théoriques - 4


1.2. Sens du chiffre, esprit critique et relativisation

Si les nombres importent, ce que nous en faisons importe peut-être plus encore. Le nombre
représente une entité supposée fixe, déterminée, invariable. Cependant, la manière de parler
de cette entité chiffrée lui conférera une orientation. Le chiffre est donc manipulable ; son sens
peut être construit en fonction du contexte dans lequel il est cité, des personnes qui y recourent,
des grands enjeux de société.

On peut en effet parler de taux de chômage en accentuant ce qui est supposé être un problème
ou en minimisant son effet. Objectivement, il représentait 11,2% de la population active belge
au 1er février 2009. On peut en parler de deux manières différentes :
- « il ne représente que 11,2% de la population active »
- « il présente une part de la population active qui s’élève à 11,2% ».

Le travail du scientifique consiste à relativiser les différents points de vue émis autour des
chiffres et à préserver un esprit critique. Il doit pouvoir analyser ce que le chiffre montre,
regarder l’envers du décor présenté par les chiffres, en toute objectivité.

Ainsi que l’a affirmé Pierre Bourdieu, « objectiver l’objectivation » doit être un constant souci de
l’observateur en sciences sociales. Car si le chiffre est supposé objectif, son interprétation ne
l’est pas nécessairement. Elle est empreinte de facteurs culturels et idéologiques qui lui
confèrent des sens variables…

De plus, le matériau qu’est l’homme est en mouvance permanente. En sciences sociales, il


n’est pas possible de reproduire les conditions de l’expérience quasi « parfaite » d’un
laboratoire où toutes les choses ou faits sociaux observés seraient immuables. On ne parvient
jamais « à un contrôle suffisamment complet de toutes les variables pertinentes pour raisonner
toutes choses égales par ailleurs, étant donné le nombre de variables interconnectées qui
composent la réalité sociale, qui en fondent son caractère historique ou contingent » (Th. Blöss,
M. Grossetti, 1999, p. 6).

1.3. Approche générale des statistiques

Il existe deux grands types de méthodes en sciences sociales : quantitatives et qualitatives.

Les méthodes quantitatives s’intéressent à la quantification des choses, événements, faits de


la vie sociale. Les statistiques s’inscrivent dans le cadre des méthodes quantitatives.

Les méthodes qualitatives s’intéressent à la compréhension, à l’étude des faits sociaux à


partir d’entretiens ouverts, de récits de vie, de textes, de l’analyse de contenu, etc.

Ces deux méthodes font l’objet de controverses ou plus simplement de choix méthodologiques.
Historiquement, il existe une tradition de recherche sociologique qui s’inscrit dans la filière de
l’Ecole de Chicago (début du XXème siècle), clairement orientée sur l’usage de techniques
qualitatives comme les entretiens, l’observation. Cette optique a longtemps été opposée aux
adeptes de la méthode par questionnaire et de l’analyse statistique de données, dont Paul
Lazarsfeld, sociologue américain d’origine autrichienne (1901-1976), fut la figure de proue.

Statistique - Aspects théoriques - 5


1.3.1. Statistique ou statistiques ?

Le mot ‘statistique’ provient de l’allemand « statistik » dont on trouve la trace en 1749. La racine
de ce mot est latine, « status », qui renvoie à l’état, et de manière plus large à l’homme d’état.

Le terme ‘statistique’ est employé de deux manières différentes :

- les statistiques renvoient à des faits numériques : employé au pluriel, ce terme désigne
un ensemble de données,
- la statistique est une science : employé au singulier, ce terme désigne un ensemble de
méthodes destinées à étudier des données.

On considère que l’usage des statistiques a été introduit dans les sciences sociales par Emile
Durkheim (1858-1917) qui fait dans Les règles de la méthode sociologique (1895, 1ère éd.)
l’apologie des variations concomitantes (ou analyse de corrélations). Plus tard, il fondera son
étude du suicide, publiée en 1897, sur l’analyse des variations de taux de suicide pour diverses
populations en fonction du degré de cohésion sociale et de croyance religieuse. Durkheim va
en fait prolonger un mouvement entamé avant lui par un astronome et statisticien belge,
Adolphe Quetelet (1796-1874), qui, dans les années 1830, cherchait déjà à mesurer les
caractéristiques de « l’homme moyen ». Adolphe Quetelet fut aussi un pionnier dans le
domaine des études démographiques.

Frédéric Le Play (1806-1882), polytechnicien et sociologue français, est un autre précurseur en


matière d’enquête sociale et de quantification ; il publiera notamment, en 1855, les 36
monographies de familles ouvrières réalisées en Europe sous le titre Les ouvriers européens.

Quelques décennies plus tard, Vilfredo Pareto (1848-1923), ingénieur de formation, économiste
et sociologue italien, formalisera la distribution des hauts revenus dans une loi statistique qui
porte toujours son nom, « la loi de Pareto ». Il est en effet célèbre pour son observation des
20% de la population qui possède 80% des richesses en Italie, généralisée plus tard en
distribution Pareto. Par extension, on appelle diagramme de Pareto un histogramme où les
classes sont représentées par ordre décroissant de fréquence, ce qui permet de mettre en
évidence les classes les plus importantes. Pour Vilfredo Pareto, l’économie politique est une
partie de la sociologie…

Jean Stoetzel (1910-1987), philosophe de formation, fondera en France, en 1938, le premier


Institut de sondage, l’IFOP (Institut Français de l’Opinion Publique), suite à sa rencontre avec
George Gallup aux Etats-Unis. Suite à la seconde guerre mondiale, le traitement statistique de
données par ordinateur se développera, mouvement auquel participera Jean Stoetzel.

Il existe deux grands types de méthodes statistiques :

- la statistique descriptive qui s’intéresse aux comptages et aux recensements


de population,

- la statistique inférentielle ou inductive qui s’intéresse à l’analyse de situations


comportant des aspects aléatoires, dus au hasard, à l’incertitude.

Statistique - Aspects théoriques - 6


1.3.2. Statistique descriptive

« La statistique descriptive peut être définie comme l’ensemble des méthodes de


dénombrement, de classement, de synthèse et de présentation de données quantitatives
relatives à un ensemble d’individus. » (L. Albarello et al., 2007, p. 11).

On utilise les outils de la statistique descriptive pour résumer des informations sur un ensemble
d’individus fini. Un ensemble est dit fini ou complet lorsqu’il comprend tous les individus ou
unités statistiques de la population observée.

Par définition, les données de la statistique descriptive sont des données de population.

Les mesures habituelles sont des distributions de fréquence, des mesures de tendance centrale
et de dispersion, le croisement de variables.

Exemple : Observation de la couleur des cheveux de la population des étudiants de 1ère


année à l’ISSHA

1.3.3. Statistique inductive ou inférentielle

La statistique inférentielle « a pour but de généraliser à une population donnée (population de


référence) les observations et conclusions tirées des résultats obtenus à partir d’individus
extraits de cette population (échantillon). On définira la statistique inférentielle comme
l’ensemble des méthodes et des théories permettant de généraliser à une population de
référence des conclusions obtenues à partir de l’étude d’un échantillon extrait de cette
population. » (L. Albarello et al., 2007, p. 13).

L’inférence statistique va plus loin que la simple description des données de l’échantillon car
elle dispose d’outils qui permettent de réduire le niveau d’incertitude inhérent à la prise de
décisions. Elle est de nature inductive car elle passe du particulier au général. Une inférence
consiste en une opération logique par laquelle on admet une proposition en vertu de sa liaison
avec d’autres propositions déjà tenues pour vraies.

Par définition, les données de la statistique inférentielle sont des données d’échantillon.

Les sondages d’opinion et les tests d’hypothèses sont l’objet de ce type de méthode.

Exemple : Problème de Décision face à l’Incertitude (PDI) : emporter ou non un manteau


pour aller en promenade, ne sachant pas le temps qu’il fera…

Statistique - Aspects théoriques - 7


2. Notions de base

Les trois éléments essentiels de la statistique descriptive sont les suivants : la population,
l’individu ou l’unité statistique et l’observation ou la variable observée. Luc Albarello (2007)
parle à ce propos de « triptyque de la statistique descriptive ».

2.1. Terminologie

Population

Tout ensemble défini d’éléments sur lequel portent des observations.

Echantillon

Tout extrait d’éléments de la population représentatif de l’ensemble de la population


observée.

Unité statistique

Tout élément d’une population ou d’un échantillon.

Les unités statistiques ne sont pas nécessairement des individus. Elles peuvent être des
entités collectives (entreprises, écoles, familles), des objets (textes, images, voitures),
des événements (interactions, comportements, migrations, grèves, divorces), etc.

L’ensemble des unités statistiques considérées (= effectifs), ou population observée, ou


effectif total, se note N

L’ensemble des unités statistiques d’un sous-groupe d’effectifs se note ni

Variable

Tout caractère ou trait distinctif que l’on veut observer pour chaque unité statistique
retenue.

Les variables sont désignées par les lettres X, Y, S

Valeurs d’une variable

Toutes les valeurs prises par la variable observée, qui peuvent aussi prendre
l’appellation de scores (pour une variable métrique) ou modalités (pour une variable
qualitative).

Se notent xi, yi, si

Statistique - Aspects théoriques - 8


Fréquence absolue

Nombre d’unités statistiques ou effectifs observés pour chaque valeur - score ou


modalité - de la variable s’exprimant en chiffres.

Equivaut à la fréquence brute d’une variable.

Se note fi (ou ni dans le cas d’un sous-groupe) et ∑ fi = N

Fréquence relative

Effectifs relatifs d’une valeur prise par la variable s’exprimant

soit en proportions fi
N
soit en pourcentages fi .100
N

Série statistique

Ensemble des résultats d’une étude ou liste des observations faites pour les modalités
d’une variable.

Une série statistique ordonnée est une distribution de fréquences.

Distribution de fréquences

Répartition ordonnée des individus d’un échantillon ou d’une population totale suivant
les valeurs que prend la variable observée.

Données individuelles versus données groupées

Lorsque les observations sont nombreuses, elles sont généralement regroupées en


classes ou catégories comprenant plusieurs valeurs de la variable.

Généralement, on essaye de construire des classes de largeur constante.

Idéalement, ces classes doivent être mutuellement exclusives et collectivement


exhaustives.

Ex. : classes d’âge, classes de revenus, etc.

Il est recommandé de toujours travailler avec


des catégories mutuellement exclusives et collectivement exhaustives.

Statistique - Aspects théoriques - 9


-> Mutuellement exclusives car les catégories de valeurs ne se chevauchent pas et
chaque cas tombe dans une seule catégorie.

Ex.1 : une personne peut être protestante ou catholique mais ne peut être à la
fois protestante et catholique

Ex.2 : classes d’âge 0-3 ; 4-6 ; 7-9 ; 10-12 ; 13-15 ; etc.

-> Collectivement exhaustives car l’ensemble des catégories de valeurs inclut tous les
cas et chaque cas tombe dans au moins une catégorie.

Ex.1 : les catégories ‘protestant’, ‘catholique’, ‘juif’, ‘bouddhiste’, ‘musulman’ et


‘autres’ incluent toutes les réponses possibles sur la préférence religieuse

Ex.2 : classes d’âge 0-3 ; 4-5 ; 6-10 (si on s’arrête à 10 ans…)

- Arrondissement des décimales, généralement à deux décimales, en pratiquant


l’usage suivant : arrondissement au chiffre supérieur si on obtient une décimale égale
ou supérieure à 5 et arrondissement au chiffre inférieur si on obtient une décimale
inférieure 5.

- L’écriture des symboles mathématiques varie selon qu’il s’agit de données de


population ou de données d’échantillon. On utilise des caractères grecs lorsqu’il s’agit
de données de population et des lettres romaines lorsqu’il s’agit de données
d’échantillon !

- La racine carrée d’un nombre positif x est un nombre positif a qui, multiplié par lui-
même, donne x (ex. : racine carrée de 9 = 3).

2.2. Types de variables

Une variable est une caractéristique ou une propriété quelconque dont la valeur diffère d’un cas
à l’autre. Le contraire d’une variable est une constante.

Une constante ne présente pas de variation ; c’est une valeur établie, comme la valeur de ∏ en
géométrie. Il y très peu de constantes en sciences sociales.

La statistique étudie les variables, aussi appelées caractères, d’un ensemble qualifié de
population. Les éléments de cette population sont les effectifs ou unités statistiques.

2.2.1. Variables qualitatives ou quantitatives

Variables qualitatives

Tout caractère (ou caractéristique) dont les modalités sont désignées par un mot, un
symbole. On parle de variables qualitatives lorsqu’il y a une répartition des observations
d’une population en un certain nombre de classes qu’on ne peut associer à un nombre.

Statistique - Aspects théoriques - 10


Les modalités ‘homme/femme’, ‘ouvrier/employé/cadre’ n’étant pas le résultat statistique
d’un comptage, on ne peut pas dire qu’une classe est inférieure ou supérieure à une
autre. Etre homme ou femme est une qualité.

Ex. : sexe, profession, situation de famille, causes de suicide, état civil

Variables quantitatives (ou numériques ou métriques)

Tout caractère dont les scores peuvent s’exprimer par un nombre ou une valeur
numérique. Les variables quantitatives introduisent la notion de quantité et de grandeur ;
elles peuvent être ordonnées.

Les scores de ces variables sont exprimables en années ou mois, en francs ou €, en


kilomètres, en kilogrammes, etc., ce qui enrichit l’information puisqu’on donne une
valeur précise aux différences entre les individus.

Ex. : âge, poids, revenu, distance domicile/lieu de travail, temps

2.2.2. Variables quantitatives discrètes ou continues

Variables quantitatives discrètes

Variables qui ne peuvent prendre qu’un nombre restreint - ou fini - de valeurs,


généralement des nombres entiers, qui correspondent à des réalités indivisibles.

Ex. : nombre de personnes dans une famille, nombre d’enfants à charge, nombre
d’employés dans une entreprise, nombre de nuitées enregistrées dans un hôtel

On parle de distribution discrète pour des données présentées valeur par valeur.

Variables quantitatives continues

Variables qui peuvent prendre toutes les valeurs numériques situées dans un ensemble
défini, appelé intervalle. Ces valeurs sont, théoriquement, divisibles à l’infini.

Ex. : nombre de km, poids d’une personne

On parle de distribution continue pour des données regroupées en classes.

Ex. : résultats à un examen


{0 ; 5{ 9
{5 ; 8{ 8
{8 ; 15{ 12
{15 ; 20} 11
Total 40

" Particularité de la variable ‘âge’ : c’est une variable discrète lorsqu’on s’intéresse à l’âge
révolu et une variable continue si on s’intéresse à l’âge exact !

Age révolu = 10, 18 ou 65 ans (âge de l’année écoulée)


Age exact = 10 ans, 3 semaines et 4 jours (âge lié au moment exact de l’anniversaire)

Statistique - Aspects théoriques - 11


2.2.3. Variables nominales/ordinales/métriques

Variables nominales

Variables de nature qualitative dont les valeurs sont des catégories non ordonnées.

Ex. : la variable ‘sexe’ car il est impossible de dire si les hommes sont supérieurs
ou inférieurs, meilleurs ou pires que les femmes ; le statut de l’occupant d’un
logement (propriétaire ou locataire)

Variables ordinales

Variables généralement de nature qualitative, dont les valeurs peuvent être ordonnées
mais qui ne reposent pas sur une unité de mesure standard.

Ex. : la classe sociale évaluée par des modalités comme ‘inférieure’, ‘moyenne’
et ‘supérieure’ ; le niveau de confort d’un logement exprimé en ‘grand’, ‘moyen’,
‘élevé’ (voire par les chiffres ’1’ ‘2’ ‘3’ mais qui ne peuvent être additionnés)

Variables métriques (ou d’intervalles/ratio)

Variables de nature quantitative, dont les valeurs sont ordonnées et basées sur une
unité de mesure standard.

Ex. : la température en degrés Celsius, la distance en km, le revenu en euros ou


en dollars

2.2.4. Variables dichotomiques ou multichotomiques

Variables dichotomiques

Variables qui ne présentent que deux valeurs possibles.

Ex. : homme/femme, urbain/rural, électeurs/non électeurs

Variables multichotomiques

Variables qui présentent trois valeurs ou plus.

Ex. : catégorie socio-professionnelle (CSP)

Statistique - Aspects théoriques - 12


En résumé

Variable qualitative
quantitative discrète
continue

Variable nominale
ordinale
métrique

Variable dichotomique
multichotomique

2.3. Tableaux et graphiques

Derrière l’outil, derrière les chiffres, les tableaux, « derrière la visualisation d’une distribution
dans un graphique, et plus particulièrement dans le dessin d’une courbe, ce sont des
phénomènes sociaux, économiques, pédagogiques, démographiques qui apparaissent »
L. Albarello et al. (2007). p. 141

Ex. : Courbes en L, en U, en J, en /, à deux bosses, etc.

2.3.1. Les tableaux

Il existe différents types de tableaux selon le nombre de variables que l’on veut présenter.

Tableau univarié

A une entrée ou une dimension.


Présentation des valeurs prises par une seule variable et des effectifs correspondants.

-> distribution à 1 variable

Tableau bivarié

A deux entrées ou deux dimensions.


Présentation des valeurs prises par deux variables, l’une en ligne, l’autre en colonne, et
des effectifs correspondant à leur croisement.
On les appelle aussi tableaux croisés ou tableaux de contingence.

-> distribution à 2 variables

Tableau multivarié

A trois entrées ou plus.


Présentation des valeurs prises par trois variables ou plus, et des effectifs correspondant
à leur croisement.

-> distribution à 3 variables ou plus

Statistique - Aspects théoriques - 13


!! Règles primordiales pour la présentation de tableaux et graphes

Mentionner un titre clair et concis


Indiquer la source des données et du tableau
Indiquer la date de collecte des données et de leur publication
Préciser l’unité de valeur utilisée

2.3.2. Graphes et courbes

Il existe différentes façons de représenter des données graphiquement, qui varient en fonction
du type de données et de variables.

!!! Consulter le document suivant : Albarello L. et al. (2007). Statistique descriptive, Chap. 7
« Représentations graphiques », pp. 131-152

Diagramme circulaire ou en secteurs

Il est utilisé pour des variables qualitatives (nominales), mais aussi pour des variables
quantitatives (après regroupement en classes, à condition qu’il y ait peu de classes).

On l’emploie pour la présentation de distributions à une seule variable.

Ex. : Type de sorties culturelles, Paris, 2007

Statistique - Aspects théoriques - 14


Diagramme- Publications
à barres ou en bâtons ou à bâtonnets ou en tuyaux d’orgue
partagées - aperçu

Il est généralement utilisé pour les variables qualitatives (nominales/ordinales), mais


aussi pour des variables quantitatives discrètes.

Dans un diagramme à barres, la fréquence est mesurée par la hauteur de chaque barre.
La hauteur de chaque barre est donc proportionnelle à l’effectif (ou au pourcentage) se
rapportant à une des modalités de la variable étudiée.

Les autres paramètres (distance entre les barres, largeur des barres, ordre des barres)
ne contiennent pas d’information sur la distribution étudiée.
les résidents considèrent que les activités quotidiennes sont
Adaptation - Bien-être n %
inexistantes, la satisfaction est moins souvent bonne (70%
Comment trouvez-vous le cadre de vie de la résidence ?
contre 90%). Cette proportion diminue également avec la
Agréable/Très agréable 136 85% quantité de visites reçues passant de 100% de résidents
Satisfaction de la nouvelle situation raisonnablement ou très satisfaits parmi les pensionnaires
Très/Raisonnablement satisfait 136 85% estimant recevoir plus de visites qu’avant à 73% parmi les
Craintes pour l'avenir 46 29% résidents n’en recevant pas.

Malgré une proportion élevée de personnes satisfaites et


Quatre-vingt cinq pourcents des résidents sont raisonna-
Bonne adaptation d’évaluations positives du cadre de vie, un tiers des résidents
blement voire très satisfaits de leur nouvelle situation. Ce
Adaptation moyenne expriment des craintes pour l’avenir, ce qui semble normal
pourcentage s’élève à 90% lorsque le résident déclare avoir
Faible adaptation mais important à prendre en compte dans l’accompagne-
décidé, seul ou avec un tiers, d’entrer en maison de repos;
100% ment de la personne. On observe par ailleurs que l’image
dans le cas contraire,
4 il vaut 81%.
90% des maisons de repos s’améliore après l’entrée en institution
17
La80%
satisfaction diminue entre autres, avec la perception du pour six résidents sur dix par rapport à ce qu’elle était avant
niveau 33 leur arrivée.
70% et de la 15 qualité des activités quotidiennes. Lorsque
60%

50%
LES
40% INDICATEURS SYNTHÉTIQUES ET LES DÉTERMINANTS DE L’ADAPTATION
37

30% 21
Des indicateurs 18 synthétiques de la participation de la per- latives (faible, moyen, bon). On observe que les résidents
20%
Le diagramme à barres empilées
sonne âgée dans les démarches préalables à son entrée en est une variante
qui présententdulesdiagramme
meilleurs scoresàenbarres. Il permet
matière d’autonomie,
de10%visualiser facilement le résultat du croisement de deux variables.
institution, de son autonomie avant 8 l’entrée et de7son adap- d’une part et de participation aux décisions relatives à leur
0%
tation ensuite ont été construits sur base des réponses. Ces déménagement, d’autre part, semblent s’être mieux adaptés
Participation Participation Forte
Adaptation
indicateurs ont
faible
des personnes
ensuite été synthétisés
moyenne
âgées
en à la
catégories
participation
vie
re-en maison
au nouveau decadre
repos
de vie.
(N = 37) (N = 62) (N = 61)
Figure 5 Adaptation en Bonne adaptation Figure Adaptation en fonction
6 adaptation
Bonne
fonction de l’autonomie Adaptation moyenne de Adaptation
la participation aux démarches
moyenne
Faible adaptation Faible adaptation
100% 100% 100%
4 4
90% 10 90% 90%
17 17
28
80% 80% 16 80%
33 33
70% 70% 15 70% 15
60% 60% 60%

50%
18 50% 50%
38 40% 37 37
au bénéfice d’une meilleure santé pour tous

40% 40%
17
30% 30% 30% 21 21
18 18
20% 20% 20%
12
Connaître, analyser et comprendre

10% 17 10% 8
10%
7 8
4 7
0% 0% 0%
Faible Autonomie Participation
Bonne Participation Forte
Participation Participation Forte
autonomie moyenne faible
autonomie moyenne participation
faible moyenne participation
(N = 40) (N = 83) (N (N
= 37)
= 37) (N = 62) (N(N = 61)
= 37) (N = 62) (N = 61)

Source : Observatoire de la santé en Wallonie, 2011


Résumé Le tableau ci-contre met en relation la proportion de per-
des déterminants 100% sonnes
100% satisfaites et la proportion de personnes présen-
de la satisfaction 90% 10 Bonne tant
90% une bonneStatistique - Aspects théoriques - 15
10 adaptation relative avec une sélection de
et de l’adaptation 80% Satisfaction adaptation
28
déterminants.
80%
28
L’implication de la personne dans
16 16 les dé-
Avoir été Impliqué(e) Oui 70% 91% 38% marches
70% est déterminante du sentiment de satisfaction et
Pas du tout 54% 14%
60%
Le pictogramme est une variante du diagramme à barres. Les barres y sont
représentées par une illustration qui renvoie à l’objet étudié.

Source : La situation des adultes dans le monde, UNICEF, 1998

Histogramme

L’histogramme est un diagramme représentant une distribution de fréquences (ou


effectifs) groupées en classes.

Il se distingue du diagramme en bâtons car les classes sont placées sur l’axe horizontal
dans un ordre croissant de gauche à droite. Les rectangles sont donc adjacents et
placés sur une échelle continue.

L’histogramme est particulièrement indiqué pour des variables quantitatives et


continues. Il est cependant aussi employé pour des variables discrètes

Il est constitué de rectangles qui ont :


- l’amplitude de classe comme longueur sur l’axe des X
- des aires proportionnelles aux effectifs de classe.

Dans un histogramme, la fréquence est mesurée par la surface de la colonne.

Si l’amplitude de classe est identique, les rectangles présenteront une largeur identique.
En général, l’histogramme présente des barres de largeur égale.

Statistique - Aspects théoriques - 16


La pyramide des âges utilisée en démographie est une variante de l’histogramme :
c’est un double histogramme qui présente les hommes et les femmes selon leur âge (ou
date de naissance), plus précisément en fonction de leur appartenance à une classe
d’âge (ou cohorte).

Polygone de fréquences

Un polygone de fréquences (ou effectifs) est un graphe linéaire. C’est une ligne brisée
qui représente une distribution de fréquences.

Dans le cas des variables discrètes, il s’obtient en joignant les sommets des bâtons du
diagramme.

Dans le cas de variables continues, il s’obtient en joignant les points milieux des
sommets des rectangles de l’histogramme.

Dans le cas des variables continues, il ne peut être dessiné si une classe est restée
ouverte.

Statistique - Aspects théoriques - 17


Il est possible de dessiner un polygone des effectifs simples ou un polygone des effectifs
cumulés.

Variable discrète

``

Variable continue

Statistique - Aspects théoriques - 18


Cartogramme

Le cartogramme permet de visualiser des données qui se prêtent bien à une


présentation sur cartes.

Un nombre important de valeurs peut être observé grâce à ce procédé qui repose sur
des unités d’analyse spatiales ou géographiques, comme un pays, une région, une
province, etc.

Le jeu des couleurs, leur intensité permet de diversifier la signification des variables
étudiées.

Graphe linéaire

Un graphe linéaire est particulièrement indiqué pour la présentation de séries


temporelles. Ce graphe se présente sous la forme d’une ligné brisée.

La ligne brisée permet aussi de rendre compte avec précision de la relation d’ordre
croissant ou décroissant entre les modalités de la variable observée.

Statistique - Aspects théoriques - 19


Graphe de dispersion

Les statistiques à deux dimensions s'appliquent non plus aux valeurs de X et Y


considérées de manière individuelle, mais bien aux couples (x,y) qui représentent deux
mesures réalisées sur un même individu.

Ce type de graphe est utilisé pour des variables quantitatives. Il permet de synthétiser la
situation de deux variables en regard l’une de l’autre. Chaque individu (ou effectif) y est
présenté par un point dans un espace bidimensionnel. Les coordonnées (xi et yi) de ce
point sont les valeurs observées pour l’individu par rapport aux deux variables X et Y
considérées.

L'ensemble des points est reporté sur un graphique à deux dimensions, afin d'estimer
graphiquement la dispersion des données.

Statistique - Aspects théoriques - 20


Graphe en boîtes et extrémités, ou Box Plot ou Boite à moustaches

Ce graphe propose un résumé des mesures de tendance centrale.

N.B. La présentation graphique de données s’effectue de la manière suivante pour les


distributions à une variable. On présente les effectifs en ordonnée et les modalités de la
variable en abscisse, dans un système de deux axes orthogonaux. Ces deux axes sont
deux droites perpendiculaires sur lesquelles sont reportés deux systèmes de graduations.

Axe des ordonnées


Effectifs - fi

Axe des abscisses


------------------------------> Modalités de la variable - Xi

2.3.3. Lecture de tableaux et analyse de données

Thèmes : pouvoir d’achat, drogues, emploi, enseignement, santé, maison de repos etc.

Autoévaluation : exercice individuel

Statistique - Aspects théoriques - 21


2.4. Les données

Données primaires et secondaires

Les données primaires sont collectées directement auprès de la population observée.

Les données secondaires proviennent d’études existantes.

Données manquantes et cas déviants

Les données manquantes et les cas déviants sont généralement rejetés de l’analyse.

Concernant les données manquantes, il arrive en effet que les répondants à une enquête ne
veulent pas répondre ou ne savent pas répondre à certaines questions.

Dans ces cas-là, on note les items suivants : « Ne sait pas », « Refus de répondre », « Pas de
réponse », « Pas d’opinion ».

Les cas déviants présentent des scores anormalement élevés ou faibles ; ils se retrouvent donc
éloignés aux extrémités d’une distribution, détachés de la plupart des autres scores.

Données indicées

Des données peuvent être indicées, dans un but de comparaison.

On désigne par indice la grandeur statistique avec laquelle on mesure des variations dans le
temps.

Lorsqu’on veut comparer des données, on peut attribuer un indice 100 à l’une d’entre elles.
Celle-ci devient la donnée de référence.

Un indice en base 100 exprime la variation entre une valeur de départ et une valeur d’arrivée
proportionnellement à la valeur de départ lorsque celle-ci est ramenée à 100.

Pour calculer une donnée d’un tableau indicé, il suffit de majorer ou de minorer la donnée de
référence en utilisant l’indice de celle-ci.

Ex. : Une donnée qui possède l’indice 117 vaut 117 % de la donnée de référence.
Une donnée qui possède l’indice 98 vaut 98 % de la donnée de référence.

Indice 98 100 117

Donnée 0,98 x 2530 = 2479,4 2530 1,17 x 2530 = 2960,1

L’indice des prix à la consommation mesure l’évolution du niveau moyen des prix des biens et
services consommés par les ménages, pondérés par leur part dans la consommation moyenne
des ménages. C’est un indicateur économique qui a pour objectif de mesurer l’évolution, au
cours du temps, des prix d’un panier de biens et services achetés par les ménages et censé
être représentatif de leur consommation.

Statistique - Aspects théoriques - 22


3. Statistique descriptive

3.1. Distribution à une variable

Une distribution de fréquences à une variable reprend des données concernant une seule
variable, soit Xi

Une façon simple de résumer des informations concernant une variable est de compter le
nombre de cas pour chaque valeur de la variable. Ce résumé de la variation de la variable est
une distribution de fréquences. La distribution d’une variable est la forme prise par les
fréquences d’apparition des différentes valeurs.

Pour une variable discrète, la distribution se présente sous la forme d’un diagramme en
bâtons ; on prend les sommets des bâtons comme points de la courbe des fréquences.

Pour une variable continue (dont les valeurs possibles peuvent se situer n’importe où dans un
intervalle donné), la distribution peut se représenter sous la forme d’un histogramme ou d’une
courbe ; on prend les centres de classe comme points de la courbe.

3.1.1. Regroupement de données en distributions de fréquences (ou effectifs)

Fréquences absolues ou effectifs ou données brutes

La compilation de données brutes ou absolues revient à proposer une distribution de


fréquences brutes ou absolues.

-> Distribution de fréquences brutes

Fréquences relatives énoncées sous la forme de proportions

Une proportion permet une comparaison entre l’effectif d’une des valeurs de la
variable et la totalité des unités statistiques considérées.

-> Distribution de fréquences relatives

Se note fi
N f = fréquence
i = nombre de valeurs de la variable
N = nombre total de cas

Fréquences relatives énoncées sous la forme de pourcentages

Une distribution de fréquences présentées sous la forme de pourcentages permet de


réduire des grands nombres à des nombres plus facilement manipulables et
compréhensibles.

C’est aussi une façon de standardiser des informations afin de les rendre comparables,
en partant d’une base 100 (ou 1000), Cela revient à calculer quel serait le nombre de
fréquences si le nombre total de cas était égal à 100.

Statistique - Aspects théoriques - 23


-> Distribution de pourcentages

Se note fi . 100 -> (%) -> ou en . 1000 ou . 10000 etc.


N

La somme d’un ensemble de pourcentages doit toujours être égale à 100

La somme d’un ensemble de proportions doit toujours être égale à 1

Rapports

Un rapport (ou ratio) permet une comparaison entre l’effectif d’une valeur de la
variable et celui d’une autre valeur de la variable.

Se note f1
f2

Effectifs cumulés

On peut calculer des fréquences et pourcentages cumulés dans le cas de variables


ordinales ou métriques. Pour calculer ce type de fréquences (ou pourcentages), il faut
que les valeurs de la variable soient ordonnées par ordre croissant. On peut ensuite
calculer les fréquences cumulées par ordre croissant et décroissant.

L’effectif cumulé – ou fréquence cumulée - d’une classe correspond à la somme des


effectifs présentant une valeur de la variable inférieure à celle de la limite supérieure de
cette classe. Il s’agit d’effectifs cumulés ascendants ; ils sont présentés par ordre
croissant.

Se note F ou ficc

Ex. : avoir deux enfants ou moins

Il est aussi possible de calculer des effectifs cumulés par ordre décroissant ; on part
alors du total des effectifs pour descendre vers la valeur de la dernière classe de la
distribution.

Se note ficd

Ex. : avoir deux enfants ou plus

Statistique - Aspects théoriques - 24


Pourcentages cumulés

Un pourcentage cumulé croissant ou ascendant est le pourcentage qui reprend toutes


les valeurs égales ou inférieures à une valeur donnée.

Se note F . 100 -> (%)


N

Un pourcentage cumulé décroissant ou descendant est le pourcentage qui reprend


toutes les valeurs égales ou supérieures à une valeur donnée.

3.1.2. Regroupement de données (ou valeurs) en classes

Limites d’une classe

Limite inférieure d’une classe


Correspond à la valeur minimale d’une classe
Se note L1

Limite supérieure d’une classe


Correspond à la valeur maximale d’une classe
Se note L2

Largeur ou amplitude d’une classe

La largeur ou amplitude d’une classe correspond à la soustraction de la limite inférieure


de la classe supérieure (L1sup) à la limite inférieure de la classe considérée (L1inf)

L’amplitude de classe s’obtient par la formule A = L 1sup - L1inf

Point milieu ou centre d’une classe

Le point milieu d’une classe s’obtient en additionnant la limite inférieure de la classe


considérée (L1) à la limite supérieure de cette même classe (L2) ; on divise ensuite cette
somme par 2.

Le point milieu s’obtient par la formule m = L2 + L1


2

3.1.3. Mesures de tendance centrale

Les mesures de tendance centrale visent à rendre compte de manière synthétique d’un aspect
important d’une distribution, ce que l’on pourrait appeler intuitivement la valeur dominante (ou
centrale) de cette distribution.

Il existe trois mesures de tendance centrale : le mode, la médiane et la moyenne.

Statistique - Aspects théoriques - 25


a) Mode

Le mode d’un ensemble de valeurs de la variable est la valeur ou la modalité de la


variable qui présente le plus grand nombre d’effectifs. Dans ce cas, la distribution est
unimodale.

Il est possible qu’il y ait deux modes, lorsque la distribution de la variable se caractérise
par la présence de deux valeurs modales, c’est-à-dire de deux valeurs extrêmes. Dans
ce cas, la distribution est bimodale.

Il peut aussi ne pas y avoir de mode.

Se note Mo

Dans le cas de données groupées, le mode correspond au point milieu de la classe


modale. Le point milieu de cette classe est appelé mode brut.

b) Médiane

La médiane est la valeur de la distribution de la variable qui départage cette distribution


en deux parts égales.

La médiane est donc la valeur de la variable telle que la moitié de l’effectif total (50%)
présente une valeur qui lui est inférieure et l’autre moitié (50%) de l’effectif total présente
une valeur qui lui est supérieure.

Se note Mé

!! Pour calculer la médiane, il est indispensable que les valeurs de la variable soient
rangées par ordre croissant. Il faut ensuite ranger les effectifs par ordre croissant.

Calcul de la médiane pour des données individuelles

Le calcul de la médiane varie selon que l’on a un nombre pair ou impair d’individus (ou
effectifs).

-> Nombre impair

Après avoir rangé toutes les données par ordre croissant, on repère la valeur
observée au rang N +1
2
-> Nombre pair

Il n’y a pas d’individu en position strictement centrale. On procède alors comme


suit : après avoir rangé toutes les données par ordre croissant, on repère la
valeur observée au rang N et celle observée au rang qui suit N + 1
2 2

On effectue ensuite la somme des deux valeurs observées et la médiane


correspond à la moitié de cette somme. Attention, il s’agit de trouver la valeur de
la variable positionnée sur un rang, c’est-à-dire un xème effectif.

Statistique - Aspects théoriques - 26


Calcul de la médiane pour des données groupées en classe

Lorsque les valeurs de la variable sont groupées en classes, la médiane s’obtient par
interpolation linéaire, après avoir identifié la classe qui contient la médiane. Les
effectifs doivent impérativement être rangés par ordre croissant.

N _ F
La valeur de la médiane s’obtient par la formule Mé = L1 + 2_____ . A
f

F = effectifs cumulés de la classe inférieure à la classe contenant la médiane


f = effectifs observés dans la classe contenant la médiane
L1 = limite inférieure de la classe contenant la médiane
A = différence entre la limite inférieure de la classe immédiatement
supérieure à la classe contenant la médiane et la limite inférieure de la
classe de la médiane
L1sup - L1inf = Amplitude

-> Repérer la classe médiane se fait selon le principe des nombres pairs et impairs
mentionné pour les données individuelles.

c) Moyenne

La moyenne arithmétique d’une série de valeurs d’une variable est égale au quotient de
la somme de ces valeurs par l’effectif total de la population concernée.

Se note µ (pour une population)

X (pour un échantillon)

Moyenne de données individuelles

S’il n’y a qu’un effectif par valeur de la variable, le calcul de la moyenne s’obtient par
la formule :
µ = ∑ Xi
N

Si plusieurs unités statistiques présentent une même valeur de la variable X, ou dit plus
simplement, s’il y a plus d’un effectif par valeur de la variable, on utilise la formule
suivante :
µ = ∑ f i . Xi
N

Statistique - Aspects théoriques - 27


Moyenne pondérée

Il arrive que l’on doive calculer la moyenne sur une population dont on ne connaît pas
toutes les valeurs individuelles observées mais uniquement des valeurs moyennes et les
effectifs globaux des différents sous-groupes qui composent cette population.

On considère que la moyenne arithmétique est pondérée dans le cas où il faut calculer
une moyenne générale sur base de moyennes particulières.

Formule µ = ∑ Nk . µ k
N

Moyenne de données groupées en classe

Pour obtenir la moyenne de données groupées en classes, on agit comme si les


résultats d’une classe étaient situés au point milieu de celle-ci. On considère que toutes
les valeurs d’un intervalle de classe présentent la valeur du centre de cette classe.

Formule µ = ∑ f i . mi
N

N.B. Propriétés de la moyenne

- La somme des écarts des valeurs de la variable par rapport à la moyenne est
égale à 0.
∑ (Xi - µ) = 0

- La somme des carrés équivaut à la somme des déviations des valeurs de la


variable par rapport à la moyenne élevées au carré. La moyenne minimise la
somme du carré des écarts, c’est-à-dire la somme des déviations au carré de
chaque valeur de la variable par rapport à la moyenne (voir calcul de la
variance).

∑ (Xi - µ)2

Statistique - Aspects théoriques - 28


4. Formes des distributions de variables

Lorsque la forme de la distribution est symétrique, les trois mesures de tendance centrale ont
une valeur identique. C’est le cas d’une distribution normale qui se présente sous la forme
d’une cloche.
Autrement dit, Mo = Mé = µ

Lorsque la forme de la distribution n’est pas symétrique, les trois mesures de tendance centrale
ont des valeurs différentes.

Une distribution peut être asymétrique – ou étirée - à gauche à cause de valeurs anormalement
faibles. La moyenne est alors plus petite que la médiane.
-> µ < Mé

Une distribution peut être asymétrique – ou étirée - à droite à cause de valeurs anormalement
fortes. La moyenne est alors plus grande que la médiane.
-> µ > Mé

Lorsqu’une distribution est asymétrique, la moyenne est affectée, mais la médiane ne l’est pas.
Il est donc préférable d’utiliser la médiane dans le cas de distributions fortement asymétriques.

En effet, les scores extrêmes tirent vers eux la moyenne (vers le haut ou vers le bas) tandis que
la médiane ne dépend que du score se trouvant au milieu de la distribution.

Plus une distribution est asymétrique, plus la différence entre la moyenne et la médiane est
importante. La moyenne est toujours plus proche du point de l’asymétrie que la médiane.

Statistique - Aspects théoriques - 29


3.1.4. Mesures de dispersion

Les mesures de la dispersion s’intéressent à la dispersion des données autour des mesures de
tendance centrale. La dispersion des données autour de la tendance centrale est aussi
importante que la tendance centrale pour l’analyse et la compréhension des observations faites
sur le terrain observé (cf. ex. des résultats scolaires).

On approche la dispersion de trois manières différentes :


- par l’étendue,
- par les écarts interquartiles qui mesurent la dispersion autour de la médiane,
- par l’écart moyen, la variance ou l’écart-type qui mesurent la dispersion autour
de la moyenne.

a) Mesure de l’étendue d’une distribution

L’étendue consiste en l’écart (en valeur absolue) entre les valeurs extrêmes de la variable,
observées au moins une fois au sein de la population.

Etendue = xmax - xmin

Ex. Xi = 5, 12, 13, 13, 14, 15, 15, 15, 18, 20 N = 10


L’étendue est égale à : 20 – 5 = 15

Statistique - Aspects théoriques - 30


b) Mesures de dispersion autour de la médiane

Ces mesures consistent à observer la dispersion des valeurs observées autour de la médiane.
Elles supposent un rangement des valeurs observées, de préférence par ordre croissant.

-> Quartiles - Déciles - Centiles

Les quartiles, déciles et centiles représentent des parts ou fractiles, c’est-à-dire des fractions
d’effectifs. Ce sont des mesures de dispersion absolue.

Se notent Q - D - C

La mesure des valeurs prises par les quartiles, déciles et centiles est semblable à celle qui est
appliquée pour la recherche de la valeur médiane d’une distribution de valeurs pour une
variable.

La détermination de ces mesures permet de diviser une distribution en un certain nombre de


portions qui contiennent les mêmes proportions (ou %ages) d’observations.

Quartiles

Les quartiles sont les 3 valeurs de la distribution qui séparent l’effectif en 4 parts égales.

-> Le 1er quartile est la valeur de la variable telle que 25% du total des effectifs
présentent une valeur qui lui est inférieure et 75% une valeur supérieure. On désigne
souvent par le premier quartile le premier quart des unités statistiques présentant les
valeurs les plus petites de la distribution.

-> Le 2ème quartile correspond à la médiane.

-> Le 3ème quartile est la valeur de la variable telle que 75% du total des effectifs
présentent une valeur qui lui est inférieure et 25% une valeur supérieure.

Dans le cas de nombres pairs ou impairs, on utilise le même principe que pour la
médiane.

Données individuelles

Formule pour trouver la valeur du 1er quartile Q1 => N


4

Formule pour trouver la valeur du 3ème quartile Q3 => N.3


4

Formule pour trouver la valeur du 2ème quartile Q2 => N => Mé


2

Statistique - Aspects théoriques - 31


N.B. Si le résultat de la division n’est pas un nombre entier, on prend la valeur entière
supérieure pour trouver la valeur du quartile recherché.

Ex. : Si on a un N = 50, la valeur prise par le premier quartile se trouvera sur


50 = 12,5
4 c’est-à-dire sur la valeur positionnée au 13ème rang de la
distribution des modalités de la variable.

Données groupées en classe


N _ F
La valeur du 1er quartile s’obtient par la formule Q1 = L1 + 4_____ .A
f

N.3 _ F
ème
La valeur du 3 quartile s’obtient par la formule Q3 = L1 + 4____ .A
f

Déciles

Les déciles sont les 9 valeurs de la distribution qui séparent l’effectif en 10 parts égales.

-> Le premier décile est la valeur de la variable telle que 10% du total des effectifs
présentent une valeur qui lui est inférieure et 90% une valeur qui lui est supérieure. Le
premier décile désigne aussi les 10% du total des effectifs qui présentent les valeurs les
plus petites, etc. Le neuvième décile désigne les 10% des effectifs qui présentent les
valeurs les plus élevées de la variable.

-> Le troisième décile est la valeur de la variable telle que 30% du total des effectifs
présentent une valeur qui lui est inférieure et 70% une valeur qui lui est supérieure.

-> Le neuvième décile désigne la valeur de la variable à partir de laquelle on peut


observer les 10% des effectifs qui présentent les valeurs les plus élevées de la variable.

Données individuelles

Formule pour trouver la valeur du 1er décile D1 => N


10

Formule pour trouver la valeur du 9ème décile D9 => N.9


10

Données groupées en classe


N _ F
La valeur du 1er décile s’obtient par la formule D1 = L1 + 10_____ . A
f

Statistique - Aspects théoriques - 32


Centiles ou Percentiles

Les centiles sont les 99 valeurs de la distribution qui séparent l’effectif en 100 parts
égales.

-> Le premier centile est la valeur de la variable telle que 1% du total des effectifs
présentent une valeur qui lui est inférieure et 99% une valeur qui lui est supérieure. Le
premier centile désigne aussi 1% du total des effectifs qui présentent les valeurs les plus
petites, etc.

-> Le nonantième centile désigne les 10% des effectifs qui présentent les valeurs les
plus élevées de la variable.

Données individuelles

Formule pour trouver la valeur du 1er centile C1 => N


100

Formule pour trouver la valeur du 99ème centile C99 => N . 99


100

Données groupées en classe


N _ F
La valeur du 1er centile s’obtient par la formule C1 = L1 + 100____ . A
f

-> Ecart interquartile et écart semi-interquartile

L’écart interquartile et l’écart semi-interquartile sont des mesures de dispersion absolue. Elles
indiquent l’importance de la dispersion autour de la médiane.

L’intervalle compris entre le 1er et le 3ème quartile porte le nom d’écart interquartile. Calculer
l’écart interquartile consiste à calculer l’intervalle entre les deux valeurs de la distribution
comprenant la moitié de la population totale répartie en 2 parts égales autour de la médiane.

Autrement dit, cet écart correspond à l’intervalle des valeurs de la variable qui comprend la
moitié centrale de la distribution, c’est-à-dire le 2ème et le 3ème quart des individus rangés par
ordre croissant.

Plus l’écart interquartile est faible, moins les observations sont dispersées ; de même, plus
l’écart semi-interquartile est faible, moins les observations sont dispersées.

L’écart semi-interquartile permet de donner une mesure plus précise de la dispersion autour de
la médiane.

Par exemple, constater un écart semi-interquartile de 3 revient à dire que les points obtenus par
une classe d’élèves varient de +/- 3 points autour de 13/20, sachant que la valeur de la
médiane est égale à 13/20 si la distribution est symétrique.

Statistique - Aspects théoriques - 33


Dans le cas d’une distribution asymétrique, la valeur de la médiane ne correspond pas au point
milieu de l’intervalle compris entre Q1 et Q3

Ecart interquartile Q3 - Q1

Ecart semi-interquartile Q3 - Q1
2

-> Coefficient interquartile

Le coefficient interquartile est une mesure de dispersion relative autour de la médiane.


Il permet de comparer la dispersion de deux distributions de médiane différente.

Formule Q3 - Q1 . 100 (s’exprime en %)


c) Mesures de dispersion autour de la moyenne

Ces mesures consistent à calculer les écarts entre chaque valeur observée et la moyenne des
valeurs observées pour la distribution, et à faire ensuite la moyenne arithmétique de tous les
écarts. Le degré de dispersion est d’autant plus grand que cette moyenne est élevée ; à
l’inverse, le degré de concentration de la distribution d’une variable est d’autant plus important
que cette moyenne est faible.

La variance et l’écart-type sont deux mesures de dispersion qui résument dans quelle mesure
les scores ou modalités de la variable sont concentrés autour de la moyenne. Une variance
faible signifie que la dispersion des valeurs observées autour de la moyenne est faible ; de
même, un écart-type faible signifie que la dispersion des valeurs observées autour de la
moyenne est faible. Ou encore, et inversement, plus il y a de variation dans les scores, plus la
variance et l’écart-type sont élevés.

Statistique - Aspects théoriques - 34


On parle d’une distribution homogène dans le cas d’une faible variance et d’une distribution
hétérogène dans le cas d’une variance élevée.

Homogénéité σ2 et σ faibles -> faible dispersion

Hétérogénéité σ2 et σ forts -> forte dispersion

-> Ecart moyen absolu

L’écart moyen consiste à calculer la moyenne arithmétique des écarts par rapport à la moyenne
en valeur absolue, c’est-à-dire en ignorant le signe négatif ou positif de l’écart.

On obtient l’écart moyen par la formule EMA = ∑ I(Xi - µ)I


N

-> Variance

La variance est une mesure de dispersion absolue. Elle correspond à la moyenne


arithmétique des écarts au carré des valeurs (ou scores) de la variable par rapport à la
moyenne. Afin d’éviter les signes négatifs, on élève les écarts au carré plutôt que de prendre la
valeur absolue. La variance présente cependant l’inconvénient de s’exprimer dans une échelle
différente de celle des scores.

Se note σ2 (population)

S2 (échantillon)

Pour calculer la variance, on considère d’abord l’écart de chaque valeur de la variable par
rapport à la moyenne arithmétique et on l’élève au carré.

(Xi - µ)2

On effectue ensuite la somme des écarts au carré qu’on divise par le nombre total des effectifs.

Pour des données individuelles avec un seul effectif,


la variance s’obtient par la formule
σ2 = ∑ (Xi - µ)2
N

Pour des données individuelles présentant plusieurs effectifs,


la variance s’obtient par la formule
σ2 = ∑ fi (Xi - µ)2
N

Lorsque plusieurs unités statistiques présentent une même valeur de la variable,


on multiplie l’écart au carré par le nombre d’effectifs concernés.

Statistique - Aspects théoriques - 35


Pour des données groupées en classe,
la variance s’obtient par la formule
σ2 = ∑ fi (m - µ)2
N

Lorsque des données sont groupées en classes, on considère que toutes les valeurs
d’un intervalle de classe coïncident avec le centre de cette classe. On calcule l’écart au
carré entre ce centre (ou point milieu) et la moyenne arithmétique que l’on multiplie par
le nombre d’effectifs s’il y a plusieurs effectifs par classe.

N.B. S’il s’agit de données d’échantillon, la variance se calcule de la façon suivante :

S2 = ∑ (Xi - X )2
N-1

Le dénominateur N – 1 se nomme ‘degré de liberté’ de la variance.

Le degré de liberté signifie que si nous connaissons tous les écarts excepté un seul, il
est aisé de calculer ce dernier écart. Une fois que tous les écarts sont déterminés, le
dernier est forcément connu (cas d’une équation à une inconnue).

-> Ecart-type

L’écart-type (‘standard deviation’ en anglais) est une mesure de dispersion absolue. Il permet de
donner une mesure des écarts des valeurs de la variable par rapport à la moyenne, dans la
même unité que les observations.

Il exprime l’écart à la moyenne dans l’unité de base de la variable.

L’écart-type est la racine carrée de la variance. En remettant en base 1 un nombre


préalablement élevé au carré, cette opération permet de ramener la mesure de dispersion dans
la même échelle que les scores originaux.

Il s’obtient par la formule σ = Iσ2

-> Coefficient de variation

Le coefficient de variation est une mesure de dispersion relative autour de la moyenne. Pour
N. Guégen (1997), ce coefficient indique ce que l’écart-type représente comme proportion de la
moyenne.

Il permet de comparer l’importance de la dispersion de deux distributions dont la moyenne et


l’écart-type s’expriment dans des unités de mesure différente, comme dans les études de
variabilité financière, lors de changements de monnaie (dollar, euro, yen, etc.).

Le coefficient V permet de comparer entre elles des dispersions qui ne sont pas comparables
autrement car elles sont exprimées dans des échelles de grandeur différente ou dans des

Statistique - Aspects théoriques - 36


unités de mesure différente. On peut alors travailler dans un rapport écart-type/moyenne qui ne
dépend pas de l’unité de mesure dans laquelle la variable a été mesurée.

Formule V= σ . 100 (s’exprime en %)


µ

L’intérêt de V est de ramener l’écart-type au niveau moyen des observations, grâce à la


moyenne arithmétique. En effet, l’écart-type représente le risque de s’écarter de la moyenne,
mais le risque réel dépend aussi de la valeur de la moyenne, d’où l’intérêt de V qui permet de
comparer deux distributions d’ordres de grandeur différents.

-> Score Z et Variable centrée réduite

Le score Z est un score standardisé. C’est une mesure de dispersion relative qui permet de
mesurer à combien d’écarts-types de la moyenne se situe un score donné.

Les scores Z sont particulièrement utiles lorsqu’on compare des scores provenant de
distributions dont les moyennes et les écarts-types sont différents.

Une valeur positive signifie que le score est supérieur à la moyenne ; une valeur négative
signifie que le score est inférieur à la moyenne.

Standardiser les scores permet de comparer l’emplacement relatif de ces scores à l’intérieur
des distributions.

Formule Zi = Xi - µ
σ

Ex. Comparaison des résultats de Bill et Hilary

La variable centrée réduite, ou variable standardisée, est une autre mesure de dispersion
relative autour de la moyenne. C’est une variable dont tous les scores ont été convertis en
scores standardisés. Chaque score est ainsi transformé pour correspondre au nombre précis
d’écarts-types qui le séparent de la moyenne.

Toutes les variables standardisées ont donc la même échelle, et se distribuent autour d’une
moyenne égale à 0, avec un écart-type égal à 1. Cela veut dire que toutes les distributions de
scores Z ont une moyenne de 0 et un écart-type de 1.

La variable standardisée permet d’exprimer l’écart par rapport à la moyenne en unités d’écarts-
types. Elle permet de comparer la situation d’une unité statistique par rapport aux autres unités
de la distribution.

Formule V Zi => ∑ (Xi - µ)


σ

Statistique - Aspects théoriques - 37


Que cela soit pour des données individuelles ou pour des données groupées en classe, le
score Z pour une valeur de X se calcule toujours en considérant la moyenne et l’écart-type de la
distribution.

d) Mesure de l’asymétrie

Comme indiqué plus haut, certaines variables présentent une distribution symétrique et d’autres
présentent une distribution asymétrique.

Il est possible d’évaluer l’asymétrie d’une distribution à partir de la mesure suivante :

Coefficient d’asymétrie = 3 (µ - mé)


σ

Il faut donc diviser la différence entre la moyenne et la médiane multipliée par 3 par l’écart-type.
Comme précédemment, diviser cette mesure par l’écart-type permet de revenir à l’unité de
mesure de la variable.

Pour rappel, les scores extrêmes « tirent vers eux » la moyenne alors que la médiane ne
dépend que du score se situant au milieu de la distribution. La moyenne se rapproche donc
toujours plus du point de l’asymétrie que la médiane.

Dans le calcul de l’asymétrie, la différence entre la moyenne et la médiane permet d’évaluer


l’importance de l’asymétrie.

Plus une distribution est asymétrique, plus la différence entre la moyenne et la médiane est
importante, et plus le numérateur est important.

Dans le cas d’une asymétrie égale à zéro, la distribution est symétrique, puisque la moyenne
est égale à la médiane !

Statistique - Aspects théoriques - 38


3.2. Distribution à deux variables

Des tableaux de fréquences peuvent être construits pour présenter conjointement la


distribution de fréquences relative à deux variables (ou plus). Il s’agit de tableaux croisés à
deux entrées (ou plus) aussi appelés tableaux bivariés ou tableaux de contingence.

Les distributions à deux variables permettent d’étudier une population (ou un échantillon)
suivant deux variables qui prennent chacune diverses modalités.

Une distribution à deux variables reprend des données concernant deux variables, soit Xi et Yj

Chaque cellule (ou case) du tableau contient l’effectif correspondant au croisement d’une
modalité de la première variable avec une modalité de l’autre variable. On utilise donc des
tableaux à deux dimensions pour présenter la distribution des effectifs pour chaque modalité
d’une variable par rapport aux modalités de l’autre variable ; on obtient alors des fij

Les sous-totaux concernant les Xi sont les N i

Les sous-totaux concernant les Yj sont les Nj

Ces deux séries de sous-totaux sont appelées des distributions marginales. On nomme
fréquences marginales les fréquences qui les composent. Les distributions marginales
correspondent à la distribution univariée de chacune des variables considérées.

Dans le cas d’un tableau croisé à 2 variables, on aura donc 2 distributions


marginales.

Il y a aussi autant de distributions univariées qu’il y a de modalités pour les deux variables
croisées.

Dans le cas d’un tableau à 2 variables dont une variable comprend 2 modalités et
l’autre variable comprend 4 modalités, il y aura 6 distributions univariées.

Le nombre de cellules dépend du nombre de modalités des deux variables concernées.

Si une variable comprend 2 modalités et une autre variable comprend 3 modalités, le


tableau comptera 6 cellules (2 x 3).

Trois questions se posent lorsqu’on s’intéresse aux relations entre deux variables.

- Existe-t-il une relation entre les deux variables analysées ?


o Réponse : Les différences entre les pourcentages indiquent si la
variable est associée à une autre.

- Quelles sont la direction et la forme de cette relation ?


o Réponse : L’organisation des pourcentages permet de déterminer si
une relation est positive, négative ou curvilinéaire.

- Quelle est l’intensité de cette relation ?


o Réponse : Plus la différence des pourcentages entre les catégories de
la variable indépendante est importante, plus la relation est forte.

Statistique - Aspects théoriques - 39


Age VI/X - 18 ans 19-44 ans 45-64 65 ans et + TOTAL
ans
Santé VD/Y
Bonne fij fij fij fij Nj

Mauvaise fij fij fij fij Nj

TOTAL Ni Ni Ni Ni Nij

3.2.1. Croisement des effectifs

a) Des pourcentages

Comme pour les distributions à une variable, les valeurs prises par le croisement de deux
variables peuvent être exprimées sous la forme de fréquences relatives et de pourcentages.

Pour effectuer des comparaisons entre les distributions d’effectifs des différentes modalités
d’une variable par rapport aux modalités de l’autre variable, on calcule des effectifs relatifs
ou des proportions en %. Les pourcentages sont une façon de standardiser une distribution.

Les pourcentages s’obtiennent sur base des sous-totaux. Il existe trois possibilités : les sous-
totaux peuvent se présenter soit par rapport à l’ensemble de la population, soit en ligne, soit
en colonne, selon ce que l’on veut comparer. C’est l’orientation d’une question de recherche
ou d’une hypothèse qui oriente le mode de calcul des pourcentages.

-> Pourcentages par rapport à l’ensemble de la population

On effectue un rapport entre les effectifs de chacune des cellules du tableau et l’ensemble
de la population.

Soit fij . 100 et les Nij = 100


Nij

-> Pourcentages en ligne

On effectue un rapport entre les effectifs de chacune des cellules du tableau et le sous-total
des effectifs observés sur sa ligne.

Soit fij . 100 et les Nj = 100


Nj

Les pourcentages en ligne supposent une lecture horizontale des résultats.

Statistique - Aspects théoriques - 40


-> Pourcentages en colonne

On effectue un rapport entre les effectifs de chacune des cellules du tableau et le sous-total
des effectifs observés sur sa colonne.

Soit fij . 100 et les Ni = 100


Ni

Les pourcentages en colonne supposent une lecture verticale des résultats.

b) Variables Dépendantes et Variables Indépendantes

L’analyse de tableaux croisés permet de déterminer si deux variables sont associées.

Attention, l’association de deux variables n’implique pas nécessairement un effet de


causalité ! Ce n’est pas parce qu’il y a un lien statistique entre deux variables qu’il y a une
relation de cause à effet.

Ex. Certaines régions d’Europe connaissent un taux élevé de natalité. Même si le


nombre des cigognes dans ces régions est important, les cigognes n’exercent
cependant pas d’influence sur la natalité ; le nombre de cigognes n’a donc pas
d’effet de causalité sur le nombre des naissances.

L’association est cependant indispensable pour que l’on puisse parler de causalité. Les
variables ayant une relation causale doivent nécessairement être associées.

Ex. Durkheim, dans son étude sur le suicide, ne s’est pas contenté d’associer le
suicide à la religion. Il a expliqué pourquoi ces deux variables sont liées en observant
un effet du degré de religiosité et de la cohésion sociale sur le taux de suicide.

Lors de l’analyse des proportions obtenues, on peut donc parfois découvrir l’influence d’une
variable sur une autre. Il y a alors une variable dépendante par rapport à une variable
indépendante.

La variable indépendante (VI) est la cause présumée ou hypothétique d’une variable


dépendante (VD).

La variable dépendante est la variable expliquée et la variable indépendante est la variable


explicative.

VD = effet de VI VI = cause de VD

Ex. : le niveau d’instruction (VI) influence l’opinion d’un individu par rapport au fait
d’obéir ou non aux lois (VD).

VI # VD

Instruction # Désobéissance civile


Revenu # Réussite scolaire des enfants
Statut conjugal # Sentiment de bonheur

Statistique - Aspects théoriques - 41


c) Lecture et construction d’un tableau bivarié

REGLE 1 : Pour construire un tableau bivarié, calculer les pourcentages à l’intérieur


des catégories de la variable indépendante

On a tendance à présenter la variable indépendante (VI) en colonne et chaque


colonne reproduit une distribution univariée.

Pour la VI (-> var. X), en colonne, disposer les valeurs de la variable de


gauche à droite, en ordre croissant.

Pour la VD (-> var. Y), en ligne, disposer les valeurs de la variable de haut en
bas, en ordre décroissant.

Veiller à avoir un nombre N suffisant sous peine d’avoir des pourcentages établis sur
trop peu de cas et donc peu fiables. Idéalement, il faut compter au moins 30 effectifs
ou cas par cellule pour que les pourcentages reposent sur des bases solides.

REGLE 2 : Pour lire un tableau bivarié, comparer les pourcentages entre les
catégories de la variable indépendante.

Plus les différences entre les pourcentages de chacune des catégories de la variable
indépendante sont petites, plus la relation est faible (jusqu’à l’absence d’association
qui en soit peut aussi être une information pertinente en matière de recherche). Plus
ces différences sont grandes, plus la relation est forte.

N.B. On parle en termes de points de pourcentages pour décrire la force d’une


relation entre deux variables.

d) Direction de la relation entre deux variables

Une direction peut être donnée à la relation entre deux variables dans le cas des variables
d’intervalles/ratio et des variables ordinales, mais pas pour des variables nominales car il
n’est pas possible de proposer un ordre pour une variable comme le sexe ou l’origine
ethnique.

Une relation positive est une relation dans laquelle les scores les plus élevés d’une variable
sont associés aux scores les plus élevés de l’autre variable.

Une relation négative est une relation dans laquelle les scores les plus élevés d’une
variable sont associés aux scores les plus faibles de l’autre variable.

Une relation curvilinéaire peut prendre plusieurs formes. Dans le cas d’une relation en U,
les cas présentant des valeurs fortes et faibles pour la variable indépendante présentent des
valeurs élevées pour la variable dépendante.

Statistique - Aspects théoriques - 42


3.2.2. Corrélation, ajustement et régression

Il existe diverses mesures d’association pour des données de tableaux croisés, spécifiques
selon qu’il s’agit de variables nominales ou ordinales, ou de variables numériques
(d’intervalles ou de proportions).

Nous nous intéressons ici uniquement aux mesures d’association concernant les variables
numériques (d’intervalles ou de proportions).

Diverses techniques permettent d’éviter la perte d’information due au regroupement des


valeurs (ou scores ou modalités) prises par une variable. Deux de ces techniques sont la
corrélation et la régression.

Par corrélation, on entend le lien entre deux (ou plusieurs) variables quantitatives. Pour
chaque unité observée dans l’échantillon N, on note les valeurs observées respectivement
pour la variable X et pour la variable Y, soit X1 Y1 , X2 Y2 , …. jusque XN YN

Ces couples de valeurs peuvent être situés par des points dans un système d’axes
rectangulaires. On obtient ainsi un diagramme de dispersion, qui peut aussi être qualifié de
nuage de points.

Ex. : relation entre taux d’urbanisation et taux de fertilité

Statistique - Aspects théoriques - 43


a) Diagramme de dispersion

Le diagramme de dispersion est un graphique qui permet de visualiser la direction et


l’intensité de la relation entre deux variables. Les diagrammes de dispersion conviennent le
mieux pour des ensembles de données comprenant moins de 100 cas ou effectifs.

L’axe horizontal (axe des abscisses) s’appelle l’axe des X et présente les valeurs de la
variable indépendante.

L’axe vertical (axe des ordonnées) s’appelle l’axe des Y et présente les valeurs de la variable
dépendante.

Les diagrammes de dispersion sont construits de telle façon que l’axe des X et l’axe des Y
se croisent à l’origine, ce qui correspond généralement à la valeur ‘zéro’ de chacune des
échelles.

-> Direction de la relation

Si la relation est positive, les points du diagramme forment un nuage de points allant de la
partie inférieure gauche vers la partie supérieure droite du diagramme. Les scores les plus
élevés de la variable indépendante sont associés aux scores les plus élevés de la variable
dépendante et les scores les plus bas de la variable indépendante sont associés aux scores
les plus bas de la variable dépendante.

-> Quand X augmente, Y augmente…

Si la relation est négative, les points du diagramme forment un nuage de points allant de la
partie supérieure gauche vers la partie inférieure droite du diagramme. Les scores les plus
élevés de la variable indépendante sont associés aux scores les plus faibles de la variable
dépendante et les scores les plus bas de la variable indépendante sont associés aux scores
les plus élevés de la variable dépendante.

-> Quand X augmente, Y diminue…

Dans ces deux cas, la plupart des points se tiennent le long d’une diagonale qu’on appelle
droite de régression ou droite des moindres carrés. On se situe dans le cas d’une relation
linéaire !

Si la relation est curvilinéaire, les points ont tendance à se rapprocher d’une courbe. On se
situe alors dans le cas d’une relation non linéaire !

Statistique - Aspects théoriques - 44


-> Intensité de la relation

Le diagramme de dispersion renseigne aussi sur l’intensité de la relation entre deux


variables. Lorsque les variables sont fortement corrélées, les cas observés s’agglomèrent
autour d’une diagonale ( / pour les relations positives et \ pour les relations négatives).
Lorsque les variables sont faiblement corrélées, les cas sont dispersés.

Lorsque tous les points ont tendance à se rapprocher d’une même droite, la corrélation est
linéaire.

Une corrélation ou relation est parfaite lorsque les points représentant les scores pris par
rapport au croisement des deux variables forment une ligne absolument droite.

Une relation est forte, mais imparfaite, lorsque les points du diagramme de dispersion se
regroupent le long d’une droite qu’on pourrait imaginer traversant le nuage de points.

Une relation est modérée lorsque les points sont plus dispersés bien que la direction de la
relation soit encore visible.

Une relation est faible lorsque les points sont très dispersés.

Une relation est insignifiante lorsque les points sont dispersés de façon aléatoire dans le
diagramme.

Statistique - Aspects théoriques - 45


Lorsque la relation est parfaite, on peut trouver le score exact de la variable dépendante
d’un cas à partir du score de la variable indépendante de ce cas. Il suffit de localiser le score
de la variable indépendante sur l’axe des X, trouver le point sur la droite de régression qui se
situe directement au-dessus de ce score et localiser la hauteur de ce point sur l’axe des Y.

Quand la relation est parfaite, la variance des scores de la variable dépendante associés à
un score donné de la variable indépendante est égale à zéro.

La variance augmente au fur et à mesure que la relation s’affaiblit. La variance est


approximativement égale à la variance de l’ensemble des scores si les variables ne sont pas
en relation.

Statistique - Aspects théoriques - 46


En résumé, plus une relation entre deux variables est forte, plus la dispersion est faible, et
plus le coefficient de corrélation est proche du chiffre 1.

b) Régression et droite des moindres carrés

Dans le cas d’une corrélation linéaire, la droite qui traverse le nuage de points est dite droite
d’ajustement des données.

Son équation est :

Y = aX + b
C’est l’équation de la droite de régression. L’utilisation d’une ligne droite pour décrire une
relation est appelée régression linéaire. La régression linéaire consiste donc en une
opération d’ajustement d’un nuage de points autour d’une droite.

La droite de régression est la droite qui résume le mieux la relation entre deux variables.
On l’appelle aussi droite des moindres carrés car elle permet de minimiser la somme des
carrés des distances entre la droite et les scores de la variable dépendante.

Autrement dit, la droite de régression minimise la somme des carrés des erreurs. C’est donc
la meilleure droite pour prédire les scores de la variable dépendante. Moins il y a d’erreurs,
plus la somme des carrés des distances est petite, et plus faible est la variance.

Les erreurs restantes se nomment les résidus. Graphiquement, on peut les représenter par
un tracé vertical montrant la distance entre les points représentant les observations et la
droite de régression. Ces résidus ou erreurs sont donc ce qui n’est pas expliqué par la
variable indépendante. Plus les résidus sont nombreux, moins la droite de régression est
intéressante.

Dans l’équation de la droite de régression, Y est la variable expliquée ou dépendante et X


est la variable explicative ou indépendante.

a est le coefficient de régression.


Il représente la valeur de la pente de la droite de régression. Il indique la proportion
de changement dans la variable dépendante (axe des Y ) qui correspond au
changement d’une unité dans la variable indépendante (axe des X ). Ce coefficient
mesure l’effet de la VI sur la VD. Le signe (+ ou -) montre la direction de la pente.

b est l’ordonnée à l’origine de la droite de régression.


Il désigne la valeur y au point d’intersection avec la droite de régression.

a = N . ∑ XY – (∑ X . ∑ Y)
N . ∑ X2 – (∑ X) 2

b = (∑ Y .∑ X2) – (∑ X . ∑ XY)
N . ∑ X2 – (∑ X) 2

Statistique - Aspects théoriques - 47


La droite de régression passe toujours par le point d’intersection des moyennes des 2
variables, c’est-à-dire le point où les moyennes de X et de Y se croisent.

Il est possible d’estimer une valeur de Y à partir d’une valeur donnée de X sur base de la
droite des moindres carrés. On réalise alors une opération de régression de Y (VD) en X
(VI). Cette opération consiste en une estimation d’une valeur inconnue.

-> En résumé, la régression linéaire présente deux grands objectifs :


- synthétiser l’information contenue dans la relation entre deux variables,
- estimer une valeur inconnue de Y à partir d’une valeur connue de X.

c) Corrélation

Il existe une méthode qui permet de mesurer de façon précise le degré de concentration
(intensité) des points le long de la droite de régression. C’est le coefficient de corrélation
de Bravais-Pearson.

Il se note r

∑ XY – (N. µX . µY)
rxy = -----------------------------------------
√ (∑ X2 - N .µX2) (∑ Y2 - N .µY2)

N.B. √ = racine carrée

Ce coefficient exprime quantitativement l’intensité et la direction de la relation entre deux


variables quantitatives (nombre d’enfants/revenus, points à un examen/âge).

Si les cas se regroupent de façon étroite le long de la droite de régression, le r est grand,
indiquant ainsi une forte corrélation. Si les cas sont plus dispersés par rapport à la droite de
régression, le r est petit, indiquant une faible relation.

Le coefficient r varie entre - 1,00 et + 1,00

Une corrélation peut être positive ou négative, parfaite, modérée ou nulle. Le signe indique la
direction de la relation et la grandeur indique l’intensité de la relation.

Attention, toutes les relations ne sont pas linéaires, certaines peuvent être curvilinéaires. On
peut donc dans certains cas observer un coefficient de corrélation r = 0, qui indique de façon
inexacte que les variables ne sont pas corrélées ; elles le sont mais pas linéairement.

Statistique - Aspects théoriques - 48


Quand r = -1,00 ou +1,00, la relation est parfaite. Quand r = 0, la relation est nulle.

Relation négative Absence de relation Relation positive .

- 1,00 -0,80 -0,60 -0,40 -0,20 0,00 0,20 0,40 0,60 0,80 + 1,00
parfaite forte modérée faible nulle faible modérée forte parfaite

On peut aussi mesurer le coefficient de corrélation en standardisant les variables X et Y. La


standardisation ramène les deux variables sur une même échelle. Si deux variables sont
parfaitement corrélées, leurs scores Z sont identiques : ZX = ZY et r = 1.

rxy = ∑ ZX ZY
N

Dans le cas de données de population, le numérateur est N. Dans le cas de données


d’échantillon, le numérateur est N – 1.

Les scores Z se basent sur des calculs de variance et d’écarts-types. Ils renvoient donc aux
mesures de dispersion autour de la moyenne. On peut donc bien affirmer ici que les
mesures de corrélation sont des mesures qui s’intéressent à la covariance.

Il existe encore deux mesures complémentaires.

- Le coefficient de détermination r2 qui représente la proportion de la variation


totale de la variable dépendante expliquée par la variable indépendante.

r2 = variation expliquée
variation totale

- Le coefficient d’aliénation qui représente la proportion de variation non expliquée


par la variable indépendante.

1 - r2

Statistique - Aspects théoriques - 49


4. Statistique inductive ou inférentielle

4.1. Principes généraux

4.1.1. Du particulier vers le général…

La statistique inférentielle ou inductive consiste à extrapoler des résultats observés sur des
échantillons de population à une population générale. Elle désigne l’ensemble des méthodes
qui permettent de tirer des conclusions sur un groupe déterminé, une population, à partir de
données provenant de sous-ensembles de cette population (échantillons).

Inférer consiste donc à passer du particulier vers le général.

Pour rappel,

Une population est un ensemble d’unités d’observation supposées comparables.

Un échantillon est un sous-ensemble d’unités d’observation tirées dans la population


d’origine ; un échantillon est dit « représentatif » lorsqu’il représente la population
totale.

Dans la plupart des cas, les caractéristiques statistiques des populations globales sont
inconnues. Une population générale représente en effet une importante quantité d’unités ou
effectifs, qu’il est difficile de sonder complètement.

Ex. Les intentions de vote des belges au temps t sont inconnues. Pour les connaître,
on peut envisager d’interroger tous les belges, mais cela demanderait un effort
considérable de collecte de données et serait fort coûteux. C’est pourquoi, il est
préférable de construire un échantillon de la population belge auprès duquel sera
effectué un sondage. Les données de ce sondage seront ensuite extrapolées à la
population générale.

« La statistique inférentiellle recouvre donc à la fois des questions de constitution


d‘échantillon d’enquête et de réalisation de tests d’hypothèses dont l’objectif est de
déterminer si des hypothèses bâties sur des paramètres de population sont statistiquement
acceptables. De manière générale, la statistique inférentielle permet, en réduisant
l’incertitude, de prendre des décisions statistiques. » (Th. Blöss, 1999, p. 93)

Le test du χ² (chi-carré ou khi-carré́ ) est un exemple de test d’hypothèse. Il en existe


d’autres…

4.1.2. Variables aléatoires

La théorie de la probabilité, utilisée en statistique inférentielle, sert à décrire le comportement


des phénomènes aléatoires. Un événement individuel aléatoire est imprévisible, mais un
ensemble d'événements aléatoires a un comportement régulier, régi par des lois
rigoureuses. Ces lois permettent de dire quelque chose sur la probabilité que l'événement
individuel a de se produire ou de se produire d'une certaine manière. La probabilité est donc
définie comme le degré de confiance que l'on peut accorder à la réalisation probable d'un
événement particulier.

Statistique - Aspects théoriques - 50


On travaille donc avec des phénomènes aléatoires, qui contiennent une part de hasard ou
d’incertitude. Ce sont ces incertitudes que la statistique inférentielle tente de mesurer
notamment par le calcul des probabilités.

Ex. Température moyenne du mois d’avril


Jeu de pile ou face
Résultat à un examen de statistique si un étudiant répond au hasard
Résultat obtenu par un candidat aux élections communales
Lancer de dé

Dans le cas du lancer de dé, qui est un jeu de hasard en soi, on ne connaît pas avec
certitude le résultat du lancer, mais on connaît au préalable l’ensemble T de tous les
résultats possibles pour 1 lancer.

L’ensemble des résultats possibles ou « espace des possibles » se présente sous le


symbole T aussi qualifié d’« espace échantillon » ou de variable aléatoire.

Pour 1 lancer de dé, T = {1,2,3,4,5,6}

Au lancer de dé correspond :
- une expérience aléatoire dont le résultat est inconnu,
- une variable aléatoire qui représente l’ensemble des résultats possibles,
- une distribution de probabilités de cette variable aléatoire qui représente
l’ensemble des probabilités des divers résultats possibles, si plusieurs lancers de
dés sont réalisés.

Il existe :
- des variables aléatoires discrètes (lancer de dé),
- des variables aléatoires continues (température, durée d’attente du bus).

4.1.3. Distributions de probabilités

Aux variables aléatoires correspondent :


- des distributions de probabilités discrètes, pour des variables aléatoires comme le
jeu de dé,
- des distributions de probabilités continues, pour des variables continues comme
la fluctuation de la température sur une période donnée.

Une distribution de probabilités est semblable à une distribution d’effectifs relatifs : les
probabilités remplacent en quelque sorte les effectifs. On peut ainsi penser qu’une
distribution de probabilités est théoriquement et à la limite la forme idéale d’une distribution
d’effectifs relatifs quand le nombre d’observations est très grand. Pour cette raison, on peut
dire qu’une distribution de probabilités correspond à la distribution d’une population, tandis
qu’une distribution d’effectifs relatifs correspond à la distribution d’un échantillon tiré dans
cette population.

-> Distribution de probabilités discrètes

Il existe une forme particulière de distribution de probabilité discrète : la distribution


binomiale, ainsi qualifiée par Jacques Bernouilli qui en découvrit le principe en 1713.

Statistique - Aspects théoriques - 51


La loi binomiale permet de prédire ce qui se passe si on répète une expérience dans
laquelle seulement deux issues sont possibles, chacune ayant une probabilité fixe
d’apparaître. C’est le cas du jeu de pile ou face où on a 1 chance sur 2 pour chacune des
deux issues.

Pour J. Bernouilli, la fréquence d’un phénomène ayant une probabilité donnée (1/2 dans le
jeu de pile ou face avec une pièce de monnaie) tend vers cette probabilité lorsque le nombre
d’essais grandit. Autrement dit, au-delà d’un certain nombre de répétitions d’un même type
d’expérience, l’essentiel des variations possibles est observé et la fréquence d’apparition des
valeurs se stabilise.

Ce phénomène est aussi qualifié de loi des grands nombres ; cette loi repose sur un
principe de redondance de l’information.

-> Distribution de probabilités continues

Il existe aussi une forme particulière de distribution de probabilités continues ; la distribution


normale ou loi normale ou courbe de Gauss-Laplace.

En 1812, Pierre Simon de Laplace a établi les bases de la loi normale en construisant le
théorème de la limite centrale. Selon ce théorème, dans certaines conditions, non
seulement la moyenne, mais aussi la dispersion des valeurs obtenues et leur distribution
restent stables et suivent une loi normale.

La distribution normale est une distribution de probabilités continues dont la représentation


graphique est une courbe symétrique en forme de cloche.

La loi normale est la limite vers laquelle tend la loi binomiale lorsque n tend vers l’infini.

Notons ici que les distributions normales sont plus rares dans le domaine social que dans le
domaine de la biologie ou de la physique.

-> Distribution d’échantillonnage

Une distribution d’échantillonnage est la distribution d’une statistique d’échantillon pour tous
les échantillons d’une taille donnée qu’il est possible de tirer d’une population précise. C’est
une distribution de tous les échantillons possibles sur une population. Une distribution
d’échantillonnage est une distribution de probabilités continues.

Dans la plupart des cas, les échantillons sont assez semblables à la population d’où ils
proviennent ; certains cependant sont peu représentatifs de la population. En effet, un
échantillon de la population tiré au hasard pour sonder l’avis de la population belge sur les
futures élections pourrait contenir un nombre de personnes de âgées de plus de 60 ans trop
important, ou un nombre trop important de femmes…

C’est pourquoi il est intéressant d’observer les résultats d’une distribution d’échantillonnage,
c’est-à-dire d’imaginer un tirage de tous les échantillons possibles de 650 personnes (par
exemple) extraits d’une population. En comparant les résultats de l’échantillon avec le résultat
de la distribution d’échantillonnage, on peut se rendre compte de la proximité du résultat de
cet échantillon avec la réalité, c’est-à-dire la population totale telle qu’elle se présenterait si
on interrogeait tout le monde.

Statistique - Aspects théoriques - 52


Une distribution d’échantillonnage de la moyenne d’échantillons aléatoires possède des
caractéristiques spécifiques. A mesure qu’augmente la taille N de l’échantillon (des
échantillons), la distribution d‘échantillonnage de la moyenne des résultats observés dans
tous les échantillons tirés s’apparente de plus en plus à une distribution normale,

dont la moyenne est semblable à celle de la population,

et dont l’écart-type est égal à √σ


N

Cette tendance est qualifiée de théorème de la limite centrale. Selon ce théorème, la


moyenne de toutes les moyennes de tous les échantillons possibles sera identique à la
moyenne de la population totale, et l’écart-type de la distribution des moyennes de tous les
échantillons possibles équivaut à √σ
N

Tableau extrait de Fox, 1999, p. 110

Statistique - Aspects théoriques - 53


Ceci revient à considérer que dans une distribution normale, une proportion donnée de cas
sont inclus dans un intervalle délimité par un nombre précis d’écarts-types par rapport à
la moyenne.

La loi normale est entièrement déterminée par sa moyenne et son écart-type, ce qui signifie
qu’on connaît exactement la proportion d’observations se situant dans certains intervalles.
Quelle que soit la variable observée, on rencontre toujours les mêmes proportions entre les
intervalles.

Grâce au théorème de la limite centrale, on connaît donc le nombre de cas (ici le nombre de
moyennes d’échantillons) se retrouvant dans un intervalle délimité d’écarts-types par rapport à
la moyenne de la distribution d’échantillonnage.

A + ou – 1 σ de la moyenne, on trouve 68% des cas observés


A + ou – 2 σ de la moyenne, on trouve 95% des cas observés
A + ou – 3 σ de la moyenne, on trouve 99,7% des cas observés

σ élevé σ faible
-> forte dispersion -> faible dispersion

Statistique - Aspects théoriques - 54


4.2. Test du X2
2
Le X de Pearson joue un grand rôle en analyse de données. Karl Pearson (1857-1936),
mathématicien britannique, est un des pères fondateurs de la statistique moderne. Il a entre
autres démontré que la conformité d’un phénomène aléatoire à une loi de probabilité posée
2
a priori à titre d’hypothèse, peut se vérifier grâce à un test, le test du X .

2
4.2.1. Définition du X
2
Le test du X est un test d’hypothèse ou de signification qui permet de vérifier si une
corrélation entre des variables observée au niveau d’un échantillon peut être extrapolée à la
population générale.

Ce test concerne le croisement de deux variables qualitatives ou nominales, ou d’une


variable quantitative et d’une variable ordinale.
2
Le test du X est un des tests les plus couramment utilisés en sciences sociales pour
comparer deux distributions entre elles :

- une distribution observée, celle d’un échantillon,


- une distribution théorique ou anticipée, celle que l’on obtiendrait pour une
population totale sous une hypothèse donnée.

Par ce test, on cherche à savoir si les effectifs observés diffèrent significativement des
effectifs théoriques. Ce test permet de déterminer jusqu’à quel point les résultats observés
reflètent la réalité plutôt que l’effet du hasard dû au procédé d’échantillonnage. Il permet
d’éviter de conclure à une relation significative entre deux variables dans la population alors
que cette relation est imputable à l’effet du hasard.
2
Le test du X estime la probabilité qu’un coefficient de corrélation apparaisse entre deux
variables observées à partir d’un échantillon alors qu’on part de l’hypothèse théorique qu’il
n’y a pas de relation entre ces variables dans la population.

C’est une forme de raisonnement par l’absurde… Pour montrer l’existence et la significativité
d’une relation entre deux variables dans un échantillon, on présuppose qu’il n’y en a pas
dans la population. On cherche donc à invalider une hypothèse d’indépendance, ce qui
équivaut à valider la dépendance.

Ce test part donc du postulat suivant : celui de l’hypothèse nulle, c’est-à-dire de l’hypothèse
selon laquelle il n’y a pas de relation significative entre les deux variables observées dans la
population !

L’hypothèse nulle
° se note H0
° signifie que les résultats constatés dans l’échantillon ne sont pas généralisables à la
population.
° signifie que les résultats constatés dans l’échantillon sont dus à la distribution
aléatoire de l’échantillonnage.
° correspond au cas où les effectifs observés sont identiques aux effectifs théoriques,
c’est-à-dire qu’il n’y a pas d’écart entre les effectifs observés et les effectifs
théoriques.
° soutient qu’il y a indépendance entre les variables.

Statistique - Aspects théoriques - 55


Exemples relevant de l’hypothèse nulle

- Il n’y a pas de relation significative entre la désobéissance civile et le niveau d’instruction.


- L’opinion des femmes sur leur nouveau conjoint est indépendante de leur statut matrimonial.

A l’hypothèse nulle s’oppose l’hypothèse alternative, selon laquelle on peut observer une
relation entre deux variables qui est significative et donc généralisable à la population.

2
La question fondamentale du test du X est la suivante :

« Faut-il rejeter l’hypothèse nulle ? »

2 2
Pour répondre à cette question, on passe par l’estimation du X . Le X est un indice
statistique qui calcule de manière synthétique (pour l’ensemble des données présentées dans un
tableau croisé) l’écart à l’hypothèse nulle.

Soit H0 est rejetée


Et on se tourne vers une hypothèse alternative selon laquelle les résultats
observés sur l’échantillon sont généralisables à la population. Cette hypothèse
stipule qu’une relation significative existe entre les variables.

Soit H0 n’est pas rejetée


Et on accepte que la relation entre les deux variables est due au hasard.

2
4.2.2. Méthode de calcul du X

1. Calcul des effectifs théoriques

f0 = fréquence observée par cellule

fa = fréquence anticipée par cellule ou fréquence théorique

fa = Total ligne X Total colonne


N

Quand le X2 n’est pas significatif, les données d’une rangée du tableau de contingence sont
équivalentes aux données des autres rangées. Donc, les variables n’interagissent pas entre
elles et on peut les considérer comme indépendantes.

Quand le X2 est significatif, les données d’une rangée du tableau varient avec les données
d’une autre rangée. Il y a donc interdépendance entre les rangées et les colonnes, et donc
entre les variables.

Statistique - Aspects théoriques - 56


2
2. Calcul du X

X2 = ∑ (f0 - fa)2
fa

X2 = (f01 - fa1)2 + (f02 - fa2)2 + (f03 - fa3)2 + … + (f0k - fak)2


fa1 fa2 fa3 fak

2 2
On compare le X expérimental (càd le X2 calculé) au X maximum ou théorique indiqué dans
2
la table des X , en tenant compote du degré de liberté.

2 2
Si le X expérimental est inférieur au X maximum, alors H0 n’est pas rejetée.
Ce qui signifie qu’il n’y a pas de différence significative entre les variables.
2 2
Si le X expérimental est supérieur au X maximum, alors H0 est rejetée.
Ce qui signifie qu’il y a une relation significative entre les variables.
2
Si X = 0, les effectifs observés sont égaux aux effectifs théoriques.
2
Si X > 0, les deux distributions sont différentes.
2
Plus la valeur de X est grande, plus la différence entre les deux distributions est
grande, plus la probabilité d’une relation significative entre les variables observées
est vraie.

2
4.2.3. Distribution d’échantillonnage du X

Si, dans une population normale d’écart-type σ , on extrait des échantillons de taille N, et si,
2 2
pour chaque échantillon, on calcule X , on obtient la distribution d’échantillonnage de X .
2
L’allure de la distribution d’échantillonnage du X dépend du nombre de degrés de liberté.
Le degré de liberté désigne le nombre d’effectifs qu’on doit connaître, les autres effectifs
s’obtenant par déduction.

Le nombre de degrés de liberté se calcule de la façon suivante :

dl = v = (nombre de lignes – 1) x (nombre de colonnes – 1)

2
La loi du X indique comment se comporte la distribution d'échantillonnage de la statistique
2 2
de X si l'hypothèse nulle Ho est vraie, c'est-à-dire lorsque le X se rapproche de zéro. Grâce
à cette distribution, on peut déterminer quelle est la proportion d'échantillons qui se trouvent
dans une zone du graphique qui suit.
2 2
La distribution de probabilités du X est une distribution de probabilités continues car le X
peut prendre n’importe quelle valeur.

Statistique - Aspects théoriques - 57


La démarche contient les étapes suivantes :

- On constitue l'échantillon d'une population et on étudie certaines caractéristiques


concernant le croisement de deux variables par exemple.
- On calcule un indice dont la distribution d'échantillonnage est connue lorsque Ho
2
est vraie, comme le X .
- On détermine la probabilité d'obtenir une valeur au moins aussi élevée que la
valeur calculée à cause du hasard de l'échantillonnage.
- On décide si on doit rejeter Ho ou non.
2
- Pour décider du rejet ou non de Ho, on utilise la table du X qui donne le risque
d'erreur au moyen d'une probabilité.

Statistique - Aspects théoriques - 58


Exemple

On a un tableau de données dont les dimensions sont les suivantes : 2 lignes et 4


colonnes (2x4). Son degré de liberté ((2-1) x (4-1)) est égal à 3.
2
Si on consulte la table de X au niveau de la ligne "3" (dl = 3) et de la colonne
X2 = 0.05, on trouve la valeur "7,81"
2
Si le X de l'échantillon est égal à 9,5 (>7,81), alors la probabilité (risque d'erreur) <
2
0,05. On peut dire que le X de l'échantillon est significatif à 0,05.
2
Si le X de l'échantillon est égal à 5.4 (<7,81), alors la probabilité (risque d'erreur) >
2
0,05. On peut dire que le X de l'échantillon est non significatif à 0,05.

Le seuil de signification de 0,05 est généralement celui auquel on se réfère dans les tests de
signification statistique utilisés en sciences sociales. Ce seuil permet de dire que le risque
d’erreur d’affirmer qu’une relation entre deux variables est significative alors qu’elle ne l’est
pas est faible. Il y a donc peu de risque de se tromper en disant qu’il y a une relation
significative entre deux variables observées pour la population générale. Ceci équivaut au
rejet de l’hypothèse nulle.

Statistique - Aspects théoriques - 59


2
4.2.4. Test de signification du X

Dans la pratique, on calcule les fréquences anticipées (ou effectifs théoriques) à partir de
l’hypothèse nulle H0.
2 2
Si, sous l’hypothèse H0, la valeur du X calculée (ou X expérimental) est plus grande
2 2
qu’une certaine valeur critique (comme X 0,95 ou X 0,99 qui sont les valeurs critiques aux
seuils de signification de 0,05 et 0,01 respectivement), on en conclut que les fréquences
observées diffèrent significativement des fréquences anticipées, et on rejette l’hypothèse
nulle au seuil de signification correspondant.

Sinon, on accepte l’hypothèse nulle Ho ou du moins, on ne la rejette pas.

" Etapes d’un test de signification


o Enoncé des hypothèses
o Calcul des fréquences anticipées
o Calcul du X2
o Calcul du degré de liberté
o Comparaison du X2 expérimental avec les X2 théoriques (ceux de la table)
o Conclusion : rejet ou non de Ho

" Seuils de signification


o > 0,05 : indique une différence non significative
o = ou < 0,05 : indique une différence significative (rejet Ho)
o = 0,01 : indique une différence très significative
o > 0,01 : indique une différence hautement significative

Le seuil de signification représente le seuil de risque que le rejet de l’hypothèse nulle soit
une erreur, c’est-à-dire d’estimer une relation significative alors qu’elle ne l’est pas ou de
façon trop faible.

Statistique - Aspects théoriques - 60


On teste Ho au moyen de la loi de la probabilité, qui dit quelle est la probabilité d'obtenir le X2
calculé pour l'échantillon testé. Cette probabilité vient du X2 calculé pour un grand nombre
d'échantillons tirés dans une population et informe du risque d'erreur de faire une
généralisation abusive du résultat de l'échantillon. La loi théorique à laquelle on compare la
réalité observée est souvent le hasard pur ou hypothèse nulle Ho.

Si la probabilité donnée par la table est faible (par exemple 0,01),


alors on est sûr à 99% (1 – 0,01) que la loi théorique choisie est mauvaise et ne
représente pas le phénomène observé.

Il existe dès lors un écart entre la réalité observée et la théorie, ce qui veut dire que la
réalité observée n’est pas due au hasard.

Le résultat n'est donc pas totalement compatible avec Ho et on considère que le


phénomène de l'échantillon existe pour l'ensemble de la population.

On peut ainsi conclure en affirmant que le résultat de l'échantillon est SIGNIFICATIF


à un seuil donné.

Rejet de Ho
Ce qui correspond à un X2 assez élevé

Si la probabilité donnée par la table est grande (par exemple 0,975),


alors on est sûr à 2,5% (1– 0,975) que la loi choisie est mauvaise. Autrement dit, on
est sûr à 97,5% que la loi choisie est vraie et représente le phénomène étudié.

Le résultat de l'échantillon est donc dû à un facteur aléatoire, ce qui signifie qu’il n'est
pas incompatible avec Ho.

On peut ainsi conclure en affirmant que le résultat de l'échantillon est NON


SIGNIFICATIF à un seuil donné.

Non rejet de Ho
Ce qui correspond à un X2 assez faible

On ne peut jamais déterminer avec une certitude totale si Ho est vraie ou fausse. Il est
seulement probable ou improbable de ne pas rejeter Ho, car elle n'est pas contredite par les
données.

Statistique - Aspects théoriques - 61


ANNEXES Documents complémentaires

MESURES DE TENDANCE CENTRALE *

L'objectif d'une mesure de tendance centrale est de résumer en un seul nombre la valeur
typique ou la plus représentative d'un ensemble de résultats.
Il existe différentes mesures de tendance centrale :
- Moyenne : somme des valeurs divisée par le nombre de résultats
- Médiane : valeur pour laquelle 50% des mesures sont en dessous (ou au-dessus)
- Mode : valeur observée la plus fréquente (pas nécessairement unique)

Graphiquement, supposons que la moyenne d'une distribution A soit supérieure à la moyenne


d'une distribution B, alors on aurait, par exemple, la figure ci-dessous.

95 79 68 61 52
90 78 66 60 50
88 74 65 59 49
87 72 65 57 47
85 69 65 56 42
81 68 63 55 41

En prenant les données d’un test d'habiletés verbales, on peut calculer :

La moyenne
On additionne tous les scores -> 1987
On divise par le nombre de scores (30) -> 1987/30 = 66,23
La médiane
On place les valeurs en ordre
On trouve la valeur qui divise les scores en deux : on a 30 valeurs,
donc on prend la valeur située entre la 15 et la 16 donnée -> 65
e e

Le mode
On prend la valeur la plus fréquente -> 65

*
Source : site Internet : http://www.er.uqam.ca/nobel/r30574/PSY1282/C3P6.html

Statistique - Aspects théoriques - 62


MESURES DE DISPERSION *

L'objectif d'une mesure de dispersion est de quantifier le taux de variabilité des données
autour de la valeur centrale. Afin de juger de la représentativité de la «tendance centrale».

Il existe différentes mesures de dispersion

- Étendue : différence entre la valeur la plus grande et la valeur la plus petite


- Variance : moyenne des déviations individuelles au carré (la plus utilisée)
- Écart-type : racine carrée de la variance
Il y a aussi l'écart moyen, l'écart semi-interquartile, etc.

Graphiquement, supposons que la distribution A et la distribution B ont la même moyenne,


mais que la distribution B possède un taux de dispersion plus grand que la distribution A,
alors on aurait, par exemple, la figure ci-dessous (exemple ± vrai: température journalière à
Montréal et à Paris)

Il faut noter que la mesure de dispersion est fondamentale en psychométrie

Elle caractérise les différences individuelles


Elle est impliquée dans le calcul des normes
Elle permet de quantifier les sources nuisant à la fidélité ou à la validité

Avec les données du test d'habiletés verbales, on peut calculer l'étendue

La valeur la plus grande est 95


La valeur la plus petite est 41
L'étendue est donc de: 95 - 41 = 54
C'est une mesure peu stable ; elle est donc peu utilisée.

*
Source : site Internet : http://www.er.uqam.ca/nobel/r30574/PSY1282/C3P6.html

Statistique - Aspects théoriques - 63


On calcule la variance et l'écart type de la façon suivante.

Étapes
Calcul de la moyenne arithmétique (M)
Calcul de la différence entre chaque score et la moyenne (x)
Ces différences sont mises au carré (x ) 2

Calcul de la moyenne de ces carrés -> Variance (σ ) 2

Extraction de la racine carrée de la variance -> Écart type (ÉT ou σ)


Il est utile de recourir à un tableau de calcul

X x = (X-M) x2

68 1,77 3,12
74 7,77 60,32
42 -24,23 587,25
... ... ...
85 18,77 352,19
95 28,77 827,52
1987 0,00 6083,37
M = 66,23 On divise σ = 202,78
2

<- par N ->

Pour calculer l'écart type, on extrait la racine carrée. -> σ = 14,24

Point central : plus la variance (ou l'écart type) est élevée, plus les données sont
dispersées autour de la moyenne.

Statistique - Aspects théoriques - 64


DISTRIBUTION NORMALE ET SCORE STANDARD *

La distribution normale est une distribution théorique en forme de « cloche » qui ressemble à
la distribution de nombreuses mesures (poids, attitudes, ...)
Sa forme générale est illustrée ci-dessous

Cette distribution possède plusieurs caractéristiques

- Égalité de la moyenne, de la médiane et du mode


- Parfaite symétrie
- Concentration des données autour de la moyenne avec diminution relative à
l'éloignement
- Très utilisée en statistiques

Graphiquement, si trois distributions normales ne diffèrent que par :

- leur moyenne -> 1 figure


ère

- leur écart type -> 2 figure


ème

Figure1

*
Source : site Internet : http://www.er.uqam.ca/nobel/r30574/PSY1282/C3P6.html, consulté en 2009

Statistique - Aspects théoriques - 65


Figure 2

Plus la courbe en forme de cloche est plate, plus l’écart-type est élevé.

Lorsque les résultats individuels à un test se distribuent à peu près normalement, il peut être
utile de les exprimer en termes de score standard.

Ce «score standard» (ou score Z) représente la différence entre un score et la moyenne (M)
de la distribution, exprimée en unités d'écart type (ÉT)
En formule, on a

X-M
Z = ----------
ET
Exemple : un test où la moyenne est 50 et l'écart type est 10
70 – 50 20
X = 70 -> Z = ----------- = ------ = 2
10 10

40 – 50 -10
X = 40 -> Z = ----------- = ------ = -1
10 10

Graphiquement, la situation est la suivante :

Statistique - Aspects théoriques - 66


Une propriété importante de la distribution normale est énoncée par la règle empirique selon
laquelle, dans cette distribution :

- Environ 68% des valeurs se trouvent entre -1 ÉT et 1 ÉT


- Environ 95% des valeurs se trouvent entre -2 ÉT et 2 ÉT
- Presque 100% (99,72%) des valeurs se trouvent entre -3 ÉT et 3 ÉT
Quelques rares cas seront inférieurs à -3 ÉT ou supérieurs à 3 ÉT

Pour le test avec M = 50 et ÉT = 10 (si la distribution est normale):

- Environ 68% des scores se retrouvent entre 40 et 60


- Environ 95% des scores se retrouvent entre 30 et 70
- Presque 100% (99,72%) des scores se retrouvent entre 20 et 80
Quelques rares cas auront un score inférieur à 20 ou supérieur à 80

Il existe des tables pour calculer les valeurs correspondant à d'autres proportions…

Statistique - Aspects théoriques - 67


NOTION DE CORRELATION *

*
Source: site Internet: http://www.er.uqam.ca/nobel/r30574/PSY1282/C3P7.html, consulté le 14.12.2009

Statistique - Aspects théoriques - 68


Statistique - Aspects théoriques - 69
Statistique - Aspects théoriques - 70
Statistique - Aspects théoriques - 71

Vous aimerez peut-être aussi