Vous êtes sur la page 1sur 73

PCEM-2

Semaine 04-12-2015
Pr. Edgard Brice NGOUNGOU ngoungou2001@yahoo.fr

Introduction
Population et échantillon
Echantillonnage
Connaissance des variables
Représentation des données
Introduction (1)

 Les statistiques avec « s »


− datent de l’Antiquité
− servaient à dénombrer ( = peu noble)
 La statistique sans « s »
− QUETLET au 18ème siècle
− La statistique est un raisonnement (= statistique inférentielle)
 Les grands statisticiens
− Ronald FISHER (1890-1962)
− Karl PEARSON (1857-1936)
− L’Ecole d’Emile BOREL
Introduction (2)

 3 grandes écoles internationales


• L’Ecole Américaine
• L’Ecole Russe (Kolmorov)
• L’Ecole Française
 2 types de statistiques
• La statistique descriptive = STATISTIQUES
• La statistique inférentielle = à partir d’un échantillon, on
remonte à la population toute entière.
• Une seule statistique est dite exhaustive, c’est le recensement
(toutes les personnes vivant sur le territoire sont recensées).

STATISTIQUE opposée à DETERMINISME


PCEM-2
Semaine 04-12-2015
Pr. Edgard Brice NGOUNGOU ngoungou2001@yahoo.fr

Introduction
Population et échantillon
Echantillonnage
Connaissance des variables
Représentation des données
Population et Echantillon (1)

 Population
• Ensemble très grand, voire infini
• Impossibilité de faire une étude exhaustive (temps, argent)
 Echantillon
• Extraction de la population d’un sous-ensemble de « taille »
(=cardinal de l’objet = effectif) plus petite que celle de la
population.
• Doit être tiré correctement*  représentatif de la population
• Petite taille  pourra être complètement étudié
• Des résultats obtenus  conclusion sur la population entière
* Tirage aléatoire nécessaire (tables de nombres aléatoires)
Population et Echantillon(2)

 La statistique est une « méthode de raisonnement permettant


d’interpréter le genre de données très particulières, qu’on rencontre
notamment dans les sciences de la vie, dont le caractère essentiel est
la variabilité » (Daniel Schwartz 1917-2009)
C’est la science de l’incertain : prise de décisions sous incertitude

 La variabilité  caractère essentiel des êtres vivants et donc


humains, en particulier

− Par exemple, chez l’homme, le poids, la quantité de sucre dans le sang, …, varient d’un
sujet à l’autre ou de l’enfance à l’âge adulte, d’un moment à l’autre de la journée
− La présence d’une maladie peut également expliquer une variation (nombre de GR dans le
sang peut diminuer avec certaines maladies  anémie)
Population et Echantillon (3)

 L’épidémiologiste est confronté en permanence à ce phénomène de


variabilité.

• Les questions qu’il essaie de résoudre sont à l’échelon d’un groupe,


• D’une population et non pas d’un seul individu
• Une solution est de décrire les propriétés moyennes des groupes d’individus
• Pour cela, le traitement des données et la communication des résultats nécessitent
l’utilisation de la statistique

− Sur un échantillon représentatif de la population


− Le décrire et en tirer les conclusions sur la population (inférence)
Population et Echantillon (4)

 Notations statistiques POPULATION

• variables, effectifs : lettres majuscules (X, N)


• indices statistiques : lettres grecques (m, s…)

 Notations statistiques ECHANTILLON

• variables, effectifs : lettres minuscules (x, n)


• indices statistiques : lettres arabes (m, s …)
PCEM-2
Semaine 04-12-2015
Pr. Edgard Brice NGOUNGOU ngoungou2001@yahoo.fr

Introduction
Population et échantillon
Echantillonnage
Connaissance des variables
Représentation des données
Echantillonnage- Choix d’un échantillon (1)

- la méthode de sélection de l’échantillon s’appelle l’échantillonnage


(en anglais : sampling).
- l’échantillon (en anglais : sample) doit donner l’information la plus
fiable possible sur la population dont il est issu.
- il doit être représentatif (il doit « représenter » au mieux la
population).
- la seule méthode de sélection d’un échantillon représentatif que l’on
retiendra en sciences de la vie et de la santé (SVS) est la méthode
aléatoire (par tirage au sort).
- Les autres méthodes (quotas - échantillons raisonnés) ne doivent pas
être utilisées en SVS.
- Il doit également comporter un nombre de sujets suffisant (notion de
nombre de sujets nécessaires).
Echantillonnage- Choix d’un échantillon (2)

n = effectif
Echantillon
de l’échantillon
Population
N = effectif
de la population

Unité statistique sélectionnée


dans l’échantillon

Unité statistique
non sélectionnée
dans l’échantillon
PCEM-2
Semaine 04-12-2015
Pr. Edgard Brice NGOUNGOU ngoungou2001@yahoo.fr

Introduction
Population et échantillon
Echantillonnage
Connaissance des variables
Représentation des données
Connaissance des variables (1)

Définition d’une variable


Une variable statistique est une variable aléatoire mesurée chez
des individus (ou unités statistiques) de la série étudiée. Elle est
susceptible de prendre une valeur différente selon les individus
étudiés.
• variables quantitatives
- continues
- discrètes
• variables qualitatives
- ordinales
- nominales (dont variables dichotomiques = binaires)
Connaissance des variables (2)

Définition - variables quantitatives


• Une variable mesurée chez des individus est dite quantitative si
elle s’exprime par un nombre.
• exemples : poids, taille, pression artérielle systolique…
Elles sont accompagnées d’une unité de mesure, elles sont obtenues par un instrument de mesure
ou le résultats d’un dénombrement

Types de variables quantitatives


• variables quantitatives continues
- peuvent en théorie prendre n’importe quelle valeur possible
dans un certain intervalle.
- exemple : 77,7777…7 kg
- en pratique le nombre de valeurs possibles est limité
. par la précision de la mesure : balance donnant le poids d’un
individu en Kg, avec une décimale, …
. ainsi que par leur pertinence : utilité pratique d’une mesure du
poids au millionième de kilogramme près ?
Connaissance des variables (3)

• variables quantitatives discrètes


- ne prennent que certaines valeurs (souvent des nombres
entiers). Exemple : nombre d’enfants par couple.
- il est possible de transformer une variable quantitative
continue en variable quantitative discrète. Exemple : arrondi
du poids des individus au kilogramme prêt.

• cas particulier : les variables temporelles


- Utilisation : calcul du délai écoulé entre deux dates.
- Exemple : durée de survie = date de décès du patient – date de
diagnostic
- Délai : variable quantitative discontinue ou continue selon la
précision avec laquelle le délai est donné
Connaissance des variables (4)

Définition - variables qualitatives


• elles prennent des modalités qui ne sont pas des nombres.
• leurs valeurs correspondent à l’une des différentes modalités
possibles pour la variable.
• exemple : la variable « Région française » peut prendre 22 modalités
(Limousin, Centre, …).

Les différentes modalités sont :


• exhaustives : les différentes modalités d’une variable couvrent toutes
les possibilités.
• mutuellement exclusives : à chaque unité statistique ne peut
correspondre qu’une seule modalité.

Il est possible de transformer une variable quantitative continue


en variable qualitative = mise en classes. Exemple : classes d'âge
(0-15 ans, 16 - 40 ans, 41 - 60 ans, plus de 60 ans)
Connaissance des variables (5)

e- Types de variables qualitatives


• variables qualitatives ordinales
- notion d’ordre, de gradation entre les différentes modalités.
- exemples :
- « niveau de douleur » : faible / moyen / intense
-« stade de maladie » : 1 / 2 / 3
– Ce n’est pas pour autant une variable quantitative discrète.
– Il existe un ordre entre les modalités mais pas forcément une
relation linéaire entre celles-ci (le stade 3 n’est pas trois fois
plus grave que le stade 1).
• variables qualitatives nominales
- modalités non ordonnées entre elles.
- nombre de modalités : 2 (variables dichotomiques / binaires ;
exemple : « maladie » oui/non) ou plus (exemple : 4 modalités
pour la variable « groupes sanguins » A / B / O / AB).
Connaissance des variables (6)

La détermination correcte du type d’une variable conditionne :

• la pertinence du choix des outils pour la représentation des données.


• Les modalités de description de la variable.
• l’utilisation des formules adéquates pour réaliser les tests statistiques
appropriés.

==> Pré-requis essentiel à la réalisation d’une analyse


statistique de données.
PCEM-2
Semaine 04-12-2015
Pr. Edgard Brice NGOUNGOU ngoungou2001@yahoo.fr

Introduction
Population et échantillon
Echantillonnage
Connaissance des variables
Représentation des données
Représentation des données (1)

 Décrire les données que l’on a rassemblées pour répondre à une


question est une première étape très importante en statistique. Pour
chaque type de variable, quantitative ou qualitative, il existe des
formes de représentations différentes qui permettent d’avoir une
première impression visuelle. On peut utiliser un tableau ou un
graphique
 Le principal critère de choix réside dans la façon dont on veut
communiquer les résultats :
− Si l’on souhaite disposer de l’ensemble des résultats chiffrés  plutôt un tableau
− Si l’on souhaite visualiser une tendance évolutive  plutôt un graphique
− Ne pas faire les deux
− Il doit exister une cohérence (format du titre, contenu) entre des données similaires dans
un même tableau ou un même graphique, ou entre des tableaux (ou des graphiques)
similaires
Représentation des données (2)

 Quelle que soit la représentation, des principes simples doivent-être


appliqués pour que l’interprétation soit évidente pour le lecteur

• Chacune de ces représentations doit-être lisible indépendamment de son


éventuel texte d’accompagnement
• Elles doivent toujours être dotées d’un titre informatif donnant suffisamment
d’information sur la population, le lieu et la période d’étude
• Les acronymes doivent être définis sous le tableau, graphique ou dans le titre
• Si seuls des pourcentages sont présentés (sans les effectifs correspondants),
préciser l’effectif total à partir duquel il sont calculés dans le titre
• Les unités de mesure doivent être systématiquement indiquées pour les variables
quantitatives (exemple : années pour la variable âge). Elles doivent figurer une
seule fois à côté du nom de la variable. Même chose pour le caractère % en ce qui
concerne les variables qualitatives.
Représentation des données (3)

Les tableaux
- tableau matérialisé par 3 lignes horizontales
- le titre du tableau doit être situé au dessus
- on doit comprendre le tableau indépendamment du texte
- les chiffres doivent être alignés sur le dernier chiffre de droite (pour un entier) ou
sur la virgule
- Tableau de données brutes ou présentation de résultats
Représentation des données (4)
Représentation des données (5)
Représentation des données (6)

Les graphiques
Le graphique permets essentiellement de visualiser un phénomène remarquable :
contraste ou tendance. Le titre doit-être, par convention, au dessous du graphique.
Variables quantitatives continues

Les barres sont


contiguës
Représentation des données (7)

Les graphiques
Variables quantitatives continues
Représentation des données (8)

Les graphiques
Variables quantitatives continues
Représentation des données (9)

Les graphiques
Variables quantitatives continues
Représentation des données (10)

Les graphiques
• Le type de graphique dépend du type de variable :
- Variable quantitative
• Histogramme, les barres verticales étant contiguës
• Polygone de fréquences
- Variable qualitative
• Diagramme en barres, les barres verticales étant
séparées les unes aux autres par un espace

• Forme et présentation
- Légende de l’axe des abscisses et des ordonnées
- Aucun fond coloré ni trait vertical ni 3D (la sobriété est de règle)
- Le titre du graphique doit être situé sous celui-ci
- Les échelles doivent êtres adaptées et proportionnelle à l’amplitude des
valeurs présentées
Représentation des données (11)

Les graphiques
Variables qualitatives
On représente le nombre ou la proportion de sujets dans chaque catégorie. Le
graphique permettant cette représentation est le diagramme en barres. Chaque
barre a la même largeur, et là un espace est laissé entre chaque barre.

Si l’on prend l’exemple du tabac


(Tableau OUTILS-STAT-1),
On obtient la figure OUTILS-STAT-5
Représentation des données (12)

Les graphiques
Variables qualitatives
II- Statistique descriptive

1- Connaissance des variables


2- Représentation des données
3- Description des variables quantitatives
4- Description des variables qualitatives
II- Statistique descriptive
3- Description des variables quantitatives
a- Introduction

• pour décrire une variable quantitative, on utilise :


- des mesures de tendance centrale ou indices de position
==> moyenne, médiane, mode
- des mesures de dispersion
==> étendue, extrêmes,

Effectif pour une amplitude de


30
variance, écart-type…
25

20

5 ans
15

10

5 DISPERSION
0
[20-25[ [25-30[ [30-35[ [35-40[ [40-45[
Age (années)

POSITION
II- Statistique descriptive
3- Description des variables quantitatives
b- Indices de position
Moyenne (moyenne arithmétique) (en anglais : mean)
x) pour un échantillon et µ pour une population
- notée m (ou parfois

m=
å xi
m=
å Xi
n N
- n est l’effectif de l’échantillon et N l’effectif de la population
- lorsque l’on dispose pour chaque valeur xi de la distribution, du
nombre de fois ni dans lequel cette valeur est observée, la moyenne
d’une variable (ici dans un échantillon) se calcule par :

ån x i i

m= i =1
n
II- Statistique descriptive
3- Description des variables quantitatives
Moyenne (moyenne arithmétique) : exemples
Exemple 1 : on dispose de la taille en cm de 5 femmes tirées au sort dans la population :
170/154/170/168/175

Ici, x1= 170, x2=154, x3=170 … et n=5

D’où m= (170+154+170+168+175)/5 et donc m=167,4 cm

Exemple 2 : on dispose des informations suivantes relatives à 20 femmes :


2 femmes ont une taille de 158, 3 femmes ont une taille de 160, 5 femmes ont une taille
de 165, 4 femmes ont une taille de 170, 3 femmes ont une taille de 172, 2 femmes ont une
taille de 175, 1 femme a une taille de 178

ainsi

1 é(2 * 158) + (3 * 160) + (5 * 165) + (4 * 170) + (3 * 172) + ù


m= *ê ú = 167,25cm
20 ë(2 * 175) + (1 * 178) û
II- Statistique descriptive
3- Description des variables quantitatives

b- Indices de position (suite)

Médiane (en anglais : median)


- valeur centrale de la distribution qui divise l’échantillon en deux
parties égales
• 50% des valeurs étant supérieures à la médiane
• 50% des valeurs étant inférieures à la médiane

- contrairement à la moyenne,
• la médiane ne se prête pas aux tests statistiques usuels
permettant de comparer des variables ou de réaliser des
estimations dans la population.
• la médiane n’est pas influencée par les extrêmes.
II- Statistique descriptive
3- Description des variables quantitatives

Déterminer une médiane


• Classer les différentes valeurs par ordre croissant ou
décroissant
• Dans le cas d’un nombre impair de valeurs, la médiane est la
valeur du milieu qui correspond au n 2+ 1 ème rang
• Dans le cas d’un nombre pair de valeurs, la médiane
correspond à la valeur à mi chemin entre les 2 valeurs du
milieu de la distribution : en pratique, moyenne des 2 valeurs

Exemple 3 : On donne la distribution de taille (en cm) suivante : 170/172/175/178/178

La médiane est la valeur 175, elle correspond au 3ème rang.

Exemple 4 : On donne la distribution suivante : 172/172/175/176/178/178

La médiane est la valeur 175,5.


II- Statistique descriptive
3- Description des variables quantitatives

b- Indices de position (suite)


Mode (en anglais : mode or modal value)
- valeur la plus fréquemment rencontrée dans la série de données

Exemple 1 : le mode était 170 avec 2 occurrences


Exemple 2 : le mode était 165 avec 5 occurrences
Exemple 3 : le mode était 178 avec 2 occurrences
Exemple 4 : 2 modes : 172 et 178, distribution bimodale

Moyenne, médiane et mode


- se confondent si la distribution de la variable est symétrique et unimodale
II- Statistique descriptive
3- Description des variables quantitatives

b- Indices de position (suite)

Mode Moyenne
Médiane
II- Statistique descriptive
3- Description des variables quantitatives
c- Indices de dispersion
• des distributions peuvent être très différentes en ayant le même indice
de position.

• la variabilité des mesures est plus réduite dans le second graphique, les
indices de dispersion seront donc différents.
II- Statistique descriptive
3- Description des variables quantitatives
c- Indices de dispersion (suite)
Représentation graphique de la variabilité : les valeurs observées pour chaque
unité statistique (chaque sujet) sous forme de points ainsi que la moyenne
arithmétique du paramètre sous forme d’une droite.

180,00
Exemple 5
175,00
Identifiant Taille Identifiant Taille
patient en cm patient en cm
1 158 11 160
Taille en cm

2 178 12 170
170,00 Moyenne :
3 172 13 172 167,25 cm
4 175 14 175
5 160 15 158 165,00
6 170 16 165
7 165 17 170
8 172 18 160
9 165 19 165
160,00
10 170 20 165

155,00

Sujet 1 : écart à la moyenne = 158,00-167,25 = -9,25 cm etc…


II- Statistique descriptive
3- Description des variables quantitatives
c- Indices de dispersion
Variance (en anglais : variance)
- synthétise l’information relative aux écarts entre les valeurs observées
et la moyenne

- dans une population


effectif : N
moyenne du paramètre : µ s2 =
å (X - m) 2

variance du paramètre : s2 N
- dans un échantillon
effectif : n
moyenne du paramètre : m
s2 =
å (x - m) 2

variance du paramètre : s2 n -1
dénominateur : n-1

- Unité : (unité du paramètre)2


II- Statistique descriptive
3- Description des variables quantitatives

c- Indices de dispersion (suite)


Variance
- moyenne de la somme des carrés des écarts à la moyenne
- autres formules de calcul
(å X) 2
• pour une population å -
X 2

N
s2 =
N

(å x) 2
• pour un échantillon å -
x 2

n
s2 =
Exemple p16 module 1
n -1
II- Statistique descriptive
3- Description des variables quantitatives
c- Indices de dispersion (suite)
Ecart-type [ET] (déviation standard [DS])
- en anglais, SD : standard deviation
- c’est le paramètre de dispersion le plus utilisé
- habituellement présenté associé à la moyenne. Notation : m ± s
- c’est la racine carrée de la variance
- il décrit la dispersion des données dans l’unité du paramètre
- dans l’exemple 5 : taille moyenne de 167,25 ± 6,02 cm

(å X) 2
• Population
s=
å(X - m) 2
åX 2
-
N
s=
N N
• Échantillon
(å x) 2
å (x - m) 2
åx 2
-
s= s= n
n -1 n -1
II- Statistique descriptive
3- Description des variables quantitatives

c- Indices de dispersion (suite)


• Extrêmes : 2 valeurs situées aux extrémités de la distribution
• Étendue : écart entre les deux extrêmes de la distribution
• Coefficient de variation (CV) = (s / m) x100

• Intervalle inter-quartiles (en anglais : IQR interquartile range)


- quartiles = 3 valeurs qui permettent de scinder la distribution en 4 parts
égales (situés à 25%, à 50%, et à 75% de la distribution)
- le deuxième quartile correspond donc à la médiane
- IQR = intervalle compris entre le premier et le troisième quartile

• Erreur standard : ES (en anglais, SE standard error)


- écart type divisé par racine carrée de n
- population s
SE =
N
- échantillon s
SE =
n -1
II- Statistique descriptive

1- Connaissance des variables


2- Représentation des données
3- Description des variables quantitatives
4- Description des variables qualitatives
II- Statistique descriptive
4- Description des variables qualitatives
Indice de position
Fréquence relative ou pourcentage
- Proportion de personnes présentant la modalité d’intérêt
ni
pi =
n
- Somme (pi) = 100%

- Variable qualitative binaire = variable de Bernoulli (0, 1)


• Exemple 0 : non malade / 1 : malade
• Variable qualitative binaire variable quantitative discrète
• moyenne de la variable quantitative = proportion p des n sujets
possédant la valeur 1
III- Intervalle de confiance

1- Fluctuations d’échantillonnage
2- Définition
3- Intervalle de confiance d’un pourcentage
4- Intervalle de confiance d’une moyenne
5- Eléments complémentaires
III- Intervalle de confiance
1- Fluctuations d’échantillonnage

p1 Echantillon 1
Population

P?
p2 Echantillon 2

p3 Echantillon 3

p5 p4
Echantillon 4
Echantillon 5

Les proportions pi vont fluctuer autour de P


III- Intervalle de confiance
1- Fluctuations d’échantillonnage

44 % Echantillon 1
Population

P = 45 %
48 % Echantillon 2

52 %
Echantillon 3
Exemple
50 % 41 %
Echantillon 4
Echantillon 5
III- Intervalle de confiance
2- Définition

- une estimation ponctuelle ne fournit pas d’information sur


la précision.

- un intervalle de confiance (en anglais : confidence


interval) d’un paramètre inconnu que l’on veut estimer
dans la population est une fourchette de valeurs dans
laquelle le paramètre inconnu a une probabilité (1-a),
habituellement 95%, de se trouver et un risque a,
habituellement 5%, de ne pas se trouver.

- on réalise alors une estimation par intervalle.

- habituellement, on utilise des formules approchées, basées


sur la loi normale (ce qui nécessite d’avoir des effectifs
suffisants).
III- Intervalle de confiance
3- Intervalle de confiance d’un pourcentage

- intervalle de confiance au risque a d’une proportion P inconnue à


partir d’un échantillon de taille n présentant une proportion p

é p(1 - p) ù
P Î ê p ± ea ú
ë n û
- conditions de validité : np et n(1-p)  5
à vérifier aux deux bornes de l’intervalle
(npinf, n(1-pinf), npsup, n(1-psup) tous ≥ 5)

- ea = 1,96 quand a = 5 % (on retrouve cette valeur dans la table de


la loi normale)
III- Intervalle de confiance
Utilisation de la table de la loi normale
III- Intervalle de confiance
3- Intervalle de confiance d’un pourcentage
Exemple 6 :
- soit un échantillon de n= 100 personnes.
- la fréquence d’une maladie dans cet échantillon est de 45 %
- risque d’erreur a = 5%

(0,45x0,55)
IC95% = 0,45 ± 1,96 = [0,35 - 0,55]
100
= [35 % - 55 %]
- conditions de validité vérifiées : 35 % x 100 = 35 > 5 etc…
- interprétation : la vraie valeur de la fréquence de maladie dans la
population est comprise entre 35 et 55 % (au risque d’erreur 5% près)
III- Intervalle de confiance
3- Intervalle de confiance d’un pourcentage

Exemple 7 :
soit un échantillon de n= 50 personnes.
- la fréquence d’une maladie dans cet échantillon est de 12 %
- risque d’erreur a = 5%

(0,12x0,88)
IC95% = 0,12 ± 1,96 = [0,03 - 0,21]
50
= [3 % - 21 %]
- conditions de validité non vérifiées : 3 % x 50 = 1,5 < 5
- ne pas présenter ce résultat car impossible d’utiliser cette formule :
utiliser des méthodes exactes et dans ce cas, IC95% : 4,5 % - 24,3 %
III- Intervalle de confiance
4- Intervalle de confiance d’une moyenne

- intervalle de confiance au risque a d’une moyenne m inconnue à partir


d’un échantillon de taille n présentant une moyenne m et un écart-
type s

é s ù
m Î êm ± ea úû
ë n
- conditions de validité : n ≥ 30
- ea = 1,96 quand a = 5 %
III- Intervalle de confiance
4- Intervalle de confiance d’une moyenne

Exemple 8 :

- soit un échantillon tiré au sort de n= 200 personnes.


- la moyenne de la cholestérolémie est de 1,45 ± 0,08 g/l
- risque d’erreur a = 1 % (ea = 2,576)

0,08
IC99% = 1,45 ± 2,576( ) = [1,435-1,465]
200

- conditions de validité vérifiées : n > 30


III- Intervalle de confiance
5- Eléments complémentaires

- la précision d’une estimation est la demi-longueur de l’intervalle


de confiance du paramètre estimé.

Précision

Borne Borne
inférieure supérieure

- il existe un lien étroit entre la précision souhaitée et le nombre de


sujets nécessaires à inclure dans l’échantillon.

- il existe des formules d’intervalle de confiance pour beaucoup


d’autres situations
III- Intervalle de confiance
5- Eléments complémentaires

- la largeur de l’intervalle de confiance diminue :


- plus n est grand (fonction de la racine carrée de n),
- plus on prend de risque que la vraie valeur soit en dehors (risque alpha plus élevé),
- plus la variabilité du paramètre est faible (plus s est faible pour les variables
quantitatives).

- lorsque les formules approchées ne sont pas valables, on peut utiliser des
formules basées sur d’autres lois de probabilité (loi de Student par
exemple), ou des tables, ou encore des méthodes exactes.

- des logiciels statistiques peuvent calculer des intervalles de confiance


Partie III :
Généralités en statistique inférentielle

I- Risques en statistique

II- Principes d’un test statistique

III- Différents tests statistiques


I- Risques en statistique

L’objectif d’un test statistique est de déterminer si une


hypothèse H0 (hypothèse nulle) peut être rejetée ou
pas

H0 s’exprime habituellement sous forme d’une égalité


(exemple : absence de différence entre deux
moyennes)

H1 = hypothèse alternative
(exemple : existence d’une différence)

La réalisation d’un test comprend deux risques.


I- Risques en statistique

Risque alpha a (risque de 1ère espèce)


• C’est le risque d’erreur de rejeter H0 alors que H0 est vraie
• Si on prend un risque = 5 %
On prend le risque de conclure 5 fois sur 100 qu ’ il existe une
différence alors qu’il n’y en a pas.

Risque beta b (risque de 2ème espèce)


• C’est le risque d’accepter Ho alors que Ho est fausse
• Si on prend un risque = 20 %
On prend le risque de conclure 20 fois sur 100 qu’il n’existe pas de
différence alors qu’il y en a une.
I- Risques en statistique

La puissance représente la capacité de l ’ étude à mettre en


évidence une différence. Elle intervient dans le calcul du nombre
de sujets.
II- Principes d’un test statistique

En science on sait mieux rejeter une hypothèse que l’accepter.

Principe : raisonnement par l’absurde, on fait un pari

On suppose que Ho est vérifiée

On cherche à infirmer (rejeter) cette hypothèse Ho

La conclusion n’est pas une certitude car elle est toujours associée à
des risques d’erreur
II- Principes d’un test statistique
Les étapes d’un test statistique
1- Définir l’hypothèse nulle Ho
2- Choisir le test adéquat (conditions d’application)
3- Définir le risque d’erreur a
4- Définir une région critique (zone de rejet) associée au risque a
exemple si a = 5 %, pour une comparaison de 2 moyennes :

Région critique Région critique


- 1,96 0 + 1,96
5 - Calculer la valeur du test + vérifier les conditions
6 - Décider
Si le résultat appartient à la région critique : on rejette Ho
Le test est significatif, il existe une différence significative

Si le résultat n’appartient pas à la région critique : on accepte Ho


Le test est non significatif, il n’existe pas de différence significative
7- Donner la valeur du degré de significativité p
II- Principes d’un test statistique
Valeur de p (p value)

La valeur de p est le degré de significativité (ou de signification) qui peut


être calculé après un test statistique adéquat.
C’est la probabilité d’observer par hasard une différence entre les valeurs
testées.
Autrement dit, c’est la plus petite valeur que l’on aurait pu prendre comme
risque alpha tout en rejetant l’hypothèse nulle.
Si la valeur de p est faible (≤ 0,05), alors cette différence n’est pas due au
hasard. La différence est dite « significative ».
Si la valeur de p est > 0,05, la différence n’est pas « significative » : elle
n’existe pas ou les effectifs sont insuffisants pour la démontrer (manque
de puissance).
III- Principaux tests statistiques
4 cas usuels

1. liaison entre 2 variables qualitatives (comparaison de %)

2. liaison entre 1 variable qualitative binaire et 1 variable

quantitative (comparaison de 2 moyennes)

3. liaison entre 1 variable qualitative nominale (> 2 classes) et 1

variable quantitative (comparaison de plus de 2 moyennes)

4. liaison entre deux variables quantitatives (corrélation voire

régression)
III- Principaux tests statistiques
Exemples dans les 4 cas usuels

1- liaison entre 2 variables qualitatives


exemple : comparaison des pourcentages de maladie entre hommes et
femmes
2- liaison entre 1 variable qualitative binaire et 1 variable quantitative
exemple : comparaison de 2 moyennes d’un dosage biologique entre malades
et non malades
3- liaison entre 1 variable qualitative nominale (> 2 classes) et 1 variable
quantitative
exemple : comparaison des moyennes d’un dosage biologique entre 3 stades
de maladie
4- liaison entre deux variables quantitatives
exemple : corrélation entre l’âge et un dosage biologique
III- Principaux tests statistiques
7 cas possibles

Pour les trois premiers cas, deux « subdivisions » :


- échantillons indépendants : sujets différents dans les échantillons
comparés
- échantillons appariés : soit les mêmes sujets sont comparés, soit les sujets
sont appariés sur un critère d’appariement (on rend homogène les groupes sur
ce critère)

Pour les 7 cas possibles ainsi définis :


- soit test paramétrique : reposant sur la loi normale
- soit test non paramétrique : ne reposant sur aucune loi de probabilité -
tests basés sur les rangs des données et non sur les valeurs
III- Principaux tests statistiques
Choix entre un test paramétrique et un test non paramétrique

- Un test paramétrique suppose que les variables comparées suivent une loi
normale dans la population
- Il existe des tests statistiques pour tester la normalité de la distribution mais ils
sont peu puissants
- Si les effectifs sont suffisamment grands, on peut faire l’hypothèse que la loi
normale s’applique
- Si on sait que la loi n’est pas normale, si on a un doute sur la normalité, plus
les effectifs sont petits, ou si d’autres conditions d’application ne sont pas
remplies, on utilisera un test non paramétrique qui est toujours valable
- Pourquoi ne pas toujours utiliser un test non paramétrique ? Car il est moins
puissant que le test paramétrique correspondant si il est valable.
III- Principaux tests statistiques
Tableau des tests
Variables Situation Echantillons Test paramétrique Test non
paramétrique

2 Qualitatives Comparaisons Indépendants Test Z ou e Test du Chi 2 de


de Pearson ou Test du Chi
pourcentages 2 corrigé de Yates ou
Test exact de Fisher
Appariés Test Z ou e apparié Test du Chi2 de Mac
Nemar
1 Qualitative binaire Comparaisons Indépendants Test Z ou e Test de Mann-Whitney
et 1 Quantitative de 2 moyennes
Test t de Student
Appariés Test Z ou e apparié Test de Wilcoxon
apparié
Test t de Student
apparié
1 Qualitative Comparaisons Indépendants Analyse de Test de Kruskal-Wallis
nominale et 1 de > 2 variance
Quantitative moyennes
Appariés Analyse de Test de Friedman
variance à 2
facteurs
2 Quantitatives Corrélation Appariés Coefficient de Test de Spearman
corrélation linéaire
+ test t

Vous aimerez peut-être aussi