Eléments de Statistiques Médicales

1
Eléments de statistiques
médicales
2018-2019
MV
2
Eléments de statistiques médicales
1e partie :
Chapitre 1 : Introduction et concepts principaux :
I. Introduction :
Statistique = ensemble de techniques permettant de collecter, organiser, analyser et

présenter des données.
Rem : méthodologie adéquate importante : abondance de donnée peut masquer la véritable

information d’intérêt pour notre étude.
II. Concepts de base :

a) Population et échantillon :
En général : quasi toujours impossible de réaliser des mesures pour l’ensemble de la

population étudiée.
→On effectue les mesures sur un échantillon de notre population.
Exemple :
- Population trop grande : population = femmes atteintes d’un cancer du sein.
- Population virtuelle (échantillon) : population = femmes atteintes d’un cancer du
sein et soignées avec un nouveau traitement bien spécifique.
Les outils utilisés pour décrire une population sont les paramètres statistiques.
Les outils utilisés pour décrire un échantillon sont des statistiques .
Unité expérimentale : chacun des éléments de l’échantillon sur lesquels les mesures sont
réalisées (x)
L’échantillon doit être sélectionné de façon à être représentatif de la population étudiée

→ Echantillon aléatoire : échantillon sélectionné au hasard dans la population de façon à
ce que chaque membre de la population ait la même chance d’être sélectionné.
= Echantillon non biaisé : échantillon dont on ne met pas en doute le caractère aléatoire.
Attention : Dans certaine situation (notamment en médecine : participants volontaires à
l’étude), il est compliqué/impossible d’obtenir un échantillon aléatoire de la population.
→Important de réfléchir à la représentativité de l’échantillon obtenu !
But : inférer les caractéristiques de la population d’origine à partir des données obtenues
sur l’échantillon.
On utilise des données d’échantillon pour :
- Estimer la valeur d’un paramètre d’une population
- Tester une hypothèse sur la population
MV
3
Statistique = science qui permet de tirer des conclusions sur une population au départ
d’observations faites sur un échantillon représentatif de cette population. = recensement
b) Plan d’expérience : décrit la façon dont va être menée l’expérience ou l’étude

statistique.
Attention : il s’établit avant le début de l’expérience. Des décisions critiques pour la réussite
de l’expérience et l’analyse statistique des données sont prise dès ce moment.
Etude expérimentale randomisée : Traitement A et B alloués au hasard (randomisation)

Définition de randomisation : Échantillonnage aléatoire destiné à réduire ou supprimer
l'interférence de variables autres que celles qui sont étudiées : on isole les autres
variables possibles pour ne prendre en compte que celle(s) concernée(s)
But : Créer des groupes semblables auxquels des « traitements » différents seront
appliqués.
→Pas de raison que le groupe A soit différent du groupe B. S’il y’a différence, elle ne peut
être due qu’au traitement.
Exemple : création de 2 groupes de façon aléatoire.

- 1e groupe : activité physique ext (traitement A).
- 2e groupe : pas d’activité physique ext (traitement B).
→Si on observe une différence dans la baisse du cholestérol entre les deux
groupes : on peut penser que c’est dû au traitement car c’est la seule chose qui
diffère entre les 2 groupes.
Essais cliniques = étude expérimentales (randomisées).

Phase I : 1e expérimentation chez l’être humain, détermination de la dose, essai clinique
non randomisé.
Phase 2 : Etude de petite/moyenne ampleur, en général, non-randomisée visant à établir
l’activité et le profil de toxicité du traitement.
Phase 3 : Etude de très grande ampleur, en général internationale, toujours randomisée,
visant à démontrer qu’un nouveau traitement est (au moins) plus efficace que le traitement
actuel.
c) Variables statistiques :
Variable : mesure qui peut prendre des valeurs différentes d’une unité expérimentale à
l’autre, ou d’un groupe d’unités expérimentales à un autre.
Exemple : taille, poids, nombre de globules blancs, couleur des yeux..
Un Libellé : nom décrivant une variable.
Modalités : différents niveaux/valeurs qu’une variable peut prendre.
MV
4
Il existe différents types de variables et les techniques statistiques utilisées pour résumer
et analyser ces variables vont dépendre du type de variable.
• Variable quantitative : variable dont les modalités sont numériques (quantifie,

mesure une caractéristique). Ex : âge, poids, tension artérielle,..
- Variables discrètes : nombre fini de valeurs possibles entre n’importe quelles

deux valeurs. Ex : nombre de parents vivant au domicile principal, nombre
d’enfants, nombre de tumeurs,..(nombre entier ou à une décimale,..)
- Variables continues : nombre infini de valeurs possibles entre n’importe quelles
deux valeurs. Ex : taille, poids, pression artérielle,..
→En principe, le nombre de valeurs possibles qu’une valeur continue peut prendre est
infini. En pratique, les mesures se font avec une précision finie dans un intervalle borné →
nombre fini de valeurs. Ex : Poids mesuré en kg : 50, 51, 52,.. Poids mesuré en gramme :
50.1, 50,2,..
• Variable qualitative/catégorielle : variable dont les modalités indiquent à quelle
catégorie appartient l’unité expérimentale (décrit une caractéristique). Ex : sexe,
couleur des yeux, présence/absence de mutation génétique,..
- Variables nominales : catégories distinctes auxquelles un nom est assigné mais

pas un ordre (pas de classement ordonné possible). Ex : sexe (homme, femme),
type de cancer (poumon, vessie,..), couleur des yeux (bleu, brun,..), type de
mutation,..
- Variables ordinales : catégories distinctes auxquelles un nom est assigné et pour

lesquelles on peut assigner un ordre, mais par contre on ne sait pas quantifier la
« distance » séparant les différentes catégories. Ex : niveau socio-économique
(faible, moyen, élevé), qualité de vie d’un patient (mauvaise, moyenne, bonne),
stade de la maladie, échelle de performance,..
→ Souvent, on associe aux modalités des variables qualitatives un nombre entier.

Variables nominales : Ces nombres entiers ne représentent rien de particulier, ils sont
associés aux catégories de manière arbitraire. Ex : 1=bleu, 2=vert, 3=brun, 4=autre.
Variables ordinales : Ces nombres entiers indiquent un ordre mais pas une échelle.
Ex : 1=mauvaise, 2=moyenne, 3=bonne.
Remarque : On parlera aussi :

• Variable binaire : variable prenant seulement deux valeurs, souvent codée en 0 et
1 (en général : variable qualitative).
• Variable de comptage : variable prenant des valeurs entières positives (variable
quantitative discrète).
• Variable de survie : variable prenant des valeurs continues positives, représentant
souvent le temps entre une origine et un évènement précis (variable quantitative
continue) Ex : temps entre le diagnostic d’un cancer et le décès du patient.
→L’évènement d’intérêt n’est pas toujours observé (données incomplètes) : on
parle de données censurées. Ex : Certains ne seront pas décédés au moment de
l’analyse des données. Toutes les unités expérimentales ne peuvent pas être
prises en compte.
MV
5
d) Données statistiques :
Données brutes : ensemble des valeurs mesurées pour les variables pour toutes les unités
expérimentales de l’échantillon. = observation.
e) Statistique descriptive : 1e étape d’une analyse statistique.
But : décrire les données de l’échantillon et résumer les mesures réalisées lors de l’étude au
moyen de graphiques et tableaux.
f) Inférence statistique :
But : utiliser l’information contenue dans l’échantillon pour tirer des conclusions sur la
population.
Techniques :
- Estimation des caractéristiques de la population sur base des mesures réalisées sur
l’échantillon.
- Tests d’hypothèse : procédure statistique permettant de vérifier, à partir des
données de l’échantillon, si des hypothèses émises a priori sont plausibles au niveau
de la population.
- Modélisation du lien entre différentes variables.
Rem : En faisant de l’inférence, il arrive que l’on commette des erreurs. Ce qu’on déduit de
l’échantillon ne peux pas forcement être induit à la population
→Les méthodes statistiques vont inclure des notions de probabilité afin de quantifier les
risques d’erreur dans l’inférence.
g) Etapes principales d’une étude statistique :

- Planification et mise sur pied de l’étude de manière à répondre efficacement à la
question posée.
- Collection et organisation des données (mesures, encodage,..).
- Présentation et résumé de ces données (= statistique descriptive).
- Analyse de ces données (= inférence statistique : estimation, tests d’hypothèse,
modélisation,..)
- Présentation et interprétation des résultats de l’analyse des données dans un
langage compréhensible par la communauté scientifique et par le commanditaire de
l’étude.
→Dans le but de tirer des conclusions sur le phénomène étudié sur base de ces données et
de les extrapoler à la population étudiée.
h) Protocole d’expérience :
Document rédigé et approuvé avant le début de l’étude et décrivant en détails pourquoi

l’étude va être conduite, comment elle va être conduite et par qui, et comment elle va être
analysée.
MV
6
Il contient de l’info sur :
- Objectif(s), Question(s) clairement définies.

- Définitions des unités expérimentales, taille d’échantillon, sélection de l’échantillon.
- Facteurs et traitements considérés.
- Autres sources de variations (nuisance).
- Plan expérimental, randomisation.
- Technique d’analyse des résultats.
i) Rappels math :
Variable : X
Valeurs des variables observées pour toutes les unités expérimentales de l’échantillon :
X1, X2, .., Xn (n = nombre d’unités expérimentales)
→donc Xi = valeur observée pour la variable X pour la ième unité expérimentale de
l’échantillon.
X = variable (données continues ou binaires)

x = une valeur numérique ou modalité de la variable X = différentes valeurs qu’une
variables peut prendre.
Si a et b sont des nombres entiers avec a ≤ b alors :
MV
7
Chapitre 2 : Statistiques descriptive univariée :
I. Statistique descriptive univariée :
Mesure, détermination de la valeur de chaque variable et enregistrement = base de données
But (de la statistique descriptive) : résumer les données.
On travaille avec une seule variable à la fois.
Exemple : enquête chez 50 étudiants de bac 2. Pour chacun on détermine son sexe
(variable binaire), son âge (variable continue), son grade obtenu en 1e (variable
catégorielle), son humeur du jour (variable continue).
II. Distribution empirique :
= fréquences (en nombre de fois) ou fréquences relatives (en proportion ou pourcentage)

avec lesquelles on observe les différentes valeurs possibles dans notre échantillon.
(Combien de fois on observe chaque observation dans notre échantillon)
Remarque : La méthode de construction d’une distribution empirique de fréquence et sa

représentation dépend du type de la variable.
a) Variable qualitative :
Suffit de lister toutes les valeurs possibles et de les associer.
- Fréquence : nombre de fois que la valeur a été observée dans notre échantillon
- Fréquence relative : fréquence divisée par le nombre total d’observation (et pe
exprimé en pourcentage)
Exemple : Pour notre groupe de 50 étudiants, quelle est la distribution empirique de

la variable grade ?
Niveau Dénombrement Probabilité
D 21 0.42
GB 9 0.18
LGD 2 0.04
S 18 0.36
Total 50 1.00
b) Variable quantitative :
On considère les mêmes éléments MAIS on ne va en général pas pouvoir utiliser le même
type de représentation car :
- La variable prend en général trop de valeurs, beaucoup de modalités
- La plupart des valeurs apparaissent qu’une fois (surtout si continue)
MV
8
Exemple : Poids de 24 bébés (en kg) nés 1 semaine post-terme.
→La variable poids prends des valeurs réelles = variable quantitative continue
→La plupart des valeurs apparaissent une seule fois.
→Regroupement en intervalles de valeurs, classes. Attention : les classes doivent être

distinctes les unes des autres (pas de recouvrement) et de préférence de même largeur.
→Une grande majorité des bébés ont un

poids entre 3.9 et 4.1 Kg.
III. Représentation graphique de la distribution empirique :
La façon de représenter une distribution empirique dépend du type de variable.
a) Variable qualitative :
Diagramme en barre : chaque fréquence de la variable est représentée par une barre. Rem :
fréquence et fréquence relative
Diagramme en secteurs ou en tarte : angle est proportionnel à la fréquence relative. Rem :

souvent difficile à interpréter, réservé au cas où on a peu de catégories.
b) Variable quantitative :
On peut pas utiliser ces graphiques car la variable prend trop de valeurs et la plupart de ces
valeurs n’apparaissent qu’une fois. → groupement de ces valeurs en intervalles (on gagne
en lisibilité mais on perd en précision) →utilisation d’un histogramme.
Histogramme : diagramme en barre dont la largeur

des barres représentent l’intervalle de valeurs et la
hauteur représente la fréquence (ou fréquence
relative) de cet intervalle de valeurs, les barres sont
adjacentes.
- Abscisse : limite (ou point central) des classes

- Base des rectangles = largeur de chaque classe
MV
9
Attention :
- Classes ont la même largeur : fréquence observée = hauteur des rectangles.

- Classes sont de largeurs différentes : fréquence observée = aire du rectangle.
IV. Mesures numériques :
Autre manière de décrire l’ensemble des données, de résumer les caractéristiques

principales de la distribution d’une variable.
a) Mesures de localisation : (ou mesure de tendance centrale)
→Indiquent le « centre » de la distribution.
• çç arithmétique : (Seulement si variable quantitative.)
= somme des observations pour cette variable divisée par le nombre d’observation :
- Souvent une valeur qui n’est pas observée dans nos données.
- Sensible aux valeurs extrêmes : dans certains cas n’est plus représentative de la
localisation du gros de la distribution. On dit qu’elle est peu robuste pour les valeurs
extrêmes.
- Moyenne d’échantillon = moyenne des observations de l’échantillon.
• Médiane : (variables quantitatives et variables qualitatives ordinales)
= quantile 50% = la plus petite valeur supérieure ou égale à au moins 50% des données.
- N’existe pas de formule mathématique pour la calculer.

- Pour un nombre impair d’observation, elle correspond à la valeur du milieu lorsque
les observations sont classées par ordre croissant.
Exemple : nombre impair d’observation : supposons que pour une variable nous
ayons observé les valeurs 1, 2, 3, 4, 5 (n=5)
→Médiane = 3 soit la plus petite valeur supérieure ou égale à au moins 50% des
observations.
Exemple : nombre pair d’observation : supposons que pour une variable nous ayons
observé les valeurs 1, 2, 3, 4 (n=4)
→Médiane = 2
Pour certains : médiane = la moyenne des deux valeurs centrales
(ici : 2+3/2 =2,5)
MV
10
- Toujours une valeur mesurée de l’échantillon.

- Insensible aux valeurs extrêmes.
- Si distribution symétrique : la médiane et la moyenne sont proches.
Attention : fréquence cumulée
Exemple : Enquête de satisfaction.
→ « Plutôt satisfait » est la classe médiane car c’est la 1e classe à remplir la condition
que 50% des observations sont dans cette classe ou dans une des classes
précédentes.
Graphique de Pareto permet d’illustrer à la fois les fréquences et les fréquences

cumulées : on classe les fréquences dans l’ordre de décroissance.
• Mode : (variables qualitatives, variables quantitatives discrètes, variables

quantitatives continues).
= valeur la plus souvent observée dans les données, correspond à la valeur associée à la
plus grande fréquence.
- N’existe pas de formule mathématique pour le calculer.

- Toujours une valeur observée dans les données.
Exemple : le mode des observations 1,2,2,2,3,4 est la valeur 2 (avec une fréquence
de 3).
- On peut avoir plusieurs modes (plusieurs fréquence identiques). Rem : Si 2 modes :
distribution bimodale, si plus de 2 modes : distribution multimodale).
Rem : pour les variables quantitatives continues : la fréquence des valeurs observées est
souvent 1(on les retrouve qu’une fois) : autant de modes que de données. → intervalles
(classes) sur la gamme des valeurs possibles de la variable. Le(s) sous-intervalle(s)
contenant le plus d’observations est donc la classe modale.
MV
11
Exemple : Poids de 24 bébés : on subdivise la

gamme des valeurs possibles en 9 sous-intervalles
de largeurs 0.05 pour construire l’histogramme.
→La classe centrée en 3.95 ([3.9,4.0[) est la classe
modale.
b) Mesures de dispersion :
= indiquent si les valeurs observées sont fort rassemblées ou pas autour de la tendance
centrale. →Information sur l’hétérogénéité des variables.
• Etendue : (seulement variable quantitative)
= différence entre la valeur maximale observée et la valeur minimale observée.
- Ne dépend donc que du min et du max : fortement influencée par les valeurs
extrêmes.
- Tends à augmenter avec le nombre d’observations dans l’échantillon.
• Ecart inter-quartile :
Quartile Q1 : quantile 25% càd la plus petite valeur supérieure ou égale à au moins 25% des
données.
données. = médiane !!
données.
L’écart inter-quartile : Q3-Q1 càd l’étendue des 50% des données centrales.
Exemple n=12
→L’écart interquartile est Q3 – Q1 = 8-3 = 5
→L’étendue des 50% de données centrales est 5.
MV
12
- Pas sensible aux valeurs extrêmes.
Percentile Pk (k = 1,…, 100, correspond aux pourcentages et

Pk = la plus petite valeur supérieure ou égale à au moins k%
des données.
- Les percentiles P25, P50 et P75 correspondent aux

quartiles 1,2 et 3.
- Le percentile P
- 50 correspond au quartile 2 et donc à la médiane.
Boite à moustache (ou diagramme en boite ou boxplot) = représentation graphique de

la médiane, moyenne, quartiles et valeurs minimales et maximales (ou percentiles P5 et
P95 selon les logiciels).
→Donne une idée de la localisation, dispersion, symétrie et sur existence des valeurs
extrêmes : bonne alternative à l’histogramme si on étudie la distribution d’une variable
quantitative.
1e façon de construire un boxplot :
2e façon de construire un boxpot :
• Variance : S2(unité : carré de l’unité de nos observations : ex : examens2).
= somme des carrés des écarts par rapport à la moyenne.
Attention : souvent on divise par (n-1) plutôt que par n →permet d’obtenir une meilleur
estimation de la variance. Rem : dans la pratique ça se fait pas ou peu sauf si on considère
des échantillons de petites tailles.
Pourquoi ? En soit, un échantillon peut ne pas représenter la population de manière

vairitablement juste. Tout dépend des personnes choisies aléatoirement. → La disperssion
peut être très différente entre la population et l’echantillon. En divisant par n-1 on augmente
la dispersion de l’échantillon et ainsi on la raproche à celle de la population.
MV
13
- Toujours positive (somme de carrés).

- Si = 0 : toutes les observations sont les mêmes.
- Grande variance = grande variabilité des données.
- Sensible aux valeurs extrêmes.
• Ecart-type : (unité = même que l’unité de nos observations). Dit « standard

deviation » ou SD en anglais
= racine carrée de la variance S2 = σ
- Sensibles aux valeurs extrêmes.

- Petit écart-type = valeurs des données proches.
- Grand écart-type = valeurs des données éloignées.
Rem : Coefficient de variation (CV) = s (écart type) / moyenne arithmétique (x 100)
c) Mesures d’asymétrie :
Utilisation des valeurs du mode, de la moyenne et de la médiane.
Si une distribution est symétrique :

- Les observations de chaque côté de la médiane se
distribueront de la même façon.
- La médiane sera égale à la moyenne (et au mode si la
distribution est unimodale).
Dissymétrie à gauche : Dissymétrie à droite :
Moyenne < médiane (en général) Moyenne > médiane (en général)
MV
14
Chapitre 3 : Intervalles :
I. Un échantillon aléatoire SIMPLE EAS :
Echantillon aléatoire : échantillon sélectionné au hasard dans la population de façon à ce

que chaque membre de la population ait la même chance d’être sélectionné.
Echantillon aléatoire simple :

- Chaque membre d’une population a une chance égale d’être inclus à l’intérieur de
l’échantillon.
- Chaque combinaison de membres de la population a aussi une chance égale de
composer l’échantillon.
Exemple : un prof veut choisir 2 élèves à l’aide d’une pièce. (Pile : 1e rangée de 2 élèves,
Face : 2e rangée de 2 élèves).
- Echantillon aléatoire : oui car les membres de la population sont sélectionnés de telle
sorte que chaque membre individuel a la même chance d’être sélectionné.
- Echantillon aléatoire simple : non car les sujets sont choisis de telle façon, que
chaque échantillon possible n’est pas la même chance d’être choisi (impossible
d’avoir un élève de la 1e rangée et un élève de la 2e rangée).
Echantillon avec/sans remise :

- Tirages successifs et avec remise : à chaque tirage la population est identique et
contient les individus : à chaque tirage on a 4 possibilités différentes de résultats.
- Une bonne représentation de la pop demande parfois un échantillon avec remise.
Ici l’ordre a de l’importance.
II. Distributions :
a) Types de données :
MV
15
Conventions :
Quelques notions :
- P(E) = probabilité de survenue d’un événement E
- p = proportion dans un échantillon (ou p)
- π = proportion dans la population
- p-valeur : (def donnée plus tard)
b) Densité de probabilité :
= fonction qui permet de représenter une loi de probabilité (sous forme d’intégrale).
Peut être vu comme la limite d’un histogramme
n = 100 n = 1000
n = 10 000 Loi normale (10,2)
- L’aire totale de la courbe = 1 soit 100%

- La densité de fréquence relative d’une variable se transforme quand la taille
d’échantillon augmente..
- Fluctuations dues au hasard influencent la forme du graphe. Quand la taille
augmente, les fluctuations se compensent, ce qui permet aussi des classes de plus
en plus fines.
- Comme l’aire totale reste égale à 1 : la densité de fréquence relative tend vers une
courbe appelée fonction de densité de probabilité p(x)
Rem : fluctuations : variations successives en sens contraires
MV
16
Distribution « normale » ou gaussienne : courbe en cloche :
c) Distribution normale ou gaussienne : propriétés :
Déf = distribution continue qui dépend de 2 paramètres : σ et π
- Symétrique et centrée autour de la moyenne (moyenne = médiane = mode)

➔ 50% des données à gauche et 50% à droite
Remarques : S et σ mesurent l’étendue de la dispersion des valeurs de la variable càd la

différence entre les valeurs minimales et maximales. → à moyenne constante, si la variance
change alors la distribution est plus ou moins étendue autour de la moyenne.
MV
17
- Aire de la courbe entre 2 points = probabilité que les valeurs X (ici âge) soient
comprises entre ces 2 points.
Analyse : Une variable X distribuée normalement a 5 chances sur 100 de présenter un écart
à la moyenne supérieur à 1.96σ (environ 2σ). Autrement dit, 95% des sujets sont distribués
dans une étendue de 4σ.
2 façons :
Sur base de notre approximation : 95% des observations→
Sur base de nos percentiles (dans tableau de données) : 95%→
Remarque : d’autres distributions existent : les distributions ne sont pas forcément

gaussiennes (ne suivent pas forcement une courbe en cloche)
III. Distribution de moyennes :
On a plusieurs échantillons de la population et pour chaque échantillon on calcule la

moyenne. On met ces moyennes dans un tableau.
L’écart type de la distribution des moyennes (des différents échantillons d’une même
population) est appelé l’erreur standard ou déviation standard de la moyenne ou ESM et
vaut :
ESM peut être utilisée pour mesurer la précision de la moyenne d’un échantillon.
MV
18
a) Variable quantitative continue :
Exemple : fréquence cardiaque

➢ Moyenne de la population (estimée) = : 86 battements/min
➢ Ecart type de la population (estimée) = 13,1 battements/min
➢ ESM : 3,38 battements/min (n=15)
→ NB : la précision dépend de la taille de l’échantillon (n qui est connu), pas de la
taille de la population.
b) Variable binaire : (0,1) :
Exemple : sex ratio

➢ Proportion dans la population (estimée) : femme = 58,06% vs homme = 41,94%
➢ ESM = 8,86 (n=31)
→NB : idem
IV. Théorème Central Limite TCL :
Le TCL affirme que les moyennes des échantillons d’une

variable continue tendent vers variable aléatoire
gaussienne.
Ex : 7 échantillons pris au hasard : on fait la moyenne de

leurs moyennes :
→ Données binaires : (0,1) : Le TCL affirme que les moyennes des échantillons d’une
variable binaire tendent aussi vers une variable aléatoire gaussienne
On pose la probabilité : ici : quelle est la probabilité d’avoir X

personne malade dans 1 échantillon, ici 4 échantillons
possibles (toutes les combinaisons) et n=3. Total
d’échantillons = 1000 = fréquence sur le tableau.
→ La distribution d’échantillonnage de la moyenne

s’approche de + en + d’une distribution normale (courbe en
cloche ou courbe de Gauss) à mesure que la taille des
échantillons augmente et ce même si la population initiale
n’est pas distribuée de façon gaussienne.
MV
19
Rem : La vitesse à laquelle la distribution d’échantillonnage de la moyenne s’approche de la

normale est fonction de la forme de la population mère : si la population est elle-même déjà
normale, la distribution d’échantillonnage de la moyenne sera normale quelque soit la taille
de l’échantillon.
→ Peu importe les variables aléatoires (continues ou

discrètes) : la moyenne normalisée est approximativement
N(0,1) (N = loi normale)
En simplifiant, on peut dire : Si la variable X suit une distribution normale ou lorsque la taille
de l’échantillon est assez grande (n>30) alors la distribution d’échantillonnage de la moyenne
aura une forme approximativement normale de moyenne µ et de variance σ2/n
Variable continue : Variable binaire :
On pose : On pose :
→ de sorte que la moyenne (l’espérance) et Idem

l’écart type de Z valent respectivement 0 et
1 : la variable est ainsi centrée et réduite.
V. Loi normale et probabilité :
Aire de la courbe entre 2 points = probabilité que les valeurs de X soient comprises entre ces
2 points.
Il y’a toujours une distribution par variable de X
Solution : Loi normale centrée réduite.
→ D’abord centrer ( X’ = X - µ = 0) puis réduire (écart type de z=0)
MV
20
But : Tout ramener sur le même graphique et avoir un tableau avec Z-valeur : + simple
Exemples :
MV
21
La règle 68 95 97,7 : (approximation) :
Exemple :
Règles : pour chaque valeur : une z-valeur
MV
22
VI. Intervalle de prédiction (= distribution) et intervalle de confiance :
IP se déduit à partir d’une population « connue » càd dont on connait la moyenne et la

variance → on obtient des infos sur l’échantillon « inconnu » RARE dans la pratique
Un belge sur quatre ne se sent pas bien mentalement. Quelle est la probabilité qu’une
proportion dans un échantillon (n=580) dépasse 26, 2% ? Calculez IP 95%
IC se déduit à partir d’un échantillon « connu » → on obtient des infos sur la moyenne de
la population (2 cas selon que l’on connait la variance de la pop ou non)
Pouvons-nous conclure que la proportion pour les prisonniers est plus élevée que la
proportion dans la population ? Quelle est la vraie proportion des prisonniers qui ne se
sentent pas bien
→ IP se calcule autour de la valeur observée, IC se calcule autour de la valeur théorique.
a) IP : Si on exprime par rapport à la moyenne de l’échantillon
Cet intervalle est construit autour de la vrai valeur (ex :µ). On n’utilise pas d’estimateur
puisqu’on connait la vraie valeur.
Moyenne : (variable continue)
→ ESM =
Proportion : (variable binaire)
→ ESM =
MV
23
Rem : IP n’est valide que si la population suit une distribution gaussienne (loi normale) ou si
n>30 (et np>5 et n(1-p) > 5 pour une proportion) + EAS
Chaque nouvelle observation (moyenne, proportion, observation individuelle) a 95% de

chance de se retrouver dans cet intervalle
Rem : en moyenne on s’attend à ce que 95% de l’entièreté de la population se trouvent
dans IP
→ Si IP = 95% alors z = 1,96 Si IP = 90% alors z = 1,645 (arrondi à 1,64)
Les 5% restants sont anormaux (il est aussi important que les définitions de ce qui est
normal et anormal dépendent d’autres facteurs comme l’âge et le sexe : ce qui est
anormal pour une personne de 25 peut être normal pour une personne de 80)
On peut remplacer X par p → µ devient alors π
b) IC : Si on exprime par rapport à la moyenne de la pop (µ ou π)
Estimation ponctuelle : valeur unique utilisée
On utilise les données d’échantillon pour :
- Estimer la valeur d’un paramètre d’une population

- Tester une hypothèse sur la population
→ inférer les caractéristiques de la population d’origine à partir des données
obtenues
Enquêtes ou essais rarement réalisés sur l’ensemble de la population mais sur un

échantillon représentatif de cette population, résultats : variables aléatoires subissant une
fluctuation d’échantillonnage
Une population de moyennes ou de proportions a également une distribution ayant une

moyenne et une variance
La proportion observée dans un échantillon de taille n a une probabilité 1 – α d’appartenir à

l’intervalle :
- Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la

proportion p d’une caractéristique dans un échantillon tend vers une loi normale de
moyenne p et de variance π(1-π)/n
- Condition de validité : np et n(1-p) ≥ 5 + EAS
MV
24
Rem : IC est juste une modification de formule de IP :
→ Rare dans la pratique de connaître la vraie valeur du caractère étudier dans la population
Un intervalle de confiance à 95% peut être dévié à partir de l’intervalle de prédiction : si on

répète à plusieurs reprises l’échantillonnage et qu’on calcule chaque fois l’IC de la moyenne
de l’échantillon, on attend qu’environ 95% de ces intervalles vont inclure la vraie valeur de la
moyenne de la population
Interprétation : Nous avons 95% de confiance (≠ chance) que l’intervalle contienne la vraie
valeur de la population. Cela signifie que si on sélectionnait de nombreux échantillons de
même taille et qu’on construisait les IC correspondants, à long terme, 95% d’entre eux
contiendraient la vraie valeur µ (X) ou π (p). Cette interprétation (correcte) fait référence au
taux de réussite de la procédure utilisée pour estimer la moyenne (un paramètre) de la
population
Incorrect : Il y a 95% de chance que µ soit dans l’intervalle de confiance (analogie : définir le
sexe d’un bébé)
IP et IC :
Distribution de X avec s2 inconnu : Loi de t student
Remplacer la loi z par la loi t :
Loi t caractérisée par des degrés de liberté = ddl (=n-1 car l’estimateur de S2, s2 est basé
sur (n-1) termes indépendants.
→ Le nombre de degrés de liberté pour un échantillon est le nombre de valeurs d’échantillon

qui peuvent varier après avoir imposé certaines restrictions sur les données.
MV
25
Ex : observations : 1,2,3, moyenne = 2, n = 3 → seulement 2 valeurs de 1,2,3 peuvent varier

après que la moyenne est connue → ddl = n-1 = 2
Z ou t ?
Z : pour une proportion Loi de z : z = 1,96
- σ est connu et la population est normalement distribuée
- σ est connu est n> 30
t: Loi de t : t = 1,984
- σ est inconnu (utiliser S) et la population est normalement distribuée
- σ est inconnu (utiliser S) et n>30
Conditions de validité :
- Si la distribution est normale : EAS
- Si la distribution n’est pas normale : EAS et n>30
On utilise quand on connait la vraie proportion IP sinon on utilise (ex IC)
IC pour une moyenne : estimer la moyenne d’une population :
Certains échantillons de même taille issus de la population ne contiennent par la moyenne µ

Ex : 5IC sur 100
Rem : en recommençant avec de nouveaux échantillons de même taille et en même

nombre : on peut avoir un nombre différent de IC qui ne contiennent pas µ Ex : 4IC sur 100
MV
26
En revanche : si n augmente, + précis → + précis = IC plus petit :
Pour : 100 échantillons de :
n = 30 n = 200 n = 1000
- L’intervalle est centré sur la moyenne d’échantillon

- L’idée est qu’à chaque nouvel échantillon, on a une nouvelle estimation de la
moyenne et un nouvel intervalle
- 95% des intervalles calculés de cette manière contiennent la moyenne de la
population µ
- Avec σ connu
Exemple :
→ Interprétation : pour un IC 95% : Nous avons confiance à 95% que l’IC contienne la vraie
valeur de µ : Cela signifie que si l’on sélectionnait de nombreux échantillons de même taille
MV
27
et qu’on construisait les IC correspondant, à long terme, 95% d’entre eux contiendraient la
vraie valeur de µ.
Incorrect : Il y a 95% de chance que µ soit dans IC
IC pour une proportion : estimer la proportion dans une population :
Certains échantillons de même taille issus de la population ne contiennent par la moyenne π
- L’intervalle est centré sur la moyenne d’échantillon

- L’idée est qu’à chaque nouvel échantillon, on a une nouvelle estimation de la
proportion et un nouvel intervalle
- 95% des intervalles calculés de cette manière contiennent la moyenne de la
population.
Conditions de validité :
- EAS
- 4 conditions à remplir : n = taille d’échantillon
n x borne inférieure de IC > 5
n x (1-borne inférieur de IC > 5
n x borne supérieure de IC > 5
n x (1-borne supérieure de IC) > 5
Ex :
- Nombre fixe de répétitions
- Essais indépendants
- Probabilités constante (& 2 catégories)
MV
28
→ Interprétation : pour un IC 95% : Nous avons confiance à 95% que l’IC contienne la vraie
valeur de π : Cela signifie que si l’on sélectionnait de nombreux échantillons de même taille
et qu’on construisait les IC correspondant, à long terme, 95% d’entre eux contiendraient la
vraie valeur de π.
Incorrect : il y a 95% de chance que π soit dans IC
Intervalle de confiance : généralités :
Etapes :
- Fixer α → 1 – α = niveau de confiance
a = erreur de type I = probabilité de rejeter H0 alors que H0 est vraie (ex : conclure qu’il y a
une différence entre 2 moyennes alors que ce n’est pas vrai) ex : α = 0,05
- Trouver une statistique de test approuvée en fonction du paramètre à estimer (zα/2,
td1 = x, α/2,..) ex : zα/2= 1,96
- Trouver l’écart-type du paramètre à estimer
- Interprétation
L’estimation d’un paramètre quelconque est ponctuelle si l’on associe une valeur à
l’estimateur à partir des données observables sur un échantillon aléatoire. L’estimation
par intervalle associe à un échantillon aléatoire, in intervalle qui recouvre avec
une certaine confiance (≠ probabilité/chance)
L’intervalle de confiance IC est un intervalle de valeurs utilisé pour estimer la vraie valeur
d’un paramètre d’une population
Le niveau de confiance est la probabilité 1-α qui est la proportion du nombre de fois où
l’intervalle de confiance contient le paramètre de la population si on repète l’estimation un
grand nombre de fois
Interprétation : Nous avons 95% (ou 90%) de confiance (≠ chance) que l’intervalle
contienne la vraie valeur de la population. Cela signifie que si on sélectionnait de
nombreux échantillons de même taille et qu’on construisait les intervalles de confiances
correspondants, à long terme, 95% ou (90%) d’entre eux contiendraient la vraie valeur µ
(X)
MV
29
2e partie
Chapitre 1 : Inférence univariée : complément d’informations :
Principe H0 :
- On établit une hypothèse H0 : hypothèse nulle au niveau de la population. Cette

hypothèse est en fait l’inverse de ce que l’on veut prouver.
- On mesure dans notre échantillon la variable correspondante.
- On calcule une statistique test résumant les valeurs de cette variable dans notre
échantillon
Erreur de type I et erreur de type II :
Les décisions prises sur base d’un tel test peuvent être erronées : erreurs inévitables
2 types d’erreurs possibles :
POPULATION (inconnu)
HO est vraie H1 est vraie
ECHANTILLON RHO Erreur de type I ✓
(observé) P(RH0│H0) = α
NON-RHO ✓ Erreur de type II
P(NRH0│H1) = β
I. Test d’hypothèse pour une moyenne :
L’hypothèse que l’on fait dans la population porte sur la moyenne d’une variable continue.
Grâce au TCL on peut utiliser la moyenne X pour estimer µ (si X est approximativement
normale) :
→ Si H0 : µ = µ0 alors : →
L’idée est de rejeter l’hypothèse nulle H0 si notre statistique de test Z prend une valeur trop
peu probable par rapport à la distribution de la statistique de test sous H0 : càd de rejeter
l’hypothèse nulle H0 si notre statistique de ce test prend une valeur trop extrême pour une
N(0,1)
MV
30
Illustrations :
→ On calcule la P-valeur = probabilité d’observer une valeur au moins aussi extrême que
celle observée (Zobs) si H0 est vraie càd pour une N(0,1)
Rem : par aussi extrême on veut dire toute valeur de Z qui remet H0 en cause (en faveur
de H1) au moins autant que la valeur Zobs dans notre échantillon pour Z.
- Si p-valeur est trop petite : c’est une indication que les données observées ne
sont pas plausibles sous H0
→ H0 est rejetée
→ Le test est dit (statistiquement) significatif
- Si p-valeur est grande : c’est une indication que les données observées ne sont
pas fortement en contradiction avec H0 (la majorité du vert est probable)
→ H0 n’est pas rejetée
→ Le test est dit non (statistiquement) significatif
Définition de trop petit :

On définit à priori un seuil α = seuil de significativité
On exclut α% des valeurs les moins probables de notre distribution sous H0
MV
31
Test Z pour une moyenne :
On calcule : et notre règle de décision est :
ou de façon équivalente : avec
Test Student pour une moyenne :
Rem : parfois on ne sait pas calculer Z car σ inconnu → T suit une distribution de Student
sous H0 :
On veut tester : On calcule : On sait que :
Règle de décision :
ou de façon, équivalente :
avec
→ La distribution Student ressemble à la Normale mais avec des « queues » à gauche et à

droite plus épaisses.
Ex : Sin n=16 et t = 1,75, comment trouver la p-valeur ?
avec table des quantiles de la variable aléatoire de Student :
Pour pouvoir utiliser un test t pour une moyenne, il faut :
- Que le test ne porte que sur une seule variable

- Que la variable considérée soit continue
- Que la variable considérée soit approximativement Normale → cette exigence est
d’autant plus stricte que l’échantillon est petit
Ex : X = contenance d’un fut de bière
MV
32
Erreur de type I et de type II:
Même si ces valeurs ont une très faible probabilité, elles

peuvent quand même arriver (avec une probabilité α)
= erreur de type I (α)

= « faux-positif »
P(RH0 │H0)
Ces valeurs peuvent arriver même si la vraie distribution

est H1 et pas H0
= Erreur de type II (β)

« faux-négatif »
P(NRH0 │H1)
→ Puissance d’un test : On va souvent parler de la puissance d’un test, donnée par
puissance = 1-β, plutôt que du risque d’erreur de type II (β), ce qui est en fait équivalent :
! Le type d’erreur de type II (et donc la puissance) est en fait contrôlé pour une hypothèse
alternative H1 prédéfinie
Rem : En pratique, on va se fixer un risque d’erreur de type II (β) que l’on trouve acceptable
(souvent β = 0,10 ou 0,20) et on va calculer la taille d’échantillon n nécessaire pour contrôler
ce risque à cette valeur.
Donc on commence par fixer α et β à priori
- Au moment de l’expérience ; on calcule la taille d’échantillon nécessaire pour

contrôler le risque d’erreur de type II à β
- Au moment de l’analyse des résultats, on contrôle le risque d’erreur de type I à α en
utilisant cet α comme seuil pour décider si on rejette ou pas H0
Equivalence règle de décision sur base de l’IC :
MV
33
Test unilatéral ou bilatéral :
On peut définir de 3 manières différentes les hypothèse alternative (H1), en fonction du

problème traité :
Test bilatéral : lorsqu’on cherche à mettre en évidence une différence mais sans s’occuper
du sens de la différence :
Test unilatéral : lorsqu’on cherche à mettre en évidence une différence pour un sens de la
différence pré-définie
→ Application lorsqu’on connait a priori le sens de la différence pour l’hypothèse alternative,

ou lorsque l’on a de bonnes raisons de ne mettre en évidence qu’un seul sens de la
différence
→ La p-valeur est la probabilité d’obtenir pour la statistique de test une valeur plus extrême
que la valeur observée et ce uniquement dans le sens de l’hypothèse alternative :
MV
34
Recommandation :
- Choisir (avant d’avoir accès aux données de l’étude) de faire un test bilatéral ou
unilatéral en fonction de l’objectif de l’étude. On recommande de faire un test
unilatéral lorsque la différence est d’office dans un sens
- Lorsque l’on présente une p-valeur ; toujours spécifier à quel type de test celle-ci
se rapporte
- Toujours vérifier si un test est bilatéral ou unilatéral avant d’interpréter sa p-valeur
et interpréter les résultats du test en fonction du type de test.
- Ne pas « sur-interpréter » une p-valeur non significative
Test non paramétrique :
= test ne reposant sur aucune hypothèse de distribution pour X. Ce test fonctionne

différemment mais l’interprétation de la p-valeur est la même que pour les tests vus
précédemment
MV
35
Il ne requiert aucune hypothèse sur la distribution sous-jacente de X, par contre on peut

montrer qu’il est préférable d’utiliser un test de Student quand la distribution de X est en fait
proche d’une distribution normale.
Ex : tests des rangs signés de Wilcoxon
II. Test d’hypothèse pour une proportion :
L’hypothèse que l’on fait dans la population porte sur la probabilité de succès d’une variable
binaire.
Y : nombre de succès parmi n expériences

π : probabilité de succès dans la population
Estimation et intervalle de confiance :
Estimation :
IC à 95% :
Z1-α/2 : percenpile (1-α/2) d’une N(0,1)
Test Z sur une proposition :
Rem : si la proposition a un n non suffisamment : on utilise un test exact qui se base sur la
distribution binomiale du nombre de succès sous l’hypothèse nulle
Ex : test exact de Fisher : La statistique de test et la p-valeur se calculent différemment mais

la p-valeur s’interprète de la même façon
MV
36
Chapitre 2 : Inférence bivariée :
Comment comparer les résultats obtenus dans 2 populations.
- VAR 1 : variable d’intérêt (quantitative ou qualitative)

- VAR 2 : variable qualitative (binaire) décrivant l’appartenance à la population A ou B
Ex : 2 méthodes différentes de traitement pour une pathologie. (avec critères primaires :

coûts et temps de la procédure, et critères secondaires : réussite et complications)
I. Inférence sur 2 moyennes :
POPULATION ECHANTILLON
A B A B
Si H0 est vrai : <<<< 0
→ On calcule la probabilité d’observer une différence d dans notre échantillon si HO est vraie
dans la population
a) Test d’hypothèse pour comparer 2 moyennes :
Conditions d’applications :
• La variable d’intérêt suit une distribution normale ou approximativement normale si

l’échantillon est suffisamment grand
• 2 échantillons (aléatoires) indépendants
- Chaque échantillon est représentatif de sa population
- Pas de facteurs confondants
- Les valeurs observées pour un échantillon ne sont pas liées aux valeurs observées
dans l’autre échantillon
Méthode :
- On va construire une statistique de test qui va nous permettre de vérifier si

n’est pas trop grand par rapport à ce que l’on s’attend si H0 est vrai dans la
population
- La distribution de notre statistique s’obtient en suivant au raisonnement similaire au
cas univarié (conséquence du TCL)
MV
37
1e cas : on suppose que les 2e cas : on suppose que les

variances sont pas les variances sont les mêmes dans
mêmes dans les 2 les 2 populations
populations
Test d’hypothèse
(bilatéral)
Statistique de test
Résume ce que l’on a
observé dans notre
échantillon
Distribution sous H0
Résume ce à quoi on
s’attend si H0 est vrai
P-valeur
Règle de décision
Compare ce que l’on a
observé et ce à quoi
on s’attendait
Erreur de type I : probabilité de conclure qu’il y a un effet du traitement (µ1 ≠ µ2) alors qu’en
fait il n’y en a pas (µ1 = µ2) = faux positif
Erreur de type II : probabilité de conclure qu’il n’y a pas d’effet du traitement (µ1 = µ2) alors
qu’en fait il y’en a un (µ1 ≠ µ2) = faux négatif
Bleu : faible probabilité d’arriver sous

H0, peuvent quand même arriver (avec
une probabilité α) = erreur de type I (α)
= P(RH0│H0)
Rouge : Ces valeurs peuvent arriver

même si la vraie distribution est H1 et
non H0 = erreur de type II (β) =
P(NRH0│H1)
En pratique :
- On fixe a priori le niveau α que l’on va utiliser pour nos études

- On définit a priori l’effet traitement & = µ2 - µ1 que l’on souhaite mettre en évidence
- On fixe la puissance (1 – β) càd la probabilité que l’on se donne de rejeter H0 si en
effet dans la population & = µ2 - µ1
- On calcule la taille d’échantillon correspondante afin de contrôler α et β aux valeurs
choisies.
MV
38
ATTENTION :
- Si en réalité l’effet du traitement dans la population est plus petit (<&) alors la
puissance (1 – β) sera plus faible que prévu
- Si en réalité l’effet du traitement dans la population est plus grand (>&) alors la
puissance (1 – β) sera plus forte que prévu
Avec une taille d’échantillon suffisamment grande même une très petite différence peut être
indicative
Statistiquement significatif ≠ cliniquement pertinent
Signification statistique ou médicale/biologique :
- Il ne faut pas prendre de décision sur l’avenir d’un traitement sur la seule base d’une
p-valeur
- Un résultat statistiquement significatif n’est pas nécessairement biologiquement
significatif
- Il est recommandé d’accompagner la p-valeur d’un intervalle de confiance pour le
paramètre de population sur lequel l’hypothèse a été formulée
Test bilatéral – test unilatéral :
Test bilatéral : on cherche à mettre une différence entre 2 moyennes mais sans s’occuper
du sens de la différence. On parle « d’effet du traitement » sans sur concentrer sur un effet
positif ou un effet négatif
MV
39
Test unilatéral : on cherche à mettre en évidence une différence entre deux moyennes pour
un sens de la différence prédéfinie
Applications : lorsqu’on connait a priori ou qu’on a de bonnes raisons d’affirmer un sens de la

différence
p-valeur : probabilité d’obtenir pour la statistique de test une valeur plus extrême que la
valeur observée et ce uniquement dans le sens de l’hypothèse alternative
MV
40
Si je veux monter que mon nouveau traitement (trt1) est plus efficace (augmente la
moyenne) que celui de mon concurrent (trt2) :
b) Intervalle de confiance pour la différence de 2 moyennes :
Si au lieu de faire une seule fois l’expérience, on la reproduisait un grand nombre de fois, alors
dans 95% des expériences, la valeur estimée pour µ1 - µ2 serait dans cet IC
Plus l’IC est étroit, plus on a confiance dans notre estimation
Notre test peut se réécrire :
→ Avec le même raisonnement qui précédemment, si IC ne contient pas zéro, cela confirme
l’hypothèse que µ1 et µ2 ont des valeurs différentes dans la population
MV
41
On peut utiliser 2 méthodes pour tester une hypothèse H0 avec un niveau de signification
α:
- Test statistique, calculer la p-valeur et la comparer avec α
- Calculer un intervalle de confiance (1-α) x 100% pour le paramètre de population
testé
➢ S’il contient la valeur suggérée par H0, on ne rejette pas H0 à un niveau de
signification α
➢ S’il ne contient pas la valeur suggérée par H0, on rejette H0 à un niveau de
signification α
c) Inférence sur 2 moyennes pour données appariées :
Données appariées ou pairées : non indépendantes
Ex : mesures avant/après sur les mêmes sujets, mesures sur des paires de jumeaux,
mesures des organes différents du même sujet
→ On ne peut plus considérer nos 2 échantillons comme indépendants : les valeurs

observées dans l’échantillon 1 sont liées aux valeurs observées dans l’échantillon 2
→ On doit utiliser des techniques spécifiques pour le calcul des tests d’hypothèse et la
construction d’intervalles de confiance
Echantillons indépendants : Echantillons dépendants :

On calcule si la différence des moyennes On calcule la différence dans chaque paire et
= 0 ou pas on regarde si la moyenne de ces différences
= 0 ou pas
Idée : s’il n’y a pas de différence au niveau de la population, on s’attend à ce que d soit
proche de zéro → on vérifie que d n’est pas trop grande
Objectif : estimer ou tester la valeur de µd :
MV
42
Test d’hypothèse bilatéral
Statistique de test
P-valeur
Règle de décision
Intervalle de confiance à (1-α)% pour la moyenne d
II. Inférence sur 2 proportions :

a) Test d’hypothèse pour comparer 2 proportions :
Conditions d’applications :
• La variable mesurée est une variable binaire, on peut donc résumer les données par
la proportion de « succès »
• 2 échantillons (aléatoires) indépendants
- Chaque échantillon est représentatif de sa population
- Pas de facteurs confondants
- Les valeurs observées pour un échantillon ne sont pas liées aux valeurs observées
dans l’autre échantillon
Idée :
- Si H0 est vrai dans la population, on ne s’attend pas à observer une grande

différence entre dans notre échantillon
- On va construite une statistique Z qui va nous permettre de vérifier si n’est
pas trop grand par rapport à ce que l’on s’attend si H0 est vrai dans la population
MV
43
- La distribution de notre statistique sous H0 s’obtient en suivant un raisonnement

similaire au cas univarié (conséquence du TCL) et requiert une taille d’échantillon
suffisamment grande
Test d’hypothèse bilatéral
Statistique de test
P-valeur
Règle de décision
Test chi-carré : test permettant de comparer 2 proportions indépendantes

On a vu que la distribution sous H0 est donnée par :
En fait on peut montrer que c’est équivalent de dire que la distribution sous H0 de Z2 est
une distribution chi-carré :
Conditions de validité : Repose sur approximation normale : n doit être suffisamment

grand (conséquence de TCL)
Pas valide si :
Rem : si on entre pas dans les conditions : tests exacts (Fischer)
MV
44
b) Intervalle de confiance pour la différence de 2 proportions :
On peut calculer un intervalle de confiance à (1-α)%
Rem : il existe aussi une procédure de calcul de l’IC exact si on n’est pas dans les conditions
d’applications de l’approximation normale
c) Rapport de côtes et rapport de risques :
Dans la pratique, il est assez rare que l’on utilise la différence des proportions pour résumer
l’effet d’un traitement sur un endpoint binaire
On va plutôt utiliser : le rapport des risques (RR) et le rapport des cotes (OR)
RR : ratio des proportions estimées :
→ Le risque de succès est 41% plus élevé dans le groupe

expérimental par rapport au groupe contrôle
ATTENTION : le RR peut se calculer dans les études prospectives (et donc dans les essais
cliniques) mais pas dans une étude rétrospective de type cas-contrôle
Interprétations :
OR : probabilité de succès sur probabilité d’échec
Ex : cote de réponse dans chacun des groupes
MV
45
Rapport de cotes : rapport entre la cote dans le groupe 1 et la cote dans le groupe 2
→ Le cote de succès est 71% + élevé

dans le groupe expérimental par rapport
au groupe de contrôle
ATTENTION : le OR peut se calculer dans tous les types d’études. Souvent utilisé mais
souvent mal interprété
Interprétation :
RR et OR : interprétation
Même interprétation qualitative
Mais pas même interprétation quantitative
- Quand le risque de succès est faible (évènements rares), le RR et le OR ont des

valeurs numériques proches
- Quand le risque de succès est élevé, le RR et le OR peuvent prendre des valeurs
numériques très différentes
MV
46
Chapitre 3 : Régression linéaire :
I. Corrélation linéaire :
Corrélation = lien entre 2 variables quantitatives
Il y’a une corrélation entre 2 variables quand l’une est liée à l’autre
Ex : taille et poids des étudiants : Ex : taille des étudiants et montant nette du

premier salaire
Scatterplot : représentation graphique croisant les observations faites pour 2 variables
→ En interprétant un tel graphique, on peut se faire une bonne idée de comment évolue ces
2 variables l’une par rapport à l’autre :
Mesure la corrélation :
Coefficient de corrélation de Pearson : indice entre -1 et 1 mesurant l’association (linaire)

entre 2 variables X et Y :
MV
47
Rem : le chocolat rend -il intelligent ? Corrélation n’est pas causalité
II. Régression linéaire simple :
On cherche à mieux décrire le lien entre les 2 variables X et Y
→ Pour ce faire on « résume » la relation linaire X et Y par une droite : il faut donc trouver la
« meilleure » droite pour résumer cette relation.
Rappel : équation d’une droite : Y = a + bx
→ Trouver la « meilleure » droite pour résumer cette relation, revient à trouver les valeurs de
a et b qui « collent » le mieux aux données : tout le monde n’est pas sur cette droite
→ On choisit la droite qui minimise la somme des carrés des erreurs (ei) :
= critère des moindres carrés
→ Ce qui nous intéresse en réalité c’est de faire de l’inférence, càd extrapoler les résultats à
la population :
→ On peut montrer qu’on peut estimer α et β par a et b obtenu selon le critère des moindres
carrés. On a :
→ On peut montrer qu’on peut estimer σ par l’écart type des résidus :
MV
48
III. Régression linéaire multiple :
On cherche à mieux décrire le lien entre : une variable Y (=réponse) continue et plusieurs
variables X explicatives
On trouve les valeurs de par le critère des moindres carrées et par la méthode
du maximum de vraisemblance
Interprétation de :
- Intercept (OAO : ordonné à l’origine)

- Valeur moyenne de Y pour un individu pour qui toutes les variables X valent O
- N’a en générale pas de sens biologique
Interprétation de :
- Coefficient de
- Changement moyen de valeur de Y quand augmente d’une unité (les valeurs de
toutes les autres variables étant fixées)
Modèle simplifié : on retire du modèle les variables qui n’ont pas un impact statistiquement
significatif
IV. Note sur la régression logistique :
On cherche à mieux décrire le lien entre une variable Y (=réponse) binaire et plusieurs
variables X explicatives
On trouve les valeurs par la méthode du maximum de vraissemblance
MV

Eléments de Statistiques Médicales

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Eléments de Statistiques Médicales

Transféré par

Droits d'auteur :

Formats disponibles

1

Eléments de statistiques médicales

Chapitre 1 : Introduction et concepts principaux :

Statistique = ensemble de techniques permettant de collecter, organiser, analyser et

Rem : méthodologie adéquate importante : abondance de donnée peut masquer la véritable

II. Concepts de base :

En général : quasi toujours impossible de réaliser des mesures pour l’ensemble de la

→On effectue les mesures sur un échantillon de notre population.

L’échantillon doit être sélectionné de façon à être représentatif de la population étudiée

b) Plan d’expérience : décrit la façon dont va être menée l’expérience ou l’étude

Etude expérimentale randomisée : Traitement A et B alloués au hasard (randomisation)

Exemple : création de 2 groupes de façon aléatoire.

Essais cliniques = étude expérimentales (randomisées).

Exemple : taille, poids, nombre de globules blancs, couleur des yeux..

Un Libellé : nom décrivant une variable.

Modalités : différents niveaux/valeurs qu’une variable peut prendre.

• Variable quantitative : variable dont les modalités sont numériques (quantifie,

- Variables discrètes : nombre fini de valeurs possibles entre n’importe quelles

- Variables nominales : catégories distinctes auxquelles un nom est assigné mais

- Variables ordinales : catégories distinctes auxquelles un nom est assigné et pour

→ Souvent, on associe aux modalités des variables qualitatives un nombre entier.

Remarque : On parlera aussi :

e) Statistique descriptive : 1e étape d’une analyse statistique.

g) Etapes principales d’une étude statistique :

Document rédigé et approuvé avant le début de l’étude et décrivant en détails pourquoi

Il contient de l’info sur :

- Objectif(s), Question(s) clairement définies.

X = variable (données continues ou binaires)

Chapitre 2 : Statistiques descriptive univariée :

I. Statistique descriptive univariée :

Mesure, détermination de la valeur de chaque variable et enregistrement = base de données

But (de la statistique descriptive) : résumer les données.

On travaille avec une seule variable à la fois.

II. Distribution empirique :

= fréquences (en nombre de fois) ou fréquences relatives (en proportion ou pourcentage)

(Combien de fois on observe chaque observation dans notre échantillon)

Remarque : La méthode de construction d’une distribution empirique de fréquence et sa

Suffit de lister toutes les valeurs possibles et de les associer.

Exemple : Pour notre groupe de 50 étudiants, quelle est la distribution empirique de

- La variable prend en général trop de valeurs, beaucoup de modalités

- La plupart des valeurs apparaissent qu’une fois (surtout si continue)

Exemple : Poids de 24 bébés (en kg) nés 1 semaine post-terme.

→Regroupement en intervalles de valeurs, classes. Attention : les classes doivent être

→Une grande majorité des bébés ont un

III. Représentation graphique de la distribution empirique :

La façon de représenter une distribution empirique dépend du type de variable.

Diagramme en secteurs ou en tarte : angle est proportionnel à la fréquence relative. Rem :

Histogramme : diagramme en barre dont la largeur

- Abscisse : limite (ou point central) des classes

- Classes ont la même largeur : fréquence observée = hauteur des rectangles.

Autre manière de décrire l’ensemble des données, de résumer les caractéristiques

a) Mesures de localisation : (ou mesure de tendance centrale)

→Indiquent le « centre » de la distribution.

• çç arithmétique : (Seulement si variable quantitative.)

• Médiane : (variables quantitatives et variables qualitatives ordinales)

- N’existe pas de formule mathématique pour la calculer.

- Toujours une valeur mesurée de l’échantillon.

Attention : fréquence cumulée

Exemple : Enquête de satisfaction.

Graphique de Pareto permet d’illustrer à la fois les fréquences et les fréquences

• Mode : (variables qualitatives, variables quantitatives discrètes, variables

- N’existe pas de formule mathématique pour le calculer.

Exemple : Poids de 24 bébés : on subdivise la