Vous êtes sur la page 1sur 48

1

Eléments de statistiques
médicales
2018-2019

MV
2

Eléments de statistiques médicales

1e partie :

Chapitre 1 : Introduction et concepts principaux :

I. Introduction :

Statistique = ensemble de techniques permettant de collecter, organiser, analyser et


présenter des données.

Rem : méthodologie adéquate importante : abondance de donnée peut masquer la véritable


information d’intérêt pour notre étude.

II. Concepts de base :


a) Population et échantillon :

En général : quasi toujours impossible de réaliser des mesures pour l’ensemble de la


population étudiée.

→On effectue les mesures sur un échantillon de notre population.

Exemple :
- Population trop grande : population = femmes atteintes d’un cancer du sein.
- Population virtuelle (échantillon) : population = femmes atteintes d’un cancer du
sein et soignées avec un nouveau traitement bien spécifique.

Les outils utilisés pour décrire une population sont les paramètres statistiques.
Les outils utilisés pour décrire un échantillon sont des statistiques .

Unité expérimentale : chacun des éléments de l’échantillon sur lesquels les mesures sont
réalisées (x)

L’échantillon doit être sélectionné de façon à être représentatif de la population étudiée


→ Echantillon aléatoire : échantillon sélectionné au hasard dans la population de façon à
ce que chaque membre de la population ait la même chance d’être sélectionné.
= Echantillon non biaisé : échantillon dont on ne met pas en doute le caractère aléatoire.
Attention : Dans certaine situation (notamment en médecine : participants volontaires à
l’étude), il est compliqué/impossible d’obtenir un échantillon aléatoire de la population.
→Important de réfléchir à la représentativité de l’échantillon obtenu !

But : inférer les caractéristiques de la population d’origine à partir des données obtenues
sur l’échantillon.
On utilise des données d’échantillon pour :
- Estimer la valeur d’un paramètre d’une population
- Tester une hypothèse sur la population

MV
3

Statistique = science qui permet de tirer des conclusions sur une population au départ
d’observations faites sur un échantillon représentatif de cette population. = recensement

b) Plan d’expérience : décrit la façon dont va être menée l’expérience ou l’étude


statistique.

Attention : il s’établit avant le début de l’expérience. Des décisions critiques pour la réussite
de l’expérience et l’analyse statistique des données sont prise dès ce moment.

Etude expérimentale randomisée : Traitement A et B alloués au hasard (randomisation)


Définition de randomisation : Échantillonnage aléatoire destiné à réduire ou supprimer
l'interférence de variables autres que celles qui sont étudiées : on isole les autres
variables possibles pour ne prendre en compte que celle(s) concernée(s)

But : Créer des groupes semblables auxquels des « traitements » différents seront
appliqués.
→Pas de raison que le groupe A soit différent du groupe B. S’il y’a différence, elle ne peut
être due qu’au traitement.

Exemple : création de 2 groupes de façon aléatoire.


- 1e groupe : activité physique ext (traitement A).
- 2e groupe : pas d’activité physique ext (traitement B).
→Si on observe une différence dans la baisse du cholestérol entre les deux
groupes : on peut penser que c’est dû au traitement car c’est la seule chose qui
diffère entre les 2 groupes.

Essais cliniques = étude expérimentales (randomisées).


Phase I : 1e expérimentation chez l’être humain, détermination de la dose, essai clinique
non randomisé.
Phase 2 : Etude de petite/moyenne ampleur, en général, non-randomisée visant à établir
l’activité et le profil de toxicité du traitement.
Phase 3 : Etude de très grande ampleur, en général internationale, toujours randomisée,
visant à démontrer qu’un nouveau traitement est (au moins) plus efficace que le traitement
actuel.
c) Variables statistiques :

Variable : mesure qui peut prendre des valeurs différentes d’une unité expérimentale à
l’autre, ou d’un groupe d’unités expérimentales à un autre.

Exemple : taille, poids, nombre de globules blancs, couleur des yeux..

Un Libellé : nom décrivant une variable.

Modalités : différents niveaux/valeurs qu’une variable peut prendre.

MV
4

Il existe différents types de variables et les techniques statistiques utilisées pour résumer
et analyser ces variables vont dépendre du type de variable.

• Variable quantitative : variable dont les modalités sont numériques (quantifie,


mesure une caractéristique). Ex : âge, poids, tension artérielle,..

- Variables discrètes : nombre fini de valeurs possibles entre n’importe quelles


deux valeurs. Ex : nombre de parents vivant au domicile principal, nombre
d’enfants, nombre de tumeurs,..(nombre entier ou à une décimale,..)
- Variables continues : nombre infini de valeurs possibles entre n’importe quelles
deux valeurs. Ex : taille, poids, pression artérielle,..

→En principe, le nombre de valeurs possibles qu’une valeur continue peut prendre est
infini. En pratique, les mesures se font avec une précision finie dans un intervalle borné →
nombre fini de valeurs. Ex : Poids mesuré en kg : 50, 51, 52,.. Poids mesuré en gramme :
50.1, 50,2,..
• Variable qualitative/catégorielle : variable dont les modalités indiquent à quelle
catégorie appartient l’unité expérimentale (décrit une caractéristique). Ex : sexe,
couleur des yeux, présence/absence de mutation génétique,..

- Variables nominales : catégories distinctes auxquelles un nom est assigné mais


pas un ordre (pas de classement ordonné possible). Ex : sexe (homme, femme),
type de cancer (poumon, vessie,..), couleur des yeux (bleu, brun,..), type de
mutation,..

- Variables ordinales : catégories distinctes auxquelles un nom est assigné et pour


lesquelles on peut assigner un ordre, mais par contre on ne sait pas quantifier la
« distance » séparant les différentes catégories. Ex : niveau socio-économique
(faible, moyen, élevé), qualité de vie d’un patient (mauvaise, moyenne, bonne),
stade de la maladie, échelle de performance,..

→ Souvent, on associe aux modalités des variables qualitatives un nombre entier.


Variables nominales : Ces nombres entiers ne représentent rien de particulier, ils sont
associés aux catégories de manière arbitraire. Ex : 1=bleu, 2=vert, 3=brun, 4=autre.
Variables ordinales : Ces nombres entiers indiquent un ordre mais pas une échelle.
Ex : 1=mauvaise, 2=moyenne, 3=bonne.

Remarque : On parlera aussi :


• Variable binaire : variable prenant seulement deux valeurs, souvent codée en 0 et
1 (en général : variable qualitative).
• Variable de comptage : variable prenant des valeurs entières positives (variable
quantitative discrète).
• Variable de survie : variable prenant des valeurs continues positives, représentant
souvent le temps entre une origine et un évènement précis (variable quantitative
continue) Ex : temps entre le diagnostic d’un cancer et le décès du patient.
→L’évènement d’intérêt n’est pas toujours observé (données incomplètes) : on
parle de données censurées. Ex : Certains ne seront pas décédés au moment de
l’analyse des données. Toutes les unités expérimentales ne peuvent pas être
prises en compte.

MV
5

d) Données statistiques :

Données brutes : ensemble des valeurs mesurées pour les variables pour toutes les unités
expérimentales de l’échantillon. = observation.

e) Statistique descriptive : 1e étape d’une analyse statistique.

But : décrire les données de l’échantillon et résumer les mesures réalisées lors de l’étude au
moyen de graphiques et tableaux.

f) Inférence statistique :

But : utiliser l’information contenue dans l’échantillon pour tirer des conclusions sur la
population.

Techniques :

- Estimation des caractéristiques de la population sur base des mesures réalisées sur
l’échantillon.
- Tests d’hypothèse : procédure statistique permettant de vérifier, à partir des
données de l’échantillon, si des hypothèses émises a priori sont plausibles au niveau
de la population.
- Modélisation du lien entre différentes variables.

Rem : En faisant de l’inférence, il arrive que l’on commette des erreurs. Ce qu’on déduit de
l’échantillon ne peux pas forcement être induit à la population

→Les méthodes statistiques vont inclure des notions de probabilité afin de quantifier les
risques d’erreur dans l’inférence.

g) Etapes principales d’une étude statistique :


- Planification et mise sur pied de l’étude de manière à répondre efficacement à la
question posée.
- Collection et organisation des données (mesures, encodage,..).
- Présentation et résumé de ces données (= statistique descriptive).
- Analyse de ces données (= inférence statistique : estimation, tests d’hypothèse,
modélisation,..)
- Présentation et interprétation des résultats de l’analyse des données dans un
langage compréhensible par la communauté scientifique et par le commanditaire de
l’étude.

→Dans le but de tirer des conclusions sur le phénomène étudié sur base de ces données et
de les extrapoler à la population étudiée.

h) Protocole d’expérience :

Document rédigé et approuvé avant le début de l’étude et décrivant en détails pourquoi


l’étude va être conduite, comment elle va être conduite et par qui, et comment elle va être
analysée.

MV
6

Il contient de l’info sur :

- Objectif(s), Question(s) clairement définies.


- Définitions des unités expérimentales, taille d’échantillon, sélection de l’échantillon.
- Facteurs et traitements considérés.
- Autres sources de variations (nuisance).
- Plan expérimental, randomisation.
- Technique d’analyse des résultats.
i) Rappels math :

Variable : X
Valeurs des variables observées pour toutes les unités expérimentales de l’échantillon :
X1, X2, .., Xn (n = nombre d’unités expérimentales)
→donc Xi = valeur observée pour la variable X pour la ième unité expérimentale de
l’échantillon.

X = variable (données continues ou binaires)


x = une valeur numérique ou modalité de la variable X = différentes valeurs qu’une
variables peut prendre.
Si a et b sont des nombres entiers avec a ≤ b alors :

MV
7

Chapitre 2 : Statistiques descriptive univariée :

I. Statistique descriptive univariée :

Mesure, détermination de la valeur de chaque variable et enregistrement = base de données

But (de la statistique descriptive) : résumer les données.

On travaille avec une seule variable à la fois.

Exemple : enquête chez 50 étudiants de bac 2. Pour chacun on détermine son sexe
(variable binaire), son âge (variable continue), son grade obtenu en 1e (variable
catégorielle), son humeur du jour (variable continue).

II. Distribution empirique :

= fréquences (en nombre de fois) ou fréquences relatives (en proportion ou pourcentage)


avec lesquelles on observe les différentes valeurs possibles dans notre échantillon.

(Combien de fois on observe chaque observation dans notre échantillon)

Remarque : La méthode de construction d’une distribution empirique de fréquence et sa


représentation dépend du type de la variable.

a) Variable qualitative :

Suffit de lister toutes les valeurs possibles et de les associer.

- Fréquence : nombre de fois que la valeur a été observée dans notre échantillon
- Fréquence relative : fréquence divisée par le nombre total d’observation (et pe
exprimé en pourcentage)

Exemple : Pour notre groupe de 50 étudiants, quelle est la distribution empirique de


la variable grade ?
Niveau Dénombrement Probabilité
D 21 0.42
GB 9 0.18
LGD 2 0.04
S 18 0.36
Total 50 1.00

b) Variable quantitative :

On considère les mêmes éléments MAIS on ne va en général pas pouvoir utiliser le même
type de représentation car :

- La variable prend en général trop de valeurs, beaucoup de modalités

- La plupart des valeurs apparaissent qu’une fois (surtout si continue)

MV
8

Exemple : Poids de 24 bébés (en kg) nés 1 semaine post-terme.

→La variable poids prends des valeurs réelles = variable quantitative continue
→La plupart des valeurs apparaissent une seule fois.

→Regroupement en intervalles de valeurs, classes. Attention : les classes doivent être


distinctes les unes des autres (pas de recouvrement) et de préférence de même largeur.

→Une grande majorité des bébés ont un


poids entre 3.9 et 4.1 Kg.

III. Représentation graphique de la distribution empirique :

La façon de représenter une distribution empirique dépend du type de variable.

a) Variable qualitative :

Diagramme en barre : chaque fréquence de la variable est représentée par une barre. Rem :
fréquence et fréquence relative

Diagramme en secteurs ou en tarte : angle est proportionnel à la fréquence relative. Rem :


souvent difficile à interpréter, réservé au cas où on a peu de catégories.

b) Variable quantitative :

On peut pas utiliser ces graphiques car la variable prend trop de valeurs et la plupart de ces
valeurs n’apparaissent qu’une fois. → groupement de ces valeurs en intervalles (on gagne
en lisibilité mais on perd en précision) →utilisation d’un histogramme.

Histogramme : diagramme en barre dont la largeur


des barres représentent l’intervalle de valeurs et la
hauteur représente la fréquence (ou fréquence
relative) de cet intervalle de valeurs, les barres sont
adjacentes.

- Abscisse : limite (ou point central) des classes


- Base des rectangles = largeur de chaque classe

MV
9

Attention :

- Classes ont la même largeur : fréquence observée = hauteur des rectangles.


- Classes sont de largeurs différentes : fréquence observée = aire du rectangle.
IV. Mesures numériques :

Autre manière de décrire l’ensemble des données, de résumer les caractéristiques


principales de la distribution d’une variable.

a) Mesures de localisation : (ou mesure de tendance centrale)

→Indiquent le « centre » de la distribution.

• çç arithmétique : (Seulement si variable quantitative.)

= somme des observations pour cette variable divisée par le nombre d’observation :

- Souvent une valeur qui n’est pas observée dans nos données.
- Sensible aux valeurs extrêmes : dans certains cas n’est plus représentative de la
localisation du gros de la distribution. On dit qu’elle est peu robuste pour les valeurs
extrêmes.
- Moyenne d’échantillon = moyenne des observations de l’échantillon.

• Médiane : (variables quantitatives et variables qualitatives ordinales)

= quantile 50% = la plus petite valeur supérieure ou égale à au moins 50% des données.

- N’existe pas de formule mathématique pour la calculer.


- Pour un nombre impair d’observation, elle correspond à la valeur du milieu lorsque
les observations sont classées par ordre croissant.
Exemple : nombre impair d’observation : supposons que pour une variable nous
ayons observé les valeurs 1, 2, 3, 4, 5 (n=5)

→Médiane = 3 soit la plus petite valeur supérieure ou égale à au moins 50% des
observations.
Exemple : nombre pair d’observation : supposons que pour une variable nous ayons
observé les valeurs 1, 2, 3, 4 (n=4)

→Médiane = 2
Pour certains : médiane = la moyenne des deux valeurs centrales
(ici : 2+3/2 =2,5)

MV
10

- Toujours une valeur mesurée de l’échantillon.


- Insensible aux valeurs extrêmes.
- Si distribution symétrique : la médiane et la moyenne sont proches.

Attention : fréquence cumulée

Exemple : Enquête de satisfaction.

→ « Plutôt satisfait » est la classe médiane car c’est la 1e classe à remplir la condition
que 50% des observations sont dans cette classe ou dans une des classes
précédentes.

Graphique de Pareto permet d’illustrer à la fois les fréquences et les fréquences


cumulées : on classe les fréquences dans l’ordre de décroissance.

• Mode : (variables qualitatives, variables quantitatives discrètes, variables


quantitatives continues).

= valeur la plus souvent observée dans les données, correspond à la valeur associée à la
plus grande fréquence.

- N’existe pas de formule mathématique pour le calculer.


- Toujours une valeur observée dans les données.
Exemple : le mode des observations 1,2,2,2,3,4 est la valeur 2 (avec une fréquence
de 3).
- On peut avoir plusieurs modes (plusieurs fréquence identiques). Rem : Si 2 modes :
distribution bimodale, si plus de 2 modes : distribution multimodale).

Rem : pour les variables quantitatives continues : la fréquence des valeurs observées est
souvent 1(on les retrouve qu’une fois) : autant de modes que de données. → intervalles
(classes) sur la gamme des valeurs possibles de la variable. Le(s) sous-intervalle(s)
contenant le plus d’observations est donc la classe modale.

MV
11

Exemple : Poids de 24 bébés : on subdivise la


gamme des valeurs possibles en 9 sous-intervalles
de largeurs 0.05 pour construire l’histogramme.
→La classe centrée en 3.95 ([3.9,4.0[) est la classe
modale.

b) Mesures de dispersion :

= indiquent si les valeurs observées sont fort rassemblées ou pas autour de la tendance
centrale. →Information sur l’hétérogénéité des variables.

• Etendue : (seulement variable quantitative)

= différence entre la valeur maximale observée et la valeur minimale observée.

- Ne dépend donc que du min et du max : fortement influencée par les valeurs
extrêmes.
- Tends à augmenter avec le nombre d’observations dans l’échantillon.

• Ecart inter-quartile :

Quartile Q1 : quantile 25% càd la plus petite valeur supérieure ou égale à au moins 25% des
données.

Quartile Q2 : quantile 50% càd la plus petite valeur supérieure ou égale à au moins 50% des
données. = médiane !!

Quartile Q3 : quantile 75% càd la plus petite valeur supérieure ou égale à au moins 75% des
données.

L’écart inter-quartile : Q3-Q1 càd l’étendue des 50% des données centrales.

Exemple n=12

→L’écart interquartile est Q3 – Q1 = 8-3 = 5

→L’étendue des 50% de données centrales est 5.

MV
12

- Pas sensible aux valeurs extrêmes.

Percentile Pk (k = 1,…, 100, correspond aux pourcentages et


Pk = la plus petite valeur supérieure ou égale à au moins k%
des données.

- Les percentiles P25, P50 et P75 correspondent aux


quartiles 1,2 et 3.
- Le percentile P
- 50 correspond au quartile 2 et donc à la médiane.

Boite à moustache (ou diagramme en boite ou boxplot) = représentation graphique de


la médiane, moyenne, quartiles et valeurs minimales et maximales (ou percentiles P5 et
P95 selon les logiciels).
→Donne une idée de la localisation, dispersion, symétrie et sur existence des valeurs
extrêmes : bonne alternative à l’histogramme si on étudie la distribution d’une variable
quantitative.
1e façon de construire un boxplot :

2e façon de construire un boxpot :

• Variance : S2(unité : carré de l’unité de nos observations : ex : examens2).

= somme des carrés des écarts par rapport à la moyenne.

Attention : souvent on divise par (n-1) plutôt que par n →permet d’obtenir une meilleur
estimation de la variance. Rem : dans la pratique ça se fait pas ou peu sauf si on considère
des échantillons de petites tailles.

Pourquoi ? En soit, un échantillon peut ne pas représenter la population de manière


vairitablement juste. Tout dépend des personnes choisies aléatoirement. → La disperssion
peut être très différente entre la population et l’echantillon. En divisant par n-1 on augmente
la dispersion de l’échantillon et ainsi on la raproche à celle de la population.

MV
13

- Toujours positive (somme de carrés).


- Si = 0 : toutes les observations sont les mêmes.
- Grande variance = grande variabilité des données.
- Sensible aux valeurs extrêmes.

• Ecart-type : (unité = même que l’unité de nos observations). Dit « standard


deviation » ou SD en anglais

= racine carrée de la variance S2 = σ

- Sensibles aux valeurs extrêmes.


- Petit écart-type = valeurs des données proches.
- Grand écart-type = valeurs des données éloignées.

Rem : Coefficient de variation (CV) = s (écart type) / moyenne arithmétique (x 100)

c) Mesures d’asymétrie :

Utilisation des valeurs du mode, de la moyenne et de la médiane.

Si une distribution est symétrique :


- Les observations de chaque côté de la médiane se
distribueront de la même façon.
- La médiane sera égale à la moyenne (et au mode si la
distribution est unimodale).

Dissymétrie à gauche : Dissymétrie à droite :

Moyenne < médiane (en général) Moyenne > médiane (en général)

MV
14

Chapitre 3 : Intervalles :

I. Un échantillon aléatoire SIMPLE EAS :

Echantillon aléatoire : échantillon sélectionné au hasard dans la population de façon à ce


que chaque membre de la population ait la même chance d’être sélectionné.

Echantillon aléatoire simple :


- Chaque membre d’une population a une chance égale d’être inclus à l’intérieur de
l’échantillon.
- Chaque combinaison de membres de la population a aussi une chance égale de
composer l’échantillon.
Exemple : un prof veut choisir 2 élèves à l’aide d’une pièce. (Pile : 1e rangée de 2 élèves,
Face : 2e rangée de 2 élèves).

- Echantillon aléatoire : oui car les membres de la population sont sélectionnés de telle
sorte que chaque membre individuel a la même chance d’être sélectionné.
- Echantillon aléatoire simple : non car les sujets sont choisis de telle façon, que
chaque échantillon possible n’est pas la même chance d’être choisi (impossible
d’avoir un élève de la 1e rangée et un élève de la 2e rangée).

Echantillon avec/sans remise :


- Tirages successifs et avec remise : à chaque tirage la population est identique et
contient les individus : à chaque tirage on a 4 possibilités différentes de résultats.
- Une bonne représentation de la pop demande parfois un échantillon avec remise.

Ici l’ordre a de l’importance.

II. Distributions :
a) Types de données :

MV
15

Conventions :

Quelques notions :
- P(E) = probabilité de survenue d’un événement E
- p = proportion dans un échantillon (ou p)
- π = proportion dans la population
- p-valeur : (def donnée plus tard)
b) Densité de probabilité :

= fonction qui permet de représenter une loi de probabilité (sous forme d’intégrale).

Peut être vu comme la limite d’un histogramme

n = 100 n = 1000

n = 10 000 Loi normale (10,2)

- L’aire totale de la courbe = 1 soit 100%


- La densité de fréquence relative d’une variable se transforme quand la taille
d’échantillon augmente..
- Fluctuations dues au hasard influencent la forme du graphe. Quand la taille
augmente, les fluctuations se compensent, ce qui permet aussi des classes de plus
en plus fines.
- Comme l’aire totale reste égale à 1 : la densité de fréquence relative tend vers une
courbe appelée fonction de densité de probabilité p(x)

Rem : fluctuations : variations successives en sens contraires

MV
16

Distribution « normale » ou gaussienne : courbe en cloche :

c) Distribution normale ou gaussienne : propriétés :

Déf = distribution continue qui dépend de 2 paramètres : σ et π

- Symétrique et centrée autour de la moyenne (moyenne = médiane = mode)


➔ 50% des données à gauche et 50% à droite

Remarques : S et σ mesurent l’étendue de la dispersion des valeurs de la variable càd la


différence entre les valeurs minimales et maximales. → à moyenne constante, si la variance
change alors la distribution est plus ou moins étendue autour de la moyenne.

MV
17

- Aire de la courbe entre 2 points = probabilité que les valeurs X (ici âge) soient
comprises entre ces 2 points.

Analyse : Une variable X distribuée normalement a 5 chances sur 100 de présenter un écart
à la moyenne supérieur à 1.96σ (environ 2σ). Autrement dit, 95% des sujets sont distribués
dans une étendue de 4σ.

2 façons :

Sur base de notre approximation : 95% des observations→

Sur base de nos percentiles (dans tableau de données) : 95%→

Remarque : d’autres distributions existent : les distributions ne sont pas forcément


gaussiennes (ne suivent pas forcement une courbe en cloche)

III. Distribution de moyennes :

On a plusieurs échantillons de la population et pour chaque échantillon on calcule la


moyenne. On met ces moyennes dans un tableau.

L’écart type de la distribution des moyennes (des différents échantillons d’une même
population) est appelé l’erreur standard ou déviation standard de la moyenne ou ESM et
vaut :

ESM peut être utilisée pour mesurer la précision de la moyenne d’un échantillon.

MV
18

a) Variable quantitative continue :

Exemple : fréquence cardiaque


➢ Moyenne de la population (estimée) = : 86 battements/min
➢ Ecart type de la population (estimée) = 13,1 battements/min
➢ ESM : 3,38 battements/min (n=15)
→ NB : la précision dépend de la taille de l’échantillon (n qui est connu), pas de la
taille de la population.
b) Variable binaire : (0,1) :

Exemple : sex ratio


➢ Proportion dans la population (estimée) : femme = 58,06% vs homme = 41,94%
➢ ESM = 8,86 (n=31)
→NB : idem
IV. Théorème Central Limite TCL :

Le TCL affirme que les moyennes des échantillons d’une


variable continue tendent vers variable aléatoire
gaussienne.

Ex : 7 échantillons pris au hasard : on fait la moyenne de


leurs moyennes :

→ Données binaires : (0,1) : Le TCL affirme que les moyennes des échantillons d’une
variable binaire tendent aussi vers une variable aléatoire gaussienne

On pose la probabilité : ici : quelle est la probabilité d’avoir X


personne malade dans 1 échantillon, ici 4 échantillons
possibles (toutes les combinaisons) et n=3. Total
d’échantillons = 1000 = fréquence sur le tableau.

→ La distribution d’échantillonnage de la moyenne


s’approche de + en + d’une distribution normale (courbe en
cloche ou courbe de Gauss) à mesure que la taille des
échantillons augmente et ce même si la population initiale
n’est pas distribuée de façon gaussienne.

MV
19

Rem : La vitesse à laquelle la distribution d’échantillonnage de la moyenne s’approche de la


normale est fonction de la forme de la population mère : si la population est elle-même déjà
normale, la distribution d’échantillonnage de la moyenne sera normale quelque soit la taille
de l’échantillon.

→ Peu importe les variables aléatoires (continues ou


discrètes) : la moyenne normalisée est approximativement
N(0,1) (N = loi normale)

En simplifiant, on peut dire : Si la variable X suit une distribution normale ou lorsque la taille
de l’échantillon est assez grande (n>30) alors la distribution d’échantillonnage de la moyenne
aura une forme approximativement normale de moyenne µ et de variance σ2/n

Variable continue : Variable binaire :

On pose : On pose :

→ de sorte que la moyenne (l’espérance) et Idem


l’écart type de Z valent respectivement 0 et
1 : la variable est ainsi centrée et réduite.

V. Loi normale et probabilité :

Aire de la courbe entre 2 points = probabilité que les valeurs de X soient comprises entre ces
2 points.

Il y’a toujours une distribution par variable de X

Solution : Loi normale centrée réduite.

→ D’abord centrer ( X’ = X - µ = 0) puis réduire (écart type de z=0)

MV
20

But : Tout ramener sur le même graphique et avoir un tableau avec Z-valeur : + simple

Exemples :

MV
21

La règle 68 95 97,7 : (approximation) :

Exemple :

Règles : pour chaque valeur : une z-valeur

MV
22

VI. Intervalle de prédiction (= distribution) et intervalle de confiance :

IP se déduit à partir d’une population « connue » càd dont on connait la moyenne et la


variance → on obtient des infos sur l’échantillon « inconnu » RARE dans la pratique

Un belge sur quatre ne se sent pas bien mentalement. Quelle est la probabilité qu’une
proportion dans un échantillon (n=580) dépasse 26, 2% ? Calculez IP 95%
IC se déduit à partir d’un échantillon « connu » → on obtient des infos sur la moyenne de
la population (2 cas selon que l’on connait la variance de la pop ou non)

Pouvons-nous conclure que la proportion pour les prisonniers est plus élevée que la
proportion dans la population ? Quelle est la vraie proportion des prisonniers qui ne se
sentent pas bien

→ IP se calcule autour de la valeur observée, IC se calcule autour de la valeur théorique.

a) IP : Si on exprime par rapport à la moyenne de l’échantillon

Cet intervalle est construit autour de la vrai valeur (ex :µ). On n’utilise pas d’estimateur
puisqu’on connait la vraie valeur.

Moyenne : (variable continue)

→ ESM =

Proportion : (variable binaire)

→ ESM =

MV
23

Rem : IP n’est valide que si la population suit une distribution gaussienne (loi normale) ou si
n>30 (et np>5 et n(1-p) > 5 pour une proportion) + EAS

Chaque nouvelle observation (moyenne, proportion, observation individuelle) a 95% de


chance de se retrouver dans cet intervalle
Rem : en moyenne on s’attend à ce que 95% de l’entièreté de la population se trouvent
dans IP
→ Si IP = 95% alors z = 1,96 Si IP = 90% alors z = 1,645 (arrondi à 1,64)
Les 5% restants sont anormaux (il est aussi important que les définitions de ce qui est
normal et anormal dépendent d’autres facteurs comme l’âge et le sexe : ce qui est
anormal pour une personne de 25 peut être normal pour une personne de 80)

On peut remplacer X par p → µ devient alors π

b) IC : Si on exprime par rapport à la moyenne de la pop (µ ou π)

Estimation ponctuelle : valeur unique utilisée

On utilise les données d’échantillon pour :

- Estimer la valeur d’un paramètre d’une population


- Tester une hypothèse sur la population
→ inférer les caractéristiques de la population d’origine à partir des données
obtenues

Enquêtes ou essais rarement réalisés sur l’ensemble de la population mais sur un


échantillon représentatif de cette population, résultats : variables aléatoires subissant une
fluctuation d’échantillonnage

Une population de moyennes ou de proportions a également une distribution ayant une


moyenne et une variance

La proportion observée dans un échantillon de taille n a une probabilité 1 – α d’appartenir à


l’intervalle :

- Quand la taille de l’échantillon est grande (tend vers l’infini), la distribution de la


proportion p d’une caractéristique dans un échantillon tend vers une loi normale de
moyenne p et de variance π(1-π)/n
- Condition de validité : np et n(1-p) ≥ 5 + EAS

MV
24

Rem : IC est juste une modification de formule de IP :

→ Rare dans la pratique de connaître la vraie valeur du caractère étudier dans la population

Un intervalle de confiance à 95% peut être dévié à partir de l’intervalle de prédiction : si on


répète à plusieurs reprises l’échantillonnage et qu’on calcule chaque fois l’IC de la moyenne
de l’échantillon, on attend qu’environ 95% de ces intervalles vont inclure la vraie valeur de la
moyenne de la population

Interprétation : Nous avons 95% de confiance (≠ chance) que l’intervalle contienne la vraie
valeur de la population. Cela signifie que si on sélectionnait de nombreux échantillons de
même taille et qu’on construisait les IC correspondants, à long terme, 95% d’entre eux
contiendraient la vraie valeur µ (X) ou π (p). Cette interprétation (correcte) fait référence au
taux de réussite de la procédure utilisée pour estimer la moyenne (un paramètre) de la
population

Incorrect : Il y a 95% de chance que µ soit dans l’intervalle de confiance (analogie : définir le
sexe d’un bébé)

IP et IC :

Distribution de X avec s2 inconnu : Loi de t student

Remplacer la loi z par la loi t :

Loi t caractérisée par des degrés de liberté = ddl (=n-1 car l’estimateur de S2, s2 est basé
sur (n-1) termes indépendants.

→ Le nombre de degrés de liberté pour un échantillon est le nombre de valeurs d’échantillon


qui peuvent varier après avoir imposé certaines restrictions sur les données.

MV
25

Ex : observations : 1,2,3, moyenne = 2, n = 3 → seulement 2 valeurs de 1,2,3 peuvent varier


après que la moyenne est connue → ddl = n-1 = 2

Z ou t ?
Z : pour une proportion Loi de z : z = 1,96
- σ est connu et la population est normalement distribuée
- σ est connu est n> 30
t: Loi de t : t = 1,984
- σ est inconnu (utiliser S) et la population est normalement distribuée
- σ est inconnu (utiliser S) et n>30

Conditions de validité :
- Si la distribution est normale : EAS
- Si la distribution n’est pas normale : EAS et n>30

On utilise quand on connait la vraie proportion IP sinon on utilise (ex IC)

IC pour une moyenne : estimer la moyenne d’une population :

Certains échantillons de même taille issus de la population ne contiennent par la moyenne µ


Ex : 5IC sur 100

Rem : en recommençant avec de nouveaux échantillons de même taille et en même


nombre : on peut avoir un nombre différent de IC qui ne contiennent pas µ Ex : 4IC sur 100

MV
26

En revanche : si n augmente, + précis → + précis = IC plus petit :

Pour : 100 échantillons de :

n = 30 n = 200 n = 1000

- L’intervalle est centré sur la moyenne d’échantillon


- L’idée est qu’à chaque nouvel échantillon, on a une nouvelle estimation de la
moyenne et un nouvel intervalle
- 95% des intervalles calculés de cette manière contiennent la moyenne de la
population µ
- Avec σ connu

Exemple :

→ Interprétation : pour un IC 95% : Nous avons confiance à 95% que l’IC contienne la vraie
valeur de µ : Cela signifie que si l’on sélectionnait de nombreux échantillons de même taille

MV
27

et qu’on construisait les IC correspondant, à long terme, 95% d’entre eux contiendraient la
vraie valeur de µ.

Incorrect : Il y a 95% de chance que µ soit dans IC

IC pour une proportion : estimer la proportion dans une population :

Certains échantillons de même taille issus de la population ne contiennent par la moyenne π

- L’intervalle est centré sur la moyenne d’échantillon


- L’idée est qu’à chaque nouvel échantillon, on a une nouvelle estimation de la
proportion et un nouvel intervalle
- 95% des intervalles calculés de cette manière contiennent la moyenne de la
population.

Conditions de validité :

- EAS
- 4 conditions à remplir : n = taille d’échantillon
n x borne inférieure de IC > 5
n x (1-borne inférieur de IC > 5
n x borne supérieure de IC > 5
n x (1-borne supérieure de IC) > 5

Ex :
- Nombre fixe de répétitions
- Essais indépendants
- Probabilités constante (& 2 catégories)

MV
28

→ Interprétation : pour un IC 95% : Nous avons confiance à 95% que l’IC contienne la vraie
valeur de π : Cela signifie que si l’on sélectionnait de nombreux échantillons de même taille
et qu’on construisait les IC correspondant, à long terme, 95% d’entre eux contiendraient la
vraie valeur de π.

Incorrect : il y a 95% de chance que π soit dans IC

Intervalle de confiance : généralités :

Etapes :
- Fixer α → 1 – α = niveau de confiance
a = erreur de type I = probabilité de rejeter H0 alors que H0 est vraie (ex : conclure qu’il y a
une différence entre 2 moyennes alors que ce n’est pas vrai) ex : α = 0,05
- Trouver une statistique de test approuvée en fonction du paramètre à estimer (zα/2,
td1 = x, α/2,..) ex : zα/2= 1,96
- Trouver l’écart-type du paramètre à estimer
- Interprétation

L’estimation d’un paramètre quelconque est ponctuelle si l’on associe une valeur à
l’estimateur à partir des données observables sur un échantillon aléatoire. L’estimation
par intervalle associe à un échantillon aléatoire, in intervalle qui recouvre avec
une certaine confiance (≠ probabilité/chance)

L’intervalle de confiance IC est un intervalle de valeurs utilisé pour estimer la vraie valeur
d’un paramètre d’une population

Le niveau de confiance est la probabilité 1-α qui est la proportion du nombre de fois où
l’intervalle de confiance contient le paramètre de la population si on repète l’estimation un
grand nombre de fois

Interprétation : Nous avons 95% (ou 90%) de confiance (≠ chance) que l’intervalle
contienne la vraie valeur de la population. Cela signifie que si on sélectionnait de
nombreux échantillons de même taille et qu’on construisait les intervalles de confiances
correspondants, à long terme, 95% ou (90%) d’entre eux contiendraient la vraie valeur µ
(X)

MV
29

2e partie

Chapitre 1 : Inférence univariée : complément d’informations :

Principe H0 :

- On établit une hypothèse H0 : hypothèse nulle au niveau de la population. Cette


hypothèse est en fait l’inverse de ce que l’on veut prouver.
- On mesure dans notre échantillon la variable correspondante.
- On calcule une statistique test résumant les valeurs de cette variable dans notre
échantillon

Erreur de type I et erreur de type II :

Les décisions prises sur base d’un tel test peuvent être erronées : erreurs inévitables

2 types d’erreurs possibles :

POPULATION (inconnu)
HO est vraie H1 est vraie
ECHANTILLON RHO Erreur de type I ✓
(observé) P(RH0│H0) = α
NON-RHO ✓ Erreur de type II
P(NRH0│H1) = β

I. Test d’hypothèse pour une moyenne :

L’hypothèse que l’on fait dans la population porte sur la moyenne d’une variable continue.

Grâce au TCL on peut utiliser la moyenne X pour estimer µ (si X est approximativement
normale) :

→ Si H0 : µ = µ0 alors : →

L’idée est de rejeter l’hypothèse nulle H0 si notre statistique de test Z prend une valeur trop
peu probable par rapport à la distribution de la statistique de test sous H0 : càd de rejeter
l’hypothèse nulle H0 si notre statistique de ce test prend une valeur trop extrême pour une
N(0,1)

MV
30

Illustrations :

→ On calcule la P-valeur = probabilité d’observer une valeur au moins aussi extrême que
celle observée (Zobs) si H0 est vraie càd pour une N(0,1)

Rem : par aussi extrême on veut dire toute valeur de Z qui remet H0 en cause (en faveur
de H1) au moins autant que la valeur Zobs dans notre échantillon pour Z.
- Si p-valeur est trop petite : c’est une indication que les données observées ne
sont pas plausibles sous H0
→ H0 est rejetée
→ Le test est dit (statistiquement) significatif
- Si p-valeur est grande : c’est une indication que les données observées ne sont
pas fortement en contradiction avec H0 (la majorité du vert est probable)
→ H0 n’est pas rejetée
→ Le test est dit non (statistiquement) significatif

Définition de trop petit :


On définit à priori un seuil α = seuil de significativité
On exclut α% des valeurs les moins probables de notre distribution sous H0

MV
31

Test Z pour une moyenne :

On calcule : et notre règle de décision est :

ou de façon équivalente : avec

Test Student pour une moyenne :

Rem : parfois on ne sait pas calculer Z car σ inconnu → T suit une distribution de Student
sous H0 :

On veut tester : On calcule : On sait que :

Règle de décision :

ou de façon, équivalente :

avec

→ La distribution Student ressemble à la Normale mais avec des « queues » à gauche et à


droite plus épaisses.

Ex : Sin n=16 et t = 1,75, comment trouver la p-valeur ?

avec table des quantiles de la variable aléatoire de Student :

Pour pouvoir utiliser un test t pour une moyenne, il faut :

- Que le test ne porte que sur une seule variable


- Que la variable considérée soit continue
- Que la variable considérée soit approximativement Normale → cette exigence est
d’autant plus stricte que l’échantillon est petit
Ex : X = contenance d’un fut de bière

MV
32

Erreur de type I et de type II:

Même si ces valeurs ont une très faible probabilité, elles


peuvent quand même arriver (avec une probabilité α)

= erreur de type I (α)


= « faux-positif »
P(RH0 │H0)

Ces valeurs peuvent arriver même si la vraie distribution


est H1 et pas H0

= Erreur de type II (β)


« faux-négatif »
P(NRH0 │H1)

→ Puissance d’un test : On va souvent parler de la puissance d’un test, donnée par
puissance = 1-β, plutôt que du risque d’erreur de type II (β), ce qui est en fait équivalent :

! Le type d’erreur de type II (et donc la puissance) est en fait contrôlé pour une hypothèse
alternative H1 prédéfinie

Rem : En pratique, on va se fixer un risque d’erreur de type II (β) que l’on trouve acceptable
(souvent β = 0,10 ou 0,20) et on va calculer la taille d’échantillon n nécessaire pour contrôler
ce risque à cette valeur.

Donc on commence par fixer α et β à priori

- Au moment de l’expérience ; on calcule la taille d’échantillon nécessaire pour


contrôler le risque d’erreur de type II à β
- Au moment de l’analyse des résultats, on contrôle le risque d’erreur de type I à α en
utilisant cet α comme seuil pour décider si on rejette ou pas H0

Equivalence règle de décision sur base de l’IC :

MV
33

Test unilatéral ou bilatéral :

On peut définir de 3 manières différentes les hypothèse alternative (H1), en fonction du


problème traité :

Test bilatéral : lorsqu’on cherche à mettre en évidence une différence mais sans s’occuper
du sens de la différence :

Test unilatéral : lorsqu’on cherche à mettre en évidence une différence pour un sens de la
différence pré-définie

→ Application lorsqu’on connait a priori le sens de la différence pour l’hypothèse alternative,


ou lorsque l’on a de bonnes raisons de ne mettre en évidence qu’un seul sens de la
différence

→ La p-valeur est la probabilité d’obtenir pour la statistique de test une valeur plus extrême
que la valeur observée et ce uniquement dans le sens de l’hypothèse alternative :

MV
34

Recommandation :
- Choisir (avant d’avoir accès aux données de l’étude) de faire un test bilatéral ou
unilatéral en fonction de l’objectif de l’étude. On recommande de faire un test
unilatéral lorsque la différence est d’office dans un sens
- Lorsque l’on présente une p-valeur ; toujours spécifier à quel type de test celle-ci
se rapporte
- Toujours vérifier si un test est bilatéral ou unilatéral avant d’interpréter sa p-valeur
et interpréter les résultats du test en fonction du type de test.
- Ne pas « sur-interpréter » une p-valeur non significative

Test non paramétrique :

= test ne reposant sur aucune hypothèse de distribution pour X. Ce test fonctionne


différemment mais l’interprétation de la p-valeur est la même que pour les tests vus
précédemment

MV
35

Il ne requiert aucune hypothèse sur la distribution sous-jacente de X, par contre on peut


montrer qu’il est préférable d’utiliser un test de Student quand la distribution de X est en fait
proche d’une distribution normale.

Ex : tests des rangs signés de Wilcoxon

II. Test d’hypothèse pour une proportion :

L’hypothèse que l’on fait dans la population porte sur la probabilité de succès d’une variable
binaire.

Y : nombre de succès parmi n expériences


π : probabilité de succès dans la population

Estimation et intervalle de confiance :

Estimation :

IC à 95% :

Z1-α/2 : percenpile (1-α/2) d’une N(0,1)

Test Z sur une proposition :

Rem : si la proposition a un n non suffisamment : on utilise un test exact qui se base sur la
distribution binomiale du nombre de succès sous l’hypothèse nulle

Ex : test exact de Fisher : La statistique de test et la p-valeur se calculent différemment mais


la p-valeur s’interprète de la même façon

MV
36

Chapitre 2 : Inférence bivariée :

Comment comparer les résultats obtenus dans 2 populations.

- VAR 1 : variable d’intérêt (quantitative ou qualitative)


- VAR 2 : variable qualitative (binaire) décrivant l’appartenance à la population A ou B

Ex : 2 méthodes différentes de traitement pour une pathologie. (avec critères primaires :


coûts et temps de la procédure, et critères secondaires : réussite et complications)

I. Inférence sur 2 moyennes :

POPULATION ECHANTILLON
A B A B

Si H0 est vrai : <<<< 0

→ On calcule la probabilité d’observer une différence d dans notre échantillon si HO est vraie
dans la population

a) Test d’hypothèse pour comparer 2 moyennes :

Conditions d’applications :

• La variable d’intérêt suit une distribution normale ou approximativement normale si


l’échantillon est suffisamment grand
• 2 échantillons (aléatoires) indépendants
- Chaque échantillon est représentatif de sa population
- Pas de facteurs confondants
- Les valeurs observées pour un échantillon ne sont pas liées aux valeurs observées
dans l’autre échantillon

Méthode :

- On va construire une statistique de test qui va nous permettre de vérifier si


n’est pas trop grand par rapport à ce que l’on s’attend si H0 est vrai dans la
population
- La distribution de notre statistique s’obtient en suivant au raisonnement similaire au
cas univarié (conséquence du TCL)

MV
37

1e cas : on suppose que les 2e cas : on suppose que les


variances sont pas les variances sont les mêmes dans
mêmes dans les 2 les 2 populations
populations

Test d’hypothèse
(bilatéral)

Statistique de test
Résume ce que l’on a
observé dans notre
échantillon

Distribution sous H0
Résume ce à quoi on
s’attend si H0 est vrai
P-valeur
Règle de décision
Compare ce que l’on a
observé et ce à quoi
on s’attendait

Erreur de type I : probabilité de conclure qu’il y a un effet du traitement (µ1 ≠ µ2) alors qu’en
fait il n’y en a pas (µ1 = µ2) = faux positif

Erreur de type II : probabilité de conclure qu’il n’y a pas d’effet du traitement (µ1 = µ2) alors
qu’en fait il y’en a un (µ1 ≠ µ2) = faux négatif

Bleu : faible probabilité d’arriver sous


H0, peuvent quand même arriver (avec
une probabilité α) = erreur de type I (α)
= P(RH0│H0)

Rouge : Ces valeurs peuvent arriver


même si la vraie distribution est H1 et
non H0 = erreur de type II (β) =
P(NRH0│H1)

En pratique :

- On fixe a priori le niveau α que l’on va utiliser pour nos études


- On définit a priori l’effet traitement & = µ2 - µ1 que l’on souhaite mettre en évidence
- On fixe la puissance (1 – β) càd la probabilité que l’on se donne de rejeter H0 si en
effet dans la population & = µ2 - µ1
- On calcule la taille d’échantillon correspondante afin de contrôler α et β aux valeurs
choisies.

MV
38

ATTENTION :

- Si en réalité l’effet du traitement dans la population est plus petit (<&) alors la
puissance (1 – β) sera plus faible que prévu
- Si en réalité l’effet du traitement dans la population est plus grand (>&) alors la
puissance (1 – β) sera plus forte que prévu

Avec une taille d’échantillon suffisamment grande même une très petite différence peut être
indicative

Statistiquement significatif ≠ cliniquement pertinent

Signification statistique ou médicale/biologique :

- Il ne faut pas prendre de décision sur l’avenir d’un traitement sur la seule base d’une
p-valeur
- Un résultat statistiquement significatif n’est pas nécessairement biologiquement
significatif
- Il est recommandé d’accompagner la p-valeur d’un intervalle de confiance pour le
paramètre de population sur lequel l’hypothèse a été formulée

Test bilatéral – test unilatéral :

Test bilatéral : on cherche à mettre une différence entre 2 moyennes mais sans s’occuper
du sens de la différence. On parle « d’effet du traitement » sans sur concentrer sur un effet
positif ou un effet négatif

MV
39

Test unilatéral : on cherche à mettre en évidence une différence entre deux moyennes pour
un sens de la différence prédéfinie

Applications : lorsqu’on connait a priori ou qu’on a de bonnes raisons d’affirmer un sens de la


différence

p-valeur : probabilité d’obtenir pour la statistique de test une valeur plus extrême que la
valeur observée et ce uniquement dans le sens de l’hypothèse alternative

MV
40

Si je veux monter que mon nouveau traitement (trt1) est plus efficace (augmente la
moyenne) que celui de mon concurrent (trt2) :

b) Intervalle de confiance pour la différence de 2 moyennes :

Si au lieu de faire une seule fois l’expérience, on la reproduisait un grand nombre de fois, alors
dans 95% des expériences, la valeur estimée pour µ1 - µ2 serait dans cet IC

Plus l’IC est étroit, plus on a confiance dans notre estimation

Notre test peut se réécrire :

→ Avec le même raisonnement qui précédemment, si IC ne contient pas zéro, cela confirme
l’hypothèse que µ1 et µ2 ont des valeurs différentes dans la population

MV
41

On peut utiliser 2 méthodes pour tester une hypothèse H0 avec un niveau de signification
α:
- Test statistique, calculer la p-valeur et la comparer avec α
- Calculer un intervalle de confiance (1-α) x 100% pour le paramètre de population
testé
➢ S’il contient la valeur suggérée par H0, on ne rejette pas H0 à un niveau de
signification α
➢ S’il ne contient pas la valeur suggérée par H0, on rejette H0 à un niveau de
signification α

c) Inférence sur 2 moyennes pour données appariées :

Données appariées ou pairées : non indépendantes

Ex : mesures avant/après sur les mêmes sujets, mesures sur des paires de jumeaux,
mesures des organes différents du même sujet

→ On ne peut plus considérer nos 2 échantillons comme indépendants : les valeurs


observées dans l’échantillon 1 sont liées aux valeurs observées dans l’échantillon 2

→ On doit utiliser des techniques spécifiques pour le calcul des tests d’hypothèse et la
construction d’intervalles de confiance

Echantillons indépendants : Echantillons dépendants :


On calcule si la différence des moyennes On calcule la différence dans chaque paire et
= 0 ou pas on regarde si la moyenne de ces différences
= 0 ou pas

Idée : s’il n’y a pas de différence au niveau de la population, on s’attend à ce que d soit
proche de zéro → on vérifie que d n’est pas trop grande

Objectif : estimer ou tester la valeur de µd :

MV
42

Test d’hypothèse bilatéral

Statistique de test

Distribution sous H0
P-valeur

Règle de décision

Intervalle de confiance à (1-α)% pour la moyenne d

II. Inférence sur 2 proportions :


a) Test d’hypothèse pour comparer 2 proportions :

Conditions d’applications :

• La variable mesurée est une variable binaire, on peut donc résumer les données par
la proportion de « succès »
• 2 échantillons (aléatoires) indépendants
- Chaque échantillon est représentatif de sa population
- Pas de facteurs confondants
- Les valeurs observées pour un échantillon ne sont pas liées aux valeurs observées
dans l’autre échantillon

Idée :

- Si H0 est vrai dans la population, on ne s’attend pas à observer une grande


différence entre dans notre échantillon
- On va construite une statistique Z qui va nous permettre de vérifier si n’est
pas trop grand par rapport à ce que l’on s’attend si H0 est vrai dans la population

MV
43

- La distribution de notre statistique sous H0 s’obtient en suivant un raisonnement


similaire au cas univarié (conséquence du TCL) et requiert une taille d’échantillon
suffisamment grande

Test d’hypothèse bilatéral

Statistique de test

Distribution sous H0

P-valeur
Règle de décision

Test chi-carré : test permettant de comparer 2 proportions indépendantes


On a vu que la distribution sous H0 est donnée par :
En fait on peut montrer que c’est équivalent de dire que la distribution sous H0 de Z2 est
une distribution chi-carré :

Conditions de validité : Repose sur approximation normale : n doit être suffisamment


grand (conséquence de TCL)
Pas valide si :

Rem : si on entre pas dans les conditions : tests exacts (Fischer)

MV
44

b) Intervalle de confiance pour la différence de 2 proportions :

On peut calculer un intervalle de confiance à (1-α)%

Rem : il existe aussi une procédure de calcul de l’IC exact si on n’est pas dans les conditions
d’applications de l’approximation normale

c) Rapport de côtes et rapport de risques :

Dans la pratique, il est assez rare que l’on utilise la différence des proportions pour résumer
l’effet d’un traitement sur un endpoint binaire

On va plutôt utiliser : le rapport des risques (RR) et le rapport des cotes (OR)

RR : ratio des proportions estimées :

→ Le risque de succès est 41% plus élevé dans le groupe


expérimental par rapport au groupe contrôle

ATTENTION : le RR peut se calculer dans les études prospectives (et donc dans les essais
cliniques) mais pas dans une étude rétrospective de type cas-contrôle

Interprétations :

OR : probabilité de succès sur probabilité d’échec

Ex : cote de réponse dans chacun des groupes

MV
45

Rapport de cotes : rapport entre la cote dans le groupe 1 et la cote dans le groupe 2

→ Le cote de succès est 71% + élevé


dans le groupe expérimental par rapport
au groupe de contrôle

ATTENTION : le OR peut se calculer dans tous les types d’études. Souvent utilisé mais
souvent mal interprété

Interprétation :

RR et OR : interprétation

Même interprétation qualitative

Mais pas même interprétation quantitative

- Quand le risque de succès est faible (évènements rares), le RR et le OR ont des


valeurs numériques proches
- Quand le risque de succès est élevé, le RR et le OR peuvent prendre des valeurs
numériques très différentes

MV
46

Chapitre 3 : Régression linéaire :

I. Corrélation linéaire :

Corrélation = lien entre 2 variables quantitatives

Il y’a une corrélation entre 2 variables quand l’une est liée à l’autre

Ex : taille et poids des étudiants : Ex : taille des étudiants et montant nette du


premier salaire

Scatterplot : représentation graphique croisant les observations faites pour 2 variables

→ En interprétant un tel graphique, on peut se faire une bonne idée de comment évolue ces
2 variables l’une par rapport à l’autre :

Mesure la corrélation :

Coefficient de corrélation de Pearson : indice entre -1 et 1 mesurant l’association (linaire)


entre 2 variables X et Y :

MV
47

Rem : le chocolat rend -il intelligent ? Corrélation n’est pas causalité

II. Régression linéaire simple :

On cherche à mieux décrire le lien entre les 2 variables X et Y

→ Pour ce faire on « résume » la relation linaire X et Y par une droite : il faut donc trouver la
« meilleure » droite pour résumer cette relation.

Rappel : équation d’une droite : Y = a + bx

→ Trouver la « meilleure » droite pour résumer cette relation, revient à trouver les valeurs de
a et b qui « collent » le mieux aux données : tout le monde n’est pas sur cette droite

→ On choisit la droite qui minimise la somme des carrés des erreurs (ei) :
= critère des moindres carrés

→ Ce qui nous intéresse en réalité c’est de faire de l’inférence, càd extrapoler les résultats à
la population :

→ On peut montrer qu’on peut estimer α et β par a et b obtenu selon le critère des moindres
carrés. On a :

→ On peut montrer qu’on peut estimer σ par l’écart type des résidus :

MV
48

III. Régression linéaire multiple :

On cherche à mieux décrire le lien entre : une variable Y (=réponse) continue et plusieurs
variables X explicatives

On trouve les valeurs de par le critère des moindres carrées et par la méthode
du maximum de vraisemblance

Interprétation de :

- Intercept (OAO : ordonné à l’origine)


- Valeur moyenne de Y pour un individu pour qui toutes les variables X valent O
- N’a en générale pas de sens biologique

Interprétation de :

- Coefficient de
- Changement moyen de valeur de Y quand augmente d’une unité (les valeurs de
toutes les autres variables étant fixées)

Modèle simplifié : on retire du modèle les variables qui n’ont pas un impact statistiquement
significatif

IV. Note sur la régression logistique :

On cherche à mieux décrire le lien entre une variable Y (=réponse) binaire et plusieurs
variables X explicatives

On trouve les valeurs par la méthode du maximum de vraissemblance

MV

Vous aimerez peut-être aussi