Académique Documents
Professionnel Documents
Culture Documents
13/06/2022
3 Objectifs spécifiques du cours
13/06/2022
4 Contenu du cours
13/06/2022
5
Introduction
Santé
«… mesure dans laquelle un groupe ou un individu peut d'une
part, réaliser ses ambitions et satisfaire ses besoins et, d'autre
part, évoluer avec le milieu ou s'adapter à celui-ci… »
(Organisation Mondiale de la Santé 1986, charte d’Ottawa)
13/06/2022
Introduction
6
L’information …
Observer
Des faits « bruts » sur un patient
Signes cliniques (palpation d’un foie, …)
Signes biologiques (concentration de glucose dans le sang,
…)
Signes physiques (diamètre d’une coronaire)
Les même faits bruts sur des groupes de patients et de
personnes normales
Collectionner ces faits bruts
13/06/2022
Introduction
7
L’information … pour l’action
Prendre des décisions
Diagnostiques : interpréter les faits bruts à la lumière de
connaissances physiopathologiques
Gros foie (hépatomégalie)
Trop de glucose dans le sang (hyperglycémie)
Diamètre restreint : sténose coronaire
Thérapeutiques : transformer le diagnostic en choix
thérapeutiques, sur la base de connaissances sur l’efficacité et
les effets secondaires des traitements
Hyperglycémie : diabète ? Insulinothérapie ?
Sténose coronaire : stent ? 13/06/2022
Introduction
8
Statistique
• L’art de collecter, d’analyser et d’interpréter des « données » pour
évaluer la « fiabilité » des décisions fondées sur ces « données »
– En parvenant à « inférer » des décisions sur un large groupe
d’individus à partir d’un groupe plus restreint
– Ce qui nécessite de préciser les notions suivantes ;
• Population
• Echantillons
• Échantillonnage aléatoire
• Paramètres
Inférer = tirer une conclusion à partir de propositions ou de faits, et de
règles 13/06/2022
Introduction
9
13/06/2022
Introduction
10
13/06/2022
1. Bases de la statistique descriptive
11 1.1. Vocabulaire
Faire de la statistique suppose que l’on étudie un ensemble d’objets
équivalents sur lesquels on observe des caractéristiques appelées variables.
Le groupe ou l’ensemble d’objets équivalents est appelé la population.
Les objets sont appelés des individus.
En général, la population est trop vaste pour pouvoir être observée
exhaustivement. On étudie alors la variable sur une sous partie de la
population. On étudie alors un échantillon.
Donnée (valeur) = résultat de l’observation d’un individu
Un paramètre est une grandeur apportant une information résumée sur la
variable d’intérêt (exemple que nous reverrons : la moyenne)
• Un paramètre peut être mesuré dans un échantillon
• Un paramètre peut être estimé dans la population, à partir des
observations de l’échantillon 13/06/2022
1. Bases de la statistique descriptive
12 1.2. Types de variables
Variable quantitative
Toute variable qu’un instrument peut mesurer sous forme
numérique
• Taille, poids, glycémie, nombre d’enfants dans une fratrie,
…
Les valeurs possibles pour une telle variable sont donc
• l’ensemble des réels,
• Plus souvent un sous-ensemble de l’ensemble des réels
– Entiers (naturels ou relatifs)
– Intervalle [a , b]
13/06/2022
1. Bases de la statistique descriptive
13 1.2. Types de variables
Variable qualitative
Toute variable caractérisée par un attribut qualitatif, et non par une mesure
numérique
• Couleur des yeux, sexe, présence d’un facteur de risque pour une pathologie, …
Les valeurs possibles pour une telle variables, encore appelées les « modalités de
réponse » sont donc
• Une liste de modalités de réponse :
– Pour la couleur des yeux : {noir ; bleu ; vert}
– Pour le sexe : {homme ; femme}
• Une liste de « codes » attribués à chaque modalité de réponse
– Pour la couleur des yeux : {N; B; V} ou {1 ; 2 ; 3} ou …
– Pour le sexe : {H ; F} ou Pour le sexe : {1 ; 2} ou …
– Attention : même « codée » numériquement, une variable qualitative reste13/06/2022
bien sûr
qualitative…
1. Bases de la statistique descriptive
14 1.2. Types de variables
Variable ordinale (ou pseudo-quantitative)
– Toute variable qualitative dont les valeurs peuvent être « ordonnées »
(on peut classer les valeurs possibles par ordre « croissant »)
• Intérêt d’un spectateur pour un film : {nul ; moyen ; fort; passionné }
ou {0 ; 1 ; 2 ; 3} ou …
• Mention au baccalauréat : {ajourné ; passable ; assez bien ; bien ;
très bien} ou {AJ ; P ; AB ; B ; TB}ou {0 ; 1 ; 2 ; 3 ; 4} ou …
– Notez que, dans ce dernier cas, la variable « mention » capture une
information de même nature que la variable « note au baccalauréat »;
cette dernière est quantitative, mais l’expression du résultat sous forme
de la « mention » fait perdre le caractère quantitatif)
13/06/2022
1. Bases de la statistique descriptive
15
1.2. Types de variables
Deux grands sous-types de variables quantitatives :
– Variable continue : elle peut prendre n’importe quelle valeur dans un intervalle
donné (à condition d’avoir un instrument de mesure suffisamment précis)
• Taille, poids, glycémie
– Variable discrète : elle ne peut prendre qu’un nombre fini ou dénombrable de
valeurs (on peut « compter » les valeurs possibles)
• Nombre d’enfants dans une fratrie, nombre de globules blanc dans un volume
de 1 mL, rapport entre le nombre d’ailes et le nombre de pattes d’un insecte, …
• Le plus souvent, une telle variable s’exprime par un nombre entier
• Si ce n’est pas le cas (dernier exemple), il est toujours possible« d’indexer » les
valeurs :
– rapport entre le nombre d’ailes et le nombre de pattes d’un insecte : {0 ; 1/3
; 2/3}, soit 3 valeur qu’on peut « indexer » par {V1 ; V2; V3 } 13/06/2022
16 1. Bases de la statistique descriptive
1.2. Types de variables
Discrétisation d’une variable continue
– Tous les procédés de mesure conduisent à une variable discrète!
– Les exemples précédents (taille, poids, glycémie, …) conduiront
donc à des mesures discrètes, caractérisées par la précision retenue
pour l’appareil de mesure (par exemple, on n’exprimera pas la taille
d’un adulte en millimètres, mais en centimètres)
Regroupement des valeurs de la variable en classes
Classe = Intervalle contenant un certain nombre de valeurs successives
Successives, Contigües, Ne se recouvrent pas
13/06/2022
1. Bases de la statistique descriptive
17 1.2. Types de variables
Caractéristiques des classes :
Limites :
— Limite inférieure, toujours inclue = Limite supérieure de la classe précédente
— Limite supérieure, toujours exclue= Limite inférieure de la classe suivante
— Une observation ne doit appartenir qu’à une seule classe à la fois
Amplitude de classe : Largeur de la classe, Amplitude = Limite supérieure - Limite
inférieure
En général : Classes d’amplitude égale
Centre de classe : Demi-somme des 2 limites
Nombre de classes C : toujours compris entre 5 et 20: 𝑪 = 𝟐. 𝟓 𝟒 𝑵 (La règle de Yule)
𝐨𝐮 𝑪 = 𝟏 + 𝟑, 𝟑𝑳𝒐𝒈N (La règle de Sturge)
L’intervalle de classe : longueur de l’intervalle = 𝒙𝒎𝒂𝒙 − 𝒙𝒎𝒊𝒏 Τ𝑪 , où 𝑥𝑚𝑎𝑥 (resp. 𝑥𝑚𝑖𝑛)
désigne la plus grande (resp. la plus petite) valeur observée.
13/06/2022
1. Bases de la statistique descriptive
18
1.2. Tableaux statistiques
13/06/2022
1. Bases de la statistique descriptive
20
1.2. Tableaux statistiques
Etude de deux variables: Tableau à double entrée, Tableau à deux
dimensions, Tableau bidimensionnel
Deux variables qualitatives : Tableau de contingence, Comparaison de
répartitions
Répartition de 826 élèves scolarisés selon la survenue d’accident et le
sexe– Alger, 1985
13/06/2022
1. Bases de la statistique descriptive
22 1.3. Paradoxe de Simpson
Paradoxe de Simpson
Taux de guérison de la méthode suivant la taille de la tumeur
13/06/2022
1. Bases de la statistique descriptive
23 1.3. Paradoxe de Simpson
À vos boitiers de vote !
Kesako ?
13/06/2022
1. Bases de la statistique descriptive
25
1.3. Paradoxe de Simpson
En résumé
Pour que le paradoxe se produise, il faut 2 ingrédients :
Une variable qui influe sur le résultat final (le groupe), et qui
n’est pas forcément explicitée au départ. On appelle cela un
facteur de confusion. Il s’agit de la taille des tumeurs dans cet
exemple.
Une distribution non homogène de l’échantillon. Dans cet
exemple la chirurgie est plus souvent adoptée sur les grosses
tumeurs, et les médicaments sur les petites.
13/06/2022
2. Statistique descriptive uni variée
2.1 Paramètres de position
26
Ces paramètres visent à résumer la zone des réels où se trouvent les
observations faites sur l’échantillon
2.1.1 Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus
élevé ; il est noté 𝑥𝑀
Le mode peut être calculé pour tous les types de variable,
quantitative et qualitative.
Le mode n’est pas nécessairement unique.
Quand une variable continue est découpée en classes, on peut
définir une classe modale (classe correspondant à l’effectif le plus
élevé).
Le mode d’une série statistique regroupée en classe, est le centre de
la classe modale.
13/06/2022
2. Statistique descriptive uni variée
27 2.1 Paramètres de position
2.1.2 La moyenne
La moyenne ne peut être définie que sur une variable quantitative.
La moyenne est la somme des valeurs observées divisée par leur
nombre, elle est notée (À partir des données brutes)
𝒏
𝟏
ഥ
𝒙 = 𝒙𝒊
𝒏
𝒊=𝟏
La moyenne peut être calculée à partir des valeurs distinctes et des
effectifs
𝑱
𝟏
ഥ
𝒙 = 𝒏𝒋 𝒙𝒋
𝒏
𝒋=𝟏
13/06/2022
2. Statistique descriptive uni variée
28 2.1 Paramètres de position
2.1.3. La médiane
La médiane, notée 𝑀𝑒 ,est une valeur centrale de la série statistique obtenue de la
manière suivante :
On trie la série statistique par ordre croissant des valeurs observées.
La médiane 𝑀𝑒 est la valeur qui se trouve au milieu de la série ordonnée :
En général on note 𝒙(𝟏), . . ., 𝒙(𝒊), . . ., 𝒙(𝒏) la série ordonnée par ordre croissant. On
appelle cette série ordonnée la statistique d’ordre. Cette notation, très usuelle en
statistique, permet de définir la médiane de manière très synthétique.
Si n est impair, 𝑀𝑒 = 𝑥 𝑛+1
2
1
Si n est pair, 𝑀𝑒 = 𝑥 𝑛 +𝑥 𝑛
+1
2 2 2
Remarque : La médiane peut être calculée sur des variables quantitatives et sur des
variables qualitatives ordinales. Elle est facile à comprendre sur la courbe des
Fréquences cumulées
13/06/2022
2. Statistique descriptive uni variée
2.1 Paramètres de position
29
2.1.3. La médiane
La médiane d’une série statistique regroupée en classe est le nombre 𝑀𝑒 tel que la
moitié au moins des individus ont une modalité inférieure ou égale à 𝑀𝑒 et la moitié au
moins des individus ont une modalité supérieure ou égale à 𝑀𝑒 .
L'intervalle médian ou classe médiane est la classe qui contient la médiane de la série.
En utilisant le tableau des ECC, pour déterminer l'intervalle médian, il suffit de trouver la
classe correspondant à la première fois ou` la valeur de l’ECC est supérieure ou égale à
la moitié de l'effectif total.
Détermination de la médiane par la méthode d’interpolation linéaire
Pour déterminer la médiane par interpolation linéaire, on procède comme suit :
1. On détermine l'intervalle médian
𝑴𝒆 −𝒂 𝒃−𝒂
2. On résout ensuite l'équation 𝑵 = 𝒇 𝒃 −𝒇(𝒂) d’inconnue 𝑀𝑒 où 𝒇 𝒂 et 𝒇 𝒃 désignent
−𝒇(𝒂)
𝟐
respectivement l’ECC de et l’ECC de .
13/06/2022
2. Statistique descriptive uni variée
30 2.1 Paramètres de position
2.1.3. Quantile
C’est une généralisation de la notion de médiane
– Soit X une variable quantitative observée sur n individus d’un échantillon
– Ranger les valeurs mesurées par ordre croissant : on obtient {xr, r = 1,..,n}
– Médiane = valeur au-dessous de laquelle se trouvent 50% de ces n observations
– qème quantile (ou qème percentile)= valeur au-dessous de laquelle se trouvent q
p. 100 de ces n observations. On le note Qq
• 𝑄50 = médiane
• 𝑄25 = 1er quartile
• 𝑄75 = 3ème quartile
• 𝑄95 = 95ème percentile
– Si q(n+1) est un entier i, Qq = xi
– Si r < q(n+1) < r + 1, Qq =(xr + xi+1)/2
13/06/2022
31 Résumé sur les paramètres de position
13/06/2022
2. Statistique descriptive uni variée
2.2. Paramètres de dispersion
32
Ces paramètres complètent les informations données par les paramètres de
position, en permettant d’apprécier la tendance plus ou moins forte des
données à « s’étaler » de part et d’autre des valeurs « centrales »
2.2.1. La variance
La variance est la somme des carrés des écarts à la moyenne divisée par le
nombre d’observations :
𝒏
𝟏
𝑽 = 𝒙𝒊 − 𝒙 ഥ ²
𝒏
𝒊=𝟏
𝟏
Elle peut encore s’écrire : 𝑽 = σ𝒏𝒊=𝟏 𝒙𝒊 ² − ഥ
𝒙²
𝒏
13/06/2022
2. Statistique descriptive uni variée
34 2.2. Paramètres de dispersion
2.2.2.L’écart-type
L’écart-type est la racine carrée de la variance : 𝜎𝑥 = 𝑉
Quand on veut estimer l’écart-type d’une variable 𝑋 partir d’un échantillon de
taille 𝑛, utilise la variance “corrigée” pour définir l’écart type :
𝒏
𝝈𝒏−𝟏 = 𝜎𝑥
𝒏−𝟏
NB: L’écart type sert à mesurer la dispersion d’un ensemble de données. Plus il est
faible, plus les valeurs sont regroupées autour de la moyenne.
2.2.3. L’écart moyen absolu
L’écart moyen absolu est la somme des valeurs absolues des écarts à la
moyenne divisée par le nombre d’observations :
𝒏
𝟏
𝒆𝒎𝒐𝒚 = 𝒙𝒊 − ഥ 𝒙
𝒏
𝒊=𝟏
13/06/2022
2. Statistique descriptive uni variée
35 2.1 Paramètres de dispersion
13/06/2022
2. Statistique descriptive uni variée
40 2.2. Représentations graphiques
2.2.2. Variables discrètes – Diagrammes sectoriels (ou en camemberts)
Diagrammes sectoriels (ou en camemberts) : à chaque modalité correspond un secteur
de disque dont l’aire est proportionnelle à la fréquence relative de la modalité.
Chaque modalité est schématisée par une portion proportionnelle à l’effectif 100 % de
l’effectif = 360°
13/06/2022
2. Statistique descriptive uni variée
41 2.2. Représentations graphiques
13/06/2022