Académique Documents
Professionnel Documents
Culture Documents
Module Biostatistique
Cours
Statistiques descriptives
2018/2019
Séance 3
Séance 3 - statistique descriptive uni-variée : les paramètres statistiques
Univ.Cons 1 1
Cours Séance 3 Statistiques descriptives
Statistique descriptive uni variée : La Statistique descriptive uni-variée consiste en la description de chacun des
caractères statistiques, un par un, et non des liens éventuels existant entre eux.
Paramètres statistiques : Ce sont quelques nombres permettant de résumer numériquement les traits principaux
d'une distribution statistique.
Parmi ces valeurs les trois premières sont des valeurs de position centrales :
1.1. Le mode, ou valeur dominante, Mo, est la valeur la plus fréquente d'une distribution. Cette valeur se calcule
toujours à partir d'un dénombrement des modalités du caractère. Il faut donc distinguer le cas des caractères discrets
Univ.Cons 1 2
Cours Séance 3 Statistiques descriptives
et des caractères continus (voir notions de bases). On appelle distribution unimodale, une distribution présentant
un seul mode. Une distribution bimodale est une distribution présentant deux modes.
Caractère qualitatif et caractère discret : Pour un caractère qualitatif, ou pour un caractère quantitatif discret
ayant un nombre de modalités inférieur au nombre d'éléments, le mode est la modalité ou la valeur qui a la
fréquence simple la plus élevée (ou l'effectif le plus élevé, ce qui revient au même).
Caractère quantitatif continu : Les modalités étant en nombre infini, il est peu probable que deux éléments aient la
même valeur. Dans ce cas, le mode ne peut pas être défini directement, il faut au préalable établir une partition en
classes. Le mode est alors le centre de la classe modale, c'est à dire de la classe qui a la fréquence moyenne la
plus élevée. Ou la classe ayant la plus forte densité de fréquence.
d’occurrences) :
140 ; 141 ; 144 ; 144 ; 148 ; 148 ; 152 ; 152 ; 152 ; 154 ; 155 ; 158 ; 158 ; 161 ; 170 ; 172
Le mode est 152 car il possède le plus grand nombre d’occurrences (il est référencie 3 fois).
Univ.Cons 1 3
Cours Séance 3 Statistiques descriptives
-Cas 2 : Données condensées : le mode est la valeur de la donnée qui possède la fréquence la plus élevée (relative
ou absolue).
- Cas 3 : Données groupées en classes : la classe modale est la classe ayant la plus haute fréquence (relative ou
absolue).
Exemple 3 : Répartition du poids par classe/ Enfants < 5ans
Classes de poids (Kg) 2-4 5-7 8-10 11-13
Effectifs nj 5 4 3 2
Fréquence fj 0,35 0,28 0,21 0,14
Classe modale [2-4[(Kg) est la plus fréquemment observé dans notre échantillon.
1.2. La moyenne
Formalisation mathématique de la moyenne arithmétique
La moyenne est la somme des grandeurs mesurées divisée par le nombre d’individus .
Pour un échantillon de n individus, la moyenne est calculée par :
Univ.Cons 1 4
Cours Séance 3 Statistiques descriptives
En utilisant la lettre grecque Ʃ pour représenter une somme, on obtient la notation compacte suivante :
Si xi désigne les valeurs du caractère, ni les effectifs correspondants et n l’effectif total alors :
45 – 68 – 89 – 74 – 62 – 56 – 49 – 52 – 63 kg
=45+68+89+74+62+56+49+52+63/9= 62 kg
Pour des données groupées en classes, on peut calculer une valeur approximative de la moyenne en supposant que
tous les individus d’une classe se situent au centre de celle-ci.
Si x est le centre de la classe et f le nombre d’individus dans celle-ci, la formule approchée s’écrit :
Univ.Cons 1 5
Cours Séance 3 Statistiques descriptives
Exemple 4 : Soit un échantillon de 9 personnes dont le poids est répartie sou forme de classe :
=3*50+3*60+2*70+0*80+1*90/9=62,2 kg
1.3. Médiane
La médiane Me est telle que l'effectif des observations dont les modalités sont inférieures à Me est égal à l'effectif
des observations dont, les modalités sont supérieures à Me.
La liste des N observation doit être rangée par ordre croissant
Si N est pair (N = 2n) la médiane est le demi somme des données de rang n et de rang n + 1
Exemple 5 :
Univ.Cons 1 6
Cours Séance 3 Statistiques descriptives
Un boulanger teste les masses (en grammes) de 30 baguettes qu’il vient de fabriquer, il obtient les résultats
suivants :
235 235 237 238 238 239 239 239 240 241
241 243 245 247 247 249 250 205 250 250
250 251 251 253 253 255 255 255 257 260
Comme l’effectif total N = 30 est pair la médiane est la demi-somme de la donnée de rang 15 et la donnée de rang 16
soit : 247 + 249 / 2 = 248
Exemple 6 : Le tableau ci-dessous indique la durée (en minutes) de connexion internet par jour de 43 familles
interrogées :
Durée en minutes 40 60 80 120 180 200 240 300 Tot.
Effectif 2 9 11 7 5 2 4 3 43
Comme l’effectif total N = 43 = 2 x 21 + 1 est impair la médiane est la donnée de rang 22 soit 80 minutes.
1.4. Les quartiles : Les quartiles Q1, Q2, Q3 divisent une série statistique en 4 parties d'effectifs égaux : 25%
(1/4) des valeurs sont <Q1, 25 % (1/4) comprises entre Q1 et Q2 ; 25 % (1/4) entre Q2 et Q3, et 25 % (1/4)
supérieures à Q3.
La liste des N données est rangée par ordre croissant
Dans l’exemple 5 précédent portant sur les masses des baguettes le quart de l’effectif étant 30 4 =7,5 Q1 est la
donnée de rang 8 soit Q1 = 239 g et Q3 est la donnée de rang 22 soit Q3 = 251 g
Dans l’exemple 6 précédent portant sur la durée de connexion internet le quart de l’effectif étant 43 4 = 10,75 Q1 est
la donnée de rang 11 soit Q1 = 60 min et Q3 est la donnée de rang 33 soit Q3 = 180 min.
Univ.Cons 1 7
Cours Séance 3 Statistiques descriptives
Remarque :
• Un tel diagramme est aussi appelé « diagramme en boite », « boite à pattes » ou encore « diagramme de Tukey
» du nom de son concepteur.
• Lorsqu’on utilise une calculatrice ce diagramme porte le nom de « Box Plot ».
• Les boites à moustaches sont un moyen simple pour comparer un même caractère sur plusieurs séries statistiques.
2. Paramètres de dispersion
Les paramètres de dispersion sont calculés pour les variables statistiques quantitatives.
Il existe trois valeurs de dispersions :
Univ.Cons 1 8
Cours Séance 3 Statistiques descriptives
Etendue
Variance
Ecart type
2.1. L’étendue : La différence entre la plus grande valeur et la plus petite valeur du caractère, donnée par la quantité
e = xmax − xmin
Le calcul de l’étendue est très simple. Il donne une première idée de la dispersion des observations. C’est un
indicateur très rudimentaire et il existe des indicateurs de dispersion plus élaborés (voir ci-dessous).
2.2. La variance : C’est la Somme des carrés des écarts à la moyenne divisée par le nombre d’observations: S2 = 1/n ∑
(xi - )2 pour des données isolées, et S2 = 1/n ∑ (ni) (xi - )2 pour des données groupées (xi est le centre de classe).
s² = 1/8 [(8 - 11.625)² + (9 - 11.625)² + 2 (10 - 11.625)² + (12 - 11.625)² + 2 (14 - 11.625)² + (16 -11.625)²
Quand on veut estimer une variance d’une variable X à partir d’un échantillon (une partie de la population
sélectionnée au hasard) de taille n, on utilise la “corrigée” divisée par n − 1.
Univ.Cons 1 9
Cours Séance 3 Statistiques descriptives
2.3. L’´ecart-type
Quand on veut estimer l’´écart-type d’une variable X partir d’un échantillon de taille n, utilise la variance “corrigée”
pour définir l’´écart type: S =√S2=s√n/n-1
=2 + 3 + 4 + 4 + 5 + 6 + 7 + 9/8= 5
On peut également utiliser la formule de la variance, ce qui n´nécessite moins de calcul s2=1/8 (22 + 32 + 42 + 42 +
52 + 62 + 72 + 92) − 52 =1/8(4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25=236/8− 25=29.5 − 25 = 4.5. s=√4.5=