Vous êtes sur la page 1sur 11

Université des frères Mentouri Constantine1

Faculté des Sciences de la Nature et de la Vie


Département Biologie et Ecologie Végétale

Spécialité : L3 Ecologie et environnement


Coefficient : 2

Module Biostatistique
Cours
Statistiques descriptives
2018/2019

Dr. GAAD Djouher


Cours Séance 3 Statistiques descriptives

Séance 3
Séance 3 - statistique descriptive uni-variée : les paramètres statistiques

Univ.Cons 1 1
Cours Séance 3 Statistiques descriptives

Statistique descriptive uni variée : La Statistique descriptive uni-variée consiste en la description de chacun des
caractères statistiques, un par un, et non des liens éventuels existant entre eux.

Paramètres statistiques : Ce sont quelques nombres permettant de résumer numériquement les traits principaux
d'une distribution statistique.

Deux aspects sont essentiels à l'interprétation d'une distribution :


- Paramètre de position : le centre de la distribution et la répartition autour d'une valeur centrale (moyenne, mode,
médiane, quantiles, ..)
- Paramètre de dispersion ou d’étendue : les valeurs sont-elles dispersées ou concentrées ?

1. Paramètre de position et valeurs centrales


Le but des valeurs centrales est de résumer en une seule valeur l'ensemble des valeurs d'une distribution statistique.
Il existe quatre valeurs de positions :
- Le mode (Mo),
- La moyenne ( ou µ)
- La médiane ou le médian (Me ou Md)
- Les quartiles (Quantiles) (Qn)

Parmi ces valeurs les trois premières sont des valeurs de position centrales :
1.1. Le mode, ou valeur dominante, Mo, est la valeur la plus fréquente d'une distribution. Cette valeur se calcule
toujours à partir d'un dénombrement des modalités du caractère. Il faut donc distinguer le cas des caractères discrets

Univ.Cons 1 2
Cours Séance 3 Statistiques descriptives

et des caractères continus (voir notions de bases). On appelle distribution unimodale, une distribution présentant
un seul mode. Une distribution bimodale est une distribution présentant deux modes.

 Caractère qualitatif et caractère discret : Pour un caractère qualitatif, ou pour un caractère quantitatif discret
ayant un nombre de modalités inférieur au nombre d'éléments, le mode est la modalité ou la valeur qui a la
fréquence simple la plus élevée (ou l'effectif le plus élevé, ce qui revient au même).

 Caractère quantitatif continu : Les modalités étant en nombre infini, il est peu probable que deux éléments aient la
même valeur. Dans ce cas, le mode ne peut pas être défini directement, il faut au préalable établir une partition en
classes. Le mode est alors le centre de la classe modale, c'est à dire de la classe qui a la fréquence moyenne la
plus élevée. Ou la classe ayant la plus forte densité de fréquence.

Exemple1 : Cas de calcul des modes :


- Cas 1 : Données rangées : le mode est la valeur de la donnée qui apparaît le plus fréquemment (celle qui a le plus

d’occurrences) :
140 ; 141 ; 144 ; 144 ; 148 ; 148 ; 152 ; 152 ; 152 ; 154 ; 155 ; 158 ; 158 ; 161 ; 170 ; 172
Le mode est 152 car il possède le plus grand nombre d’occurrences (il est référencie 3 fois).

Modalités xj (Age en années) 14 16 18 21 22 24 25 Total


L’effectifs cumulé nj 5 12 10 8 11 7 3 56
Fréquences relatives fj 0,089 0,214 0,179 0,143 0,196 0,125 0,054 1,000

Univ.Cons 1 3
Cours Séance 3 Statistiques descriptives

-Cas 2 : Données condensées : le mode est la valeur de la donnée qui possède la fréquence la plus élevée (relative

ou absolue).

Dans cette série statistique, le mode est égal à Mo = 16 ans

- Cas 3 : Données groupées en classes : la classe modale est la classe ayant la plus haute fréquence (relative ou

absolue).
Exemple 3 : Répartition du poids par classe/ Enfants < 5ans
Classes de poids (Kg) 2-4 5-7 8-10 11-13
Effectifs nj 5 4 3 2
Fréquence fj 0,35 0,28 0,21 0,14

Classe modale [2-4[(Kg) est la plus fréquemment observé dans notre échantillon.

1.2. La moyenne
Formalisation mathématique de la moyenne arithmétique
La moyenne est la somme des grandeurs mesurées divisée par le nombre d’individus .
Pour un échantillon de n individus, la moyenne est calculée par :

Univ.Cons 1 4
Cours Séance 3 Statistiques descriptives

En utilisant la lettre grecque Ʃ pour représenter une somme, on obtient la notation compacte suivante :

Si xi désigne les valeurs du caractère, ni les effectifs correspondants et n l’effectif total alors :

Exemple 3 : Soit un échantillon de 9 personnes dont le poids est :

45 – 68 – 89 – 74 – 62 – 56 – 49 – 52 – 63 kg

Le poids moyen vaut :

=45+68+89+74+62+56+49+52+63/9= 62 kg

Pour des données groupées en classes, on peut calculer une valeur approximative de la moyenne en supposant que
tous les individus d’une classe se situent au centre de celle-ci.

Si x est le centre de la classe et f le nombre d’individus dans celle-ci, la formule approchée s’écrit :
Univ.Cons 1 5
Cours Séance 3 Statistiques descriptives

Exemple 4 : Soit un échantillon de 9 personnes dont le poids est répartie sou forme de classe :

Classe 45-55 55-65 65-75 75-85 85-95


Centre 50 60 70 80 90
Nombre 3 3 2 0 1

=3*50+3*60+2*70+0*80+1*90/9=62,2 kg

1.3. Médiane
La médiane Me est telle que l'effectif des observations dont les modalités sont inférieures à Me est égal à l'effectif
des observations dont, les modalités sont supérieures à Me.
La liste des N observation doit être rangée par ordre croissant

Si N est impair (N = 2n + 1) la médiane est la donnée de rang n + 1

Si N est pair (N = 2n) la médiane est le demi somme des données de rang n et de rang n + 1

Exemple 5 :
Univ.Cons 1 6
Cours Séance 3 Statistiques descriptives

Un boulanger teste les masses (en grammes) de 30 baguettes qu’il vient de fabriquer, il obtient les résultats
suivants :
235 235 237 238 238 239 239 239 240 241
241 243 245 247 247 249 250 205 250 250
250 251 251 253 253 255 255 255 257 260

Comme l’effectif total N = 30 est pair la médiane est la demi-somme de la donnée de rang 15 et la donnée de rang 16
soit : 247 + 249 / 2 = 248

Exemple 6 : Le tableau ci-dessous indique la durée (en minutes) de connexion internet par jour de 43 familles
interrogées :
Durée en minutes 40 60 80 120 180 200 240 300 Tot.
Effectif 2 9 11 7 5 2 4 3 43

Comme l’effectif total N = 43 = 2 x 21 + 1 est impair la médiane est la donnée de rang 22 soit 80 minutes.

1.4. Les quartiles : Les quartiles Q1, Q2, Q3 divisent une série statistique en 4 parties d'effectifs égaux : 25%
(1/4) des valeurs sont <Q1, 25 % (1/4) comprises entre Q1 et Q2 ; 25 % (1/4) entre Q2 et Q3, et 25 % (1/4)
supérieures à Q3.
La liste des N données est rangée par ordre croissant

Dans l’exemple 5 précédent portant sur les masses des baguettes le quart de l’effectif étant 30 4 =7,5 Q1 est la
donnée de rang 8 soit Q1 = 239 g et Q3 est la donnée de rang 22 soit Q3 = 251 g
Dans l’exemple 6 précédent portant sur la durée de connexion internet le quart de l’effectif étant 43 4 = 10,75 Q1 est
la donnée de rang 11 soit Q1 = 60 min et Q3 est la donnée de rang 33 soit Q3 = 180 min.
Univ.Cons 1 7
Cours Séance 3 Statistiques descriptives

Représentation graphique : Boite à moustaches

Remarque :
• Un tel diagramme est aussi appelé « diagramme en boite », « boite à pattes » ou encore « diagramme de Tukey
» du nom de son concepteur.
• Lorsqu’on utilise une calculatrice ce diagramme porte le nom de « Box Plot ».
• Les boites à moustaches sont un moyen simple pour comparer un même caractère sur plusieurs séries statistiques.
2. Paramètres de dispersion
Les paramètres de dispersion sont calculés pour les variables statistiques quantitatives.
Il existe trois valeurs de dispersions :

Univ.Cons 1 8
Cours Séance 3 Statistiques descriptives

 Etendue
 Variance
 Ecart type

2.1. L’étendue : La différence entre la plus grande valeur et la plus petite valeur du caractère, donnée par la quantité

e = xmax − xmin

Le calcul de l’étendue est très simple. Il donne une première idée de la dispersion des observations. C’est un
indicateur très rudimentaire et il existe des indicateurs de dispersion plus élaborés (voir ci-dessous).

2.2. La variance : C’est la Somme des carrés des écarts à la moyenne divisée par le nombre d’observations: S2 = 1/n ∑

(xi - )2 pour des données isolées, et S2 = 1/n ∑ (ni) (xi - )2 pour des données groupées (xi est le centre de classe).

Exemple 7: La variance de la série : 8 9 10 10 12 14 14 16, qui a pour moyenne =11.625 est :

s² = 1/8 [(8 - 11.625)² + (9 - 11.625)² + 2 (10 - 11.625)² + (12 - 11.625)² + 2 (14 - 11.625)² + (16 -11.625)²

= 1/8 (8² + 9² + 2 ´ 10² + 12² + 2 ´ 14² + 16²) - (11.625)² = 6.9844.

Quand on veut estimer une variance d’une variable X à partir d’un échantillon (une partie de la population
sélectionnée au hasard) de taille n, on utilise la “corrigée” divisée par n − 1.

S2=1/n − 1Σ (xi − ¯x) 2 = s2n/n − 1

Univ.Cons 1 9
Cours Séance 3 Statistiques descriptives

2.3. L’´ecart-type

L’´écart-type est la racine carrée de la variance : s =√s2

Quand on veut estimer l’´écart-type d’une variable X partir d’un échantillon de taille n, utilise la variance “corrigée”
pour définir l’´écart type: S =√S2=s√n/n-1

Exemple 8: Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a

=2 + 3 + 4 + 4 + 5 + 6 + 7 + 9/8= 5

s2=1/8[(2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2

=1/8[9 + 4 + 1 + 1 + 0 + 1 + 4 + 16] = 36/8=4.5. s=√4.5=

On peut également utiliser la formule de la variance, ce qui n´nécessite moins de calcul s2=1/8 (22 + 32 + 42 + 42 +
52 + 62 + 72 + 92) − 52 =1/8(4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25=236/8− 25=29.5 − 25 = 4.5. s=√4.5=

Le coefficient de variation C.V. = s / ×100.


1) CV < 5% : Les valeurs sont très homogènes.
2) 5%<CV< 10% : Les valeurs sont homogènes.
3) 10%<CV< 15% : Les valeurs sont moyennement homogènes.
4) 15%<CV< 30% : Les valeurs sont hétérogènes.
5) CV> 30% : Les valeurs sont très hétérogènes.
Univ.Cons 1 10

Vous aimerez peut-être aussi