Vous êtes sur la page 1sur 50

Département de Biologie

(BIO)STATISTIQUE
(ABC; L2 ;S3 , BOE /BMP ; L3 ;S5)

Partie I: Statistique descriptive

Mohamed El Houmed, Ph.D.


Novembre, 2023
(Version 1.0)
CHAPITRE I. NOTIONS DE BASE
Pourquoi la statistique? • Prise de décision : Les statistiques aident à prendre des
décisions éclairées en fournissant des données
quantitatives sur les tendances, les comportements et
les prédictions.
• Prévision : Les statistiques peuvent aider à prévoir les
tendances futures en se basant sur les données
historiques
• Amélioration de la qualité : Les statistiques peuvent
aider à identifier les domaines qui nécessitent une
amélioration.
• Recherche : Dans le domaine de la recherche, les
statistiques sont essentielles pour comprendre et
interpréter les données recueillies.
I. 1. Définitions
Le Larousse définit les statistiques comme :

- Ensemble de données d'observation relatives à un groupe d'individus ou d'unités


(souvent pluriel).

- Ensemble des données numériques concernant un phénomène quelconque et


dont on tire certaines conclusions.

- Variable aléatoire, fonction des observations, construite à partir d'un échantillon.


(Ainsi, la moyenne d'un échantillon est une statistique.)

→ des chiffres

- Ensemble des méthodes qui ont pour objet la collecte, le traitement et


l'interprétation de ces données.

→ des méthodes
Définition
• Statistique : la statistique est l’ensemble des
méthodes qui servent à organiser les épreuves
fournissant des observations, à analyser celles-ci et à
interpréter les résultats.
• POPULATION La collection d’objets ou de personnes
étudiées (élèves, habitants, voitures…).

• INDIVIDU élément de la population étudiée. ( un


élève, un habitant, une voiture,…).

• ECHANTILLON partie de la population étudiée.


Nombre d’individus dans un échantillon noté n est
appelé taille de l’échantillon
L’unité Statistique (Individu)
Une unité statistique est une unité d'observation
ou de mesure pour laquelle des données sont
recueillies ou dérivées.

→ c’est ce sur quoi on veut


recueillir de l’information

L'unité statistique est donc l'élément de base


pour compiler les informations.

Il peut s’agir de personnes, des ménages,


d’objets….
Echantillonnage
Il faut distinguer 2 éléments différents :

La population
= ensemble d’unités
statistiques pour lesquelles L’échantillon
on cherche de l’info = sous-groupe de la
population
Différentes techniques
d’échantillonnage existent

Population
Echantillon
I. 2. Types de Variables
Rappel : Une variable = une caractéristique susceptible de prendre une
valeur différente selon les individus (ou les unités statistiques)

Ex : taille d’une personne, couleur des cheveux, durée d’une maladie, group
sanguin,,,

Variables Variables
quantitatives qualitatives
• VARIABLE (CARACTERE) STATISTIQUE propriété commune aux
individus de la population, que l’on veut étudier.
• Un caractère quantitatif peut être :
• *Continue : peut prendre toutes
les valeurs numériques d’un
intervalle déterminer (taille,
poids…). On le mesure.
• *Discontinue (discrète) : ne peut
prendre que des valeurs numérique
isolées (nombre de pièces
d’habitations, nombre de fruits
endommagés…). On le dénombre
• Les variables qualitatives contiennent des valeurs
qui expriment une qualité comme le sexe, la couleur
ou le nom

• Elles peuvent être:

Variable • Nominale comme le nom des journaux, le nom des


personnes, la couleur.

qualitative
• Ordinale désigne le rang ou la préférence comme:
un peu, moyen, beaucoup
Group sanguin Nombre d’individu (n)
• MODALITE l’une des formes
A+ 15
particulières d’un caractère. Le
B+ 5 groupe sanguin est un caractère,
AB+ 9 ses modalités sont : A, B, O,…
O+ 18

A- 4
• EFFECTIF OU FREQUENCE
ABSOLUE (noté ni) nombre
B- 3
d’apparitions de la valeur associé à
AB- 9 un caractère dans un échantillon.
O- 2
CHAPITRE II.
PRESENTATION DE
DONNEES
Representation
Graphique
𝑛𝑖
• FREQUENCE RELATIVE (noté fi) fi = .
𝑛

• SERIE STATISTIQUE l’ensemble des valeurs du caractère avec en


regard, les fréquences absolues ou relatives correspondantes.

• On appelle LES STATISTIQUES (au pluriel) des collections de nombres


présentées sous forme de tableaux ou de graphique groupant des
observations relatives à un phénomène considéré.
SERIE STATISTIQUE : exemple

OBS AGE IMC SEXE EXERCISE QUESTION


1 26 23.2 0 1 1
2 30 30.2 1 3 2
3 32 28.9 1 3 4
4 37 22.4 1 2 3
5 33 25.5 0 3 5
6 29 22.3 0 2 2
7 32 23.0 0 1 1
8 33 26.3 0 3 1
9 32 22.2 0 1 4
10 33 29.1 1 1 4
11 26 20.8 0 1 3
12 34 20.9 0 2 3
13 31 36.3 0 2 5
14 31 36.4 1 1 5
15 27 28.6 1 2 2
16 36 27.5 1 3 3
17 35 25.6 1 3 4
18 31 21.2 1 1 2
19 36 22.7 0 2 1
20 33 28.1 0 2 1
Exemple 1 :
Nombre 0 1 2 3 4 5 total
d’enfant
Nombre
de famille
16 18 14 11 3 2 64
ou
effectif : ni
Fréquence 0,250 0,281 0,218 0,172 0,047 0,031 1
relative : fi
• Quelle est la population étudiée?
• Quel est l’échantillon sur lequel porte
l’étude?
Questions? • Quel est le caractère étudié?
• Quel type de variable?
• Population étudiée : les familles

• L’échantillon sur lequel porte l’étude : familles d’un immeuble ;


n=64.

• Le caractère étudié est le nombre d’enfants par famille. C’est un


caractère quantitatif discret.
• Traitement d’une série statistique
• *Série ordonnée :

• les valeurs obtenues peuvent être rangées par


ordre de grandeur par exemple croissante. On
obtient une série statistique ordonnée.

• *Etendue de la série :

• La différence entre les deux valeurs extrêmes


est appelée étendue de la série.
• Etendue = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
• Exemple 2 : Le taux de glucose sanguin (glycémie) déterminé chez 32 sujets est donné ci-dessous en g/l
• Série ordonnée :
• 0,85 0,95 1,00 1,06 1,11 1,19
• 0,87 0,97 1,01 1,07 1,13 1,20
• 0,90 0,97 1,03 1,08 1,14
• 0,93 0,98 1,03 1,08 1,14
• 0,94 0,98 1,03 1,10 1,15
• 0,94 0,99 1,04 1,10 1,17
• Quelle est la population étudiée?
• Quel est l’échantillon sur lequel porte
l’étude?
Questions? • Quel est le caractère étudié?
• Quel type de variable?
• Population étudiée : sujets humains
• L’échantillon sur lequel porte l’étude : 32 sujets.
• Le caractère étudié est Le taux de glucose sanguin. C’est un
caractère quantitatif continu.
• * On a 𝑛 = 32
• Etendue de la série : 1,20 – 0,85 en g/l = 0,35 g/l.
Exemple 3:

Classe en g/l 𝑐𝑖 𝑔/𝑙 𝑛𝑖 𝑓𝑖 𝑛𝑖 cumulés


[0,85 ; 0,91[ 0,88 3 3Τ32 3
[0,91 ; 0,97[ 0,94 4 4Τ32 7
[0,97 ; 1,03[ 1,00 7 7Τ32 14
[1,03 ; 1,09[ 1,06 8 8Τ32 22
[1,09 ; 1,15[ 1,12 6 6Τ32 28
[1,15 ; 1,21] 1,18 4 4Τ32 32

𝑛 = ෍ 𝑛𝑖 = 32 ෍ 𝑓𝑖 = 1
a)- Diagramme en
bâtons de l’exemple1 :
18
16
14
11

3 2
•b)- L’histogramme : lorsque le caractère étudié est continue on
utilise un histogramme.
•Chaque classe est représentée par un rectangle dont la base
est égale à la longueur de la classe et dont la hauteur est égale
à l’effectif correspondant.
Histogramme de
l’exemple 2
Chapitre III. Mesures
de la tendance
centrale

C’est la partie des statistiques qui


permet de décrire les ensembles de
données (paramètres de centrage
comme la moyenne, distributions,
paramètres de dispersion comme la
variance...).
Encoder Trier/organiser
Recueil des
Un échantillon l’ensemble des Analyser les
données
variables variables

- Connaitre la distribution des variables

- Visualiser la distribution sur des graphiques

- Résumer les variables pour les présenter


• 5)- Paramètres de position ou de tendance centrale :

• a- Le mode : le mode d’un ensemble de nombres est


la valeur qui y apparait le plus, c'est-à-dire la valeur
dominante. Le mode peut ne pas exister et, même s’il
existe, peut ne pas être unique (dans le cas continue on
parle de classe modale).
Exemple : L’ensemble 2,2,5,7,9,9,9,10,10,11,12,18
a comme mode 9.
Exemples :

Exemple : l’ensemble 3, 5, 8, 10, 12,15, 16


n’a pas de mode.

Exemple : l’ensemble 2, 3, 4, 4, 4, 5, 5, 7, 7,7, 9


a deux mode 4 et 7. La série est appelée bimodale.
*Une série ayant un seul mode est appelée uni modale.
b- La médiane : la médiane d’un ensemble de
nombre rangés par ordre croissant est :

* la valeur du milieu si le nombre des données est


impaire
* la moyenne arithmétique des deux valeurs du milieu
si le nombre des données est pair.
Exemple : l’ensemble des nombres
3, 4, 4, 5, 6, 8, 8, 8, 10
a comme médiane 6.

Exemple : l’ensemble des données


5, 5, 7, 9, 11, 12,15 et 18
a comme médiane (9+11)/2= 10.
• Pour déterminer la médiane dans le cas continu
• il est nécessaire de considérer les effectifs cumulés croissants
• et de chercher le cas échéant par interpolation, la valeur du
caractère correspondant à 50% de l’effectif total.
courbe cumulative des fréquences

30
25
fréquences cumulées

20
15
10
5
0

Q1 Q2 Q3

0.85 0.90 0.95 1.00 1.05 1.10 1.15 1.20

taux de glycémie

𝑀𝑒
d-Moyenne arithmétique : Soit 𝑋 la série statistique

Valeurs 𝑥1 𝑥2 𝑥3 …. 𝑥𝒊 …. 𝑥𝒎
Effectiffs 𝑛1 𝑛2 𝑛3 …. 𝑛𝒊 …. 𝑛𝒎

La moyenne arithmétique est :


𝑛1 𝑥1 + 𝑛2 𝑥2 + 𝑛3 𝑥3 + ⋯ + 𝑛𝑚 𝑥𝑚 𝟏
𝑋ത = = ෍ 𝒏𝒊 𝒙𝒊
𝑛 𝒏
𝑛𝑖
= ෍ 𝑥𝑖 = ෍ 𝒇𝒊 𝒙𝒊
𝑛
Exemple : dans l’exemple1
𝒙𝒊 0 1 2 3 4 5 total
𝒏𝒊 16 18 14 11 3 2 64
𝒇𝒊 0,25 0,281 0,218 0,172 0,047 0,031 1
le nombre moyen d’enfants par famille est :
𝟏𝟔 × 𝟎 + 𝟏𝟖 × 𝟏 + 𝟏𝟒 × 𝟐 + 𝟏𝟏 × 𝟑 + 𝟑 × 𝟒 + 𝟐 × 𝟓
ഥ=
𝑿 ≅ 𝟏, 𝟓𝟖
𝟔𝟒
= 𝟎, 𝟐𝟓 × 𝟎 + 𝟎, 𝟐𝟖𝟏 × 𝟏 + 𝟎, 𝟐𝟏𝟖 × 𝟐 + 𝟎, 𝟏𝟕 × 𝟑
+𝟎, 𝟎𝟒𝟕 × 𝟒 + 𝟎, 𝟑𝟏 × 𝟓 ≅ 𝟏, 𝟓𝟖 .
Si le mode, la médiane et la moyenne sont à peu
près égales alors la série statistique est à peu près
symétrique.
6)- Paramètres de dispersions :

• Un paramètre de dispersion se rapporte à la différence de deux valeurs du caractère.


• Alors qu’un paramètre de position représente une valeur du caractère.
Distribution des variables

❖Les graphiques vont nous donner une idée de la distribution des


variables

❖Différentes méthodes existent pour résumer l’ensemble d’une


distribution = nombres = paramètres

❖Paramètres de
➔Position : ou de localisation va permettre
de montrer la tendance centrale
➔ Dispersion : montre la variabilité
Résumé les variables

Quelle est la valeur qui caractérise la position ?


125
➔ Médiane = valeur qui partage les individus en 2

110
groupes d’effectifs égaux

100
90
Q3 = 89 mmhg

pad
Médiane = Q2 = 79 mmhg

80
Q1 = 72 mmhg

70
Quelle est la valeur qui caractérise la

60
dispersion ?

50
➔ Intervalle inter quartile = Q3-Q1 =
89-72 = 17 mmhg
Résumé les variables Moyenne = 80,6 mmhg
Quelle est la valeur qui caractérise la position ?

➔ Moyenne = valeur calculée = somme des

50
valeurs observées/nombre de sujets

40
𝑥ҧ = 80,6 mmhg

30
frequency
❖Quelle est la valeur qui caractérise la

20
dispersion ?

10
➔Variance et déviation standard (écart-type) =

0
distance par rapport à la moyenne 50 60 70 80 90 100 110

ds = 12,2 mmhg pad


a)- Ecart moyen arithmétique : il est donné par

Calculez la moyenne: 𝑥ҧ
La valeur absolue de la différence entre chaque donnée et la moyenne 𝑥𝑖 − 𝑥ҧ .
Faites la somme de ces différences
Diviser cette somme par le nombre de données noté 𝑛
b)- Variance :
La variance est une mesure de la dispersion des valeurs d’un échantillon ou d’une variable aléatoire. Elle exprime
la moyenne des carrés des écarts à la moyenne

Autrement dit, la variance est la différence entre la moyenne des carrés et le


carré de la moyenne. Une autre formule qui peut parfois servir est :

La variance est toujours positive, et ne s’annule que s’il n’y a essentiellement qu’une seule
valeur. Sa racine carrée définit l’écart type
2
𝑠é𝑐ℎ = 𝑋 2 − 𝑋ത 2
le carré de la moyenne

la moyenne des carrés


Ici 𝑋 2 est la série statistique:
Valeurs 𝑥1 𝟐 𝑥𝟐 𝟐 𝑥𝟑 𝟐 …. 𝑥𝒊 𝟐 …. 𝑥𝒎 𝟐
Effectiffs 𝑛1 𝑛2 𝑛3 …. 𝑛𝒊 …. 𝑛𝒎
la moyenne des carrés est:
𝟐
𝟏 𝟐 𝟐
𝑿 = ෍ 𝒏𝒊 𝒙𝒊 = ෍ 𝒇𝒊 𝒙𝒊
𝒏
La variance du caractère dans la population,
notée 𝜎 , est en général inconnue.
2
2
L’estimateur de la variance de la population, noté 𝑠 , est
donné par
2 𝑛 2
𝑠 = 𝑠é𝑐ℎ .
𝑛−1
2
c)- Ecart – type : 𝑠é𝑐ℎ = 𝑠é𝑐ℎ .

L’écart type est une mesure de la dispersion des valeurs d’un


ensemble de données. Il est défini comme la racine carrée de la
variance
Analyse Statistique

• L’analyse statistique se subdivise en deux parties:


• Statistique descriptive et Statistique inférentielle
• Statistique descriptive :
• a pour but de décrire c-à-d de résumer ou représenter les données.
• Questions typiques
• *Représentation graphique
• *Paramètres de position, de dispersion, de relation.
Statistiques inférentiels :

Statistiques inférentielles permettent de faire des prédictions ou des généralisations sur une
population à partir d’un échantillon de cette population.

Elles expliquent la probabilité qu’un événement futur se produise.

Les tests d’hypothèses et les intervalles de confiance sont des exemples de statistiques
inférentielles.

Les chercheurs peuvent généraliser une estimation en utilisant des statistiques inférentielles et un
échantillon représentatif. Elle nécessite un raisonnement logique pour parvenir à des conclusions

Vous aimerez peut-être aussi