Notes de Cours Bio Statique

NOTES DE COURS (BIO)STATISTIQUE
(ABC; L2; S3, BOE/BMP; L3; S5)
Département de Biologie
Mohamed El Houmed, Ph.D.
Octobre, 2023
(Version 1.0)
1
Table des matières
CHAPITRE I. NOTIONS DE BASE ..................................................................................................... 3
I.1. Introduction .................................................................................................................. 3
I.2. Population et Échantillon ............................................................................................... 5

1.3. Unité statistique et Variables ......................................................................................... 6
I.4. Les modalités d’un caractère : ........................................................................................ 7
I.5. Observations ................................................................................................................. 8
I.6. Série statistique ............................................................................................................. 8
I.7. Données ....................................................................................................................... 8
CHAPITRE II. PRESENTATION DE DONNEES ....................................................................................... 9
II.1. Mesures de fréquence .................................................................................................. 9
II.2. Les échelles de classification d’un caractère (ou d’une variable) .................................... 11
II.3 L’échelle de classement ............................................................................................... 12

II.4 Statistique de la Santé ................................................................................................. 13
II.5 Le regroupement des données .................................................................................... 13
II.6. Présentation graphique .............................................................................................. 15
CHAPITRE III. STATISTIQUE DESCRIPTIVE ........................................................................................ 17
III.1. Mesures de tendance centrale ou paramètres de position........................................... 17

III. 1 1. La Moyenne........................................................................................................... 17
III. 1. 2. La Médiane ........................................................................................................... 20

III.1.3. Quartiles ................................................................................................................. 21
III.1.4. Déciles et percentiles ........................................................................................... 21

III.2. MESURES DE DISPERSION ......................................................................................... 22
II.2. 1 L’étendue............................................................................................................. 22
II.2. 2 L’écart interquartile,.............................................................................................. 22
III.2. 3 La variance .......................................................................................................... 23
III.2. 4 L’écart-type ........................................................................................................ 24
III.2.5. L’intervalle semi-interquartile ............................................................................... 25
III.2.6. Coefficient de variation ........................................................................................ 25
IV.- CONCLUSION ............................................................................................................ 26
2
CHAPITRE I. NOTIONS DE BASE
I.1. Introduction
La statistique est une branche des mathématiques qui s’occupe de la collecte, de
l’analyse et de l’interprétation des données. Elle est utilisée dans de nombreux domaines,
y compris la biologie, pour analyser et interpréter les données. Les concepts clés de la
statistique incluent :
Population et échantillon : La population est l’ensemble complet de toutes les
observations possibles, tandis que l’échantillon est un sous-ensemble de la population.
Les statistiques sont souvent calculées sur des échantillons plutôt que sur des
populations entières.
Variables : Les variables sont des caractéristiques mesurées dans une étude. Elles
peuvent être continues (par exemple, la taille ou le poids) ou catégorielles (par exemple,
le sexe ou la race).
Moyenne et médiane : La moyenne est la somme de toutes les observations
divisées par le nombre total d’observations. La médiane est la valeur qui divise l’ensemble
de données en deux parties égales.
Dispersion : La dispersion mesure à quel point les données sont étalées. Les
mesures de dispersion courantes incluent l’écart-type, la variance et l’écart interquartile.
Tests d’hypothèses : Les tests d’hypothèses sont utilisés pour déterminer si une
différence observée entre deux groupes est statistiquement significative ou simplement
due au hasard.
Régression : La régression est utilisée pour modéliser la relation entre deux
variables. Elle peut être utilisée pour prédire une variable à partir d’une autre variable.
En biologie, la statistique est utilisée pour étudier une grande variété de
phénomènes, tels que la propagation des maladies dans une population, l’étude des
relations entre les gènes et les caractéristiques physiques ou comportementales,
l’efficacité et la sécurité des médicaments, etc. Par exemple, les statistiques peuvent être
3
utilisées pour déterminer le taux d’incidence d’une maladie, les facteurs de risque
associés à une maladie, si un traitement est efficace ou non, etc.
Le mot statistique vient du mot latin « STATUS » situation ou état. Elle permet des
généralisations afin d’établir des indicateurs, des indices, des liaisons et des prévisions.
La statistique nous dit comment
⮚ Effectuer les mesures
⮚ Extraire l’information des données
⮚ Appréhender l’incertitude et revendiquer le droit à l’erreur
⮚ Quantifier le risque d’erreur
Connaître, c’est compter

Dans le but de :
⮚ Trouver et décrire une relation
Ex. Risque cardio-vasculaire et tabac
⮚ Prendre une décision
Ex. Efficacité d’un médicament
⮚ Prévoir et planifier
Ex. Budget prévisionnel (commune, gouvernement…)
La biostatistique est la branche de la statistique qui s’applique à la
collecte, l’analyse et l’interprétation des données biologiques, en particulier
celles liées à la biologie humaine, à la santé et à la médecine.
Domaines d’application de la Biostatistique
La biostatistique est utilisée dans de nombreux domaines de la biologie
et de la médecine pour analyser et interpréter les données. Voici quelques
exemples d’applications de la biostatistique :
Épidémiologie : La biostatistique est utilisée pour étudier la propagation
des maladies dans une population. Les statistiques peuvent être utilisées pour
déterminer le taux d’incidence d’une maladie, les facteurs de risque associés à
une maladie, etc.
4
Recherche clinique : La biostatistique est utilisée pour concevoir des
essais cliniques et analyser les résultats. Les statistiques peuvent être utilisées
pour déterminer si un traitement est efficace, si les effets secondaires sont
acceptables, etc.
Génétique : La biostatistique est utilisée pour étudier les relations entre
les gènes et les caractéristiques physiques ou comportementales. Les
statistiques peuvent être utilisées pour déterminer si un gène est associé à une
maladie, si deux gènes sont liés, etc.
Santé publique : La biostatistique est utilisée pour étudier les tendances
en matière de santé dans une population. Les statistiques peuvent être utilisées
pour déterminer le taux de mortalité, le taux de morbidité, etc.
Pharmacologie : La biostatistique est utilisée pour étudier l’efficacité et
la sécurité des médicaments. Les statistiques peuvent être utilisées pour
déterminer la dose optimale d’un médicament, si un médicament est efficace,
etc.
L’objet étudié est identifié par = ses caractéristiques,
caractères ou variables exprimés en termes de : ⮚ Mesure (aspect
quantitatif)
⮚ « Étiquetage » qualifiant (aspect qualitatif)
Pour avoir une signification en termes d’indicateurs les variables sont
traitées et présentées sous la forme de mesures de fréquences
I.2. Population et Échantillon

Population : ensemble (collection) d’êtres analogues ou unités
statistiques (individus, objets, germes…) Unité statistique : caractérisée par son
aspect ou caractère ou variable
L’échantillonnage est le processus de sélection d’un sous-ensemble de
personnes ou de phénomènes sociaux dans un univers plus vaste avec pour
5
objectif principal de tirer des conclusions sur le groupe plus large sur la base
des informations obtenues auprès du petit groupe 12. Il existe plusieurs
méthodes d’échantillonnage, notamment :
Échantillonnage aléatoire simple : Chaque membre de la population a
une chance égale d’être sélectionné pour l’échantillon. Cette méthode est
souvent utilisée lorsque la population est homogène.
Échantillonnage stratifié : La population est divisée en groupes
homogènes, appelés strates, et un échantillon est prélevé dans chaque strate.
Cette méthode est souvent utilisée lorsque la population est hétérogène.
Échantillonnage par grappes : La population est divisée en groupes,
appelés grappes, et un échantillon de grappes est prélevé. Ensuite, un
échantillon est prélevé dans chaque grappe sélectionnée. Cette méthode est
souvent utilisée lorsque la population est dispersée géographiquement.
1.3. Unité statistique et Variables

En statistique, une unité statistique (ou individu) est un élément quelconque de la
population étudiée. Elle peut être de natures différentes,
En statistique, une variable est une caractéristique commune à l’ensemble des
individus d’une étude. La valeur de cette caractéristique varie entre les individus.
Certaines variables s’expriment par un nombre, comme la taille ou le poids, tandis que
Unité Variables
statistique
Une personne Âge, sexe, profession, poids, taille, groupe sanguin.
Résultats analyses biologique. Niveau instruction…..
Un objet Nature (bois fer, plastique…),poids, couleur…
Un germe Nature (bactérie, virus, parasite…), forme, taille,
sensibilité aux antibiotiques…
6
Les variables peuvent être classées en plusieurs types, notamment :
Variables qualitatives : Les variables qualitatives sont des variables qui
s’expriment par des qualités plutôt que par des nombres. Elles peuvent être nominales,
ordinales ou binaires. Les variables qualitatives nominales ne peuvent pas être
hiérarchisées et sont souvent utilisées pour décrire des catégories. Les variables
qualitatives ordinales peuvent être classées les unes par rapport aux autres et sont
souvent utilisées pour décrire des échelles de valeurs. Les variables qualitatives binaires
ne possèdent que deux modalités possibles.
Variables quantitatives : Les variables quantitatives sont des variables qui
s’expriment par un nombre. Elles peuvent être discrètes ou continues. Les variables
quantitatives discrètes ne peuvent prendre que des valeurs entières, tandis que les
variables quantitatives continues peuvent prendre n’importe quelle valeur dans un
intervalle donné.
Exemples de variables :
Variable (caractère) peut s’exprimer en termes de:
Qualité(descriptif): caractère qualitatif (mots) (sexe,
profession, niveau d’instruction…)
Quantité: caractère quantitatif (chiffres) (poids,
taille….)
I.4. Les modalités d’un caractère :

Les modalités d’une variable sont les différentes catégories ou valeurs qu’elle peut
prendre. Les modalités d’une variable qualitative sont les différentes catégories d’une
nomenclature. Ces catégories doivent être exhaustives (chaque individu est affecté à une
modalité) et incompatibles (un individu ne peut être affecté à plusieurs modalités) de
façon à créer une partition.
Exemples de modalités,
• Sexe : « masculin », « féminin », « indéterminé » ou « non précisé »
7
• « Évolution de la maladie » : guérison, amélioration, état stationnaire,
aggravation, décès et éventuellement « non précisé » • « Nombre de malades
hospitalisés »: de 0 jusqu’au nombre total de sujets concernés
• Taille des sujets : va de la plus petite taille jusqu’à la plus élevée
I.5. Observations
L’observation en statistique est une méthode de collecte de données qui consiste
à recueillir des informations sur un échantillon ou une population. Les observations
peuvent être effectuées de manière directe ou indirecte, et peuvent être quantitatives ou
qualitatives. Les observations directes sont effectuées en temps réel, tandis que les
observations indirectes sont effectuées à partir de données déjà collectées.
L’observation statistique est une méthode courante utilisée pour collecter des
données dans les études statistiques. Elle permet de recueillir des informations sur les
variables d’intérêt, telles que la taille, le poids, l’âge, etc. Les observations peuvent être
effectuées sur des individus, des groupes ou des événements.
I.6. Série statistique

Une série statistique est une liste de valeurs d’un même ensemble, dans laquelle
l’ordre des termes n’est pas significatif. Une telle liste est en général obtenue à partir
d’une population au sens statistique du terme, c’est-à-dire des individus, des objets ou
des événements qui ont une caractéristique commune. Les séries statistiques sont
utilisées pour étudier les caractéristiques d’une population.
I.7. Données
Les données sont des informations brutes, non analysées, non organisées, non
liées, non interrompues, utilisées pour obtenir des informations après l’analyse. Les
données peuvent être collectées à l’aide de différentes méthodes telles que l’observation,
les enquêtes, les expériences, etc.
8
CHAPITRE II. PRESENTATION DE DONNEES
II.1. Mesures de fréquence

Les mesures de fréquence sont utilisées pour décrire la distribution des
données dans un ensemble de données. Voici quelques mesures de fréquence
courantes : C’est le nombre d’unités statistique. (ex-individus) portant même modalité
(même sexe ou même âge ou même stade de la maladie ou même groupe
sanguin……)
Cette fréquence peut être « absolue » ou « relative »
Fréquence absolue : La fréquence absolue est le nombre de fois qu’une
valeur apparaît dans un ensemble de données. Ainsi dans une population la
fréquence absolue de malades = nombre total de sujets ayant le caractère « malades
» contenus dans cette population
Fréquence relative : La fréquence relative est la proportion d’observations qui
ont une certaine valeur dans un ensemble de données. Elle est calculée en divisant la
fréquence absolue par la taille de l’ensemble de données.
Rapport de 2 quantités, de 2 fréquences absolues avec numérateur (N) et
dénominateur (D) Ex. nombre de reçus / nombre de candidats
La fréquence relative est calculée en divisant la fréquence absolue de chaque
valeur par le nombre total de données dans votre ensemble. La formule pour la
fréquence relative est donc :
Fréquences relatives les plus courantes : Proportion, Ratio, Taux.
Proportion
Rapport où numérateur (N) = une partie (sous-ensemble) du dénominateur. (D)
Résultat toujours compris entre 0 et 1 car N ≤ D. La proportion est estimée à un moment
9
donné
Ex: 300 candidats à un concours et 220 sujets ont été déclarés reçus : La
proportion de succès = 220 / 300 = 0,73 La modalité « reçu » a été observée 220 fois
Les 200 reçus font partie de l’ensemble des 300 candidats ils constituent un sous-
ensemble (une partie) de la totalité des candidats
Pour une interprétation plus aisée de la proportion on l’exprime en % soit
220x100/300=73% ou par rapport à 1000 soit 220x1000/300=730‰
Ratio
Rapport où numérateur et dénominateur expriment des modalités différentes
et mutuellement exclusives d'un même caractère (variable). Le numérateur n'est pas
compris dans le dénominateur. Ainsi, Sex Ratio = nombre de sujets de sexe Masculin /
Féminin. Ratio Tension artérielle = nombre hypertendus / Normo tendus. Ex. L’étude
de la mortalité au cours d’une épidémie a fait ressortir. 90 décès de sexe masculin vs
68 décès de sexe féminin soit : Sex Ratio des sujets décédés = 90/68 = 1,32 ce qui
signifie pour 1,32 décès masculins il y a 1 décès féminin ou pour 132 décès masculins
il y a 100 décès féminins Le sexe ratio est estimé par rapport à la valeur 1 (égalité de
la mortalité chez les 2 sexes) et exprime l’étendue du phénomène
Taux
Le Taux mesure la probabilité de survenue d’un événement au cours du temps
rapport où le numérateur est une partie du dénominateur Ex. Taux de mortalité générale
(TM). Nombre total de décès dans une région ou lieu donnés
10
II.2. Les échelles de classification d’un caractère (ou d’une variable)
Les échelles de classification d’un caractère (ou d’une variable) sont utilisées
pour classer les données en fonction de leurs caractéristiques. Il existe principalement
quatre types d’échelles de classification :
Échelle nominale : Cette échelle comporte un certain nombre de catégories,
dont la seule propriété est qu’elles sont toutes différentes les unes des autres (par
exemple, sexe, nationalité, type de diplôme, etc.).
Échelle ordinale : Dans cette échelle, les catégories qui la composent sont
munies d’une structure d’ordre, établie en fonction d’un critère donné (par exemple, de
moins à plus “quelque chose”: origine sociale, opinion plus ou moins favorable, stade
de développement psychologique, degré scolaire).
Échelle d’intervalle : Cette échelle permet la comparaison d’intervalles. Il est
possible de déterminer si deux intervalles sont ou ne sont pas de même étendue. Sur
une échelle d’intervalle, le zéro est situé de manière arbitraire.
Échelle de rapport : Cette échelle permet non seulement la comparaison
d’intervalles, mais également la comparaison de rapports. Il est possible de déterminer
si deux rapports sont ou ne sont pas égaux. Sur une échelle de rapport, le zéro a une
signification précise, puisqu’il désigne l’absence du caractère considéré (par exemple,
âge, salaire, taille, vitesse).
Il est important de noter que les techniques et les méthodes statistiques utilisées
dépendent du type d’échelle de classification des données.
Les modalités d'un caractère peuvent être réparties (classées) dans le sens d'une
échelle de classement.
11
II.3 L’échelle de classement
Il existe principalement 5 types d'échelles de classement :
Type de variable Description Exemples
Qualitative Les valeurs ne peuvent pas être hiérarchisées Couleur des

nominale yeux
Qualitative Les valeurs peuvent être hiérarchisées Niveau

ordinale d’éducation
Qualitative Les valeurs ne peuvent prendre que deux modalités Sexe

binaire
Quantitative Les valeurs peuvent prendre n’importe quelle valeur dans Taille
continue une plage donnée
Quantitative Les valeurs ne peuvent prendre que des valeurs entières Nombre
discrète d’enfants
Les termes “échelles de classement” et “échelles de classification” sont souvent
utilisés dans divers domaines, notamment les statistiques, la recherche et l’analyse de
données. Cependant, ils peuvent avoir des significations légèrement différentes selon le
contexte.
Échelles de classement : Ces échelles sont généralement utilisées pour ordonner
ou hiérarchiser des données ou des objets selon certains critères. Par exemple, dans une
enquête de satisfaction client, les clients peuvent être invités à évaluer leur expérience
sur une échelle de 1 à 5, où 1 signifie “très insatisfait” et 5 signifie "très satisfait". Ici, les
chiffres indiquent le rang ; ils sont utilisés pour mettre les variables en ordre.
Échelles de classification : Ces échelles sont utilisées pour regrouper des données
ou des objets en catégories ou en classes sur la base de certaines caractéristiques
communes. Par exemple, dans le domaine du marketing, on peut classer les clients en
différents segments (ou classes) en fonction de leurs comportements d’achat. Dans ce
cas, la classification est un système et non une opération.
12
Il est important de noter que ces termes peuvent être utilisés de manière
interchangeable dans certains contextes. Cependant, en général, le classement
implique un ordre ou une hiérarchie, tandis que la classification implique un
regroupement en catégories ou en classes.
II.4 Statistique de la Santé

Les variables en Statistique Sanitaire peuvent être regroupées suivant les
trois aspects qui permettent de caractériser la maladie : les personnes touchées, le
lieu et le moment où elles ont été affectées.
On trouve donc les trois grandes familles de variables :
-les variables de personnes,
-les variables de lieux
-et les variables de temps
II.5 Le regroupement des données

un tableau de fréquence à partir d’une série statistique ou d’un tableau
brut de données.
Série statistique
Ensemble des données résultant du dépouillement d’une
observation d’une population ou d’un groupe. Example d’une série
statistique.
13
Tableau brut des données
Tableau élémentaire de travail. Toutes les données y figurent, unité par unité et
variable par variable (tableau Excel…)
Tableau de fréquence
C’est une matrice à double entrée. Horizontalement on a les lignes. Verticalement
on a les colonnes
- Entre l’entête des colonnes et la colonne type, l’ensemble des rubriques forme
le corps du tableau.
- Le titre du tableau, en haut, comporte trois informations essentielles, à savoir,
14
le quoi, le quand et le ou, en plus de la source des données.
II.6. Présentation graphique

Histogramme
Il provient du mot grec « HISTOS » = tissu ou voile.
C’est un diagramme en surface contiguës.
Utile pour les distributions de variables quantitatives continues et discontinues
Polygone de fréquence
Ligne polygonale, construite à partir de l’histogramme.
Adapté à la représentation d’une variable quantitative continue mais aussi
discontinue.
Il convient généralement mieux que l’histogramme quand il s’agit de
représenter plusieurs distributions de fréquences sur un même système d’axes
15
Diagramme en bâtonnets ou en barres
Surfaces non contiguës.
Utilisées surtout pour les caractères qualitatifs nominaux ou ordinaux.
Diagramme en barres horizontales.
Variables qualitatives nominales
Diagramme circulaire ou à secteurs
En part de gâteau, camembert. Représentation d’une seule distribution
d’une variable qualitative nominale. Le camembert à la place d’un diagramme
En barres / le nombre de classes faible.
Pyramide
Double histogramme inversé et juxtaposé.
Pour la distribution d’une population selon l’âge et le sexe en démographie.
16
CHAPITRE III. STATISTIQUE DESCRIPTIVE
La statistique descriptive est une branche de la statistique qui regroupe les
nombreuses techniques utilisées pour décrire un ensemble relativement important de
données. Elle permet de résumer les données en une seule valeur représentative. Les
trois mesures de tendance centrale les plus courantes sont la moyenne arithmétique,
la médiane et le mode. Il existe également d’autres mesures de tendance centrale, telles
que les quartiles, les déciles et les percentiles, qui sont utilisées pour décrire la
dispersion des données et pour identifier les valeurs aberrantes. La statistique descriptive
est souvent utilisée pour décrire des caractéristiques d’un ensemble de données, telles
que la moyenne, l’écart-type, la variance, etc.
III.1. Mesures de tendance centrale ou paramètres de position

Les mesures de tendance centrale sont des indicateurs statistiques qui permettent
de résumer un ensemble de données en une seule valeur représentative. Les trois
mesures de tendance centrale les plus courantes sont :
La moyenne arithmétique, qui consiste à calculer la somme des valeurs et la
diviser par le nombre de valeurs.
La médiane, qui est le point milieu lorsque toutes les valeurs sont classées par
ordre croissant.
Le mode, qui est la valeur la plus typique de l’ensemble, c’est-à-dire celle qui
apparaît le plus souvent.
Il existe également d’autres mesures de tendance centrale, telles que les
quartiles, les déciles et les percentiles, qui sont utilisées pour décrire la dispersion des
données et pour identifier les valeurs aberrantes.
III. 1 1. La Moyenne
La moyenne arithmétique (simple ou non pondérée) est une mesure de tendance
centrale qui représente la valeur moyenne d’un ensemble de données numériques. Elle
est calculée en additionnant toutes les valeurs de l’ensemble de données et en divisant
17
le résultat par le nombre total de valeurs. La formule pour calculer la moyenne
arithmétique est la suivante :
Où xi est la i-ème valeur dans l’ensemble de données et n est le nombre total
de valeurs dans l’ensemble.
Moyenne arithmétique pondérée : La moyenne arithmétique pondérée est une
mesure de tendance centrale qui prend en compte les poids des différentes valeurs dans
un ensemble de données numériques. Elle est calculée en multipliant chaque valeur par
son poids, en additionnant les produits et en divisant le résultat par la somme des poids.
La formule pour calculer la moyenne arithmétique pondérée est la suivante :
Où xi est la i-ème valeur dans l’ensemble de données, wi est le poids associé à la
i-ème valeur et n est le nombre total de valeurs dans l’ensemble.
Exemple d’utilisation de la moyenne arithmétique pondérée :
Supposons que vous êtes un professeur et que vous voulez calculer la note finale
d’un étudiant pour un cours. Les notes de l’étudiant sont les suivantes :
Devoir 1 : 80/100
Devoir 2 : 90/100
Examen final : 85/100
Vous avez décidé que les devoirs compteront pour 30 % de la note finale et que
l’examen final comptera pour 70 % de la note finale. Pour calculer la note finale pondérée
de l’étudiant, vous pouvez utiliser la formule suivante :
18
La moyenne des devoirs est calculée en prenant la moyenne arithmétique simple
des notes des deux devoirs :
En utilisant ces valeurs dans la formule, nous pouvons calculer la note finale
pondérée de l’étudiant :
La note finale pondérée de l’étudiant est donc 85.
Moyenne géométrique : La moyenne géométrique est une mesure de tendance
centrale qui représente la racine n-ième du produit des valeurs dans un ensemble de
données numériques. Elle est souvent utilisée pour calculer des taux de croissance ou
des rendements sur une période donnée. La formule pour calculer la moyenne
géométrique est la suivante :
Où xi est la i-ème valeur dans l’ensemble de données et n est le nombre total
de valeurs dans l’ensemble.
Cependant, la moyenne géométrique peut ne pas être une mesure appropriée de
tendance centrale dans les cas suivants :
Lorsque les données contiennent des valeurs négatives ou nulles, car la moyenne
géométrique ne peut être calculée que pour des nombres positifs.
Lorsque les données contiennent des valeurs extrêmes, car la moyenne
géométrique est plus sensible aux valeurs extrêmes que la moyenne arithmétique.
19
Dans ces cas, il peut être plus approprié d’utiliser d’autres mesures de tendance
centrale, telles que la moyenne arithmétique ou la médiane.
III. 1. 2. La Médiane
La médiane est une mesure de tendance centrale qui représente la valeur du
milieu d’un ensemble de données triées par ordre croissant ou décroissant. Si l’ensemble
de données à un nombre impair de valeurs, la médiane est la valeur du milieu. Si
l’ensemble de données à un nombre pair de valeurs, la médiane est la moyenne des deux
valeurs du milieu. La formule pour calculer la médiane est la suivante :
Si le nombre d’observations n est impair :
Si le nombre d’observations n est pair :
Où xi est la i-ème valeur dans l’ensemble de données.
Valeur du caractère qui divise l’ensemble des valeurs observées disposées en
ordre croissant ou décroissant, en deux parties égales. En théorie : 50% > et 50% <
La médiane est une valeur de rang (n+1)/2
Les fréquences relatives cumulées permettent de situer la médiane aussi bien
sur la représentation tabulaire que graphique. N’est pas influencée par les valeurs
extrêmes contrairement à la moyenne arithmétique. utilisée la médiane pour
décrire une tendance centrale d’une distribution fortement asymétrique. Elle est
utilisée dans le cadre des variables quantitatives.
20
III.1.3. Quartiles
Les quartiles sont des mesures de tendance centrale qui divisent un ensemble
de données triées en quatre parties égales. Les quartiles sont souvent utilisés pour
décrire la dispersion des données et pour identifier les valeurs aberrantes. Les trois
quartiles sont notés Q1, Q2 et Q3.
Le premier quartile (Q1) est la valeur qui sépare les 25 % inférieurs des
données.
Le deuxième quartile (Q2) est la médiane, qui sépare les 50 % inférieurs des
données.
Le troisième quartile (Q3) est la valeur qui sépare les 75 % inférieurs des
données.
La différence entre le troisième quartile et le premier quartile est appelée
l’écart interquartile. C’est une mesure de dispersion de la série.
La formule pour calculer les quartiles dépend du nombre d’observations dans
l’ensemble de données. Si le nombre d’observations est impair, le deuxième quartile
est simplement la valeur du milieu. Si le nombre d’observations est pair, le deuxième
quartile est la moyenne des deux valeurs du milieu.
III.1.4. Déciles et percentiles

Les déciles et les percentiles sont des mesures de tendance centrale qui divisent
un ensemble de données triées en dix ou cent parties égales, respectivement. Les déciles
et les percentiles sont souvent utilisés pour décrire la dispersion des données et pour
identifier les valeurs aberrantes.
Les déciles évaluent sur une échelle d’un sur dix. Le premier décile (D1) est la
valeur qui sépare les 10 % inférieurs des données, le deuxième décile (D2) est la valeur
qui sépare les 20 % inférieurs des données, et ainsi de suite jusqu’au dixième décile (D10),
21
qui est la valeur qui sépare les 100 % inférieurs des données.
Les percentiles évaluent sur une échelle d’un sur cent. Le premier percentile (P1)
est la valeur qui sépare les 1 % inférieurs des données, le deuxième percentile (P2) est la
valeur qui sépare les 2 % inférieurs des données, et ainsi de suite jusqu’au centième
percentile (P100), qui est la valeur qui sépare les 100 % inférieurs des données.
La formule pour calculer les déciles et les percentiles dépend du nombre
d’observations dans l’ensemble de données. Si le nombre d’observations est impair, le
décile ou le percentile est simplement la valeur du milieu. Si le nombre d’observations
est pair, le décile ou le percentile est la moyenne des deux valeurs du milieu.
III.2. MESURES DE DISPERSION

Les mesures de dispersion sont des indicateurs statistiques qui permettent de
mesurer la variabilité des données dans un ensemble. Les mesures de dispersion les plus
courantes sont :
II.2. 1 L’étendue
L’étendue est la différence entre la plus grande et la plus petite valeur dans
l’ensemble de données.
II.2. 2 L’écart interquartile,

L’écart Interquartile est la différence entre le troisième quartile et le premier
quartile. Il représente la plage de valeurs qui contient 50% des données.
Il est souvent utilisé pour décrire la variabilité des données biologiques telles que
les concentrations de protéines, les taux de glucose, etc.
Par exemple, supposons que nous avons un ensemble de données représentant
les concentrations de protéines dans le sang de 10 patients. Les concentrations sont les
suivantes:
2.5, 3.0, 3.5, 4.0, 4.5, 5.0, 5.5, 6.0, 6.5 et 7.0
22
Pour calculer l’écart interquartile de cet ensemble de données :
Nous devons d’abord calculer le premier quartile (Q1) et le troisième quartile (Q3).
Pour ce faire, nous devons trier les données par ordre croissant et trouver la position de
Q1 et Q3 en utilisant les formules : (n + 1) / 4 et 3(n + 1) / 4 respectivement. Dans ce
cas-ci :
Q1 = (10 + 1) / 4 = 2.75. La position de Q1 n’est pas un nombre entier, donc nous
arrondissons au nombre entier supérieur : 3. Le troisième élément dans notre ensemble
de données est donc le premier quartile: 4.0.
Q3 = 3(10 + 1) / 4 = 8.25. La position de Q3 n’est pas un nombre entier, donc
nous arrondissons au nombre entier supérieur: 9. Le neuvième élément dans notre
ensemble de données est donc le troisième quartile: 6.5.
Nous pouvons maintenant calculer l’écart interquartile en soustrayant Q1 de Q3:
Écart interquartile = Q3 - Q1 = 2.5
Ainsi, l’écart interquartile pour cet ensemble de données est 2.5.
III.2. 3 La variance
La variance est une mesure de la dispersion des valeurs d’un échantillon ou d’une
variable aléatoire. Elle exprime la moyenne des carrés des écarts à la moyenne, aussi
égale à la différence entre la moyenne des carrés des valeurs de la variable et le carré de
la moyenne. La formule pour calculer la variance d’une série statistique d’une variable
réelle (x1, x2, …, xn), dont on a calculé la moyenne, est la suivante :
Où σ2 est la variance, n est le nombre d’observations dans l’échantillon, xi est
l’observation i, et μ est la moyenne de l’échantillon.
La variance = mesure de dispersion intéressante pour évaluer la variabilité
23
L’homogénéité ou non d’une population ou d’un groupe par rapport à
différentes variables. La variance la dispersion des observations autour de la moyenne
Influencée par les valeurs extrêmes
La variance est souvent utilisée pour décrire la variabilité des rendements d’un
investissement ou des résultats d’une enquête.
III.2. 4 L’écart-type
L’écart type qui est la racine carrée de la variance. Il mesure la dispersion des
données en termes d’unités standard. L’écart type est une mesure de la dispersion des
données autour de leur moyenne. Il est également connu sous le nom d’écart-type ou
de déviation standard.
Pour calculer l’écart type, il faut d’abord trouver la moyenne des données, puis
calculer la variance des données. La variance est calculée en soustrayant chaque point
de données de la moyenne, en élevant chaque résultat au carré, en additionnant tous les
résultats et en divisant par le nombre total de points de données. Ensuite, prenez la racine
carrée de la variance pour obtenir l’écart type.
La formule pour calculer l’écart type est la suivante :
ème
Où σ est l’écart type, n est le nombre total de points de données, xi est le i
point de données, μ est la moyenne des données
Il est souvent utilisé pour décrire la variabilité des résultats d’un test ou d’une
expérience scientifique. Par exemple, si les résultats d’un test sont très dispersés, cela
peut indiquer que le test n’est pas fiable ou que les conditions de l’expérience n’étaient
pas optimales.
24
III.2.5. L’intervalle semi-interquartile
L’intervalle semi-interquartile est un indice statistique qui décrit la variabilité (la
dispersion) d’un ensemble de résultats, particulièrement adapté dans le cas où l’on est
en présence d’une variable ordinale. Il est défini comme la moitié de l’écart situé entre le
troisième (Q3) et le premier (Q1) quartiles d’une distribution.
La formule pour calculer l’intervalle semi-interquartile est la suivante :
Plus les valeurs observées sont concentrées plus les quartiles Q1 et Q3 sont
rapprochés, plus Q est petit, témoignant d’une faible variabilité.
III.2.6. Coefficient de variation

Le coefficient de variation (CV) est une mesure de dispersion relative en théorie
des probabilités et statistiques. Il est défini comme le rapport entre l’écart-type et la
moyenne. Le CV est souvent exprimé en pourcentage et est utilisé pour comparer deux
séries de données d’unités différentes. La formule pour calculer le coefficient de variation
est la suivante :
Où σ est l’écart-type et μ est la moyenne.
25
IV.- CONCLUSION
Statistique descriptive trouve donc sa place dans le cadre de l’étude des
phénomènes et des évènements de santé. Regroupement, organisation et réduction
des données paramètres.
Cette simplification primordiale pistes de recherche : domaine
épidémiologique, clinique, biologique.
On résume souvent une série statistique par un indicateur de position (dit
aussi paramètre de tendance centrale) associé à un indicateur de dispersion.
Deux choix sont couramment proposés :
Le couple (moyenne ; écart type). Celui-ci est très sensible aux valeurs
extrêmes.
Le couple (médiane ; écart interquartile). Celui-ci n'est pas sensible aux valeurs
extrêmes mais est moins pratique à déterminer.
26

Notes de Cours Bio Statique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Notes de Cours Bio Statique

Transféré par

Droits d'auteur :

Formats disponibles

NOTES DE COURS (BIO)STATISTIQUE

(ABC; L2; S3, BOE/BMP; L3; S5)

Mohamed El Houmed, Ph.D.

I.1. Introduction .................................................................................................................. 3

I.2. Population et Échantillon ............................................................................................... 5

I.4. Les modalités d’un caractère : ........................................................................................ 7

I.5. Observations ................................................................................................................. 8

I.6. Série statistique ............................................................................................................. 8

I.7. Données ....................................................................................................................... 8

CHAPITRE II. PRESENTATION DE DONNEES ....................................................................................... 9

II.1. Mesures de fréquence .................................................................................................. 9

II.3 L’échelle de classement ............................................................................................... 12

II.5 Le regroupement des données .................................................................................... 13

II.6. Présentation graphique .............................................................................................. 15

CHAPITRE III. STATISTIQUE DESCRIPTIVE ........................................................................................ 17

III.1. Mesures de tendance centrale ou paramètres de position........................................... 17

III. 1. 2. La Médiane ........................................................................................................... 20

III.1.4. Déciles et percentiles ........................................................................................... 21

II.2. 2 L’écart interquartile,.............................................................................................. 22

III.2. 3 La variance .......................................................................................................... 23

III.2. 4 L’écart-type ........................................................................................................ 24

III.2.5. L’intervalle semi-interquartile ............................................................................... 25

III.2.6. Coefficient de variation ........................................................................................ 25

IV.- CONCLUSION ............................................................................................................ 26

Population et échantillon : La population est l’ensemble complet de toutes les

observations possibles, tandis que l’échantillon est un sous-ensemble de la population.

Moyenne et médiane : La moyenne est la somme de toutes les observations

de données en deux parties égales.

mesures de dispersion courantes incluent l’écart-type, la variance et l’écart interquartile.

différence observée entre deux groupes est statistiquement significative ou simplement

Régression : La régression est utilisée pour modéliser la relation entre deux

En biologie, la statistique est utilisée pour étudier une grande variété de

relations entre les gènes et les caractéristiques physiques ou comportementales,

associés à une maladie, si un traitement est efficace ou non, etc.

La statistique nous dit comment

⮚ Effectuer les mesures

⮚ Extraire l’information des données

⮚ Appréhender l’incertitude et revendiquer le droit à l’erreur

⮚ Quantifier le risque d’erreur

Connaître, c’est compter

⮚ Trouver et décrire une relation

Ex. Risque cardio-vasculaire et tabac

⮚ Prendre une décision

Ex. Efficacité d’un médicament

Ex. Budget prévisionnel (commune, gouvernement…)

La biostatistique est la branche de la statistique qui s’applique à la

collecte, l’analyse et l’interprétation des données biologiques, en particulier

celles liées à la biologie humaine, à la santé et à la médecine.

Domaines d’application de la Biostatistique

La biostatistique est utilisée dans de nombreux domaines de la biologie

et de la médecine pour analyser et interpréter les données. Voici quelques

exemples d’applications de la biostatistique :

Épidémiologie : La biostatistique est utilisée pour étudier la propagation

déterminer le taux d’incidence d’une maladie, les facteurs de risque associés à

une maladie, etc.

pour déterminer si un traitement est efficace, si les effets secondaires sont

Génétique : La biostatistique est utilisée pour étudier les relations entre

les gènes et les caractéristiques physiques ou comportementales. Les

maladie, si deux gènes sont liés, etc.

Santé publique : La biostatistique est utilisée pour étudier les tendances

pour déterminer le taux de mortalité, le taux de morbidité, etc.

Pharmacologie : La biostatistique est utilisée pour étudier l’efficacité et

la sécurité des médicaments. Les statistiques peuvent être utilisées pour