Académique Documents
Professionnel Documents
Culture Documents
BIOSTATIOSTIQUES Final
BIOSTATIOSTIQUES Final
INTRODUCTION
Les statistiques tiennent une grande place dans le quotidien des individus. Que ce soit
lors de l’évaluation de la somme d’argent à utiliser, la probabilité d’arrivée à l’heure au cours,
la limite financière à ne pas excéder en un mois, l’achat d’un article, nous réalisons à chaque
instant des calculs statistiques. Dans les soins infirmiers, ces mêmes contraintes s’intègrent et
s’appliquent dans la réalisation des activités de soins. Que ce soit lors du choix d’un
médicament, le choix d’une technique spécifique de pansement, l’évaluation de la qualité des
soins, la statistique est omniprésente. Fort de ce constat, il est nécessaire d’introduire les
apprenants en sciences infirmières aux différentes notions statistiques. Celles-ci visent à
renforcer les pratiques fondées sur les données probantes à travers la facilitation la lecture de
rapport de recherche.
A la fin de cet enseignement, les apprenants devront être capable d’appliquer les
différentes notions statistiques dans la conduite des activités de soins. Plus spécifiquement, ils
devront être capable :
Ressortir l’importance des statistiques pour les sciences infirmières
Définir les concepts de base en statistique
Établir la différence entre les principales catégories de variable
Représenter graphiquement les différentes variables en fonction de leur nature
Interpréter quelques analyses statistiques (khi carré, coefficient de corrélation et test
de Student)
CHAPITRE 1 : CONCEPTS DE BASE EN STATISTIQUE
3. L’intervalle de confiance IC
Elle désigne l’intervalle dans laquelle l’on est sûr à 95% que le vrai résultat concernant une
variable donnée se trouve dans la population générale. Elle est en général utilisée dans la
présentation des résultats des études quantitatives.
4. Effectif
Elle désigne le nombre de fois où une modalité apparait dans une série statistique.
Lorsque les effectifs pour une modalité sont trop importants, on peut faire un regroupement en
classes (surtout pour les caractères continues).
Les classes comportent en général deux valeurs a et b qu’on nomment bornes [a.b],
une amplitude [distance qui sépare les deux bornes] (b-a). L’ensemble des valeurs prises par
chacune des modalités est appelé effectif total.
5. Fréquence
C’est le rapport entre l’effectif d’une modalité et l’effectif total. Elle est généralement
indiquée en pourcentage. La somme des fréquences calculée est égale à 1 ou 100% (si
exprimée en pourcentage).
6. Effectif et fréquence cumulée
C’est la somme successive des fréquences ou effectifs des modalités inférieur ou égal
à celle-ci. Elles sont calculées et utilisés pour les variables qualitatives ordinale et les
variables quantitatives.
FCD
CHAPITRE 2 : PRESENTATION DES DONNEES
Pour faciliter l’interprétation des données recueillies et faire émerger des modèles les
chercheurs ont parfois coutume de traiter, transformer et présenter les données sous forme de
graphique. Présenter les données renvoie ainsi à la construction des figures les explicitent
davantage. Celle-ci tient compte de la nature de la variable concernée.
1. Présentation des variables quantitatives
1.1 Cas des variables discrètes
Lorsque la variable X ayant pour modalité x i est connue, celle-ci peut être représentée par un
diagramme en bâton. Pour se faire, la valeur x i est placé sur l’axe de abscisses, puis on trace
un segment de droite dont la hauteur est proportionnelle à l’effectif ou à la fréquence.
Exemple :
Nombre 1 2 3 4 5 Total
d’enfants
Effectif 26 34 15 8 2 85
Fréquence
1.2 Cas des caractères quantitatifs continus
Ils sont présentés sous forme d’histogramme du fait de l’infinité des valeurs.
L’histogramme désigne une succession de rectangle dont la base est égale à l’amplitude des
classes (en abscisse) et la surface aux effectifs ou fréquence des classes.
Exemple :
Nombre [1-3[ [3-5[ [5-7[ [7-9[ Total
d’enfants
Effectif 26 34 15 8
Fréquence
NB : Si les classes ont des amplitudes différentes, la hauteur de la classe est obtenu en
fi
calculant sa densité (Hi). Hi=
ai
Exemple 2 : Le major du service de médecine a procédé à l’évaluation de la satisfaction des
patients hospitalisés dans son service. Les résultats sont consignés dans le tableau ci-dessous.
Niveau de Effectif ECC % Amplitude Densité
satisfaction
16-30 39
31-40 27
41-50 35
51-60 75
61-70 53
71-112 91
Lorsqu’un chercheur collecte les données relatives à une variable, il lui revient de
rendre celle-ci intelligible et compréhensible. Dans cette optique, suivant qu’il choisisse de
présenter ses données sous forme de tableau ou de graphique, il doit par la suite ressortir
l’information essentielle pour caractériser la variable. Cette information lui permet ainsi
d’apporter des réponses sur ses différents questionnements. Il recourt de ce fait à de multiples
indices statistique qui l’aide ainsi à résumer l’information et apporter un éclairage au
phénomène d’intérêt. La présentation des données fait référence aux différents paramètres
statistiques pouvant être utilisés dans des rapports de recherche. Dans le cadre de ce chapitre,
nous aborderons successivement les indices de résumés statistique et les éléments d’analyse
univariée et bivarié.
1. Présentation des résultats avec une seule variable ou Analyse univariée
Elle se fait à l’aide des tables de fréquence (statistique descriptive) ou à l’aide des
indices statistiques. Ces indices se subdivisent en deux groupes à savoir :
Les indicateurs de tendance centrale qui informent sur les valeurs centrale et
dominante d’une population observée
Les indicateurs de dispersion qui indiquent de l’étalement des données autour de la
valeur centrale.
1.1 Les indices de tendance centrale
Ils sont utilisés pour simplifier et condenser l'information. On distingue :
Mode : c’est la modalité de plus grande fréquence ou effectif. Dans le cadre des
variables quantitative, l’outil par excellence qui va être utilisé c’est la fréquence.
Lorsque les variables sont regroupées en classe, on parle de classe modale. Celle-ci est
choisi en fonction de la densité si les classes n’ont pas la même amplitude. Elle peut
être utiliser avec des données nominales, ordinales, d'intervalle.
Médiane : c’est la valeur de la variable qui divise l’effectif total en deux parties
N N 1
égales. Son calcul est égal ou + (lorsque les observations sont impaires). Elle
2 2 2
peut être déterminer de façon précise par interpolation linéaire. Elle peut être utiliser
avec les données ordinales ou situées dans un intervalle
Moyenne : la somme de toutes les données statistiques divisée par le nombre de ces
données. On la calcule avec la formule :
1 n 1 n
X = ∑ x i ou X = ∑ ni x i
n i=1 N i=1
NB : Si la valeur de la moyenne est proche de la médiane, la série est dite homogène ; dans
le cas contraire elle est dite dispersée.
Le premier quartile (Q1) : c’est la modalité pour laquelle qui marque au plus les 25%
des valeurs d’une variable dans une population
Le troisième quartile (Q 3) : c’est la modalité qui correspond à 75% de l’effectif total.
Interprétation : Soixante-quinze pour cent des sujets ont une modalité inférieure à Q3
1.2 Les paramètres ou indices de dispersion
On distingue :
Entendue : c’est la différence entre la plus grande et la plus petite modalité. C’est
l’écart absolu qui peut exister entre deux modalités quelconques.
L’écart interquartile : c’est la différence entre le troisième et le premier quartile
Interprétation : Cinquante pour cent de l’échantillon se trouve entre Q1 et Q3
La variance : c’est la somme des carrés des écarts à la moyenne diviser par le nombre
de valeurs. Elle explique la dispersion par rapport à la moyenne. Lorsqu’elle est petite
ou faible, cela signifie que les modalités ne d’éloignent pas trop de la moyenne. La
série est dite alors homogène. Elle s’obtient par la formule :
n n
1
Var (X) =
N
∑ (xi −X ) ou Var (X) = N1
2
∑ (ni x 2i ) – X 2 (Si les données sont regroupées
i=1 i=1
en classe)
Ecart Type : c’est la racine carrée de la variance. Elle mesure aussi la variabilité par
rapport à la moyenne. Si l’écart type est faible, la série est dite homogène.
σ =√ Variance
Le coefficient de variation : il représente la variabilité globale (dispersion) de la
série. Il permet de savoir si les données sont éloignées les unes des autres. C’est le
rapport de l’écart type à la moyenne.
σ
CV=
X
Remarque
1. Si le C V de variation est proche de 1, la serie est dite dispersée
2. Si le C V est proche de 0, la série est dite homogène
3. Le coefficient de variation permet également de comparer la variabilité d’un
phénomène dans deux groupes.
Exercice 4 : Les valeurs systolique de la TA des patients su service de Cardiologie ont été
reportées dans le tableau ci-dessous.
TA 170 175 180 183 185 TOTAL
Effectif 30 15 25 7 23 120
GROUPE A GROUPE B
Taux cholestérol Nombre d’individus Taux cholestérol Nombre d’individus
1 7 1 5
3 3 2 10
4 5 3 15
5 15 6 15
9 25 7 7
9 3
a) Calculer le taux de cholestérol moyen dans chaque groupe
b) Calculer la variance et l’écart type dans chaque groupe
c) Peut-on penser que le taux de cholestérol ne varie pas beaucoup dans le groupe A et
dans le groupe B ?
d) Peut-on penser que le taux de cholestérol dans le groupe A varie plus que dans le
groupe B
2. Présentation des résultats avec deux variables ou Analyse Bivariée
L’analyse bivariée permet d’étudier les liens qui existe entre deux variables. L’une des
prémisses à l’étude de ces liens est la compréhension des notions de table de contingence.
2.1 Tableau de contingence
C’est un tableau à double entrée où une variable est représentée en ligne et l’autre en
colonne de telle sorte que la somme des valeurs dans la dernière ligne est égale à la somme
des valeurs de la dernière colonne.
X X1 X2 XJ Xn Total
Y
Y1
Y2
Yi nij ni.
Yn
Total n.j N
nij est l’effectif qui se trouve au croisement entre la ligne i et la colonne j
n ij
f ij =
N
' ni .
ni . : c est≤total de la ligne i f i .=
N
ni . est encore appelé effectif marginal de la ligne i
f i . est la Frequence marginale de la ligne i
' n. j
n. j est l effectif marginal de lacolonne j f . j=
N
f . j est la frequence marginal de la colonne j
Exercice 6 : Le diététicien de l’hôpital régional a mené une enquête auprès des patients
hypertendus en vue du changement d’attitude en regard de l’arrêt de la consommation
d’alcool. Les résultats ont été regroupés en fonction de l’âge des patients dans le tableau ci-
dessous
Age Moins de 30 ans 30-45 45-60 61 ans et plus Total
Attitude
Bonne 20 10 4 3 37
Moyenne 3 10 10 2 25
Mauvaise 3 5 21 10 39
Total 26 25 35 15 101
a) Combien de personnes ont une mauvaise attitude en regard de la cessation de
consommation d’alcool
b) Quelle est la proportion des personnes ayant une bonne attitude en regard de l’arrêt
consommation d’alcool ?
c) Quelle est la proportion des personnes de 45-60 ans ayant une mauvaise attitude en
regard de l’arrêt de la consommation d’alcool.
2.1.1 Distribution marginale
La distribution marginale de la variable X est ( x j , n. j) et celle de Y est ( y i , ni .). La
distribution marginale pour la variable âge
Age Moins de 30 ans 30-45 45-60 61 ans et plus Total
Effectif 26 25 35 15 101
Exercice 7
Avec Cov ( X , Y ) =¿
Interprétation
Plus la valeur de r est proche de |−1 ;+1|, plus la relation entre les deux variables
est forte.
Lorsque r est positif, on dit que les variables évoluent dans le même sens
Lorsque r est négatif, on dit que les variables évoluent en sens contraire
Si r =0, on dit qu’il n’existe pas de relation linéaire ente les deux variables.
NB : Dans le cadre où les variables ne sont pas résumées dans un tableau de contingence, on
utilise la formule suivante :
n
∑ ( x i y i )−n XY
r = i=1
√¿ ¿ ¿
Exercice 8
Alcool 0-2 3-7 >8 Total
Taille
1,55-1,64 83 105 0 188
1,65-1,74 116 181 53 350
1,75-1,84 39 124 92 255
1,85-1,94 0 37 31 68
Total 238 447 176 861
a) Existe-il un lien entre la taille et le nombre de verres d’alcool consommés ?
Exercice 9 : Dans le cadre d’une enquête visant à vérifier l’efficacité selon certains critères de
différents produits pouvant être utilisés dans un examen médical, nous avons obtenues les
informations suivantes :
Produit Concentration Volume du dosage en ml
A 150 3,9
B 92 3,4
C 193 5,7
D 90 2,9
E 135 3,8
F 241 6
G 169 3,3
H 165 3,3
b) Existe-t-il une relation entre la concentration et le volume du dosage ?
3.2 Le test du khi deux
Il est utilisé pour mesurer l’association entre deux variables qualitatives. Il ne peut être
utiliser que pour les variables nominales. C’est un test basé sur la notion d’hypothèse.