Vous êtes sur la page 1sur 57

République Algérienne Démocratique et Populaire

Ministère de l'Enseignement Supérieur et de la Recherche Scientifique

Université Abbes Laghrour Khenchela


Faculté des Sciences de la Nature et de la Vie
Département d’Ecologie et Environnement

Cours
Destiné aux étudiants en M2 :
Génétique

BIOSTATISTIQUE

Préparé par :
Dr. ADDAD Dalila
Maitre de conférences classe A

Université Abbes Laghrour Khenchela, 2021/2022


Avant propos
Semestre : S3
Intitulé de l’UE :METHODOLOGIE
Intitulé de la matière : BIOSTATISTIQUE
Crédits : 4
Coefficients :2
Objectifs de l’enseignement
Les notions de base des statistiques descriptives (calcul de moyenne, écart type, variance,
covariance) coefficient de corrélation, régression – test de conformité- ANOVA – ACP - AFD

Connaissances préalables recommandées

Contenu de la matière :
1. introduction à l’épidémiologie et à la biostatistique
2. statistique descriptive
3. loi normale
4. notions d’épidémiologie
5. sondages et méthodes d’échantillonnage
6. les fluctuations d’échantillonnage et estimation statistique
7. liaison entre 2 variables qualitatives
8. liaison entre 2 variables quantitatives
9. test du χ2
10. corrélation ; régression
11. comparaison de moyennes : analyse de variances
12. les différents types d’études épidémiologiques
13. notions générales de statistique multi variée

Mode d’évaluation : Contrôle continu, examen

Références (Livres et polycopiés, sites internet, etc).

1
1. Introduction à l’épidémiologie et à la biostatistique
La génétique et la statistique ont une longue histoire commune. Les débuts de cette histoire,
antérieurs à la découverte du rôle de l’ADN comme support biologique de la génétique
remontent aux travaux de Mendel sur des croisements de pois. Ces travaux ont permis à
Mendel d’énoncer les lois de l’hérédité qui portent aujourd’hui son nom. Les résultats de
Mendel, publies en 1865, bien qu’ayant reçu peu d’attention dans les premiers temps,
marquent les débuts de la génétique.
Avant, l’épidémiologie ne s’intéressait qu’aux maladies infectieuses et épidémiques, avec
l’apparition d’études sur les maladies non transmissibles, l’épidémiologie est considérée
comme une discipline à part entière de la médecine. La méthodologie épidémiologique s’est
même élargie à d’autres domaines même en dehors de la médecine.
L’épidémiologie a une approche essentiellement collective de l’étude de la santé et des
maladies. Elle apparaît ainsi comme une des sciences qui sous-tendent l’action de santé
publique. Les groupes humains étudiés peuvent répondre à des critères géographiques, d’âge,
d’appartenance à une catégorie socio-professionnelle, de lieu de travail, etc…
La biostatistique est l’application des statistiques en biologie ; sachant que, la statistique est la
science dont l’objet est de recueillir, de traiter et d’analyser des données issues de
l’observation de phénomènes biologiques. La biostatistique nous permet de décrire une
population donnée, selon ses attributs et ses qualités, de mesurer la précision d’une estimation
ou de définir le degré d’association entre une série de caractères et d’événements. Elle
englobe :
– La conception d’expériences biologiques ;
– La collecte d’informations ;
– L’analyse des données chiffrées ;
– L’interprétation des résultats et conclusion.

2. Statistique descriptive
La Statistique descriptive est l’ensemble des méthodes et techniques mathématiques
permettant de présenter, décrire, résumer des données.
C’est l’interprétation des résumés obtenus, leur extrapolation éventuelle à un ensemble plus
vaste (utilisation de sondages par exemple), et leur utilisation pour prendre des décisions
constitue un autre domaine de la Statistique.

2
2.1. Notions de base
 Population: une population statistique est l'ensemble sur lequel porte l’étude. C’est un
ensemble généralement très grand, voire infini, d’individus ou d’objets de même
nature.
Exemples :
• ensemble de personnes sur lesquelles on mesure la glycémie
• ensemble de pays pour lesquels on dispose de données géographiques ou économiques, ...
 Un échantillon est une partie ou un sous ensemble d’un grand ensemble qu’est la
population
• Ex: L’ensemble des pommes qui représentent des meurtrissures dans un verger donné
• Ex: Patients atteints du cancer de sang et suivis dans l’hôpital dans une région donnée.
 Variable statistique (caractère, propriété….)
• C’est une particularité à laquelle on s’intéresse. On appelle variable toute
caractéristique susceptible d’être différente selon les personnes, le temps ou les lieux
considérés
• C’est un ensemble de valeurs résultant de l’observation dénombrements, analyses,
mesures,… d’un seul caractère. On parle de série dans le cas de valeurs numériques.
• Une variable statistique est dite : (i) quantitative : lorsqu’elle est mesurée par un
nombre (les notes des étudiants à l’examen de statistique, le nombre d’enfants par
ménage, ...). On distingue 2 types de variables quantitatives : les variables
quantitatives discrètes et les variables quantitatives continues. Les variables discrètes
(ou discontinues) ne prennent que des valeurs isolées. Par exemple le nombre
d’enfants par ménage ne peut être que 0, ou 1, ou 2, ou 3, . . . ; il ne peut jamais
prendre une valeur strictement comprise entre 0 et 1, ou 1 et 2, ou 2 et 3, . . . . Les
variables quantitatives continues peuvent prendre toute valeur dans un intervalle. Par
exemple, la taille, le poids même si dans la pratique il faut l’arrondir. (ii) qualitative:
lorsque les modalités (ou les valeurs) qu’elle prend sont désignées par des noms. Par
exemples, les modalités de la variable sexe sont : masculin et féminin; les modalités de
la variable couleur des yeux sont : bleu, marron, noir et vert ; les modalités de la
variable mention au bac sont : tb, b, ab et p. On distingue deux types de variables
qualitatives : les variables qualitatives ordinales et les variables qualitatives
nominales. Plus précisément une variable qualitative est dite ordinale, lorsque ses
modalités peuvent être classées dans un certain ordre naturel (c’est par exemple le cas
des variables mention au bac et stades évolutives d’une maladie) ; une variable
3
qualitative est dite nominale, lorsque ses modalités ne peuvent être classées de façon
naturelle (c’est par exemple le cas de la variable couleur des yeux ou encore de la
variable sexe).
2.2. Représentation numérique des données
2.2.1. Paramètres de position
 La moyenne
Lorsque x désigne la variable statistique, la valeur moyenne, ou moyenne de la série se note m
ou . Elle est donnée par la formule :


 La médiane
Notée Me, consiste en la valeur de la variable qui se trouve au centre de la série statistique,
classée en ordre croissant. Elle sépare la série en deux groupes égaux. S’il y a un nombre
impair d’observations, Me est une observation de la série. Sinon, la médiane est située entre
les deux observations centrales de la série. Par convention, on utilise la moyenne de ces deux
valeurs.
• Si la variable est discrète :
n est impair
n est pair

• Si la variable est continue


vérifie F(Me) = 0.5 , où F est la fonction de répartition de la variable. On détermine alors un
intervalle médian (intervalle contenant la médiane), puis on procède à l'intérieur de cette
classe à une interpolation linéaire.
Utilisons la colonne des effectifs cumulés pour déterminer
la médiane : il y a 50 notes, 50 % de l'effectif total c'est 25,
la médiane est ici la note correspondant à l'effectif cumulé
25.
D'après la colonne "effectif cumulé" :
 18 personnes ont moins de 8
 30 personnes ont moins de 12
La médiane se trouve donc dans l'intervalle [8;12[ (appelée
classe médiane) on va la déterminer par interpolation
linéaire.

4
Les points A, M, B sont alignés ce qui se traduit par les
droites (AM) et (AB) ont même coefficient directeur (ou
on utilise le théorème de Thalès dans le triangle bleu ) :

La médiane est environ 10,33

• Ou donnée par la formule Q2 = Me = + (

: Borne inferieure de la classe médiane


: Largeur de la classe médiane
: Effectif cumulé de la classe précédente de la classe médiane
: Effectif cumulé de la classe médiane
 Premier quartile Q1 = xn/4, s’appelle le premier quartile ; un quart des valeurs prises
par X sont inférieures ou égales à Q1. Il est donné par la formule suivante :

Q1 = + (

: Borne inferieure de la classe Q1


: Largeur de la classe Q1
: Effectif cumulé de la classe précédente de la classe de Q1
: Effectif cumulé de la classe de Q1

 Q2 = Me est la médiane.
 Q3 = x3n/4 s’appelle le troisième quartile ; un quart des valeurs prises par X sont
supérieures ou égales à Q3.

Q3 = + (

: Borne inferieure de la classe Q3


: Largeur de la classe Q3
: Effectif cumulé de la classe précédente de la classe de Q3
: Effectif cumulé de la classe de Q3

5
 L’intervalle interquartile (IIQ) est la différence entre le troisième quartile et le
premier quartile ; il s’écrit :
IIQ =Q3 – Q1
 L’intervalle interquartile sert à apprécier la dispersion de X, de façon absolue, ou
bien par comparaison avec une autre variable quantitative, à condition que cette
dernière soit exprimée dans la même unité que X. En effet, les valeurs Q1 et Q3
délimitent une plage au sein de laquelle 50% des valeurs de X sont concentrées. Plus
IIQ est grand, plus X est dispersée
 Le mode désigné par Mo est la valeur de la variable statistique la plus fréquente. Dans
le cas d'une variable statistique continue, on parle plutôt de classe modale. Dans ce
cas il est donné par la formule suivante :

Mo =

: Borne inferieure de la classe modale

: Largeur de la classe modale


: Différence entre l’effectif de la classe modale et l’effectif de la classe précédente
: Différence entre l’effectif de la classe modale et l’effectif de la classe suivante

• On peut le trouvez également selon l’exemple suivant : La classe modale est [ 8 ; 12 [.


La projection du point d’intersection des segments [AB] et [CD] sur l’axe des
abscisses correspond à la valeur exacte du mode : 10,5

NB : Le mode ou la classe modale n'est pas obligatoirement unique.


2.2.2. Paramètres de dispersion
 L’étendue

L’étendue E de variable x est la différence entre la plus grande et la plus petite des valeurs
observées : E = max- min
6
 Variance et Écart-type

La variance permet d’estimer la variabilité des valeurs se trouvant autour de la moyenne,


donc. Cette dernière peut alors être d’ordre biologique, ou peut être causée par la mauvaise
qualité ou le faible nombre des mesures expérimentales. La variance d’une population sera
notée σ², et la variance d’un échantillon s².

• Pour une population

• pour un échantillon

• Avec :
: Degré de liberté (ddl)
la somme des écarts au carré
: la somme des carré des observations.
Attention :
L’écart-type de la variable X, noté par X, est, par définition, la racine carrée de la variance de
cette variable. Signalons au passage que l’écart-type est la mesure de la dispersion la plus
couramment utilisée.
 Le coefficient de variation, noté CV permet de comparer la variation de variables
exprimées originellement dans des unités physiques différentes. Il est donné par :

Lorsque les échantillons sont de petite taille (n<20), on applique la correction suivante :

 Covariance est une mesure de la variabilité conjointe de deux variables aléatoires


qui s'obtient par la somme des produits rectangulaires des écarts des valeurs de deux
variables par rapport à leurs moyennes.

7
La covariance indique si, et indirectement dans quelle mesure, les valeurs d'une variable
augmentent ou diminuent avec les valeurs croissantes de l'autre. La covariance est une
généralisation du concept de variance à deux dimensions.
• Elle nous renseigne sur la forme du nuage de points obtenu dans un diagramme de
dispersion.

La covariance sera utile pour le calcul de la corrélation

 coefficient de corrélation permet de détecter la présence ou l’absence d’une relation


linéaire entre deux caractères quantitatifs, il est donné par la formule suivante :

3. Loi normale
1.1.Loi normale ou de Laplace-Gauss N(μ, σ)
On parle de loi normale lorsque l’on a affaire à une variable aléatoire continue dépendant
d’un grand nombre de causes indépendantes dont les effets s’additionnent et dont aucune n’est
prépondérante. Cette loi acquiert sa forme définitive avec Gauss (en 1809) et Laplace (en
1812). C’est pourquoi elle porte également les noms de : loi de Laplace, loi de Gauss et loi
de Laplace-Gauss.

8
Exemple : la taille d’un animal dépend des facteurs environnementaux (disponibilité pour la
nourriture, climat, prédation, etc.) et génétiques. Dans la mesure où ces facteurs sont
indépendants et qu’aucun n’est prépondérant, on peut supposer que la taille suit une loi
normale.

La loi normale joue un rôle particulièrement important dans la théorie des probabilités et dans
les applications pratiques. La particularité fondamentale de la loi normale la distinguant des
autres lois est que c’est une loi limite vers laquelle tendent les autres lois pour des conditions
se rencontrant fréquemment en pratique. La loi normale est caractérisée par sa densité de
probabilité. Pour une loi normale de moyenne m et de variance , elle est donnée par la
formule

ou
La courbe représentative de la densité a la forme d’une courbe en cloche symétrique

Figure 1. Exemple de deux lois normales


Les deux lois ont la même variance. La moyenne m1 de la première loi est inferieure à celle
m2 de la seconde.
Les propriétés de la densité
 Elle varie de
 Elle est symétrique par rapport à la valeur Moyenne .
 Elle représente deux points d’inflexion en

9
Figure 2. Propriété symétrique de la loi normale
La fonction f est paire autour d’un axe de symétrie x = m car f(x + m ) = f(m - x)
Remarque : Le paramètre m ou représente l’axe de symétrie et s le degré
d’aplatissement de la courbe de la loi normale dont la forme est celle d’une courbe en cloche.
Le paramètre d’asymétrie =

=0 é

Le paramètre d’aplatissement =

=0

Figure 3. Exemples des lois normales avec la même moyenne (µ=5) et des écarts types σ
croissants
Géométriquement une probabilité peut s’interpréter comme la surface sous la courbe densité
comme l’indique le graphique.

11
Figure 4. Interprétation géométrique de la probabilité
Une probabilité s’interprète comme la surface sous la courbe représentant la densité.
Lorsque la distribution des individus dans une population obéit à la loi normale, on trouve:

A. 50 % des individus en-dessous de la


moyenne et 50 % au-dessus (la loi
normale est symétrique)

B. 68 % des individus entre - et +

C. 95 % des individus entre -1,96 et


+1,96 , que nous arrondirons à l'intervalle
[ -2 , +2 ]

D. 99,7 % des individus entre -3 et


+3 (il y a donc très peu de chances qu'un
individu s'écarte de la moyenne de plus de
3 )

11
Figure 5. pourcentages relatifs de la loi normale

1.2. Cas particulier : La loi normale réduite N(0,1)

Une variable aléatoire continue X suit une loi normale réduite si sa densité de probabilité est
donnée par :

L’axe de symétrie correspond à l’axe des ordonnées (x=0) et le degré d’aplatissement de la


courbe de la loi normale réduite est 1.
Données centrées réduites:
• Centrage: • Réduction: diviser par S

Remarques :
 Lorsque l'on suppose qu'une variable X suit le modèle de la loi normale N ( , σ), on
écrit X ∼(µ, σ)
 Dans la loi normale centrée réduite on note N (0, 1).
 Dans N (0, 1) si on cherche population ou pourcentage P (X ≤ α) (rappel : on écrit
aussi F(α)), on cherche la valeur de α dans le tableau
 P (X ≥ α) = 1 − P (X ≤ α) = 1 − F (α)
 P (X ≤ − α) = P (X ≥ α)

Exercice
1. Soit une variable aléatoire de loi N (2 , 1,4 ). Calculez : P(X≤2.3)
2. X ∼ N (27, 1,9): Calculez P (X ≤ 30,5)
3. Quelle est la valeur de a telle que P(X>a)=0,6517 pour une loi centrée réduite, puis déduire
le quantile, supposant que la variable étudiée suit une loi N (12,5. 2,4)
Solution
1. Nous avons X ∼ N (2 , 1,4), On centre et réduit : ∼N( )
1,4

P (X ≤ 2,3) = P ( ≤ )
1,4

P (Z ≤ 0,214)= 0,5823 (58,23%) (Lecture sur table)


12
2. Nous avons X ∼ N (27 , 1,9), On centre et réduit : ∼N( )
1,9

P (X ≤ 30,5) = P ( ≤ )
1,9

P (Z ≤ 1,842)= 0,9671 (96,71%) (Lecture sur table)


3. On cherche le quantile à 65,17 % pour la N (0,1)

Cela revient à trouver à tel que P (z ≤ a) = 0,6517.On lit la table à l'envers :


Donc P(X ≤ 0,39) = 0,6517 Le quantile recherché est donc 0,39. .
La valeur réelle du quantile dans une loi N (12,5. 2,4) est :
= + σ× 

13
14
4. notions d’épidémiologie
L’origine grecque du mot est simple : EPI – veut dire « sur» ; DEMOS – veut dire «peuple –
population » ; LOGOS – veut dire «Etude ou connaissance » ; Par conséquent :
l’Epidémiologie est l’étude de ce qui arrive aux individus »
« L’épidémiologie est une science qui a pour objet d’étudier la survenue, la répartition et les
déterminants des états de santé et des maladies dans la population et les groupes humains
Et selon l’OMS, L’épidémiologie est l’étude de la distribution des maladies dans les
populations humaines, ainsi que les influences qui déterminent cette distribution.

4.1. Mesures épidémiologiques


 Ratio : Expression de la relation qui existe entre deux quantités. Numérateur et
dénominateurs différents.

Exemple :

• Nombres de lits hospitaliers par habitant

• Nombre de dispensaires par habitant Ratio

 Le «sexe ratio» : Est un rapport couramment utilisé en épidémiologie.

Exemple : Dans un échantillon il y a 400 hommes et 200 femmes.

Le ratio hommes/femmes est : 400/200 = 2.

 Proportion : Une proportion est un rapport dont le numérateur fait partie du


dénominateur, tous les deux étant mesurés simultanément. Elle est située dans un
intervalle de 0 à 1 (0 à 100%). Autrement la proportion est le rapport d’un nombre de
personnes atteintes d’un problème de santé à l’effectif de la population
correspondante. Elle est statique et sans unité. C’est en général un pourcentage,

avec : a inclus dans b et k puissance de 10

Exemple : La proportion d’hommes dans l’échantillon vu précédemment ? (400 hommes et


200 femmes) • La proportion d’hommes dans l’échantillon : x 100 = 66,6%

15
 Taux : Un taux mesure la vitesse d’apparition d’un événement donné au cours du
temps. Il s’exprime en fonction d'une unité de temps, pour un lieu géographique
donné, et pour un groupe de personnes bien défini.
 Événement : maladie, décès, handicap, rechute…

• Il s’exprime toujours en fonction : – d’une certaine unité de temps – pour un


lieu géographique donné – et pour un groupe de personnes donné.

• Le numérateur est un nombre d’événements survenus au cours d’une certaine


période.

• Le dénominateur représente la population exposée au risque de survenue de cet


événement pendant cette période.

 Quotient est le rapport du nombre de personnes touchées par un problème de santé


dans une période à la population concernée au début de la période. Une mesure de la
probabilité de survenue du problème dans la population au cours de la période.
4.2. Mesures de la morbidité
La morbidité représente le nombre de personnes souffrant d'une maladie donnée pendant un
temps donné dans une population.
Elle peut être mesurée :
– soit par l’incidence
– soit par la prévalence
 Prévalence : c’est le nombre de cas d’une maladie (anciens et nouveaux) à un moment
donné.
 Taux de prévalence : C’est le rapport de la prévalence sur l’effectif de la
population.

a. Le taux de prévalence instantané :

Le taux de prévalence instantanée exprime la situation épidémiologique, à un moment


précis, et permet une programmation des moyens d'action.

16
Exemple : Taux de prévalence instantané du diabète dans la population d’un pays (étude
transversale).

b. Le taux de prévalence de période

Renseigne sur l'ampleur et la gravité d'une maladie donnée pendant une période
déterminée.

Il permet de :

• Faire des comparaisons dans le temps

• Programmer les moyens d’action

 Incidence : est le nombre de nouveaux cas d’une maladie apparus pendant une période
donnée. Selon la durée de cette période on distingue l’incidence journalière, hebdomadaire,
ou annuelle.
 Le taux d’incidence est le rapport de l’incidence sur la population au milieu de la
période.

• Le taux d’incidence est nommé taux d’attaque lorsqu’il est calculé sur une
épidémie de maladie aigue (courte période d’incubation et courte durée de la
maladie) C’est un taux d’incidence utilisé dans certaines circonstances; Toxi-
infection alimentaire collective (T.I.A.C).

• Le taux d’incidence permet de mesurer les variations de fréquence des maladies

• Et évaluer l’impact des programmes de santé : excellent guide pour l'action de


santé.

17
Exemple
• Dans un village de 1500 habitants le médecin a diagnostiqué 3 cas de tuberculose
en 2008.

• Le taux d’incidence annuel de la tuberculose dans ce village était de :

Taux d’incidence=(3/1500)x100 = 0,2 cas pour 100 habitants

4.3. Mesures de la mortalité


 Le taux brut de mortalité est le rapport des décès d'une année à la population
moyenne de cette année.

NB : différents types de taux de mortalité peuvent être distingués :

- Les taux spécifiques de mortalité :

 Par âge (taux de mortalité des plus de 75 ans)


 Par sexe (taux de mortalité des femmes)
 Par profession
 Par milieu (urbain ou rural)
 Par état matrimonial (marié, célibataire, divorcé, veuf…)
- Taux de mortalité par cause

18
 Exemple le taux de mortalité par causes cardio-vasculaires en 2011 dans un pays
donné est de 2,17 ‰.
- Le taux de mortalité infantile est un indicateur qui fait partie des taux de Mortalité
spécifique. C’est le rapport entre le nombre d'enfants décédés avant l'âge d’un an, sur le
nombre total de naissances vivantes pendant cette période. Cette statistique est exprimée
pour 1 000 naissances (‰).

 Taux de létalité : exprime la gravité d'une maladie et permet d’évaluer l'efficacité de


mortalité générale ou taux brut de mortalité (T.B.M); est le rapport des décès d'une
année à la population moyenne de cette année. Il s’exprime toujours en ‰.

Exemple : parmi 100 cas de typhoïde survenus lors d’une épidémie ont été enregistrés, le taux
de létalité = 0,10 soit 10%.

- Les taux spécifiques de mortalité :

é è é
é
é

 Par âge (taux de mortalité des plus de 75 ans, taux de mortalité infantile …)
 Par sexe (taux de mortalité des femmes)
 Par profession
 Par milieu (urbain ou rural)
 Par état matrimonial (marié, célibataire, divorcé, veuf…)
 Par cause (Exemple : le taux de mortalité par causes cardio-vasculaires).

19
Exercice 1.
Le tableau suivant rapporte les effectifs de blessés en Algérie par accidents de la circulation,
identifiés comme cas annuels nouveaux (cas incidents).
Répartition de blessés par accidents de la route en Algérie selon l’année
Année Effectif
1980 37020
1981 40450
1982 37102
1983 40798
Source : Ministère des Transports
La population algérienne résidente était estimée au 1er janvier 1980 à 18558400. Le taux
d’accroissement naturel de la population depuis cette date sera considéré égal à 30 pour 1000
(faites les estimations de la population algérienne pour les années suivantes à la centaine
près).
1. Calculez les taux d’incidence annuels de 1980 à 1983 pour 100000 habitants.
2. Comment ces taux évoluent-ils dans le temps et que pouvez-vous penser des mesures de
prévention et de contrôle prises pendant cette période contre la morbidité causée par les
accidents de la route ?
Corrigé 1.
Le taux d’accroissement naturel en Algérie égal à 30/1000= 0,03
 Estimations de la population algérienne au début de l’année :
 1/1/80 : 18558400
 1/1/81 : 18558400(1 + 0.03)1 = 19115200
 1/1/82 : 18558400(1 + 0.03)² = 19688600
 1/1/83 : 18558400(1 + 0.03)3 = 20279300
 1/1/84 : 18558400(1 + 0.03)4 = 20887600
 Estimations de la population algérienne au milieu de l’année (centres de classes) :
 1/7/80 : (18558400+19115200)/2 = 18836800
 1/7/81 : 19401900
 1/7/82 : 19983950
 1/7/83 : 20583450
Taux d’incidence annuels :

21
 1980 : 37020/18836800 = 196.5 pour 100000=0.1965%
 1981 : 40450/19401900 = 208.5 pour 100000=0.2085%
 1982 : 37102/19983950 = 185.7 pour 100000= 0.1857%
 1983 : 40798/20583450 = 198.2 pour 100000= 0.1982%
2. Ces taux évoluent en « dents de scie » et ne marquent pas une baisse ou une hausse
régulière. Ce qui donne à penser que les mesures de contrôle et de prévention sont plutôt
inefficaces.
Exercice 2
Dans une province médicale de 5 000 000 habitants, durant l’année 2008 on a enregistré 21
250 naissances vivantes et 5000 décès de tout âge dont 850 avaient un âge de moins d’un an.
Quelle sont dans cette province :

• Le taux de natalité ?
• Le taux de mortalité générale ?
• Le taux de mortalité infantile ?
Solution 2

4,25 ‰

= 1‰

 Le taux de mortalité infantile

 Le taux de mortalité infantile 40 ‰

5. Sondages et méthodes d’échantillonnage


5.1. Sondage

En statistique, l'échantillonnage ou le sondage désigne les méthodes de sélection d'un sous-


ensemble d'individus (un échantillon) à l'intérieur d'une population pour estimer les
caractéristiques de l'ensemble de la population. Cette méthode présente plusieurs avantages :
une étude restreinte sur une partie de la population, un moindre coût, une collecte des données
plus rapide que si l'étude avait été réalisé sur l'ensemble de la population, la réalisation de
contrôles destructifs, etc.

21
Un sondage est une méthode statistique visant à évaluer les proportions de différentes
caractéristiques d'une population à partir de l'étude d'une partie seulement de cette population,
appelée échantillon. Les proportions sont déterminées avec des marges d'erreur, dans
lesquelles se situent les proportions recherchées avec telle ou telle probabilité.

Les sondages les plus connus du grand public portent sur des populations humaines. Ce sont
en particulier les sondages d'opinion réalisés par des entreprises de sondage. Mais il ne s'agit
là que d'une application particulière de la technique du sondage, dont l'usage est beaucoup
plus général.

5.1. Méthodes d’échantillonnage


On utilise un plan d’échantillonnage lorsque l’on réalise une étude par enquête, c’est dire
lorsque l’on collecte des informations sur un groupe d’individus dans leur milieu habituel,
mais que tous les individus ne sont pas accessibles (par choix ou par contrainte).
Les principales méthodes d’échantillonnage peuvent être regroupées en deux ensembles :
•l’échantillonnage aléatoire : tous les individus ont la même probabilité d’être choisis, et le
choix de l’un n’influence pas celui des autres. Différentes méthodes d’échantillonnage
aléatoire existent :
o l’échantillonnage aléatoire et simple : le choix se fait parmi tous les
individus de la population qui ne forme qu’un grand ensemble.
o l’échantillonnage stratifié : si la population est très hétérogène, elle peut être
divisée en sous-ensembles exclusifs (ou strates). Au sein de ces strates
l’échantillonnage est ensuite aléatoire et simple.
o l’échantillonnage en grappes : si les strates sont très nombreuses, on en
choisit certaines au hasard (les grappes). Au sein de ces grappes
l’échantillonnage est ensuite aléatoire et simple.
o l’échantillonnage par degrés : il est une généralisation de l’échantillonnage
en grappes (qui est en fait un échantillonnage du premier degré). Au sein de la
population on choisit des grappes « primaires », puis à l’intérieur de celles-ci
des grappes « secondaires » (toujours au hasard), et ainsi de suite... . Au
dernier niveau l’échantillonnage est aléatoire et simple.

• l’échantillonnage systématique : un premier individu est choisi aléatoirement, puis les


autres sont choisis de façon régulière à partir du précédent (dans le temps ou l’espace).

22
6. les fluctuations d’échantillonnage et estimation statistique
Lorsqu'on veut connaître la proportion d'un caractère dans une population, il n'est pas toujours
possible d'étudier cette population en entier, c'est pour cela qu'on décide parfois d'étudier un
échantillon d'individus choisis au hasard.
Exemple : Des études estiment que 30 % de la population mondiale souffre d'hypertension.
On choisit au hasard un échantillon de 30 personnes, et dans cet échantillon, 7 personnes ont
de l'hypertension.
Dans l'exemple choisi, l'hypertension s'appelle un caractère de la population.
La proportion de ce caractère dans la population est p=30%=30/100=0,3.
La taille (ou l'effectif) de l'échantillon choisi est n=30.
La fréquence du caractère dans l'échantillon est f=7/30≈0,23.
Revenons à notre exemple de départ sur l'hypertension. Voici quelques exemples de
fréquences observées dans des échantillons de 30 personnes :
7/30≈0,23 ; 9/30≈0,3 ; 11/30≈0,37 etc...
On constate que certaines fréquences sont égales à 0,3, mais pas toutes. Ces fréquences
fluctuent autour de 0,3, on dit qu'il y a fluctuation d'échantillonnage.
Le graphique ci-contre montre la simulation sur 100 échantillons de 30 personnes de la
variation de la fréquence observée d'hypertendus.
 En fait, en théorie des probabilités, on démontre la propriété ci-dessous :
On considère un caractère apparaissant avec une proportion p dans une population.
On observe ce caractère dans un échantillon de taille n.
La fréquence f observée du caractère dans cet échantillon appartient à l'intervalle
I=[p−1/ ; p+1/ ] avec une probabilité d'au moins 95%.

23
Exercice
On considère toujours le caractère d'hypertension qui apparaît avec une proportion de 0,3 dans
la population, mais nous prenons à présent des échantillons de 100 personnes.
- Quel est l'intervalle de fluctuation correspondant à cette situation ?
- Si on prend 500 échantillons différents de taille 100, à combien d'échantillons dont la
fréquence observée du caractère se situe en dehors de l'intervalle de fluctuation calculé
ci-dessus peut-on s'attendre ?
Solution
- Nous avons p=0,3, n=100. Nous pouvons donc calculer l'intervalle de fluctuation au
seuil de 95% à l'aide de la formule vue en cours.
I=[0,3−1/100; 0,3+1/100]
Donc I= [0,2;0,4]
On peut donc s'attendre avec une probabilité de 0,95 que les fréquences observées dans les
échantillons soient comprises entre 0,2 et 0,4
- On a 5% de chances que les échantillons soient en dehors de l'intervalle de fluctuation. Sur
500 échantillons, on peut donc s'attendre à 500×5/100= 25
Soit 25 échantillons en dehors de l'intervalle.
7. Liaison entre 2 variables qualitatives (test du χ2)
X2 de conformité X2 d’indépendance
Il s’agit de comparer une distribution d’un Il permet de tester l’indépendance de deux
caractère observé sur un échantillon donné et caractères discrets.
une distribution théorique basée sur un modèle Les hypothèses
susceptible de décrire la probabilité d’observer H0 les deux variables sont indépendantes
une valeur du caractère. H1 l’une des variables est dépendante de
Le critère du test est : l’autre
Dans le cas, les données figurent en général
Où O : est l’effectif observé sur un tableau à double entrée, appelé
E : l’effectif théorique tableau de contingence. La statistique du
Les hypothèses : test est :
H0 la distribution observée conforme la
distribution théorique. n ou
H1 la distribution observée ne conforme pas
la distribution théorique.
La statistique est par suite comparée à la Sous l’hypothèse nulle où les deux
valeur table (cette valeur lue de la table à caractères sont indépendants, T suit la loi
un ddl= k-1) du khi-deux de paramètre ddl =
Si < alors l’hypothèse H0 est jugée (r−1)(s−1).
acceptable
Si > alors on rejette l’hypothèse H0 au
risque α de se tromper.

24
NB: * Si l'échantillon est petit donc des effectifs calculés (np ou nq) inférieur 5: si np ou nq

de 3 a 5, on doit effectuée une correction de yates é

*Si n p ou n q, sont inferieur a 3 (<3) => test de fiche.


Exercice 1.
Des arbres de pin blanc ont été classés selon leurs âges et la réaction à un champignon causant
la rouille, on vous demande de tester l’association entre l’âge et la réaction au champignon ?
Age 4 10 20 40 Total
Réaction
Résistant 7 6 11 15 39
Sensible 14 11 5 8 38
Total 21 17 16 23 77
• H0 l’indépendance entre l’âge et la réaction à un champignon causant la rouille
• H1 la réaction à un champignon causant la rouille est dépendante de l’âge des arbres.
Solution1.
1- Le tableau donné est de type tableau de contingence, contient les fréquences
absolues observées aij :
Tableau 1. Table de contingence

La valeur attendue dans chaque case, sous l’hypothèse nulle, se calcule par

Exemple : Ei = 21x39/77=10.6
25
Exercice 2. on effectue le croisement entre les pois a fleurs blanches et des pois a fleurs
rouges. On obtient en deuxième génération sur 600 sujets les effectifs suivant: Rouge 141 -
Rose 325 - Blanc 134.
1- Donner les proportions théoriques.
2- Les résultats conforment les lois de modèle ou non?
Solution 2.
1- Le croisement: RR X BB
1ère génération 100% RB rose X RB
2ème génération RR, RB, BB

2- Fréquence théorique:
RR: 600 X = 150, RB: 600 X = 300 et BB: 600 X = 150

=> On accepte H0 donc on accepte l'hypothèse d’adéquation de la loi observée


avec la loi théorique Mendel.

26
8. Liaison entre 2 variables quantitatives (Corrélation ; Régression)
8.1. Corrélation
 La corrélation est le degré d’association entre deux variables X et Y, pas de relation
causale impliquée.
 En statistique, étudier la corrélation entre deux ou plusieurs variables aléatoires, c’est
étudier l’intensité de la liaison qui peut exister entre ces variables. Dans le cas de
deux variables numériques, il s’agit de régression linéaire.

27
 Une mesure de cette corrélation est obtenue par le calcul du coefficient de corrélation
linéaire, ce coefficient égal au rapport de leur covariance et du produit non nul de leurs
écarts types. Le coefficient de corrélation est compris entre -1 et +1

Coefficient de corrélation :

La formule est : r = r= .

Par exemple, nous allons calculer le coefficient de corrélation entre deux séries de même
longueur (cas typique : une régression), on suppose qu’on a les tableaux de valeurs suivants :
X( ) et Y ( ) pour chacune des deux séries, alors pour connaitre le coefficient
de corrélation liant ces deux séries. On applique la formule suivante :

r=

Avec: = et la covariance entre X et Y ou

est l’écart type de X. ² est l’écart type de Y.

est la moyenne de X et est la moyenne de Y.

Interprétation
r =1 dans le cas ou l’une des variables est fonction affine croissante de l’autre variable.
r = - 1 dans le cas ou l’une des variables est fonction affine décroissante de l’autre.
r = 0 signifie que les variables sont indépendants linéairement
Les valeurs intermédiaires renseignent sur le degré de dépendance linéaire entre les deux
variables. Plus le coefficient est proche des valeurs extrêmes -1 et 1 plus la corrélation entre
les variables est forte "on emploi simplement l’expression fortement corrélées pour qualifier
les deux variables".

28
8.2. Régression
La recherche des liaisons entre les variables mesurées o pour objectif de comprendre l’effet de
l’une sur l’autre, de prédire l’effet d’une variable en connaissant l’autre variable, et enfin
d’évaluer l’effet indésirable d’une variable sir l’autre par exemple si on représente par x la
variable poids de poulet et par y quantité d’aliment ingéré (x vs y). On note une certaine
relation entre ces deux variables.
La régression permet de prédire la valeur de la variable dépendante pour une valeur donnée de
la variable indépendante, implique une relation causale.
Si on trace une ligne droite on obtient une droite dite droite de régression.
 Droite de la régression é «Méthode des moindres carrés »
Plusieurs droites peuvent s’ajuster à un nuage de points mais parmi toutes ces droites on peut
retenir celle qui jouit d’une propriété remarquable : celle qui minimise la somme carré des
écarts des ordonnées observées.

29
Exemple : Si on projette des points M1 à M4 parallèlement à l’axe des y sur la droite on
obtient les points P1 P4. Le critère retenu pour déterminer la droite D passant au peut près de
tous les points sera tel que la somme des carrés des écarts des points observées M i à la droite
solution soit minimum.

La droite solution sera appelée la droite de régression de y sur x


La formule de la droite de régression peut s’écrire comme suit :
= b0+b1x et = +b1 (x-

Avec : = est le coefficient de régression

Le graphique suivant montre l’explication


géométrique de la décomposition de la
formule de la droite de régression
 La relation entre le coefficient de
régression (b1) et de corrélation (r)

= b0+b1x

31
 Test de la pente de régression
Si la droite de régression est horizontale (b1 = 0), alors cela signifie qu’il n’y a pas de lien
entre x et y.
Les hypothèses testées : H0 b1 = 0
H1 b1 ≠ 0
Pour tester ces hypothèses précédentes on doit calculer la variance :

Puis on calcule (suit une loi de Student à (n-2) ddl)

Et on le compare avec à (n-2) ddl

 Si H0 est rejetée, la pente est différente de l’horizontale (il y a un lien


entre x et y)
 Si H0 est acceptée, la droite de régression ne s’écarte pas
significativement de l’horizontale (il n’y a pas de lien entre x et y).
Exercice
On s’intéresse à 12 moutons, traités par anabolisant et on veut savoir si l’augmentation de
poids observée y est liée à la dose d’anabolisant ingéré x. les données sont résumées dans le
tableau suivant :
mouton 1 2 3 4 5 6 7 8 9 10 11 12
x (mg/j) 2 2 2 4 4 4 4 6 6 8 8 8
Y (Kg) 9 10 8 12 11 12 13 16 15 18 17 19
- Représenter graphiquement ces résultats
- Donner la formule de la droite de régression puis tracer la
- Tester la ponte de régression
Solution
* Représentation graphique des données

31
Y (Kg)
20
y = 1.5196x + 5.9888
15 R² = 0.9523

10

0
0 2 4 6 8 10

- la formule de la droite de régression


Calcule de :
= 58 ; ∑ =340 ; = 160 ; ∑ =2278 ; = 864

=5,99

La formule de la droite de régression est la suivante :


= b0+b1x = 5,99+1,52 x
- Test de pente de régression
On veut tester s’il y a un lien entre x et y
Les hypothèses
H0 b1 = 0
H1 b1 ≠ 0
Pour tester ces hypothèses précédentes on doit calculer les variances :

 = 5,42

 = 13,15

 =

Puis on calcule = =13,8

Et on le compare avec à (12-2=10) ddl

32
H0 est rejetée, la pente est différente de l’horizontale (il y a un lien entre
l’augmentation de poids et la dose d’anabolisant).
11. comparaison de moyennes : analyse de variances
11.1. Comparaison des moyennes : test de Student)
11.1.1. Test des hypothèses relatives à une moyenne
On a vu que les paramètres et µ sont les caractéristiques de population alors que et
sont celles de l’échantillon, un échantillon représentatif doit avoir une moyenne très proche
de µ. Pour n échantillons les moyennes couvrent un intervalle qui doit implicitement contenir
µ. Si ces échantillons sont représentatifs cet intervalle est dit : Intervalle de confiance IC ou
intervalle estimateur de µ, il égale à
IC=
Avec :
: La moyenne de l’échantillon.
: Valeur de t de table au seuil 5% et pour n-1 degré de liberté (ddl=n-1).

: Écart type de la moyenne = .

Donc on a prend 95% de chance pour que la moyenne d’un échantillon soit proche ou égale
la moyenne de la population et seulement 5% de chance pour que cette moyenne soit
différente significativement de µ.
On retire de cette formulation le test de signification suivant :
= .
A comparer avec la valeur du t de table pour n-1 degré de liberté cette comparaison teste deux
hypothèses qui sont µ donc , ≠ µ, donc dans ce cas
de l’échantillon est différente significativement de la moyenne de la population donc
l’échantillon étudie appartient à une autre population que la population ciblée.
NB

 Si σ est connu la valeur de tobs est donnée par la formule

 Si n est supérieur à 30 la valeur de tobs est donnée par la formule et

à comparer avec ttab qu’est une valeur lue de la dernière ligne de la table t avec un
seuil d’erreur donné (5%, 1% et 1‰).

33
EXEMPLE Usine fabrique de la confiture qu’est fourni dans des boites de 1 Kg, le fabricant
sait que si la boite contient moins de 1 Kg, il peut être poursuivi pour fraude, dans le cas
contraire si la boite contient plus ; il fait moins d’argent. Prenant un échantillon de 30 boites,
il trouve =1095g avec une variance =300 Formuler et tester les hypothèses.
Solution :
µ=0 µ
µ≠0 µ

= =

On accepte et on rejette c-à-dire que le fabricant perde de l’argent.


EXERCICE 2
Un lot de feuilles a été placé dans un local dont le degré hygrométrique et la température
maintenus constants, ont été calculés de façon que le taux d’humidité moyen de la masse soit
39.6%, on a prélevé 20 échantillons dont on mesure à l’étuve, le taux d’humidité, les résultats
sont les suivants : 37.9, 38.4, 38.8, 38.8, 39.0, 39.0, 39.2, 39.2, 39.2, 39.3, 39.4, 39.7, 39.7,
39.9, 40.0, 40.0, 40.2, 40.4, 40.6, 41.0.
Y a-t-il accord entre le résultat expérimental et le résultat théorique recherché ?
Solution :

Humidité ( ) Répétitions )
37.9 1 37.9 -1.58 2.4964
38.4 1 38.4 -1.08 1.1664
38.8 2 77.6 -0.68 0.9248
39.0 2 78.0 -0.48 0.4608
39.2 3 117.6 -0.28 0.2352
39.3 1 39.3 -0.18 0.0324
39.4 1 39.4 -0.08 0.0064
39.7 2 79.4 0.22 0.0968
39.9 1 39.9 0.42 0.1764
40.0 2 80.0 0.52 0.5408
40.2 1 40.2 0.72 0.5184
40.4 1 40.4 0.92 0.8464

34
40.6 1 40.6 1.12 1.2544
41.0 1 41.0 1.52 2.3104
Total 20 789.7 0 11.0660

= 0.5824

= = = 0.171

On accepte et on rejette c-à-dire qu’il ya accord entre le résultat


recherché et le résultat expérimentalement obtenu.
 L’intervalle de confiance à 95% pour l’humidité moyenne du lot est
IC= IC=
IC= soit

11.1.2. Test des hypothèses concernant deux moyennes


La comparaison de la moyenne de l’échantillon à celle d’une population est un cas
particulier de comparaison entre deux moyennes de deux échantillons ; par exemple un
sélectionneur obtient deux variétés de blé semblent similaires, mais il ne peut lancer qu’une
seule. Nous voulons savoir si la différence entre les moyennes des deux variétés est
significative ou non.
Donc l’hypothèse est : → =Δ (Δ=0) vis-à-vis → .
Pour calculer la variance de la différence on doit d’abord calculer la variance de

chaque échantillon et et les moyennes .

= et = .

La variance de différence est donnée par la formule :

= = +

= .

= généralement 0 donc : = c-à-d =

CAS 1 : =

35
 Si = et = avec ddl =2(n-1)

ddl= (n-1) + (n-1)=2n-2=2(n-1).


 Si = et = ( + ).

Avec =

: Variance pondéré
ddl = .
Exemple : Deux variétés présentent les statistiques suivantes :
= 10, =54000, = 2100
= 12 ; = 49000, = 2100 .
∆= = 2000.
1/ Tester
.
2/ Calculer IC de la différence.

Solution : , .
1/ On calcule :

= /20
=4184500
 On calcule (variance de la différence entre deux moyennes) :

= =418450 =767158.33.

= =875.87

 = = =3.42.

ddl = =10+12-2=20.
Pour le ddl=20

36
Donc on rejette , donc la différence entre les deux
variétés est significative et supérieur à 2000.
2/ calcule de l’intervalle de confiance :
IC =(
=
=
IC: .
CAS 2 : ≠
 Si ≠ et =n

= avec ddl=2(n-1)

 Si ≠ et

Et ddl= → appelé ddl corrigé.

Exemple 1 : Dans le blé richelle 110, on a mesuré la productivité en grain (poids de grain en
gramme dans 100 épis) de deux séries de prélèvements :
 10 prélèvements effectués sur les descendances d’épis issus d’autofécondation
naturelle.
 10 prélèvements effectués sur les descendances d’épis issus de fécondation croisée
artificielle.
Les calcules sont rassemblés dans le tableau ci-après :
Quel type de fécondation donne une meilleure productivité en grain ?
Solution :
Prélèvement - -
1 142 -28,7 823,69 149 -19.5 380.25
2 148 -22 ,7 515,29 149 -19.5 380.25
3 156 -14,7 216,09 159 -9.5 90.25
4 161 -9,7 94,09 164 -4.5 20.45

37
5 172 +1,3 1,69 170 +1.5 2.25
6 173 +2,3 5,29 171 +2.5 6.25
7 177 +6,3 39,69 174 +5.5 30.25
8 180 +9,3 86,49 177 +8.5 72.25
9 183 +12,3 151,29 181 +12.5 156.25
10 215 +44,3 1962,49 191 +22.5 506.25
17707 3896,10 1685 1644.50

Moyenne 170,7 168.5

= =182.72

= = = =61.562

 Test des hypothèses:

→ =

= = =0.280

est calculé à partir d’un seuil d’erreur de 5% et

ddl=2n-2=20-2=18

On accepte et on rejette donc la descendance issue d’autofécondation et


la descendance issue de fécondation croisée n’ont pas des productivités en grain
significativement différentes.
Exemple2 :
Deux types de sols sont analysés, voici le pourcentage de gravier fin trouvé en surface :
Obs 1 2 3 4 5 6 7

38
Sol riche 5.9 3.8 6.5 18.3 12.2 16.1 7.6
Sol pauvre 7.6 0.4 1.1 3.2 6.5 4.5 4.7

1/ Calculer et de chaque sol.


2/ Tester les hypothèses : → - =0 vis-à-vis →
Est-ce que les deux sols ont le même pourcentage du gravier fin ou non ?
3/ Calculer IC de .
Solution :
1/ Calcule de et de chaque sol :

= = =10.06

= = =4

== = 30.70

= =6.99

= = =5.38

= = =2.32

2/ Teste les hypothèses : → - =0 vis-à-vis →

= = =2.64

Pour dll=2(n-1)=2(7-1)=12 et un seuil d’erreur 5%→ =2.179


On rejette et on accepte .
C'est-à-dire les deux sols n’ont pas le même pourcentage du gravier fin La différence entre
le pourcentage en gravier de deux sols est significative.

3/ IC =
= (10.05-3.94) 2.179x2.32
=6.11 5.05
IC: .
NB: dans le cas où n1 et n2 sont supérieurs à 30 la valeur de tobs est donnée par la formule

39
et à comparer avec ttab qu’est une valeur lue de la dernière ligne de la

table t avec un seuil d’erreur donné (5%, 1% et 1‰).

11.1.3. Comparaison des couples d’observations


 Dans certaines situations, il est plus intéressant de grouper les observations par paire
et de faire l’analyse de la comparaison des moyennes sur leurs différences. Ainsi par
exemple, si on est intéressé par la comparaison de deux rations alimentaires sur des
animaux, on repartit les rations au hasard aux différents individus concernés par
l’étude et on analyse la différence entre les deux individus formant la paire. Le même
problème est rencontré si on recherche à comparer le rendement de deux variétés sur
différents lieux.

 Dans la méthode de couples, on détermine la différence entre les valeurs de chaque


paire d’observation, puis on calcule la moyenne et l’écart type de la moyenne des
différences puis on teste les hypothèses

→ =0 vs → ≠0.

On comparant le avec le ddl=n-1

La moyenne de différence =

L’écart type standard : =

L’écart type de la moyenne = .

La variance est donnée par la relation suivante :

, et le =

Exercice
Chez un groupe de 10 malades, on expérimente les effets d’un traitement destiné à diminuer
la pression artérielle. On observe les résultats suivants (valeur de la tension artérielle
systolique en cm Hg) :
sujet n° 1 2 3 4 5 6 7 8 9 10
avant traitement 15 18 17 20 21 18 17 15 19 16
après traitement 12 16 17 18 17 15 18 14 16 18

41
On se demande si le traitement a une action significative.
Solution
Il s’agit de comparer deux moyennes de deux échantillons appariés
Le test effectué est le test t des échantillons appariés
Les conditions d’application
• Normalité de la distribution
• Appariement des échantillons
• n1=n2
• σ1 et σ2
Les hypothèses
H0 le traitement n’a pas une action significative sur la pression artérielle
H1 le traitement a une action significative sur la pression artérielle
Calcul des différences
sujet n° 1 2 3 4 5 6 7 8 9 10
3 2 0 2 4 3 -1 1 3 -2
La moyenne de différence = = cm Hg

La variance est donnée par la relation suivante :

3,83

L’écart type de la moyenne = = = 0,62.

= = = 2,42

ttab(5%,9)= 2,262
tobs >ttab on accepte H1 donc le traitement a une action significative sur la pression artérielle

41
t Table
1- 0% 50% 60% 70% 80% 90% 95% 98% 99% 99.8% 99.9%
1.00 0.50 0.40 0.30 0.20 0.10 0.05 0.02 0.01 0.002 0.001
1 0.000 1.000 1.376 1.963 3.078 6.314 12.71 31.82 63.66 318.31 636.62
2 0.000 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 22.327 31.599
3 0.000 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 10.215 12.924
4 0.000 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 0.000 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 5.893 6.869
6 0.000 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 0.000 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.785 5.408
8 0.000 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 0.000 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 4.297 4.781
10 0.000 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.144 4.587
11 0.000 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 0.000 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.930 4.318
13 0.000 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.852 4.221
14 0.000 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.787 4.140
15 0.000 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 0.000 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 0.000 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.646 3.965
18 0.000 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.610 3.922
19 0.000 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 0.000 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.552 3.850
21 0.000 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.527 3.819
22 0.000 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.505 3.792
23 0.000 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.485 3.768
24 0.000 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.467 3.745
25 0.000 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 0.000 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 0.000 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.421 3.690
28 0.000 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.408 3.674
29 0.000 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.396 3.659
30 0.000 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.385 3.646
40 0.000 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 3.307 3.551
60 0.000 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660 3.232 3.460
80 0.000 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639 3.195 3.416
100 0.000 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626 3.174 3.390
1000 0.000 0.675 0.842 1.037 1.282 1.646 1.962 2.330 2.581 3.098 3.300
Z 0.000 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 3.090 3.291

42
11.2. Analyse de la variance
➢ Lorsque le nombre d’échantillon augmente (+3), la comparaison des moyennes utilisant le
test t n’est plus commode. Dans ces conditions l’utilisation du dispositif expérimental qui se
base sur le test F pour la comparaison des moyennes multiples est indispensable.
➢ L’ANOVA est un test statistique de comparaison de moyenne qui généralise le test de
comparaison de deux moyennes.
➢ L’ANOVA test deux hypothèses qui sont :
H0 μ1 = μ2 =……..= μp
H1 μ1 ≠ μ2 ≠ …….. ≠ μp donc il y a au moins une moyenne qui diffère des autres Pour
savoir la ou lesquelles, il faut avoir recours par la suite aux tests de comparaisons multiples.
11.2.1. Notion de base en expérimentation
➢ Un facteur : une série d’éléments de même nature susceptibles d’influencer les résultats
d’une expérience. C’est l’effet qu’on veut étudié ses ou niveaux sont volontairement choisi
➢ Un traitement : procédure dont l’effet mesuré, la combinaison de deux ou plusieurs
modalités variantes ou niveaux des facteurs étudiés constitue un traitement. ➢ Répétition: elle
a pour fonction de permettre une estimation de l’erreur
➢ Notion d’erreur : l’erreur expérimentale est une imprécision qui entraine une
hétérogénéité inévitable dans l’expérience. Elle regroupe la résultante de toutes les causes non
contrôlées de l’essai, elle a pour origine : le manque de l’uniformité du terrain, le manque
l’uniformité, le manque de précision des appareils et de l’expérimentateur lui même
➢ Notion unité expérimentale : C’est l’élément de base d’une expérience qui est considéré
individuellement durant tout le processus expérimental. Une unité est soumise à un même
traitement et conduit à la même observation.
11.2.2. Conditions
➢ Variable dépendante quantitative
➢ Indépendance des observations
➢ Normalité de la distribution de la population d’où tiré chaque groupe et cela se fait de
plusieurs manières – histogramme de fréquence – les deux coefficients d’asymétrie et
d’aplatissement – la méthode des pourcentages (50%, 68%, 99% et 99,7%) NB: dans le cas
d’asymétrie de la distribution, on peut faire une transformation ou changement de variable
(logarithme, racine ….)
➢ Homoscédasticité: ou test d’égalité des variances

43
* si les groupes ont la même taille on utilise le test Hartley : Hobs = à comparer avec Htab

(α = 5%, na, n ou ddl)


* Si les groupes des tailles différentes on utilise le test Fisher = 2 2 à comparer
avec Ftab (α = 5%, ddlSg, ddlSp)
11.2.3. ANOVA à un facteur étudié
 L'analyse de variance à un facteur (one-way analysis of variance) consiste à chercher
le rapport entre la variance entre les groupes (V. inter-groupe) et la variance à
l'intérieur des groupes (V. intra-groupe). La valeur de ce rapport appelé F [attention :
ce F n’a rien a voir avec le F du test de vérification de l’homogénéité des variances]
est comparée à celle d'une table de F de Snedecor, table à double entrée
 L’analyse de la variance à un facteur teste l’effet d’un facteur contrôlé A ayant p
modalités (groupes) sur les moyennes d’une variable quantitative X. Les problèmes
concernés par la technique ANOVA 1 s’écrivent en générale de la manière suivante :

 Afin de réaliser le test d’ANOVA1, trois conditions doit être vérifiées préalablement,
à savoir :
• Les échantillons comparés sont indépendants.
• La variable quantitative étudiée suit une loi normale dans les populations comparées.
• Les populations comparées ont même variance : Homogénéité des variances ou
homoscédasticité.
Si ces dernières conditions sont vérifiées alors, on peut utiliser la technique ANOVA 1, et
pour ce faire nous avons besoin des quantités (statistiques) suivantes :
• La moyenne de toutes les observations (avec t est le nombre de

traitements i passe de 1 à t et r nombre de répétition et j passe de 1 à r)

• La somme et la moyenne de chaque traitement : (et toujours i passe de 1 à

t)

44
• Variance de chaque échantillon ou traitement :

 La table d’ANOVA

Table d’ANOVA
Sources de variation ddl SCE CME
Totale tr-1 - - -
Traitements t-1
Erreur t(r-1) - -

 Composantes de la variance
Pour aboutir à la table d’ANOVA précédent on doit calculer les composantes de variance
suivantes :

 Le terme correctif :

 La somme des carrés des écarts totale

 La somme des carrés des écarts de traitement =

 La somme des carrés des écarts résiduelle ou erreur


 Comparaison des moyennes multiples
Si on accepte H1 on doit procéder à la comparaison des moyennes en utilisant la plus
petite différence significative ppds de la moyenne suivante :

- On calcule la ppds : =

- On ordonne les moyennes des traitements d’une façon décroissante


- On calcule les différences entre les moyennes ordonner purs on les compare à la ppds ; si
la différence est la supérieure on dit que les deux traitements appartiennent aux deux
groupes différents, si le contraire on constate qu’ils forment un groupe homogènes.
Exercice 1
Pour définir l’impact de la nature du sol sur la croissance d’une plante X, un botaniste a
mesuré la hauteur des plantes dans 4 types de sol. Pour chaque type de sol, il disposait de 3
réplicas.
Type I Type II Type III Type IV

45
15 25 17 10
9 21 23 13
4 19 20 19
Que peut-on conclure sur cette expérience?
Solution 1
Il s’agit d’une ANOVA à un facteur étudié
Analyse de la variance
RAPPORT DÉTAILLÉ
Nombre
Groupes d'échantillons Somme Moyenne Variance
Type I 3 28 9,33 30,3333333
Type II 3 65 21,67 9,33333333
Type III 3 60 20 9
Type IV 3 42 14 21

 =

 = 3597-3108,75= 428,25

 = =

 =

ANALYSE DE VARIANCE
Source des variations SCE Ddl CME Fobs Probabilité Ftab
Entre Groupes 288,92 3 96,31 5,53 0,02370 4,066
A l'intérieur des groupes 139,33 8 17,42
Total 428,25 11

Comparaison des moyennes

= = 2,306 = 7,86

Type II 65
Type III 60
] Groupe A
46
Type IV 42 Groupe B
Type I 28 Groupe C

11.2.4. Analyse de la variance à deux facteurs (ANOVA 2)


 Cette section est consacrée à l’étude des situations expérimentales dans lesquelles
l’effet de deux facteurs (variables qualitatives) est étudie simultanément, c’est-à-dire
dans le même protocole expérimental. En cela, elle constitue une extension à la
situation précédente dans laquelle on n’étudiait qu’un seul facteur à la fois (ANOVA
d’ordre 1).
 Exemple : Si l’on s’intéresse, `a l’effet des trois type d’engrais et les trois vari´et´es du
blé sur les rendements séparément, on pourrait réaliser deux expériences dans
lesquelles on manipulerait chacun des deux facteurs, et analyser les résultats à l’aide
d’ANOVA 1 s’il y a plus de 2 modalités ou niveaux pour chaque facteur : on saurait
ainsi si le type d’engrais affecte sensiblement les rendements mesurées, et également
si la vari´et´e affecte les rendements. Mais, on ne saurait pas si l’effet du type
d’engrais est le même quelque soit la variété du blé ; en d’autres termes, on perd
l’information concernant l’interaction entre ces deux facteurs. Le modèle d’ANOVA
d’ordre 2 est comparable sur le fond au modèle précédent de l’ANOVA d’ordre 1,
mais il inclut en plus de l’étude des effets principaux des deux facteurs, celle du l’effet
d’interaction des deux facteurs.
 Définition d’ANOVA
L’analyse de la variance à deux facteurs teste l’effet de deux facteurs contrôlés A et B
(variables qualitatives) ayant respectivement I et J modalités sur les moyennes d’une variable
quantitative X. Les problèmes concernés par la technique ANOVA 2 se présente en générale
de la manière suivante :

47
 Les hypothèses :
L’analyse de la variance à deux facteurs avec répétitions consiste en réalisation de trois tests
de Fisher à la fois, dont la formulation est :
• Effet du premier facteur : H0 : contre H1 :
• Effet du second facteur: H0 : contre H1 :
• Effet de l’interaction des deux facteurs : H0 : contre H1
:
 Afin de réaliser une analyse de la variance à deux facteurs, les conditions suivantes
doivent être vérifiées préalablement :
• Les I x J échantillons comparés sont mutuellement indépendants.
• La variable quantitative étudiée suit une loi normale dans les I x J populations
comparées.
• Les I x J populations comparées ont même variance : Homogénéité des variances
(homoscédasticité).
 Quantifier les différentes statistiques (Moyennes et variances) intervenant dans
l’ANOVA à 2 facteurs et qui sont :
• La moyenne globale de toutes les observations :

48
• Moyenne de chaque échantillon ou traitement

• Moyenne de chaque modalité du premier facteur :

• Moyenne de chaque modalité du deuxième facteur :

 Table d’ANOVA (on considère le facteur 1 à A niveau et le facteur 2 à B niveau):


Table d’ANOVA à deux facteurs étudiés
Sources de V. ddl SCE CME
V. totale A.B.r -1 - - -
Traitements A.B-1 - - -
Facteur A A-1

Facteur B B -1

Interaction AxB (A-1)(B-1)

Erreur A.B(r-1) - -

 Composantes de la variance

 Terme correctif : C=

 Somme des carrés des écarts totale : = -C

 Somme des carrés des écarts de traitement : = –C

 Somme des carrés des écarts du facteur A : =

 Somme des carrés des écarts du facteur B : =

 Somme des carrés des écarts de l’interaction AxB : = - -


 Somme des carrés des écarts erreur : = -

49
 Comparaison des moyennes
Si on accepte les hypothèses alternatives « H1 » on procède à la comparaison des
moyennes en utilisant la plus petite différence significative ppds calculée de la manière
suivante :

- Si l’effet facteur A est significatif : =

- Si l’effet facteur B est significatif : =

- Si l’effet interaction AxB est significatif : =

Exercice
Nous avons réalisés un recueil de rendement de trois variétés du blé selon le type d’engrais
utilisé, les mesures obtenues sont rangées dans la table suivante :
variété 1 variété 2 variété 3
46 41 35
35 26 21
Engrais 1 19 11 31
37 49 45
18 37 66
Engrais 2 18 35 61
32 65 34
43 67 66
Engrais 3 32 58 58
Réaliser le test qui convient à cette situation
Effectuer une comparaison des moyennes s’il y a lieu
Solution
1. Calcule de la somme et la moyenne de chaque traitement ainsi que celles des niveaux de
facteurs

variété 1 variété 2 variété 3


46 41 35
35 26 21
Engrais 1 19 11 31 265 29,44
37 49 45
18 37 66
Engrais 2 18 35 61 366 40,67
32 65 34
43 67 66
Engrais 3 32 58 58 455 50,56

280 389 417 1086


51
31,11 43,22 46,33 362

variété 1 variété 2 variété 3


Engrais 1 Engrais 2 Engrais 3 Engrais 1 Engrais 2 Engrais 3 Engrais 1 Engrais 2 Engrais 3

100 73 107 78 121 190 87 172 158


33,33 24,33 35,67 26 40,33 63,33 29 57,33 52,67

 C= = 43681,33

 = - C = 50772–43681,33=7090,67

 = – C= – 43681,33= – 43681,33=4892,00

 = = 1164,23

 = =

 = - - =4892,00-1164,23- =1719,55
 = - = 7090,67-1539.41=2198,67

Sources de v Ddl SCE CME


Totale 3x3x3-1=26 7090,67 - - -
Traitements 3x3-1=8 4892,00 - - -
Facteur V 3-1=2 1164,23 = 8,22 3,55
Facteur E 3-1=2 =4,76 3,55
Interaction VxE (3-1)(3-1)=4 1719,55 2,93
Erreur 26-8 =18 2198,67 - -
On accepte et donc on observe que l’effet variété est hautement
significatif, l’effet engrais est significatif et l’effet interaction VxE est significatif.
Comparaison des moyennes :
 Comparaison des moyennes des variétés:

ppds = = 2.101 = 10,95

V3 : 46,33
V2 : 43,22
]A
V1 : 31,11 ]B
 Comparaison des moyennes des engrais:

ppds = = 2.101 = 10,95

51
E3 : 50,56
E2 : 40,67
]A
E1 : 29,44 ]B
 Comparaison des moyennes de l’interaction VxE:

ppds = = 2.101 = 18,96

V2E3 : 63,33
V3E2 : 57,33 A
V3E3 : 52,67
V2E1 : 40,33
V1E3 : 35,67
V1E1 : 33,33
B
V3E1 : 29
V2E2 : 26
V1E2 : 24,33

12. Notions générales de statistique multi variée

Il existe plusieurs analyses multivariées et on prend comme exemple ACP


 L’analyse en composantes principales (A.C.P) est une méthode statistique
essentiellement descriptive : son objectif est de présenter sous une forme graphique le
maximum de l’information contenue dans un tableau des données.
 Ce tableau doit être constitué en lignes par des individus (exp variétés , animaux …etc
) sur lesquels sont mesurés des variables quantitatives ou pouvant être considérées
comme telles : rendements gain , le poids , note …etc disposées en colonnes .
 L’ACP apporte l’avantage de traiter un groupe important de variables.
 L’ACP permet d’identifier les variables qui vont ensemble "ressemblance" et celles
qui s’opposent "dissemblance"
 L’ACP est un traitement Multivariés des données.
 Le cercle de corrélation est fondamental en A.C.P
 Remarque : on peut distinguer :
 traitement univarié : on peut calculer la moyenne et l’écarte type
o ainsi que les quantiles (médiane, quartiles, déciles, centiles...). .

52
 traitement bivarié : lorsqu’on s’intéresse à la liaison entre deux variables, on peut
représenter le nuage des points Mi(Xi , Yi) et examiner sa frome. la covariance et le
coefficient de corrélation sont des indicateurs de l’intensité de la liaison linéaire
éventuelle de ces deux variables.
 traitement multivariés : lorsqu’on s’intéresse aux liaisons entre plus de deux ou trois
variables .on ne peut plus représenter graphiquement le nuage des points Mi , L’A.C.P
nous permet de l’observer sous ses angles les plus intéressants , en examinant les
projections du nuage sur des plants , elle permet également de repérer les groupes de
variables ou d’individus fortement corrélées entre elles .
 Le cercle de corrélation et composé de :
 les axes : les axes du cercle représentent les facteurs étudies en générale on choisi 02
axe appelés axes factoriels en doit retenir autant d’axes qu’il le faut pour atteindre le
seuil de variance expliquée désiré (80% par exemple)
 Axe 01 : est la direction de plus grand allongement du nuage ou de plus
grande dispersion, lorsque on projette les points du nuage sur cet axe,
leurs projections sont plus dispersées qu’elles ne le seraient sur
n’importe quel autre axe.
 Axe 02 : est la 2 eme direction d’allongement du nuage c’est-à-dire celle
qui explique après le 1 er axe le maximum de dispersion résiduelle .cet
axe est choisi orthogonal sur le premier axe.
 les variables associées aux axes factoriels sont appelées facteurs ou composantes
principales.
 les points variables : à chaque point – variable on associe un point dont la
coordonnée sur un axe factoriel est une mesure de la corrélation entre cette variable et
le facteur par projection sur un plan .les points-variables s’inscrivent dans un cercle de
rayon 1, et sont d’autant plus proche du bord du cercle que le point-variable est bien
représenté par le plan factoriel , c’est-à-dire que la variable est bien corrélée avec les
deux facteurs constituant ce plan .

53
Figure. Exemple d’un cercle de corrélation en ACP
Attention : les variables qui ne sont pas situées au bord du cercle dans un plan factoriel ne
sont pas corrélées avec les deux facteurs représentés, elles ne servent pas à l’interprétation
(Voir d’autres plans factoriels ou la corrélation sera plus forte).
L’angles entre deux point-variables mesuré par son cosinus est égale au coefficient de
corrélation linéaire entre les deux variables : cos = r (x1,x2)
- Si les points sont très proches ( : cos =1 donc x1 et x2 sont très
fortement corrélés positivement.
- Si = 90° ; cos = 0 alors pas de corrélation linéaire entre x1 et x2
Si =180° ; cos = -1 donc x1 et x2 sont très fortement corrélés
négativement.
Le cercle des corrélations permet de voir, parmi les variables, les groupes de variables très
corrélées entre elles.
 Les points- individus

La position d’un point-individu par rapport à un axe factoriel ainsi que les proximités entre les
individus, peuvent être interprétés dès lors que ces points sont bien représentés par le plan
factoriel observé. Certains individus seront bien représentés par le plan 1-2 (les très fort ou les
très faible) d’autre seront représentés par d’autres plans exemple 1-3..etc.
13. Différents types d’études épidémiologiques
On distingue deux grands types d’études selon qu’il s’agit d’une étude expérimentale ou non.
54
13.1. Les études expérimentales
Le chercheur intervient sur le statut d’exposition des sujets. Il peut intervenir sur
 le ou les facteurs d’exposition,
 le moment d’exposition,
 les personnes exposées.
Dans un premier temps, les groupes vont être suivis puis comparés entre eux.
En pratique, la réalisation d’études expérimentales est souvent limitée en raison de contraintes
éthiques.
Le principe de randomisation
L’étude est dite randomisée si l’affectation des sujets à un groupe ou à un autre est tirée au
sort. C’est le hasard qui détermine donc l’appartenance du sujet à un groupe. Ainsi, seul le
groupe d’appartenance des sujets semble pouvoir différencier les sujets entre eux. La
randomisation permet de limiter les biais des études.
Les études ou essais randomisés sont qualifiés :
 d’ouverts quand le traitement est connu de tous,
 en simple aveugle quand seuls les patients ignorent la nature du traitement,
 en double aveugle quand patients et médecins ignorent la nature du traitement.

13.2. Les études non expérimentales


Elles sont aussi appelées études observationnelles. Elles peuvent être à visée descriptive ou étiologique. Le
chercheur va observer la réalité sans intervenir sur les conditions d’exposition des sujets.
Les études à visée descriptive sont :

 Etudes de prévalence

Les études de prévalence permettent d’observer la fréquence de survenue d’un phénomène de santé, dans
une population, à un moment précis. Il s’agit d’enquêtes transversales. Le recueil d’information s’effectue
sur une période brève, « un jour donné ». La notion de suivi des patients dans le temps est absente. C’est un
indicateur « statique » de morbidité. Pour rappel, la prévalence est définie comme étant :

La prévalence s’exprime sous forme d’un chiffre entre 0 et 100, ou d’un pourcentage : nombre de cas pour
100 (ou 1 000 ou 10 000…)
Exemple : mesure de la prévalence du diabète de type 2 en France

55
 Les études d’incidence

Les études d’incidence nécessitent l’observation sur une période déterminée d’un ou de groupes de sujets
pour mesurer les modifications de l’état de santé des populations. Il s’agit d’études longitudinales.
Pour rappel, l’incidence est définie comme étant :

Exemple : mesure de l’incidence des cas de listériose chez les femmes enceintes en France en
2012.

56

Vous aimerez peut-être aussi