Académique Documents
Professionnel Documents
Culture Documents
Cours
Destiné aux étudiants en M2 :
Génétique
BIOSTATISTIQUE
Préparé par :
Dr. ADDAD Dalila
Maitre de conférences classe A
Contenu de la matière :
1. introduction à l’épidémiologie et à la biostatistique
2. statistique descriptive
3. loi normale
4. notions d’épidémiologie
5. sondages et méthodes d’échantillonnage
6. les fluctuations d’échantillonnage et estimation statistique
7. liaison entre 2 variables qualitatives
8. liaison entre 2 variables quantitatives
9. test du χ2
10. corrélation ; régression
11. comparaison de moyennes : analyse de variances
12. les différents types d’études épidémiologiques
13. notions générales de statistique multi variée
1
1. Introduction à l’épidémiologie et à la biostatistique
La génétique et la statistique ont une longue histoire commune. Les débuts de cette histoire,
antérieurs à la découverte du rôle de l’ADN comme support biologique de la génétique
remontent aux travaux de Mendel sur des croisements de pois. Ces travaux ont permis à
Mendel d’énoncer les lois de l’hérédité qui portent aujourd’hui son nom. Les résultats de
Mendel, publies en 1865, bien qu’ayant reçu peu d’attention dans les premiers temps,
marquent les débuts de la génétique.
Avant, l’épidémiologie ne s’intéressait qu’aux maladies infectieuses et épidémiques, avec
l’apparition d’études sur les maladies non transmissibles, l’épidémiologie est considérée
comme une discipline à part entière de la médecine. La méthodologie épidémiologique s’est
même élargie à d’autres domaines même en dehors de la médecine.
L’épidémiologie a une approche essentiellement collective de l’étude de la santé et des
maladies. Elle apparaît ainsi comme une des sciences qui sous-tendent l’action de santé
publique. Les groupes humains étudiés peuvent répondre à des critères géographiques, d’âge,
d’appartenance à une catégorie socio-professionnelle, de lieu de travail, etc…
La biostatistique est l’application des statistiques en biologie ; sachant que, la statistique est la
science dont l’objet est de recueillir, de traiter et d’analyser des données issues de
l’observation de phénomènes biologiques. La biostatistique nous permet de décrire une
population donnée, selon ses attributs et ses qualités, de mesurer la précision d’une estimation
ou de définir le degré d’association entre une série de caractères et d’événements. Elle
englobe :
– La conception d’expériences biologiques ;
– La collecte d’informations ;
– L’analyse des données chiffrées ;
– L’interprétation des résultats et conclusion.
2. Statistique descriptive
La Statistique descriptive est l’ensemble des méthodes et techniques mathématiques
permettant de présenter, décrire, résumer des données.
C’est l’interprétation des résumés obtenus, leur extrapolation éventuelle à un ensemble plus
vaste (utilisation de sondages par exemple), et leur utilisation pour prendre des décisions
constitue un autre domaine de la Statistique.
2
2.1. Notions de base
Population: une population statistique est l'ensemble sur lequel porte l’étude. C’est un
ensemble généralement très grand, voire infini, d’individus ou d’objets de même
nature.
Exemples :
• ensemble de personnes sur lesquelles on mesure la glycémie
• ensemble de pays pour lesquels on dispose de données géographiques ou économiques, ...
Un échantillon est une partie ou un sous ensemble d’un grand ensemble qu’est la
population
• Ex: L’ensemble des pommes qui représentent des meurtrissures dans un verger donné
• Ex: Patients atteints du cancer de sang et suivis dans l’hôpital dans une région donnée.
Variable statistique (caractère, propriété….)
• C’est une particularité à laquelle on s’intéresse. On appelle variable toute
caractéristique susceptible d’être différente selon les personnes, le temps ou les lieux
considérés
• C’est un ensemble de valeurs résultant de l’observation dénombrements, analyses,
mesures,… d’un seul caractère. On parle de série dans le cas de valeurs numériques.
• Une variable statistique est dite : (i) quantitative : lorsqu’elle est mesurée par un
nombre (les notes des étudiants à l’examen de statistique, le nombre d’enfants par
ménage, ...). On distingue 2 types de variables quantitatives : les variables
quantitatives discrètes et les variables quantitatives continues. Les variables discrètes
(ou discontinues) ne prennent que des valeurs isolées. Par exemple le nombre
d’enfants par ménage ne peut être que 0, ou 1, ou 2, ou 3, . . . ; il ne peut jamais
prendre une valeur strictement comprise entre 0 et 1, ou 1 et 2, ou 2 et 3, . . . . Les
variables quantitatives continues peuvent prendre toute valeur dans un intervalle. Par
exemple, la taille, le poids même si dans la pratique il faut l’arrondir. (ii) qualitative:
lorsque les modalités (ou les valeurs) qu’elle prend sont désignées par des noms. Par
exemples, les modalités de la variable sexe sont : masculin et féminin; les modalités de
la variable couleur des yeux sont : bleu, marron, noir et vert ; les modalités de la
variable mention au bac sont : tb, b, ab et p. On distingue deux types de variables
qualitatives : les variables qualitatives ordinales et les variables qualitatives
nominales. Plus précisément une variable qualitative est dite ordinale, lorsque ses
modalités peuvent être classées dans un certain ordre naturel (c’est par exemple le cas
des variables mention au bac et stades évolutives d’une maladie) ; une variable
3
qualitative est dite nominale, lorsque ses modalités ne peuvent être classées de façon
naturelle (c’est par exemple le cas de la variable couleur des yeux ou encore de la
variable sexe).
2.2. Représentation numérique des données
2.2.1. Paramètres de position
La moyenne
Lorsque x désigne la variable statistique, la valeur moyenne, ou moyenne de la série se note m
ou . Elle est donnée par la formule :
La médiane
Notée Me, consiste en la valeur de la variable qui se trouve au centre de la série statistique,
classée en ordre croissant. Elle sépare la série en deux groupes égaux. S’il y a un nombre
impair d’observations, Me est une observation de la série. Sinon, la médiane est située entre
les deux observations centrales de la série. Par convention, on utilise la moyenne de ces deux
valeurs.
• Si la variable est discrète :
n est impair
n est pair
4
Les points A, M, B sont alignés ce qui se traduit par les
droites (AM) et (AB) ont même coefficient directeur (ou
on utilise le théorème de Thalès dans le triangle bleu ) :
Q1 = + (
Q2 = Me est la médiane.
Q3 = x3n/4 s’appelle le troisième quartile ; un quart des valeurs prises par X sont
supérieures ou égales à Q3.
Q3 = + (
5
L’intervalle interquartile (IIQ) est la différence entre le troisième quartile et le
premier quartile ; il s’écrit :
IIQ =Q3 – Q1
L’intervalle interquartile sert à apprécier la dispersion de X, de façon absolue, ou
bien par comparaison avec une autre variable quantitative, à condition que cette
dernière soit exprimée dans la même unité que X. En effet, les valeurs Q1 et Q3
délimitent une plage au sein de laquelle 50% des valeurs de X sont concentrées. Plus
IIQ est grand, plus X est dispersée
Le mode désigné par Mo est la valeur de la variable statistique la plus fréquente. Dans
le cas d'une variable statistique continue, on parle plutôt de classe modale. Dans ce
cas il est donné par la formule suivante :
Mo =
L’étendue E de variable x est la différence entre la plus grande et la plus petite des valeurs
observées : E = max- min
6
Variance et Écart-type
• pour un échantillon
• Avec :
: Degré de liberté (ddl)
la somme des écarts au carré
: la somme des carré des observations.
Attention :
L’écart-type de la variable X, noté par X, est, par définition, la racine carrée de la variance de
cette variable. Signalons au passage que l’écart-type est la mesure de la dispersion la plus
couramment utilisée.
Le coefficient de variation, noté CV permet de comparer la variation de variables
exprimées originellement dans des unités physiques différentes. Il est donné par :
Lorsque les échantillons sont de petite taille (n<20), on applique la correction suivante :
7
La covariance indique si, et indirectement dans quelle mesure, les valeurs d'une variable
augmentent ou diminuent avec les valeurs croissantes de l'autre. La covariance est une
généralisation du concept de variance à deux dimensions.
• Elle nous renseigne sur la forme du nuage de points obtenu dans un diagramme de
dispersion.
3. Loi normale
1.1.Loi normale ou de Laplace-Gauss N(μ, σ)
On parle de loi normale lorsque l’on a affaire à une variable aléatoire continue dépendant
d’un grand nombre de causes indépendantes dont les effets s’additionnent et dont aucune n’est
prépondérante. Cette loi acquiert sa forme définitive avec Gauss (en 1809) et Laplace (en
1812). C’est pourquoi elle porte également les noms de : loi de Laplace, loi de Gauss et loi
de Laplace-Gauss.
8
Exemple : la taille d’un animal dépend des facteurs environnementaux (disponibilité pour la
nourriture, climat, prédation, etc.) et génétiques. Dans la mesure où ces facteurs sont
indépendants et qu’aucun n’est prépondérant, on peut supposer que la taille suit une loi
normale.
La loi normale joue un rôle particulièrement important dans la théorie des probabilités et dans
les applications pratiques. La particularité fondamentale de la loi normale la distinguant des
autres lois est que c’est une loi limite vers laquelle tendent les autres lois pour des conditions
se rencontrant fréquemment en pratique. La loi normale est caractérisée par sa densité de
probabilité. Pour une loi normale de moyenne m et de variance , elle est donnée par la
formule
ou
La courbe représentative de la densité a la forme d’une courbe en cloche symétrique
9
Figure 2. Propriété symétrique de la loi normale
La fonction f est paire autour d’un axe de symétrie x = m car f(x + m ) = f(m - x)
Remarque : Le paramètre m ou représente l’axe de symétrie et s le degré
d’aplatissement de la courbe de la loi normale dont la forme est celle d’une courbe en cloche.
Le paramètre d’asymétrie =
=0 é
Le paramètre d’aplatissement =
=0
Figure 3. Exemples des lois normales avec la même moyenne (µ=5) et des écarts types σ
croissants
Géométriquement une probabilité peut s’interpréter comme la surface sous la courbe densité
comme l’indique le graphique.
11
Figure 4. Interprétation géométrique de la probabilité
Une probabilité s’interprète comme la surface sous la courbe représentant la densité.
Lorsque la distribution des individus dans une population obéit à la loi normale, on trouve:
11
Figure 5. pourcentages relatifs de la loi normale
Une variable aléatoire continue X suit une loi normale réduite si sa densité de probabilité est
donnée par :
Remarques :
Lorsque l'on suppose qu'une variable X suit le modèle de la loi normale N ( , σ), on
écrit X ∼(µ, σ)
Dans la loi normale centrée réduite on note N (0, 1).
Dans N (0, 1) si on cherche population ou pourcentage P (X ≤ α) (rappel : on écrit
aussi F(α)), on cherche la valeur de α dans le tableau
P (X ≥ α) = 1 − P (X ≤ α) = 1 − F (α)
P (X ≤ − α) = P (X ≥ α)
Exercice
1. Soit une variable aléatoire de loi N (2 , 1,4 ). Calculez : P(X≤2.3)
2. X ∼ N (27, 1,9): Calculez P (X ≤ 30,5)
3. Quelle est la valeur de a telle que P(X>a)=0,6517 pour une loi centrée réduite, puis déduire
le quantile, supposant que la variable étudiée suit une loi N (12,5. 2,4)
Solution
1. Nous avons X ∼ N (2 , 1,4), On centre et réduit : ∼N( )
1,4
P (X ≤ 2,3) = P ( ≤ )
1,4
P (X ≤ 30,5) = P ( ≤ )
1,9
13
14
4. notions d’épidémiologie
L’origine grecque du mot est simple : EPI – veut dire « sur» ; DEMOS – veut dire «peuple –
population » ; LOGOS – veut dire «Etude ou connaissance » ; Par conséquent :
l’Epidémiologie est l’étude de ce qui arrive aux individus »
« L’épidémiologie est une science qui a pour objet d’étudier la survenue, la répartition et les
déterminants des états de santé et des maladies dans la population et les groupes humains
Et selon l’OMS, L’épidémiologie est l’étude de la distribution des maladies dans les
populations humaines, ainsi que les influences qui déterminent cette distribution.
Exemple :
15
Taux : Un taux mesure la vitesse d’apparition d’un événement donné au cours du
temps. Il s’exprime en fonction d'une unité de temps, pour un lieu géographique
donné, et pour un groupe de personnes bien défini.
Événement : maladie, décès, handicap, rechute…
16
Exemple : Taux de prévalence instantané du diabète dans la population d’un pays (étude
transversale).
Renseigne sur l'ampleur et la gravité d'une maladie donnée pendant une période
déterminée.
Il permet de :
Incidence : est le nombre de nouveaux cas d’une maladie apparus pendant une période
donnée. Selon la durée de cette période on distingue l’incidence journalière, hebdomadaire,
ou annuelle.
Le taux d’incidence est le rapport de l’incidence sur la population au milieu de la
période.
• Le taux d’incidence est nommé taux d’attaque lorsqu’il est calculé sur une
épidémie de maladie aigue (courte période d’incubation et courte durée de la
maladie) C’est un taux d’incidence utilisé dans certaines circonstances; Toxi-
infection alimentaire collective (T.I.A.C).
17
Exemple
• Dans un village de 1500 habitants le médecin a diagnostiqué 3 cas de tuberculose
en 2008.
18
Exemple le taux de mortalité par causes cardio-vasculaires en 2011 dans un pays
donné est de 2,17 ‰.
- Le taux de mortalité infantile est un indicateur qui fait partie des taux de Mortalité
spécifique. C’est le rapport entre le nombre d'enfants décédés avant l'âge d’un an, sur le
nombre total de naissances vivantes pendant cette période. Cette statistique est exprimée
pour 1 000 naissances (‰).
Exemple : parmi 100 cas de typhoïde survenus lors d’une épidémie ont été enregistrés, le taux
de létalité = 0,10 soit 10%.
é è é
é
é
Par âge (taux de mortalité des plus de 75 ans, taux de mortalité infantile …)
Par sexe (taux de mortalité des femmes)
Par profession
Par milieu (urbain ou rural)
Par état matrimonial (marié, célibataire, divorcé, veuf…)
Par cause (Exemple : le taux de mortalité par causes cardio-vasculaires).
19
Exercice 1.
Le tableau suivant rapporte les effectifs de blessés en Algérie par accidents de la circulation,
identifiés comme cas annuels nouveaux (cas incidents).
Répartition de blessés par accidents de la route en Algérie selon l’année
Année Effectif
1980 37020
1981 40450
1982 37102
1983 40798
Source : Ministère des Transports
La population algérienne résidente était estimée au 1er janvier 1980 à 18558400. Le taux
d’accroissement naturel de la population depuis cette date sera considéré égal à 30 pour 1000
(faites les estimations de la population algérienne pour les années suivantes à la centaine
près).
1. Calculez les taux d’incidence annuels de 1980 à 1983 pour 100000 habitants.
2. Comment ces taux évoluent-ils dans le temps et que pouvez-vous penser des mesures de
prévention et de contrôle prises pendant cette période contre la morbidité causée par les
accidents de la route ?
Corrigé 1.
Le taux d’accroissement naturel en Algérie égal à 30/1000= 0,03
Estimations de la population algérienne au début de l’année :
1/1/80 : 18558400
1/1/81 : 18558400(1 + 0.03)1 = 19115200
1/1/82 : 18558400(1 + 0.03)² = 19688600
1/1/83 : 18558400(1 + 0.03)3 = 20279300
1/1/84 : 18558400(1 + 0.03)4 = 20887600
Estimations de la population algérienne au milieu de l’année (centres de classes) :
1/7/80 : (18558400+19115200)/2 = 18836800
1/7/81 : 19401900
1/7/82 : 19983950
1/7/83 : 20583450
Taux d’incidence annuels :
21
1980 : 37020/18836800 = 196.5 pour 100000=0.1965%
1981 : 40450/19401900 = 208.5 pour 100000=0.2085%
1982 : 37102/19983950 = 185.7 pour 100000= 0.1857%
1983 : 40798/20583450 = 198.2 pour 100000= 0.1982%
2. Ces taux évoluent en « dents de scie » et ne marquent pas une baisse ou une hausse
régulière. Ce qui donne à penser que les mesures de contrôle et de prévention sont plutôt
inefficaces.
Exercice 2
Dans une province médicale de 5 000 000 habitants, durant l’année 2008 on a enregistré 21
250 naissances vivantes et 5000 décès de tout âge dont 850 avaient un âge de moins d’un an.
Quelle sont dans cette province :
• Le taux de natalité ?
• Le taux de mortalité générale ?
• Le taux de mortalité infantile ?
Solution 2
4,25 ‰
= 1‰
21
Un sondage est une méthode statistique visant à évaluer les proportions de différentes
caractéristiques d'une population à partir de l'étude d'une partie seulement de cette population,
appelée échantillon. Les proportions sont déterminées avec des marges d'erreur, dans
lesquelles se situent les proportions recherchées avec telle ou telle probabilité.
Les sondages les plus connus du grand public portent sur des populations humaines. Ce sont
en particulier les sondages d'opinion réalisés par des entreprises de sondage. Mais il ne s'agit
là que d'une application particulière de la technique du sondage, dont l'usage est beaucoup
plus général.
22
6. les fluctuations d’échantillonnage et estimation statistique
Lorsqu'on veut connaître la proportion d'un caractère dans une population, il n'est pas toujours
possible d'étudier cette population en entier, c'est pour cela qu'on décide parfois d'étudier un
échantillon d'individus choisis au hasard.
Exemple : Des études estiment que 30 % de la population mondiale souffre d'hypertension.
On choisit au hasard un échantillon de 30 personnes, et dans cet échantillon, 7 personnes ont
de l'hypertension.
Dans l'exemple choisi, l'hypertension s'appelle un caractère de la population.
La proportion de ce caractère dans la population est p=30%=30/100=0,3.
La taille (ou l'effectif) de l'échantillon choisi est n=30.
La fréquence du caractère dans l'échantillon est f=7/30≈0,23.
Revenons à notre exemple de départ sur l'hypertension. Voici quelques exemples de
fréquences observées dans des échantillons de 30 personnes :
7/30≈0,23 ; 9/30≈0,3 ; 11/30≈0,37 etc...
On constate que certaines fréquences sont égales à 0,3, mais pas toutes. Ces fréquences
fluctuent autour de 0,3, on dit qu'il y a fluctuation d'échantillonnage.
Le graphique ci-contre montre la simulation sur 100 échantillons de 30 personnes de la
variation de la fréquence observée d'hypertendus.
En fait, en théorie des probabilités, on démontre la propriété ci-dessous :
On considère un caractère apparaissant avec une proportion p dans une population.
On observe ce caractère dans un échantillon de taille n.
La fréquence f observée du caractère dans cet échantillon appartient à l'intervalle
I=[p−1/ ; p+1/ ] avec une probabilité d'au moins 95%.
23
Exercice
On considère toujours le caractère d'hypertension qui apparaît avec une proportion de 0,3 dans
la population, mais nous prenons à présent des échantillons de 100 personnes.
- Quel est l'intervalle de fluctuation correspondant à cette situation ?
- Si on prend 500 échantillons différents de taille 100, à combien d'échantillons dont la
fréquence observée du caractère se situe en dehors de l'intervalle de fluctuation calculé
ci-dessus peut-on s'attendre ?
Solution
- Nous avons p=0,3, n=100. Nous pouvons donc calculer l'intervalle de fluctuation au
seuil de 95% à l'aide de la formule vue en cours.
I=[0,3−1/100; 0,3+1/100]
Donc I= [0,2;0,4]
On peut donc s'attendre avec une probabilité de 0,95 que les fréquences observées dans les
échantillons soient comprises entre 0,2 et 0,4
- On a 5% de chances que les échantillons soient en dehors de l'intervalle de fluctuation. Sur
500 échantillons, on peut donc s'attendre à 500×5/100= 25
Soit 25 échantillons en dehors de l'intervalle.
7. Liaison entre 2 variables qualitatives (test du χ2)
X2 de conformité X2 d’indépendance
Il s’agit de comparer une distribution d’un Il permet de tester l’indépendance de deux
caractère observé sur un échantillon donné et caractères discrets.
une distribution théorique basée sur un modèle Les hypothèses
susceptible de décrire la probabilité d’observer H0 les deux variables sont indépendantes
une valeur du caractère. H1 l’une des variables est dépendante de
Le critère du test est : l’autre
Dans le cas, les données figurent en général
Où O : est l’effectif observé sur un tableau à double entrée, appelé
E : l’effectif théorique tableau de contingence. La statistique du
Les hypothèses : test est :
H0 la distribution observée conforme la
distribution théorique. n ou
H1 la distribution observée ne conforme pas
la distribution théorique.
La statistique est par suite comparée à la Sous l’hypothèse nulle où les deux
valeur table (cette valeur lue de la table à caractères sont indépendants, T suit la loi
un ddl= k-1) du khi-deux de paramètre ddl =
Si < alors l’hypothèse H0 est jugée (r−1)(s−1).
acceptable
Si > alors on rejette l’hypothèse H0 au
risque α de se tromper.
24
NB: * Si l'échantillon est petit donc des effectifs calculés (np ou nq) inférieur 5: si np ou nq
La valeur attendue dans chaque case, sous l’hypothèse nulle, se calcule par
Exemple : Ei = 21x39/77=10.6
25
Exercice 2. on effectue le croisement entre les pois a fleurs blanches et des pois a fleurs
rouges. On obtient en deuxième génération sur 600 sujets les effectifs suivant: Rouge 141 -
Rose 325 - Blanc 134.
1- Donner les proportions théoriques.
2- Les résultats conforment les lois de modèle ou non?
Solution 2.
1- Le croisement: RR X BB
1ère génération 100% RB rose X RB
2ème génération RR, RB, BB
2- Fréquence théorique:
RR: 600 X = 150, RB: 600 X = 300 et BB: 600 X = 150
26
8. Liaison entre 2 variables quantitatives (Corrélation ; Régression)
8.1. Corrélation
La corrélation est le degré d’association entre deux variables X et Y, pas de relation
causale impliquée.
En statistique, étudier la corrélation entre deux ou plusieurs variables aléatoires, c’est
étudier l’intensité de la liaison qui peut exister entre ces variables. Dans le cas de
deux variables numériques, il s’agit de régression linéaire.
27
Une mesure de cette corrélation est obtenue par le calcul du coefficient de corrélation
linéaire, ce coefficient égal au rapport de leur covariance et du produit non nul de leurs
écarts types. Le coefficient de corrélation est compris entre -1 et +1
Coefficient de corrélation :
La formule est : r = r= .
Par exemple, nous allons calculer le coefficient de corrélation entre deux séries de même
longueur (cas typique : une régression), on suppose qu’on a les tableaux de valeurs suivants :
X( ) et Y ( ) pour chacune des deux séries, alors pour connaitre le coefficient
de corrélation liant ces deux séries. On applique la formule suivante :
r=
Interprétation
r =1 dans le cas ou l’une des variables est fonction affine croissante de l’autre variable.
r = - 1 dans le cas ou l’une des variables est fonction affine décroissante de l’autre.
r = 0 signifie que les variables sont indépendants linéairement
Les valeurs intermédiaires renseignent sur le degré de dépendance linéaire entre les deux
variables. Plus le coefficient est proche des valeurs extrêmes -1 et 1 plus la corrélation entre
les variables est forte "on emploi simplement l’expression fortement corrélées pour qualifier
les deux variables".
28
8.2. Régression
La recherche des liaisons entre les variables mesurées o pour objectif de comprendre l’effet de
l’une sur l’autre, de prédire l’effet d’une variable en connaissant l’autre variable, et enfin
d’évaluer l’effet indésirable d’une variable sir l’autre par exemple si on représente par x la
variable poids de poulet et par y quantité d’aliment ingéré (x vs y). On note une certaine
relation entre ces deux variables.
La régression permet de prédire la valeur de la variable dépendante pour une valeur donnée de
la variable indépendante, implique une relation causale.
Si on trace une ligne droite on obtient une droite dite droite de régression.
Droite de la régression é «Méthode des moindres carrés »
Plusieurs droites peuvent s’ajuster à un nuage de points mais parmi toutes ces droites on peut
retenir celle qui jouit d’une propriété remarquable : celle qui minimise la somme carré des
écarts des ordonnées observées.
29
Exemple : Si on projette des points M1 à M4 parallèlement à l’axe des y sur la droite on
obtient les points P1 P4. Le critère retenu pour déterminer la droite D passant au peut près de
tous les points sera tel que la somme des carrés des écarts des points observées M i à la droite
solution soit minimum.
= b0+b1x
31
Test de la pente de régression
Si la droite de régression est horizontale (b1 = 0), alors cela signifie qu’il n’y a pas de lien
entre x et y.
Les hypothèses testées : H0 b1 = 0
H1 b1 ≠ 0
Pour tester ces hypothèses précédentes on doit calculer la variance :
31
Y (Kg)
20
y = 1.5196x + 5.9888
15 R² = 0.9523
10
0
0 2 4 6 8 10
=5,99
= 5,42
= 13,15
=
32
H0 est rejetée, la pente est différente de l’horizontale (il y a un lien entre
l’augmentation de poids et la dose d’anabolisant).
11. comparaison de moyennes : analyse de variances
11.1. Comparaison des moyennes : test de Student)
11.1.1. Test des hypothèses relatives à une moyenne
On a vu que les paramètres et µ sont les caractéristiques de population alors que et
sont celles de l’échantillon, un échantillon représentatif doit avoir une moyenne très proche
de µ. Pour n échantillons les moyennes couvrent un intervalle qui doit implicitement contenir
µ. Si ces échantillons sont représentatifs cet intervalle est dit : Intervalle de confiance IC ou
intervalle estimateur de µ, il égale à
IC=
Avec :
: La moyenne de l’échantillon.
: Valeur de t de table au seuil 5% et pour n-1 degré de liberté (ddl=n-1).
Donc on a prend 95% de chance pour que la moyenne d’un échantillon soit proche ou égale
la moyenne de la population et seulement 5% de chance pour que cette moyenne soit
différente significativement de µ.
On retire de cette formulation le test de signification suivant :
= .
A comparer avec la valeur du t de table pour n-1 degré de liberté cette comparaison teste deux
hypothèses qui sont µ donc , ≠ µ, donc dans ce cas
de l’échantillon est différente significativement de la moyenne de la population donc
l’échantillon étudie appartient à une autre population que la population ciblée.
NB
à comparer avec ttab qu’est une valeur lue de la dernière ligne de la table t avec un
seuil d’erreur donné (5%, 1% et 1‰).
33
EXEMPLE Usine fabrique de la confiture qu’est fourni dans des boites de 1 Kg, le fabricant
sait que si la boite contient moins de 1 Kg, il peut être poursuivi pour fraude, dans le cas
contraire si la boite contient plus ; il fait moins d’argent. Prenant un échantillon de 30 boites,
il trouve =1095g avec une variance =300 Formuler et tester les hypothèses.
Solution :
µ=0 µ
µ≠0 µ
= =
Humidité ( ) Répétitions )
37.9 1 37.9 -1.58 2.4964
38.4 1 38.4 -1.08 1.1664
38.8 2 77.6 -0.68 0.9248
39.0 2 78.0 -0.48 0.4608
39.2 3 117.6 -0.28 0.2352
39.3 1 39.3 -0.18 0.0324
39.4 1 39.4 -0.08 0.0064
39.7 2 79.4 0.22 0.0968
39.9 1 39.9 0.42 0.1764
40.0 2 80.0 0.52 0.5408
40.2 1 40.2 0.72 0.5184
40.4 1 40.4 0.92 0.8464
34
40.6 1 40.6 1.12 1.2544
41.0 1 41.0 1.52 2.3104
Total 20 789.7 0 11.0660
= 0.5824
= = = 0.171
= et = .
= = +
= .
CAS 1 : =
35
Si = et = avec ddl =2(n-1)
Avec =
: Variance pondéré
ddl = .
Exemple : Deux variétés présentent les statistiques suivantes :
= 10, =54000, = 2100
= 12 ; = 49000, = 2100 .
∆= = 2000.
1/ Tester
.
2/ Calculer IC de la différence.
Solution : , .
1/ On calcule :
= /20
=4184500
On calcule (variance de la différence entre deux moyennes) :
= =418450 =767158.33.
= =875.87
= = =3.42.
ddl = =10+12-2=20.
Pour le ddl=20
36
Donc on rejette , donc la différence entre les deux
variétés est significative et supérieur à 2000.
2/ calcule de l’intervalle de confiance :
IC =(
=
=
IC: .
CAS 2 : ≠
Si ≠ et =n
= avec ddl=2(n-1)
Si ≠ et
Exemple 1 : Dans le blé richelle 110, on a mesuré la productivité en grain (poids de grain en
gramme dans 100 épis) de deux séries de prélèvements :
10 prélèvements effectués sur les descendances d’épis issus d’autofécondation
naturelle.
10 prélèvements effectués sur les descendances d’épis issus de fécondation croisée
artificielle.
Les calcules sont rassemblés dans le tableau ci-après :
Quel type de fécondation donne une meilleure productivité en grain ?
Solution :
Prélèvement - -
1 142 -28,7 823,69 149 -19.5 380.25
2 148 -22 ,7 515,29 149 -19.5 380.25
3 156 -14,7 216,09 159 -9.5 90.25
4 161 -9,7 94,09 164 -4.5 20.45
37
5 172 +1,3 1,69 170 +1.5 2.25
6 173 +2,3 5,29 171 +2.5 6.25
7 177 +6,3 39,69 174 +5.5 30.25
8 180 +9,3 86,49 177 +8.5 72.25
9 183 +12,3 151,29 181 +12.5 156.25
10 215 +44,3 1962,49 191 +22.5 506.25
17707 3896,10 1685 1644.50
= =182.72
= = = =61.562
→ =
= = =0.280
ddl=2n-2=20-2=18
38
Sol riche 5.9 3.8 6.5 18.3 12.2 16.1 7.6
Sol pauvre 7.6 0.4 1.1 3.2 6.5 4.5 4.7
= = =10.06
= = =4
== = 30.70
= =6.99
= = =5.38
= = =2.32
= = =2.64
3/ IC =
= (10.05-3.94) 2.179x2.32
=6.11 5.05
IC: .
NB: dans le cas où n1 et n2 sont supérieurs à 30 la valeur de tobs est donnée par la formule
39
et à comparer avec ttab qu’est une valeur lue de la dernière ligne de la
→ =0 vs → ≠0.
La moyenne de différence =
, et le =
Exercice
Chez un groupe de 10 malades, on expérimente les effets d’un traitement destiné à diminuer
la pression artérielle. On observe les résultats suivants (valeur de la tension artérielle
systolique en cm Hg) :
sujet n° 1 2 3 4 5 6 7 8 9 10
avant traitement 15 18 17 20 21 18 17 15 19 16
après traitement 12 16 17 18 17 15 18 14 16 18
41
On se demande si le traitement a une action significative.
Solution
Il s’agit de comparer deux moyennes de deux échantillons appariés
Le test effectué est le test t des échantillons appariés
Les conditions d’application
• Normalité de la distribution
• Appariement des échantillons
• n1=n2
• σ1 et σ2
Les hypothèses
H0 le traitement n’a pas une action significative sur la pression artérielle
H1 le traitement a une action significative sur la pression artérielle
Calcul des différences
sujet n° 1 2 3 4 5 6 7 8 9 10
3 2 0 2 4 3 -1 1 3 -2
La moyenne de différence = = cm Hg
3,83
= = = 2,42
ttab(5%,9)= 2,262
tobs >ttab on accepte H1 donc le traitement a une action significative sur la pression artérielle
41
t Table
1- 0% 50% 60% 70% 80% 90% 95% 98% 99% 99.8% 99.9%
1.00 0.50 0.40 0.30 0.20 0.10 0.05 0.02 0.01 0.002 0.001
1 0.000 1.000 1.376 1.963 3.078 6.314 12.71 31.82 63.66 318.31 636.62
2 0.000 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 22.327 31.599
3 0.000 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 10.215 12.924
4 0.000 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 0.000 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 5.893 6.869
6 0.000 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 0.000 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.785 5.408
8 0.000 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 0.000 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 4.297 4.781
10 0.000 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.144 4.587
11 0.000 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 0.000 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.930 4.318
13 0.000 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.852 4.221
14 0.000 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.787 4.140
15 0.000 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 0.000 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 0.000 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.646 3.965
18 0.000 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.610 3.922
19 0.000 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 0.000 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.552 3.850
21 0.000 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.527 3.819
22 0.000 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.505 3.792
23 0.000 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.485 3.768
24 0.000 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.467 3.745
25 0.000 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 0.000 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 0.000 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.421 3.690
28 0.000 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.408 3.674
29 0.000 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.396 3.659
30 0.000 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.385 3.646
40 0.000 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 3.307 3.551
60 0.000 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660 3.232 3.460
80 0.000 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639 3.195 3.416
100 0.000 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626 3.174 3.390
1000 0.000 0.675 0.842 1.037 1.282 1.646 1.962 2.330 2.581 3.098 3.300
Z 0.000 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 3.090 3.291
42
11.2. Analyse de la variance
➢ Lorsque le nombre d’échantillon augmente (+3), la comparaison des moyennes utilisant le
test t n’est plus commode. Dans ces conditions l’utilisation du dispositif expérimental qui se
base sur le test F pour la comparaison des moyennes multiples est indispensable.
➢ L’ANOVA est un test statistique de comparaison de moyenne qui généralise le test de
comparaison de deux moyennes.
➢ L’ANOVA test deux hypothèses qui sont :
H0 μ1 = μ2 =……..= μp
H1 μ1 ≠ μ2 ≠ …….. ≠ μp donc il y a au moins une moyenne qui diffère des autres Pour
savoir la ou lesquelles, il faut avoir recours par la suite aux tests de comparaisons multiples.
11.2.1. Notion de base en expérimentation
➢ Un facteur : une série d’éléments de même nature susceptibles d’influencer les résultats
d’une expérience. C’est l’effet qu’on veut étudié ses ou niveaux sont volontairement choisi
➢ Un traitement : procédure dont l’effet mesuré, la combinaison de deux ou plusieurs
modalités variantes ou niveaux des facteurs étudiés constitue un traitement. ➢ Répétition: elle
a pour fonction de permettre une estimation de l’erreur
➢ Notion d’erreur : l’erreur expérimentale est une imprécision qui entraine une
hétérogénéité inévitable dans l’expérience. Elle regroupe la résultante de toutes les causes non
contrôlées de l’essai, elle a pour origine : le manque de l’uniformité du terrain, le manque
l’uniformité, le manque de précision des appareils et de l’expérimentateur lui même
➢ Notion unité expérimentale : C’est l’élément de base d’une expérience qui est considéré
individuellement durant tout le processus expérimental. Une unité est soumise à un même
traitement et conduit à la même observation.
11.2.2. Conditions
➢ Variable dépendante quantitative
➢ Indépendance des observations
➢ Normalité de la distribution de la population d’où tiré chaque groupe et cela se fait de
plusieurs manières – histogramme de fréquence – les deux coefficients d’asymétrie et
d’aplatissement – la méthode des pourcentages (50%, 68%, 99% et 99,7%) NB: dans le cas
d’asymétrie de la distribution, on peut faire une transformation ou changement de variable
(logarithme, racine ….)
➢ Homoscédasticité: ou test d’égalité des variances
43
* si les groupes ont la même taille on utilise le test Hartley : Hobs = à comparer avec Htab
Afin de réaliser le test d’ANOVA1, trois conditions doit être vérifiées préalablement,
à savoir :
• Les échantillons comparés sont indépendants.
• La variable quantitative étudiée suit une loi normale dans les populations comparées.
• Les populations comparées ont même variance : Homogénéité des variances ou
homoscédasticité.
Si ces dernières conditions sont vérifiées alors, on peut utiliser la technique ANOVA 1, et
pour ce faire nous avons besoin des quantités (statistiques) suivantes :
• La moyenne de toutes les observations (avec t est le nombre de
t)
44
• Variance de chaque échantillon ou traitement :
La table d’ANOVA
Table d’ANOVA
Sources de variation ddl SCE CME
Totale tr-1 - - -
Traitements t-1
Erreur t(r-1) - -
Composantes de la variance
Pour aboutir à la table d’ANOVA précédent on doit calculer les composantes de variance
suivantes :
Le terme correctif :
- On calcule la ppds : =
45
15 25 17 10
9 21 23 13
4 19 20 19
Que peut-on conclure sur cette expérience?
Solution 1
Il s’agit d’une ANOVA à un facteur étudié
Analyse de la variance
RAPPORT DÉTAILLÉ
Nombre
Groupes d'échantillons Somme Moyenne Variance
Type I 3 28 9,33 30,3333333
Type II 3 65 21,67 9,33333333
Type III 3 60 20 9
Type IV 3 42 14 21
=
= 3597-3108,75= 428,25
= =
=
ANALYSE DE VARIANCE
Source des variations SCE Ddl CME Fobs Probabilité Ftab
Entre Groupes 288,92 3 96,31 5,53 0,02370 4,066
A l'intérieur des groupes 139,33 8 17,42
Total 428,25 11
= = 2,306 = 7,86
Type II 65
Type III 60
] Groupe A
46
Type IV 42 Groupe B
Type I 28 Groupe C
47
Les hypothèses :
L’analyse de la variance à deux facteurs avec répétitions consiste en réalisation de trois tests
de Fisher à la fois, dont la formulation est :
• Effet du premier facteur : H0 : contre H1 :
• Effet du second facteur: H0 : contre H1 :
• Effet de l’interaction des deux facteurs : H0 : contre H1
:
Afin de réaliser une analyse de la variance à deux facteurs, les conditions suivantes
doivent être vérifiées préalablement :
• Les I x J échantillons comparés sont mutuellement indépendants.
• La variable quantitative étudiée suit une loi normale dans les I x J populations
comparées.
• Les I x J populations comparées ont même variance : Homogénéité des variances
(homoscédasticité).
Quantifier les différentes statistiques (Moyennes et variances) intervenant dans
l’ANOVA à 2 facteurs et qui sont :
• La moyenne globale de toutes les observations :
48
• Moyenne de chaque échantillon ou traitement
Facteur B B -1
Erreur A.B(r-1) - -
Composantes de la variance
Terme correctif : C=
49
Comparaison des moyennes
Si on accepte les hypothèses alternatives « H1 » on procède à la comparaison des
moyennes en utilisant la plus petite différence significative ppds calculée de la manière
suivante :
Exercice
Nous avons réalisés un recueil de rendement de trois variétés du blé selon le type d’engrais
utilisé, les mesures obtenues sont rangées dans la table suivante :
variété 1 variété 2 variété 3
46 41 35
35 26 21
Engrais 1 19 11 31
37 49 45
18 37 66
Engrais 2 18 35 61
32 65 34
43 67 66
Engrais 3 32 58 58
Réaliser le test qui convient à cette situation
Effectuer une comparaison des moyennes s’il y a lieu
Solution
1. Calcule de la somme et la moyenne de chaque traitement ainsi que celles des niveaux de
facteurs
C= = 43681,33
= - C = 50772–43681,33=7090,67
= – C= – 43681,33= – 43681,33=4892,00
= = 1164,23
= =
= - - =4892,00-1164,23- =1719,55
= - = 7090,67-1539.41=2198,67
V3 : 46,33
V2 : 43,22
]A
V1 : 31,11 ]B
Comparaison des moyennes des engrais:
51
E3 : 50,56
E2 : 40,67
]A
E1 : 29,44 ]B
Comparaison des moyennes de l’interaction VxE:
V2E3 : 63,33
V3E2 : 57,33 A
V3E3 : 52,67
V2E1 : 40,33
V1E3 : 35,67
V1E1 : 33,33
B
V3E1 : 29
V2E2 : 26
V1E2 : 24,33
52
traitement bivarié : lorsqu’on s’intéresse à la liaison entre deux variables, on peut
représenter le nuage des points Mi(Xi , Yi) et examiner sa frome. la covariance et le
coefficient de corrélation sont des indicateurs de l’intensité de la liaison linéaire
éventuelle de ces deux variables.
traitement multivariés : lorsqu’on s’intéresse aux liaisons entre plus de deux ou trois
variables .on ne peut plus représenter graphiquement le nuage des points Mi , L’A.C.P
nous permet de l’observer sous ses angles les plus intéressants , en examinant les
projections du nuage sur des plants , elle permet également de repérer les groupes de
variables ou d’individus fortement corrélées entre elles .
Le cercle de corrélation et composé de :
les axes : les axes du cercle représentent les facteurs étudies en générale on choisi 02
axe appelés axes factoriels en doit retenir autant d’axes qu’il le faut pour atteindre le
seuil de variance expliquée désiré (80% par exemple)
Axe 01 : est la direction de plus grand allongement du nuage ou de plus
grande dispersion, lorsque on projette les points du nuage sur cet axe,
leurs projections sont plus dispersées qu’elles ne le seraient sur
n’importe quel autre axe.
Axe 02 : est la 2 eme direction d’allongement du nuage c’est-à-dire celle
qui explique après le 1 er axe le maximum de dispersion résiduelle .cet
axe est choisi orthogonal sur le premier axe.
les variables associées aux axes factoriels sont appelées facteurs ou composantes
principales.
les points variables : à chaque point – variable on associe un point dont la
coordonnée sur un axe factoriel est une mesure de la corrélation entre cette variable et
le facteur par projection sur un plan .les points-variables s’inscrivent dans un cercle de
rayon 1, et sont d’autant plus proche du bord du cercle que le point-variable est bien
représenté par le plan factoriel , c’est-à-dire que la variable est bien corrélée avec les
deux facteurs constituant ce plan .
53
Figure. Exemple d’un cercle de corrélation en ACP
Attention : les variables qui ne sont pas situées au bord du cercle dans un plan factoriel ne
sont pas corrélées avec les deux facteurs représentés, elles ne servent pas à l’interprétation
(Voir d’autres plans factoriels ou la corrélation sera plus forte).
L’angles entre deux point-variables mesuré par son cosinus est égale au coefficient de
corrélation linéaire entre les deux variables : cos = r (x1,x2)
- Si les points sont très proches ( : cos =1 donc x1 et x2 sont très
fortement corrélés positivement.
- Si = 90° ; cos = 0 alors pas de corrélation linéaire entre x1 et x2
Si =180° ; cos = -1 donc x1 et x2 sont très fortement corrélés
négativement.
Le cercle des corrélations permet de voir, parmi les variables, les groupes de variables très
corrélées entre elles.
Les points- individus
La position d’un point-individu par rapport à un axe factoriel ainsi que les proximités entre les
individus, peuvent être interprétés dès lors que ces points sont bien représentés par le plan
factoriel observé. Certains individus seront bien représentés par le plan 1-2 (les très fort ou les
très faible) d’autre seront représentés par d’autres plans exemple 1-3..etc.
13. Différents types d’études épidémiologiques
On distingue deux grands types d’études selon qu’il s’agit d’une étude expérimentale ou non.
54
13.1. Les études expérimentales
Le chercheur intervient sur le statut d’exposition des sujets. Il peut intervenir sur
le ou les facteurs d’exposition,
le moment d’exposition,
les personnes exposées.
Dans un premier temps, les groupes vont être suivis puis comparés entre eux.
En pratique, la réalisation d’études expérimentales est souvent limitée en raison de contraintes
éthiques.
Le principe de randomisation
L’étude est dite randomisée si l’affectation des sujets à un groupe ou à un autre est tirée au
sort. C’est le hasard qui détermine donc l’appartenance du sujet à un groupe. Ainsi, seul le
groupe d’appartenance des sujets semble pouvoir différencier les sujets entre eux. La
randomisation permet de limiter les biais des études.
Les études ou essais randomisés sont qualifiés :
d’ouverts quand le traitement est connu de tous,
en simple aveugle quand seuls les patients ignorent la nature du traitement,
en double aveugle quand patients et médecins ignorent la nature du traitement.
Etudes de prévalence
Les études de prévalence permettent d’observer la fréquence de survenue d’un phénomène de santé, dans
une population, à un moment précis. Il s’agit d’enquêtes transversales. Le recueil d’information s’effectue
sur une période brève, « un jour donné ». La notion de suivi des patients dans le temps est absente. C’est un
indicateur « statique » de morbidité. Pour rappel, la prévalence est définie comme étant :
La prévalence s’exprime sous forme d’un chiffre entre 0 et 100, ou d’un pourcentage : nombre de cas pour
100 (ou 1 000 ou 10 000…)
Exemple : mesure de la prévalence du diabète de type 2 en France
55
Les études d’incidence
Les études d’incidence nécessitent l’observation sur une période déterminée d’un ou de groupes de sujets
pour mesurer les modifications de l’état de santé des populations. Il s’agit d’études longitudinales.
Pour rappel, l’incidence est définie comme étant :
Exemple : mesure de l’incidence des cas de listériose chez les femmes enceintes en France en
2012.
56