Vous êtes sur la page 1sur 43

lOMoARcPSD| 8251333

Chapitre 2 : Etude des principales distributions

1. La loi binomiale B(n;p)

Décrite au 17ème siècle par Newton. Puis démontrée en 1713 par Bernouilli.
C'est l'une des distributions de probabilités la plus fréquement rencontrée. A partir de cette loi on peut traiter
les données qualitatives d'une population composée de deux élements.
Les proportions et les pourcentages ainsi que les variables de dénombrement découlent de cette loi.

a) Définition

La loi binomiale est une distribution discontinue qui donne les probabilités pour qu'un événement de
probabilité p apparaisse 0 fois, 1 fois, 2 fois … ou n fois au cours de n expériences identiques et indépendantes.
A chaque tirage, il y a 2 possibilités. Un événement de probabilité p et un événement de probabilité q=1-p

Exemple : apparition de mâles ou femelles, mort ou vivant …

B(n;p) n = nombre de tirage p = probabilité de 1 des évènements

Exemple : dans une famille de n enfants. Quelle est la probabilité d'avoir x garçons
A chaque tirage : p(garçon) = ½ p(fille) = ½

Si il y a indépendance entre chacun de tirages. Si ces probabilités sont les mêmes à chaque tirage alors
p(garçon) dans une famille de n enfant est donnée par la loi binomiale.

b) Distribution de probabilité

La variabilité discrète X varie entre [0;n]


Les probabilités des différentes valeurs de x sont les termes du développement du binôme de Newton (p+q)n

La distribution de la loi binomiale B(n;p) :

Si n=1, alors (p+q)1 = p+q B(1;p) :


lOMoARcPSD| 8251333

Si n=2, alors (p+q)2 = q2 + 2pq + p2 B(2;p) :

Si n=6, alors (p+q)6 → B(6;p) :

Triangle de Pascal :
lOMoARcPSD| 8251333

Exemple : dans une famille de n enfants, la probabilité d'obtenir un garçon est de 0,5

c) Espérance mathématiques et variance

E(x) = n*p σ2
= n*p*q

Exemple : nombre de garçons parmis 6 enfants


E(x) = 6x0,5 = 3 → en moyenne le nombre de garçon est de 3 σ2
= 6x0,5x0,5 = 1,5

d) Distribution d'un pourcentage ou d'une proportion


lOMoARcPSD| 8251333

Si on considère la proportion X/n de garçons où le pourcentage est 100xX/N %


Et bien la distribution de probabilité obéit toujours à une loi binomiale et la probabilité d'apparition d'une
proportion sera toujours :

Il est équivalent d'avoir 3 garçons pour 6 enfants ou moitié de garçons ou 50% de garçons

Exemple: Quel est le pourcentage espéré et la variance du pourcentage dans une famille de 6 enfants du
pourcentage de garçons

E(x%) = 100x0,5 = 50% de garçons σ2


= (10 000 x 0,5 x 0,5) / 6 = 417%

e) Loi Multimodale M(n,p1,p2 … pk)

Généralisation de la loi binomiale, au lieu de s'appliquer à 2 évènements, elle s'applique à k évènements


complémentaires de probabilité p1, p2, pk
Donne la probabilité de voir apparaître x1 fois l'évènement de probabilité p1, x2 fois l'évènement de probabilité
p2 et xk fois l'évènement de probabilité pk au cours de n tirage identiques et indépendants

2. Loi de poisson P(µ)

Inventée au 19ème siècle par Siméon Poisson

Distribution discontinue qui dérive de la loi binomiale ou l'un des évènements a une probabilité p très faible.
Cette loi s'applique aux phénomènes accidentels où la probabilité p est très faible. En pratique, on l'utilise
quand on compte des évènements ou des individus distribués au hasard dans le temps ou dans l'espace. a)
Distribution de probabilité

Les calculs des termes du binôme de Newton devient laborieux quand p est faible et n très grand.

b) Moments de la loi de Poisson


lOMoARcPSD| 8251333

E(x) = µ = np σ2 = npq = µ car q


environ égal à 1

c) Relation entre la loi binomiale et la loi de Poisson

La loi binomiale tend vers la loi de Poisson quans p devient très petit et n est très grand. Si p<0,05 et bien
l'approximation de la loi binomiale par la loi de Poisson est acceptable si n> ou égal à 50

d) Exemple

Au cours d'une année, 2383 salariés sur 12 800 000 sont mort d'un accident de travail
Quelles sont les probabilités qu'une entreprise de 3000 salariés est un nombre x d'accidents mortels cette année
là ?

P = 2383 / 12 800 000 = 0,000186 n = 3000

La loi binomiale tend vers une loi de Poisson µ = np = 3000 x 0,000186 = 0,558

3. La loi binomiale négative BN(r;p)

Aussi appelée loi de Pascal. Permet de déterminer la probabilité de devoir faire x expériences identiques et
indépendantes pour obtenir a fois l'évènement de probabilité p

a) Distribution de probabilité

b) Les moments de cette loi binomiale négative

Exemple : La probabilité de capturer une souris pleine est p = 0,2. Quelle est la probabilité du nombre de
souris à capturer pour obtenir deux souris pleines ?
lOMoARcPSD| 8251333

Quelle est le nombre de souris à capturer pour en obtenir deux pleines ?

4. Loi hypergéométrique

a) Définition

Différence avec la loi binomiale → le tirage se fait sans remise

Le caractère étudié a une probabilité de présence p et d'absence q, avec q=1-p

Utile pour étudier les caractéristiques qualitatives d'une population finie avec échantillonage sans remise. b)

Distribution de probabilité
lOMoARcPSD| 8251333

Exemple : Une colonie d'oiseaux qui comporte 80 individus, 40 sont déjà bagués. On capture 12 individus,
quelle est la distribution de probabilité d'individus déjà bagués ? Avec tirage sans remise

12 tirages aléatoires et indépendants sans remise dans une population de 80 oiseaux dont 40 sont bagués. N

= 80 n = 12 p = 40/80= ½ H(80;12; ½)

Distribution de probabilité pour H(80;12; ½)

x P(x)
0 0
1 0,003
2 0,011
3 0,045
4 0,117
5 0,204
6 0,245
7 0,204
8 0,117
9 0,045
10 0,011
11 0,003
12 0
c) Moments

E(x) = np → identique à la loi binomiale


lOMoARcPSD| 8251333

Exemple : La colonie d'oiseaux

E(x) = 12 x 0,5 = 6 En moyenne, quand on prélève 12 oiseaux, on en a 6 bagués σ2


= 12 x 0,5 x 0,5 x (80-12)/80-1 = 2,58

5. Distribution normale N(µ ; σ )

La distribution normale joue un rôle capital aussi bien en théorie qu'en pratique. C'est cette loi qui conduit aux
courbes en cloche classiques ou en courbe de Gausse. On l'appelle aussi loi de Gausse, loi de Laplace ou loi
de Laplace-Gausse.

a) Origine de la loi normale

La loi de probabilité d'une distribution binomiale c'était avec x appartient à [0;n]. cependant si n tend vers

l'infini et p proche de 0 ou même 1, alors la loi binomiale tend vers la loi de Poisson

Si tend vers l'infini mais p proche ni de 1 ni de 0 alors la distribution binomiale tend vers une loi normale qui
a pour équation :

La variable x peut être continue et x appartient à l'intervalle compris entre – l'infini et + l'infini b)

Loi Normale centrée réduite

Pour faciliter l'étude des caractéristiques de la loi normale et bien on travaille par changement de variable avec
une distribution ayant une moyenne nulle et un écart type de 1 On l'appelle la distribution normale centrée
réduite

1 – Ramener la moyenne à 0
lOMoARcPSD| 8251333

2 – Ramener l'écart type à 1

c) Caractéristiques de la courbe normale

1. Quand on regarde f(X) ou f(Z) alors on se rend compte que f(Z) = f(-Z), on peut dire que la courbe est
symétrique
2. Du fait que la courbe est symétrique, la moyenne, le mode et la médiane sont confondus
3. Les probabilités de z diminuent quand /z/ augmente
4. Pour tout z, f(z) > 0
lOMoARcPSD| 8251333

5.

6.

7.

d) Fonction de répartition vs. Fonction de densité de probabilité

Avec la loi binomiale par exemple, la variable aléatoire était discrète. La probabilité d'apparition de chaque
valeurs de x était donné par P(x)
Ici avec une variable continue on ne peut plus définier la loi de probabilité de x par P(x). Car P(x)=0 pour tout
x puisqu'il y a une infinité de valeur de x dans l'intervalle de variation.

Exemple : Dans une forêt où la hauteur h des arbres varie entre 15m et 30m P(h
= 21,0000m) = 0

On va travailler sur des intervalles On


considère x1 < x < x2

Fonction de densité de probabilité :

Son intégrale Φz est sa fonction de répartition


lOMoARcPSD| 8251333

La

probabilité d'obtenir une valeur de z inférieure à z1 est donnée par Φ de z1 D'un

point de vue géométrique :

e) Table des aires de la courbe normale centrée réduite

Cette table indique la surface comprise entre la courbe f(z) et l'axe des abscisses entre z = - infini et z = z1
Comme l'aire totale entre – infini et + infini vaut 1 alors Φz correspond à P(z<z1)
Pour calculer la probabilité de z dans un intervalle donné il faut toujours raisonner graphiquement en terme de
surface

Exemple : quelle est la probabilité de 1<z<2 ?

f) Table des ordonnées de la courbe normale centrée réduite


lOMoARcPSD| 8251333

Elle indique la valeur de f(z)


z = 1,68 → f(z) = 0,0973
Φz = 0,9535

g) Calcul de la probabilité d'un écart dans une distribution normale standard N(µ ;σ)

En pratique, tous les problèmes sur la variable aléatoire normale de paramètres µ et σ sont étudiés à l'aide de
la normale centrée réduite

h) Calcul d'une distribution de probabilité obéissant à la loi Normale

On cherche les probabilités d'apparition dans différentes classes d'une distribution normale standard de
paramètres µ et σ Il existe deux méthodes :

1. Utilisation de la table des aires de la courbe normale centrée réduite

Comme x est une variable continue, il faut établir des classes. Transformer les limites de ces classes en
coordonnées centrées réduites (z). puis déterminer les probabilités de chaque intervalle.

Exemple : Calculer la distribution de probabilité obéissant à N(23,4) de la hauteur des arbres d'une forêt
lOMoARcPSD| 8251333

2. Utilisation de la courbe des ordonnées de la normale centrée réduite

On détermine les indices de classe xi


On les convertis en coordonnées centrée réduite (en z)
Puis on lit dans la table la valeur de f(zi) On calcul
la probabilité de trouver x dans la classe i

Exemple :

Xi Écart réduit zi f(zi) p(X appartient classe i)


12 -2,75 0,009 0,009
16 -1,75 0,086 0,086
20 -0,75 0,301 0,301
24 0,25 0,387 0,387
28 1,25 0,183 0,183
32 2,25 0,037 0,037
Les deux méthodes donnent à peu près les mêmes valeurs

i) Propriétés de la distribution normale


lOMoARcPSD| 8251333

j) Conditions d'obéissance à la loi normale

Un phénomène ou une variable aléatoire obéit à une loi normale quand 4 conditions sont réunies :
– les phénomènes dépend de nombreux facteurs
– facteurs indépendants
– facteurs ayant un effet cumulatif
– les variations de ces facteurs sont faibles et la variations du phénomène dépend peu de la variation de
chacun des facteurs

Exemple : la taille correspond à ce phénomène

k) Moments de la loi normale

E(x) = µ

σ2 = Var(x)

l) Approximation de la binomiale par la normale

La loi normale c'est la limite de la loi binomiale quand n tend vers l'infini et p ne tend ni vers 0 ni vers 1 En
pratique, n doit être d'autant plus grand que la probabilité p est faible.
Il a été montré que l'approximation normale est correcte si les valeurs de n correspondant à chaque valeur de
p sont supérieures ou égales à :
Probabilité P Valeur de n pour appliquer N (np ; √npq)
0,5 30
0,4 50
lOMoARcPSD| 8251333

0,3 80
0,2 200
0,1 600
0,05 1 400
Environ 0 Loi de Poisson
Une loi binomiale converge vers une loi de Poisson quand n tend vers l'infini et que p tend vers 0
Si p ne tend plus vers 0 alors la distribution obéit à une loi N (np ; √npq) si µ = np ≥ 20 avec p tendant vers 0
alors l'approximation de la loi de Poisson par une loi normale est acceptable
lOMoARcPSD| 8251333

Chapitre 3 : Tests paramétriques

1. Tests de X 2

Les tests de X2 sont très utiles en génétique ou en génétique des populations. Le test de X2 permet de
comparerune distribution observée à une distribution théorique.

a) X2 d'homogénéité (2 ou plus échantillons)

Permet de comparer la répartition des individus dans les différentes classes entre 2 échantillons ou
plus

Exemple : 2 lots de souris

La répartition des individus dans les trois classes est elle la même dans E1 et E2 ? → X2 d'homogénéité

Si la réponse est oui, alors on pourra réunir E1 et E2 dans un grand échantillon

1. On pose H0 :la répartition des individus dans les 3 classes ne diffère pas significativement
entre E1 et E2
2. Calcul des effectifs théoriques sous H0. On a le droit de réunir E1 et E2.

X = fréquence du phénotype blanc = 120/239


y = fréquence des marrons = 45/239 z =
fréquence des gris = 74/239

3. Comparaison eff obs / eff théo


Mise en place d'un indicateur qui mesure la différence
lOMoARcPSD| 8251333

Xcalc =

Avec l'exemple :

4. Comparaison de X2calc à une valeur seuil


Si les effectiifs observés sont identiques aux effectifs théoriques cela vaut 0
Plus la distribution observé diffère de la distribution théorique, plus la valeur de X2calc
augmente
On compare X2calc à Xth issue d'une table au risque de 5% de rejeter H0 alors qu'elle est vraie
Si le X2calc ≥X2th pour alpha = 5% → alors rejet de H0 Si
X2calc < X2th → non rejet de H0

5. Nombre de ddl
= nombre de variable aléatoire du test

Avec l'exemple :

Pour un X2 d'homogénéité : nb ddl = (nb colonnes -1) * (nb lignes -1)

Table → X2th pour alpha = 5% et 2ddl = 5,99

5,99 > 0,92 Donc X2th>X2calc ↔ non rejet de H0

Conclusion : la répartition des individus dans les 3 classes ohénotypiques dans E1 et E2 ne diffère
pas significativement. On a donc le droit de réunir E1 et E2

Remarque : l'étape 5 doit se faire avant l'étape 4


b) X2 de conformité (à un modèle probabiliste)

Ce test permet de comparer une distribution observée à une distribution théorique

Exemple : On étudie le descendance de 10 couples de drosophiles dans une population où on cherche


à savoir si le sex-ratio est équilibré. On obtient 2388 femelles et 2310 mâles. Somme = 4697.
Question : cette distribution correspond-t-elle à moitié de mâle/moitié de femelle ?
lOMoARcPSD| 8251333

1. H0 : la répartition ne diffère pas significativement de moitié de mâle / moitié de femelle


2. Effectif théorique sous H0 femelle : ½ * 4698 = 2349 mâle : ½ * 4698 = 2349
3. Comparaison Effobs / Effth par X2calc

4. Calcul du nombre de ddl

Pour X2conf : nb ddl = nb classes testées – nb de paramètres issus des données servant à calculer les
effectifs théoriques

Ici nb de ddl = 2 (mâle et femelle) – 1 (taille de l'échantillon) = 1ddl

5. Comparaison X2calc/X2th et conclusion X2th calc < X2th ↔ non rejet de H0

Conclusion : la distribution correspond à moitié de mâle / moitié de femelle → sex ration équilibré

Remarques :
– un X2 se fait sur des effectifs et non sur des fréquences
– si le nombre de ddl vaut 0 alors on ne peut plus faire de test
– il faut qu'au maximum 20% des classes ont un effectif théorique inférieur à 5

Exemple 1: effectif théorique


Classe 1 :
12,7
Classe 2 : 1,467% des classes eff<5 → pas de test
Classe 3 : 3,1

Exemple 2 : effectif théorique


Classe 1 :
14,3
Classe 2 : 19,425% des classes ont un effectif inférieur à 5 → pas de test
Classe 3 : 4,8Mais 25% proche de 20% et 4,8 proche de 5
Classe 4 : 12,0→ donc on peut faire le test mais il faut faire attention dans les conclusions
2. Comparaison des moyennes (test t de Student, test ε )

Ces tests permettent de comparer 2 moyennes

a) Comparaison d'une moyenne observée m à une moyenne théorique µ

• 1er cas : grand échantillon (n≥30)

1. Estimation de l'écart type de l'échantillon


2. H0 : m et µ ne diffère pas significativement
3. Calcul de l'écart réduit ε
lOMoARcPSD| 8251333

4. Comparaison de /ε/ à 1,96


→ Si /ε/ > 1,96 : rejet de H0 : m différent de µ
→ Si /ε/ < 1,96 : non rejet de H0 : m et µ sont quasiment égaux

• 2ème cas : petit échantillon (n<30)

On suppose la normalité de la distribution

1. Estimation de l'écart type σ


2. H0 : m et µ ne diffère pas significativement
3. Calcul de tcalc

4. Calcul du nombre de ddl = n – 1


5. Comparaison de /tcalc/ à un tth pour alpha = 5% et nb de ddl issu de la table t de Student
→ Si /tcalc/ >tth : rejet de H0 : m et µ diffère
→ Si /tcalc/<tth : non rejet de H0 : m et µ sont égaux

Exemple : comparaison de l'âge moyen du 1er emploi dans un groupe de 10 copains par rapport à
l'âge moyen du 1er emploi dans leur ville qui est de 21,5ans. Ages : 18 – 18 – 27 – 29 – 18,5 – 20 –
18 – 18 – 18 – 18,5

m = 20,3 ans µ = 21,5 σ


= 4,13 n = 10

H0 : m et µ ne diffèrent pas significativement

nb ddl = 9 → tth pour alpha 5% et ddl:9 → 2,26

→ /tcalc/ < tth


→ non rejet de H0 : l'âge moyen du 1er emploi chez les 10 copains ne diffère pas de celui de leur
ville

b) Comparaison de 2 moyennes observées : m1 et m2

Echantillon 1 : n1, m1, σ1 Echantillon 2 : n2, m2, σ2


lOMoARcPSD| 8251333

• 1er cas : les deux échantillons sont grands (n1>30 et n2>30)

– H0 : m1 et m2 ne diffère pas significativement


– calcul de l'écart réduit ε

– Comparaison de /ε/ à 1,96


→ Si /ε/ > ou égal à 1,96 : rejet de H0 : m1 et m2 diffèrent →
Si /ε/ < 1,96 : non rejet de H0 : m1 et m2 sont proches

• 2eme cas : au moins un des deux est petit (n1<30 ou n2<30)

– calcul de variance commune aux deux échantillons : σ2

– H0 : m1 et m2 ne diffèrent pas significativement


– calcul de tcalc

– nb de ddl = (n1-1)+(n2-2) = (n1+n2) – 2

Conclusion : comparaison /tcalc/ à tth alpha = 5% nb ddl : n1 + n2 - 2ddl


→ si /tcalc/ > tth = rejet de H0 : m1 et m2 diffèrent
→ si /tcalc/ < tth = non rejet de H0 : m1 et m2 sont proches

3. ANOVA (Analysys of variance)

L'analyse de variance correspond à toute une série de techniques qui font l'objet d'ouvrages très
volumineux.

a) ANOVA à 1 critère de classification


lOMoARcPSD| 8251333

Ce test permet de comparer les moyennes de plusieurs échantillons indépendants. Il remplace le test
T ou le test ε dès qu'il y a au moins trois moyennes. Cette méthode s'applique aux grands comme aux
petits échantillons.

• k échantillons
• n° échantillon = j, j E [1;k]
• pour chaque échantillon j il y a nj
données
n° de donnée pour l'échantillon j = i,
avec i E [1;nj]
• les données c'est ce qu'on appelle des xij

H0 : les moyennes des différents échantillons ne diffèrent pas significativement


lOMoARcPSD| 8251333

Puis comparaison de Fcalc avec Fth α=5% V1 et V2 ddl issu de la table de Fisher-Snedecor

• Si Fcalc ≥ Fth α=5% V1 et V2 ddl alors rejet de H0


Conclusion : les moyennes diffèrent, le facteur de variation a donc un effet significatif
• Si Fcalc < Fth α=5% V1 et V2 ddl alors non rejet de H0
Conclusion : les moyennes ne diffèrent pas, le facteur de variation n'a pas d'effet significatif

Remarque : il y a 2 conditions d'application au test


1. Normalité des populations d'origine. Le test de Kolmodorv-Smirnov permet de tester la
normalité des données
2. Non hétérostédasticité des données = homogénénéité des variances des échantillons
Exemple : Concentration en pesticides dans des poissons ayant des âges différents
2 ans 3 ans 4 ans 5 ans
lOMoARcPSD| 8251333

164 287 379 480


171 290 387 487
182 315 404 500
195 320 420 523
206 330
208 344
215
Les concentrations en pesticides varient-elles en fonction de l'âge ?

µ σ² → Les variances sont assez proches, il y a un rapport de


Echantillon 1 191,6 386 moins de 2 entre celles-ci. Elles sont donc homogènes, et
Echantillon 2 314,3 499 on peut ainsi faire un test ANOVA.
Echantillon 3 397,5 334
Echantillon 4 497,5 358

H0 : les moyennes ne diffèrent pas significativement

Fth α=5% 3 et 17 ddl = 3,2 → Fcalc ≥Fth α=5% 3 et 17 ddl

Conclusion : Les moyennes diffèrent, la variation est significative avec l'âge.


b) ANOVA à 2 critères de classification

Ici, il y a répétition des mesures. Ce test permet de tester l'effet d'un facteur A, l'effet d'un facteur B
et l'effet de l'interaction entre A et B. le nombre de répétitions doit être le même pour chaque couple
AiBj

• r valeurs de A
• s valeurs de B
• t répétitions par case (couple AiBj )
• n° d'une valeur de A = i, avec i E [i;r]
• n° d'une valeur de B = j, avec E [j;s]
• n° d'une répétition pour le couple AiBj = k, avec k E [1;t]
• Les données sont des xijk
lOMoARcPSD| 8251333

H0 : le facteur A n'a pas d'effet


H0' : le facteur B n'a pas d'effet
H0'' : l'interaction AxB n'a pas d'effet

On compare Fcalc à Fth α=5% V1 et V2 ddl issue de la table de Fischer-Snedecor

• Si Fcalc ≥ Fth α=5% V1 et V2 ddl : rejet de H0


Conclusion : le facteur testé un effet significatif
lOMoARcPSD| 8251333

• Si Fcalc < Fth α=5% V1 et V2 ddl


Conclusion : le facteur teste n'a pas d'effet

Exemple : le nombre d'individus par tube en fonction de la température

H0 : la température n'a pas d'effet


H0' : la densité n'a pas d'effet
H0'' : l'interaction tenpérature x densité n'a pas d'effet

10 / tube 50 / tube 150 / tube

12°C 53 50 57 55 55 57 52 55 58

17°C 60 60 61 59 60 62 59 59 62

21°C 50 52 53 50 51 53 49 52 52

27°C 44 45 46 44 46 46 45 47 47

Nature de la variable SCE Nb de ddl Variance


Totale SCEtot = 1109,56
Cellulaire SCEcell = 1046,23
Due à T SCET = 1041,78 3 σ T² = 347,26
Due à d ²²SCEd = 0,06 2 σ d² = 0,03
Due à T x d SCETd = 4,39 6 σ Td² = 0,73
Erreurs SCEerr = 63,33 24 σ err² = 2,64
FTcalc = 131,5 υ1 = 3ddl et υ2 = 24 ddl
Fth, alpha = 5%, 3 et 24 ddl = 3,01

→ Ftcalc > Fth ↔ rejet de H0

Conclusion : Le facteur température (T) a un effet très significatif sur la taille.

Fdcalc = 0,01 V1 = 2ddl et V2 = 24 ddl


Fth, alpha 5%, 2 et 24 ddl = 3,4

→ Fdcalc ≤ Fth ↔ non rejet de H0'

Conclusion : La densité (d) n'a pas d'effet significatif sur la taille.

Ftdcalc = 0,28 V1 = 6 ddl et V2 = 24 ddl


Fth 5%, 6 et 24 ddl = 2,5
lOMoARcPSD| 8251333

→ Ftxd calc ≤ Fth ↔ non rejet de H0''

Conclusion : L'intéraction température x densité n'a pas d'effet significatif sur la taille
lOMoARcPSD| 8251333
lOMoARcPSD| 8251333

Chapitre 4 : Tests non paramétriques de comparaison d'échantillons

La comparaison de moyennes de 2 ou plusieurs échantillons par des tests paramétriques s'applique aux données
quantitatives et distribuées normalement ou à peu près normalement pour des grands échantillons. Si les
conditions de normalité ne sont pas respectée, ou que la variable est semi-quantitative, alors les tests
paramétriques non inutilisables. Il faut donc utiliser des tests non paramétriques.

Exemple :
• l'état d'amélioration d'un patient qui peut être faible, moyen, ou grand
• la couleur des cheveux du plus clair au plus foncé
• les stades larvaires d'un insecte de 1 à 5

Il faut faire attention à ne pas abuser des tests non paramétriques pour les grandes séries statistiques
quantitatives.
1. Les calculs deviennent laborieux
2. Il y a une perte d'une partie de l'information
3. Les tests paramétriques sont plus robustes et plus puissants quand n est grand

Avantages : Ils ne dépendent pas de la distribution des élements de la population étudiée → utilisatopon pour
des données semi-quantitatives et pour des petits échantillons à distribution douteuse.

1. Test de (Wilcoxon) Mann-Whitney = Test U

Ce test sert à comparer deux échantillons indépendants. On cherche à vérifier si les éléments de 2 groupes
occupant des rangs équivalents avec les effecitfs n1 et n2 < 30. Au delà, la distribution de U converge vers une

loi normale de paramètre :


H0 : les deux échantillons ne diffèrent pas significativement
Ensuite on classe les données par ordre croissant en melangeant les deux échantillons.
Après on remplace les données par leur rang et on fait la somme des rangs pour chaque échantillon. Si plusieurs
valeurs sont au même rang, on leur attribue le rang qui correspond à la moyenne des rangs qu'elles occupent.
On obtient R1 = total des rangs du 1er échantillon et R2 = total des rangs du 2ème échantillon.

On calcul ensuite 2 paramètres :

Vérification : U1 + U2 = n1n2 → U2 = n1n2 – U1

On pose U = inf(U1,U2) (la plus petite des valeurs)


On compara U à la valeur de la table du test U pour n1 et n2
Conclusion :
– Si U < Uα% → rejet de H0
lOMoARcPSD| 8251333

→ les deux échantillons sont différents


– Si U ≥ Uα% →non rejet de H0
→ les deux échantillons ne diffèrent pas significativement

Exemple : On étudie la surface du domaine de vie des ours mâles et femelles dans une population canadienne

Mâles 94 504 173 560 274 168


Femelles 32 72 60 49 18 50 108 49 20
Au vue des valeurs, nous pouvons dire que la distribution est « douteuse »

Question : Est-ce que la surface du domaine de vie diffère entre les 2 sexes ?
Données Echantillon Rang
H0 : les domaines ne diffèrents pas 18 F 1
20 F 2
On classe donc les données par ordre croissant
37 F 3
49 F 4,5
nmâles = 6 15 nfemelles = 9 49 F 4,5
50 F 6
R1 (M) = 74
60 F 7
R2 (F) = 46
72 F 8
94 M 9
Uinf
108 F 10
(Um
168 M 11
; Uf)
173 M 12
=1
274 M 13
504 M 14
560 M 15 Uα=
5%
pour nM = 6 et nF = 9 = 10

U < Uα ↔ rejet de H0

Conclusion : La surface des territoires des mâles diffèrent significativement de celui des femelles, elle est
significativement plus grande.

Remarque : La différence entre les échantillons indépendant et échantillons appariés :


Si le choix des élements du 1er échantillon n'a pas d'influene sur le choix des éléments du 2ème échantillon
alors les 2 échantillons sont indépendants.
Au contraire, si on prélève des paires d'éléments, le 1er éléments de chaque paire appartenant au 1er échantillon
et le 2ème au deuxième échantillon, alors les deux échantillons sont appariés. Parfois la paire d'éléments peut
provenir d'un même individu.

Exemple : Dans une enquête, si on selctionne aléatoirement des couples hétérosexeuls en choisissant
systématiquement l'homme et la femme pour constituer 2 échantillons alors les échantillons sont appariés. Par
contre, si on sélectionne aléatoirement des hommes et des femmes sans tenir commpte du conjoint alors les
échantillons sont indépendants.
2. Test de Wilcoxon

Ce test permet la comparasion de 2 échantillons appariés. Ce test s'applique aux variables semi-quantitatives
ou variables quantitatives non normales. Il consite à calculer des différences di de chaque paire de données.
Di = xi1 – xi2
lOMoARcPSD| 8251333

On prend les valeurs absolues des di et on les classes par ordre croissant pour leur assigner un rang. On exclue
les différences nulles. En cas de /di/ ex aequo on leur attribu le rang médian de la série de valeur. On assigne
un signe à chaque rang, il va être positif si xi1 > xi2 et négatif si xi2 > xi1 On calcul les T+ et les T- qui sont les
commes des rangs positifs et négatifs.

On prend Tobs = inf(T+;T-)

a) Grand échantillon n > 60

Le paramètre T suit à peu près une loi normale N(µT ;σ T)

Le paramètre Z suit une loi normale centrée réduite

Si zTobs ≥ zα/2 ↔ rejet de H0 : les distribution ne sont pas égales Si


zTobs < zα/2 ↔ non rejet de H0 : les distributions sont égales

b) Petit échantillon n ≤ 60

On ne peut plus dire que le test converge vers une loi normale
On compare le Tobs à un Tα/2 issu de la table des valeurs critiques de T

• Si Tobs ≥ Tα/2 ↔ non rejet de H0


• Si Tobs < Tα/2 ↔ rejet de H0

3. Test de Kruskal-Wallis

Ce test permet de comparer k échantillons indépendants (3 ou plus). Il est l'équivalent de l'ANOVA à 1 critère.
C'est aussi la généralisation du test de Mann-Whitney quand il y a plus de 2 échantillons.
Il permet de déterminer si les k sommes des rangs sont trop différentes pour que l'hypothèse nulle Ho d'unicité
des populations soit retenues.

H0 = unicité des populations d'origine

a) Cas des grands échantillons

Application de cette procédure si k ≥ 4 ou si l'effectif de chaque échantillon dépasse 5


Les effectifs n1, n2, …, nl correspondent à des données que l'on regroupe dans une seule série d'effectif n.
On ordonne les données de la plus petite à la plus grande. On donne un rang à chaque donnée qui varie de 1 à
n. Si plusieurs données ont les mêmes valeurs, on leur affecte un rang médian. Pour chacun des k
lOMoARcPSD| 8251333

échantillon, on calcul la somme des rangs des k échantillons kj = ∑ des rangs des élements du j ème échantillon
On calcul ensuite le paramètre H

Si il y a des ex-aequo :

ex1 = nombre d'ex-aequo pour la valeur 1


g = nombre de groupe d'ex-aequo
Exemple : 1, 2, 2, 4, 7, 7, 7, 15

g=2

ex1 = 2 ex2 = 7 → C=

• Si H ou Hcor ≥ X² (k-1)ddl, α = 5% alors il y a rejet de H0


Conclusion : au moins une population d'origine est différente des autres
• Si H ou Hcor < X² (k-1)ddl, α = 5% alors non rejet de H0
Conclusion : aucune des populations est différente : égalité des populations

b) Cas des petits échantillons

Si k = 3 et un des effectifs ≤ 5

Dans ce cas H n'obéit plus à une loi de X². On lit la table des valeurs critiques de H et on va pouvoir déterminer
la probabilité que H soit supérieur à Hα : probabilité que H ≥ Hα.
lOMoARcPSD| 8251333
lOMoARcPSD| 8251333

Chapitre 5 : Corrélation

C'est un concept qui a été abordé pour la 1ère fois par Sir Francis GALTON en 1888. Cette corrélation se
rapporte au degré de liaison qui unit plusieurs variables. La nomenclature varie selon la nature et le nombre de
variables.
La liaison entre 2 variables quantitatives distribuées normalement = corrélation linéaire simple. La
liaison entre 2 variables semi-quantitatives = corrélation de rang.

1. Corrélation de Pearson : 2 variables quantitatives

a) Définitions et propriétés

La corrélation de Pearson c'est une mesure de la liaison linéaire qui existe entre deux variables quantitatives
qui sont aléatoires.
Si il existe une liaison entre la variable x et la variable y (exemple : y augmente quand x augmente) et bien il
existe une corrélation. On pourra dire que x et y ne sont pas indépendants.

Si on représente chacuns des objets que l'on étudie pour un point de coordonné (x;y) alors on aboutit à un
nuage de point.
Si ces points se rapproche d'une droite on dit qu'il y a corrélation linéaire qui peut être positive (y augmente
quand x augmente) ou négative (y diminue quand x diminue).

Toutes les valeurs de corrélation varie entre -1 et +1.


Si r vaut +1 ou -1 : alors tous les points sont alignés sur une droite.
Si r = 0, alors le nuage de point ne montre aucune tendance de relation entre x et y.
lOMoARcPSD| 8251333

Remarque :
• r mesure le degré de liaison entre deux variables. Si r = 0 cela n'exclut pas qu'il puisse y avoir une
relation non linéaire entre x et y.
• le coefficient de corrélation n'indique pas nécessairement une dépendance directe de x et y ou une
relation de cause à effet.

Exemple : il peut exister une forte corrélation entre l'effectif d'une population de goéland sur l'île de Guernesey
et la vente de sabot au Chili 17 ans plus tard.

Exemple : On mesure la longueur de la pupe et nombre d'oeufs pondus par jour chez une espèce d'insectes

x y
8,5 60
8 37
7,7 41
8,5 66
8 46
9,1 57
9 99
9,3 85
8,4 48
9,5 86
8,2 47
9,5 93
8,9 45
8,5 55
7,8 42

0,82 → à priori la relation est forte


lOMoARcPSD| 8251333

b) Test de signification du r de Pearson

Ce coefficient de corrélation est il significativement différent de 0 ? les deux variables sont elles réellement
correlées ?

H0 : r = 0

On calcul le paramètre tr (suit une loi de Student)

Si H0 est vraie, alors le paramètre tr suit une loi de Student pour ν= n-2 ddl

• Si /tr/ < tth 5% ; n-2 ddl ↔ non rejet de H0


Conclusion : r ne diffère pas significativement de 0
• Si /tr/ ≥ tth 5% ; n-2 ddl ↔ rejet de H0
Conclusion : r diffère significativement de 0 → 2 variables corrélées

Exemple : pour le cas précédent


H0 : r = 0

tr = 1,17 tth 5% ; 13 ddl = 2,16


/tr/ ≥ tth 5% ; 13 ddl → rejet de H0. Les r ne diffère pas de 0, les deux variables sont donc corrélées

2. Coefficient de corrélation de rang de Spearman

a) Définition

Ce coefficient est une alternative non paramétrique au r de Pearson. On l'utilise quand au moins l'une des deux
variables est semi-quantitative et quand les distributions jointes des deux variables x et y n'est manifestement
pas binormale.

On classe les valeurs de x du plus petit au plus grand et on leur donne un rang. En cas d'ex-aequo, le rang est
la valeur moyenne. On fait de même pour y. Ensuite, pour chacun des évènements, on calcule la différence di
entre le rang de xi et celui de yi.
lOMoARcPSD| 8251333

Remarque : Si pour l'une ou l'autre des variables on a beaucoup d'ex-aequo, alors le rs doit être corrigé.

Exemple : Nous avons la distribution suivante :

x y x rang y rang
12 14 3 1 3 1
15 7 4 2 6 2
18 20
7 3 7 3
22 14
12 4 8 4
3 8
7 3 15 5 12 5
4 6 17 6 14 6,5
17 12 18 7 14 6,5
20 19 20 8 19 8
22 9 20 9
Element /di/ di²
1 2,5 6,25
2 2 4
3 2 4
4 2,5 6,25
5 3 9
6 2 4
7 0 0
8 1 1
9 0 0
∑ = 34,5

b) Test de signification du Rs

i) n ≥ 30

H0 : le Rs est nul
Alors on calcul la variable auxiliaire Zrs

Ce paramètre suit une loi normale centrée réduite. On compare alors /Zrs/ à un zα/2 lu dans la table des aires de
la courbe normale centrée réduite.
• Si /Zrs/ ≥zα/2 → rejet de H0
Conclusion : le Rs est significatif : les deux variables sont corrélées
• Si /Zrs/ < zα/2 → non rejet de H0 Conclusion : le Rs est nul

Exemple : Si alpha = 5% → zα/2 = 1,96 car cela équivaut à ϕ/zα/2/ = 97,5%

ii) n < 30

On utilise la table des valeurs critiques de Rs


• Si /rs/ ≥ rsα/2 → rejet de H0
Conclusion : rs est bien différent de 0
lOMoARcPSD| 8251333

• Si /rs/ < rsα/2 → non rejet de H0


Conclusion : rs ne diffère pas significativement de 0

Exemple : cas précédent : rs = 0,71


H0 : Rs= 0
Table : rs 2,5% = 0,683 pour n = 9 Donc /rs/ > rs2,5% ↔ rejet de H0
Conclusion : Rs significatif au risque de 5%

Remarque : Si on prenait un risque à 1%, alors rs = 0,817 pour n = 9 et dans ce cas, le rs est en dessous du
seuil, dans il n'est plus significatif au risque de 1%

* : paramètre significatif (5%)


** : très significatif (1%)
*** : hautement significatif (0,1%)
lOMoARcPSD| 8251333
lOMoARcPSD| 8251333

Chapitre 6 : Régression linéaire simple

Le terme de régression linéaire remonte à Sir Francis GALTON en 1889 qu ia constaté que les enfants de
parents grands étaient grands mais moins que leurs parents. Ils régressaient vers la moyenne.
La régression linéaire mesure la relation entre une variable aléatoire y (variable dépendante) et une variable
aléatoire ou contrôlée x (variable explicative). La régression permet de prévoir les variations de y en fonction
de celles de x.

Remarque : en dehors de la régression linéaire, il peut exister une autre relation entre x et y, par exemple :
exponentielle, htperbolique, …

1. Principes

On cherche à déterminer une fonction du premier degré reliant x et y de la forme y = ax + b. C'est l'équation
de la droite qui traverse au maximum le nuage de points. Elle va permettre de calculer ŷ pour toute valeur de
x. C'est la droite de régression de y en x.

2. Méthode des moindres carrés

Elle consiste à trouver l'équation de la droite qui minimise pour l'ensembme des points la somme des carrés
des erreurs.
L'erreur ei ( = résidu ) c'est l'écart entre la valeur observée yi et la valeur prédite par ŷi.

On démontre que a =

Exemple : Cf insectes taille de la pupe et nombre d'oeufs


→ 2 variables aléatoires
La droite de régression de y en x est de la forme y = ax + b avec

→ y = 28,21x – 181,85
lOMoARcPSD| 8251333

Pour x = 9 → ŷ = 72 œufs

3. Droite de régression de x en y

x et y doivent tous les deux être des variables aléatoires. On peut prédire y à partir de x. Mais on peut aussi
prédire x à partir de y. C'est une régression de x en y.
L'erreur ne correspond plus à des distances verticales mais à des distances horizontales.
Régression de x en y : x = yc + d

Exemple : x = yc + d

x = 0,0239x + 7,14

La droite de régression de x en y est la droite de régression de y en x diffèrent. Toutes les 2 passent par le point
(ẍ ;ŷ) qu'on appelle le barycentre ou centre de gravité. C'est aussi le point d'intersection des 2 droites. L'angle
alpha que forme les 2 droites de régression dépend de la qualité de la corrélation. Alpha est d'autant plus petit
que la corrélation entre x et y est grande. Si la corrélation est parfaite, alors les deux droites sont confondues.
Si la corrélation est nulle, alors les 2 droites sont orthogonales entre-elles et parallèles aux axes.

Remarque : le coefficient de corrélation r = cos α α est l'angle


entre les deux droites de régression ↔ α = Arccos r

• Si r = 1 → α = Arccos 1 = 0
• Si r = 0 → α = Arccos 0 = 90°

Exemple : on reprend celui des insectes


r = 0,82 α = Arccos 0,82 = 35°

IV. Coefficient de détermination R²

Le coefficient de détermination ou coefficient de corrélation multiple R² mesure la proportion de la variation


de y expliqué par la variation de x.

Dans le cas de la régression linéaire simple, R² = r²


(R² = coefficient de détermination & r² = carré du coefficient de corrélation de Pearson)
lOMoARcPSD| 8251333

Exemple : On reprend celui des insectes


R² = 0,82² = 0,67

La dispersion totale de la variable y se décompose en 2 parties :


➔ Dispersion dûe aux erreurs autour de la régression
➔ Dispersion qui est liée à la régression elle même

Le R² c'est la proportion de la dispersion totale dûe à la régression sur la dispersion totale. R²


= dispersion de régression / dispersion totale ( = d2/d3 )

Il est possible de tester la signification de la régression. Pour cela il faut tester si R² ou a (pente) sont
significativement différents de 0. On peut pour cela utiliser l'ANOVA avec H0 = R² = 0

Exemple : on reprend celui des insectes


Quel est le pourcentage de la variation du nombre d'oeufs (y) s'explique par la variation de la taille (x) R²
= 0,67
→ 67% de la variation de y s'explique par la variation de x (et inversement)

Remarque : la relation est biunivoque car x comme y sont deux variables aléatoires.

Vous aimerez peut-être aussi