Académique Documents
Professionnel Documents
Culture Documents
Décrite au 17ème siècle par Newton. Puis démontrée en 1713 par Bernouilli.
C'est l'une des distributions de probabilités la plus fréquement rencontrée. A partir de cette loi on peut traiter
les données qualitatives d'une population composée de deux élements.
Les proportions et les pourcentages ainsi que les variables de dénombrement découlent de cette loi.
a) Définition
La loi binomiale est une distribution discontinue qui donne les probabilités pour qu'un événement de
probabilité p apparaisse 0 fois, 1 fois, 2 fois … ou n fois au cours de n expériences identiques et indépendantes.
A chaque tirage, il y a 2 possibilités. Un événement de probabilité p et un événement de probabilité q=1-p
Exemple : dans une famille de n enfants. Quelle est la probabilité d'avoir x garçons
A chaque tirage : p(garçon) = ½ p(fille) = ½
Si il y a indépendance entre chacun de tirages. Si ces probabilités sont les mêmes à chaque tirage alors
p(garçon) dans une famille de n enfant est donnée par la loi binomiale.
b) Distribution de probabilité
Triangle de Pascal :
lOMoARcPSD| 8251333
Exemple : dans une famille de n enfants, la probabilité d'obtenir un garçon est de 0,5
E(x) = n*p σ2
= n*p*q
Il est équivalent d'avoir 3 garçons pour 6 enfants ou moitié de garçons ou 50% de garçons
Exemple: Quel est le pourcentage espéré et la variance du pourcentage dans une famille de 6 enfants du
pourcentage de garçons
Distribution discontinue qui dérive de la loi binomiale ou l'un des évènements a une probabilité p très faible.
Cette loi s'applique aux phénomènes accidentels où la probabilité p est très faible. En pratique, on l'utilise
quand on compte des évènements ou des individus distribués au hasard dans le temps ou dans l'espace. a)
Distribution de probabilité
Les calculs des termes du binôme de Newton devient laborieux quand p est faible et n très grand.
La loi binomiale tend vers la loi de Poisson quans p devient très petit et n est très grand. Si p<0,05 et bien
l'approximation de la loi binomiale par la loi de Poisson est acceptable si n> ou égal à 50
d) Exemple
Au cours d'une année, 2383 salariés sur 12 800 000 sont mort d'un accident de travail
Quelles sont les probabilités qu'une entreprise de 3000 salariés est un nombre x d'accidents mortels cette année
là ?
La loi binomiale tend vers une loi de Poisson µ = np = 3000 x 0,000186 = 0,558
Aussi appelée loi de Pascal. Permet de déterminer la probabilité de devoir faire x expériences identiques et
indépendantes pour obtenir a fois l'évènement de probabilité p
a) Distribution de probabilité
Exemple : La probabilité de capturer une souris pleine est p = 0,2. Quelle est la probabilité du nombre de
souris à capturer pour obtenir deux souris pleines ?
lOMoARcPSD| 8251333
4. Loi hypergéométrique
a) Définition
Utile pour étudier les caractéristiques qualitatives d'une population finie avec échantillonage sans remise. b)
Distribution de probabilité
lOMoARcPSD| 8251333
Exemple : Une colonie d'oiseaux qui comporte 80 individus, 40 sont déjà bagués. On capture 12 individus,
quelle est la distribution de probabilité d'individus déjà bagués ? Avec tirage sans remise
12 tirages aléatoires et indépendants sans remise dans une population de 80 oiseaux dont 40 sont bagués. N
= 80 n = 12 p = 40/80= ½ H(80;12; ½)
x P(x)
0 0
1 0,003
2 0,011
3 0,045
4 0,117
5 0,204
6 0,245
7 0,204
8 0,117
9 0,045
10 0,011
11 0,003
12 0
c) Moments
La distribution normale joue un rôle capital aussi bien en théorie qu'en pratique. C'est cette loi qui conduit aux
courbes en cloche classiques ou en courbe de Gausse. On l'appelle aussi loi de Gausse, loi de Laplace ou loi
de Laplace-Gausse.
La loi de probabilité d'une distribution binomiale c'était avec x appartient à [0;n]. cependant si n tend vers
l'infini et p proche de 0 ou même 1, alors la loi binomiale tend vers la loi de Poisson
Si tend vers l'infini mais p proche ni de 1 ni de 0 alors la distribution binomiale tend vers une loi normale qui
a pour équation :
La variable x peut être continue et x appartient à l'intervalle compris entre – l'infini et + l'infini b)
Pour faciliter l'étude des caractéristiques de la loi normale et bien on travaille par changement de variable avec
une distribution ayant une moyenne nulle et un écart type de 1 On l'appelle la distribution normale centrée
réduite
1 – Ramener la moyenne à 0
lOMoARcPSD| 8251333
1. Quand on regarde f(X) ou f(Z) alors on se rend compte que f(Z) = f(-Z), on peut dire que la courbe est
symétrique
2. Du fait que la courbe est symétrique, la moyenne, le mode et la médiane sont confondus
3. Les probabilités de z diminuent quand /z/ augmente
4. Pour tout z, f(z) > 0
lOMoARcPSD| 8251333
5.
6.
7.
Avec la loi binomiale par exemple, la variable aléatoire était discrète. La probabilité d'apparition de chaque
valeurs de x était donné par P(x)
Ici avec une variable continue on ne peut plus définier la loi de probabilité de x par P(x). Car P(x)=0 pour tout
x puisqu'il y a une infinité de valeur de x dans l'intervalle de variation.
Exemple : Dans une forêt où la hauteur h des arbres varie entre 15m et 30m P(h
= 21,0000m) = 0
La
Cette table indique la surface comprise entre la courbe f(z) et l'axe des abscisses entre z = - infini et z = z1
Comme l'aire totale entre – infini et + infini vaut 1 alors Φz correspond à P(z<z1)
Pour calculer la probabilité de z dans un intervalle donné il faut toujours raisonner graphiquement en terme de
surface
g) Calcul de la probabilité d'un écart dans une distribution normale standard N(µ ;σ)
En pratique, tous les problèmes sur la variable aléatoire normale de paramètres µ et σ sont étudiés à l'aide de
la normale centrée réduite
On cherche les probabilités d'apparition dans différentes classes d'une distribution normale standard de
paramètres µ et σ Il existe deux méthodes :
Comme x est une variable continue, il faut établir des classes. Transformer les limites de ces classes en
coordonnées centrées réduites (z). puis déterminer les probabilités de chaque intervalle.
Exemple : Calculer la distribution de probabilité obéissant à N(23,4) de la hauteur des arbres d'une forêt
lOMoARcPSD| 8251333
Exemple :
Un phénomène ou une variable aléatoire obéit à une loi normale quand 4 conditions sont réunies :
– les phénomènes dépend de nombreux facteurs
– facteurs indépendants
– facteurs ayant un effet cumulatif
– les variations de ces facteurs sont faibles et la variations du phénomène dépend peu de la variation de
chacun des facteurs
E(x) = µ
σ2 = Var(x)
La loi normale c'est la limite de la loi binomiale quand n tend vers l'infini et p ne tend ni vers 0 ni vers 1 En
pratique, n doit être d'autant plus grand que la probabilité p est faible.
Il a été montré que l'approximation normale est correcte si les valeurs de n correspondant à chaque valeur de
p sont supérieures ou égales à :
Probabilité P Valeur de n pour appliquer N (np ; √npq)
0,5 30
0,4 50
lOMoARcPSD| 8251333
0,3 80
0,2 200
0,1 600
0,05 1 400
Environ 0 Loi de Poisson
Une loi binomiale converge vers une loi de Poisson quand n tend vers l'infini et que p tend vers 0
Si p ne tend plus vers 0 alors la distribution obéit à une loi N (np ; √npq) si µ = np ≥ 20 avec p tendant vers 0
alors l'approximation de la loi de Poisson par une loi normale est acceptable
lOMoARcPSD| 8251333
1. Tests de X 2
Les tests de X2 sont très utiles en génétique ou en génétique des populations. Le test de X2 permet de
comparerune distribution observée à une distribution théorique.
Permet de comparer la répartition des individus dans les différentes classes entre 2 échantillons ou
plus
La répartition des individus dans les trois classes est elle la même dans E1 et E2 ? → X2 d'homogénéité
1. On pose H0 :la répartition des individus dans les 3 classes ne diffère pas significativement
entre E1 et E2
2. Calcul des effectifs théoriques sous H0. On a le droit de réunir E1 et E2.
Xcalc =
Avec l'exemple :
5. Nombre de ddl
= nombre de variable aléatoire du test
Avec l'exemple :
Conclusion : la répartition des individus dans les 3 classes ohénotypiques dans E1 et E2 ne diffère
pas significativement. On a donc le droit de réunir E1 et E2
Pour X2conf : nb ddl = nb classes testées – nb de paramètres issus des données servant à calculer les
effectifs théoriques
Conclusion : la distribution correspond à moitié de mâle / moitié de femelle → sex ration équilibré
Remarques :
– un X2 se fait sur des effectifs et non sur des fréquences
– si le nombre de ddl vaut 0 alors on ne peut plus faire de test
– il faut qu'au maximum 20% des classes ont un effectif théorique inférieur à 5
Exemple : comparaison de l'âge moyen du 1er emploi dans un groupe de 10 copains par rapport à
l'âge moyen du 1er emploi dans leur ville qui est de 21,5ans. Ages : 18 – 18 – 27 – 29 – 18,5 – 20 –
18 – 18 – 18 – 18,5
L'analyse de variance correspond à toute une série de techniques qui font l'objet d'ouvrages très
volumineux.
Ce test permet de comparer les moyennes de plusieurs échantillons indépendants. Il remplace le test
T ou le test ε dès qu'il y a au moins trois moyennes. Cette méthode s'applique aux grands comme aux
petits échantillons.
• k échantillons
• n° échantillon = j, j E [1;k]
• pour chaque échantillon j il y a nj
données
n° de donnée pour l'échantillon j = i,
avec i E [1;nj]
• les données c'est ce qu'on appelle des xij
Puis comparaison de Fcalc avec Fth α=5% V1 et V2 ddl issu de la table de Fisher-Snedecor
Ici, il y a répétition des mesures. Ce test permet de tester l'effet d'un facteur A, l'effet d'un facteur B
et l'effet de l'interaction entre A et B. le nombre de répétitions doit être le même pour chaque couple
AiBj
• r valeurs de A
• s valeurs de B
• t répétitions par case (couple AiBj )
• n° d'une valeur de A = i, avec i E [i;r]
• n° d'une valeur de B = j, avec E [j;s]
• n° d'une répétition pour le couple AiBj = k, avec k E [1;t]
• Les données sont des xijk
lOMoARcPSD| 8251333
12°C 53 50 57 55 55 57 52 55 58
17°C 60 60 61 59 60 62 59 59 62
21°C 50 52 53 50 51 53 49 52 52
27°C 44 45 46 44 46 46 45 47 47
Conclusion : L'intéraction température x densité n'a pas d'effet significatif sur la taille
lOMoARcPSD| 8251333
lOMoARcPSD| 8251333
La comparaison de moyennes de 2 ou plusieurs échantillons par des tests paramétriques s'applique aux données
quantitatives et distribuées normalement ou à peu près normalement pour des grands échantillons. Si les
conditions de normalité ne sont pas respectée, ou que la variable est semi-quantitative, alors les tests
paramétriques non inutilisables. Il faut donc utiliser des tests non paramétriques.
Exemple :
• l'état d'amélioration d'un patient qui peut être faible, moyen, ou grand
• la couleur des cheveux du plus clair au plus foncé
• les stades larvaires d'un insecte de 1 à 5
Il faut faire attention à ne pas abuser des tests non paramétriques pour les grandes séries statistiques
quantitatives.
1. Les calculs deviennent laborieux
2. Il y a une perte d'une partie de l'information
3. Les tests paramétriques sont plus robustes et plus puissants quand n est grand
Avantages : Ils ne dépendent pas de la distribution des élements de la population étudiée → utilisatopon pour
des données semi-quantitatives et pour des petits échantillons à distribution douteuse.
Ce test sert à comparer deux échantillons indépendants. On cherche à vérifier si les éléments de 2 groupes
occupant des rangs équivalents avec les effecitfs n1 et n2 < 30. Au delà, la distribution de U converge vers une
Exemple : On étudie la surface du domaine de vie des ours mâles et femelles dans une population canadienne
Question : Est-ce que la surface du domaine de vie diffère entre les 2 sexes ?
Données Echantillon Rang
H0 : les domaines ne diffèrents pas 18 F 1
20 F 2
On classe donc les données par ordre croissant
37 F 3
49 F 4,5
nmâles = 6 15 nfemelles = 9 49 F 4,5
50 F 6
R1 (M) = 74
60 F 7
R2 (F) = 46
72 F 8
94 M 9
Uinf
108 F 10
(Um
168 M 11
; Uf)
173 M 12
=1
274 M 13
504 M 14
560 M 15 Uα=
5%
pour nM = 6 et nF = 9 = 10
U < Uα ↔ rejet de H0
Conclusion : La surface des territoires des mâles diffèrent significativement de celui des femelles, elle est
significativement plus grande.
Exemple : Dans une enquête, si on selctionne aléatoirement des couples hétérosexeuls en choisissant
systématiquement l'homme et la femme pour constituer 2 échantillons alors les échantillons sont appariés. Par
contre, si on sélectionne aléatoirement des hommes et des femmes sans tenir commpte du conjoint alors les
échantillons sont indépendants.
2. Test de Wilcoxon
Ce test permet la comparasion de 2 échantillons appariés. Ce test s'applique aux variables semi-quantitatives
ou variables quantitatives non normales. Il consite à calculer des différences di de chaque paire de données.
Di = xi1 – xi2
lOMoARcPSD| 8251333
On prend les valeurs absolues des di et on les classes par ordre croissant pour leur assigner un rang. On exclue
les différences nulles. En cas de /di/ ex aequo on leur attribu le rang médian de la série de valeur. On assigne
un signe à chaque rang, il va être positif si xi1 > xi2 et négatif si xi2 > xi1 On calcul les T+ et les T- qui sont les
commes des rangs positifs et négatifs.
b) Petit échantillon n ≤ 60
On ne peut plus dire que le test converge vers une loi normale
On compare le Tobs à un Tα/2 issu de la table des valeurs critiques de T
3. Test de Kruskal-Wallis
Ce test permet de comparer k échantillons indépendants (3 ou plus). Il est l'équivalent de l'ANOVA à 1 critère.
C'est aussi la généralisation du test de Mann-Whitney quand il y a plus de 2 échantillons.
Il permet de déterminer si les k sommes des rangs sont trop différentes pour que l'hypothèse nulle Ho d'unicité
des populations soit retenues.
échantillon, on calcul la somme des rangs des k échantillons kj = ∑ des rangs des élements du j ème échantillon
On calcul ensuite le paramètre H
Si il y a des ex-aequo :
g=2
ex1 = 2 ex2 = 7 → C=
Si k = 3 et un des effectifs ≤ 5
Dans ce cas H n'obéit plus à une loi de X². On lit la table des valeurs critiques de H et on va pouvoir déterminer
la probabilité que H soit supérieur à Hα : probabilité que H ≥ Hα.
lOMoARcPSD| 8251333
lOMoARcPSD| 8251333
Chapitre 5 : Corrélation
C'est un concept qui a été abordé pour la 1ère fois par Sir Francis GALTON en 1888. Cette corrélation se
rapporte au degré de liaison qui unit plusieurs variables. La nomenclature varie selon la nature et le nombre de
variables.
La liaison entre 2 variables quantitatives distribuées normalement = corrélation linéaire simple. La
liaison entre 2 variables semi-quantitatives = corrélation de rang.
a) Définitions et propriétés
La corrélation de Pearson c'est une mesure de la liaison linéaire qui existe entre deux variables quantitatives
qui sont aléatoires.
Si il existe une liaison entre la variable x et la variable y (exemple : y augmente quand x augmente) et bien il
existe une corrélation. On pourra dire que x et y ne sont pas indépendants.
Si on représente chacuns des objets que l'on étudie pour un point de coordonné (x;y) alors on aboutit à un
nuage de point.
Si ces points se rapproche d'une droite on dit qu'il y a corrélation linéaire qui peut être positive (y augmente
quand x augmente) ou négative (y diminue quand x diminue).
Remarque :
• r mesure le degré de liaison entre deux variables. Si r = 0 cela n'exclut pas qu'il puisse y avoir une
relation non linéaire entre x et y.
• le coefficient de corrélation n'indique pas nécessairement une dépendance directe de x et y ou une
relation de cause à effet.
Exemple : il peut exister une forte corrélation entre l'effectif d'une population de goéland sur l'île de Guernesey
et la vente de sabot au Chili 17 ans plus tard.
Exemple : On mesure la longueur de la pupe et nombre d'oeufs pondus par jour chez une espèce d'insectes
x y
8,5 60
8 37
7,7 41
8,5 66
8 46
9,1 57
9 99
9,3 85
8,4 48
9,5 86
8,2 47
9,5 93
8,9 45
8,5 55
7,8 42
Ce coefficient de corrélation est il significativement différent de 0 ? les deux variables sont elles réellement
correlées ?
H0 : r = 0
Si H0 est vraie, alors le paramètre tr suit une loi de Student pour ν= n-2 ddl
a) Définition
Ce coefficient est une alternative non paramétrique au r de Pearson. On l'utilise quand au moins l'une des deux
variables est semi-quantitative et quand les distributions jointes des deux variables x et y n'est manifestement
pas binormale.
On classe les valeurs de x du plus petit au plus grand et on leur donne un rang. En cas d'ex-aequo, le rang est
la valeur moyenne. On fait de même pour y. Ensuite, pour chacun des évènements, on calcule la différence di
entre le rang de xi et celui de yi.
lOMoARcPSD| 8251333
Remarque : Si pour l'une ou l'autre des variables on a beaucoup d'ex-aequo, alors le rs doit être corrigé.
x y x rang y rang
12 14 3 1 3 1
15 7 4 2 6 2
18 20
7 3 7 3
22 14
12 4 8 4
3 8
7 3 15 5 12 5
4 6 17 6 14 6,5
17 12 18 7 14 6,5
20 19 20 8 19 8
22 9 20 9
Element /di/ di²
1 2,5 6,25
2 2 4
3 2 4
4 2,5 6,25
5 3 9
6 2 4
7 0 0
8 1 1
9 0 0
∑ = 34,5
b) Test de signification du Rs
i) n ≥ 30
H0 : le Rs est nul
Alors on calcul la variable auxiliaire Zrs
Ce paramètre suit une loi normale centrée réduite. On compare alors /Zrs/ à un zα/2 lu dans la table des aires de
la courbe normale centrée réduite.
• Si /Zrs/ ≥zα/2 → rejet de H0
Conclusion : le Rs est significatif : les deux variables sont corrélées
• Si /Zrs/ < zα/2 → non rejet de H0 Conclusion : le Rs est nul
ii) n < 30
Remarque : Si on prenait un risque à 1%, alors rs = 0,817 pour n = 9 et dans ce cas, le rs est en dessous du
seuil, dans il n'est plus significatif au risque de 1%
Le terme de régression linéaire remonte à Sir Francis GALTON en 1889 qu ia constaté que les enfants de
parents grands étaient grands mais moins que leurs parents. Ils régressaient vers la moyenne.
La régression linéaire mesure la relation entre une variable aléatoire y (variable dépendante) et une variable
aléatoire ou contrôlée x (variable explicative). La régression permet de prévoir les variations de y en fonction
de celles de x.
Remarque : en dehors de la régression linéaire, il peut exister une autre relation entre x et y, par exemple :
exponentielle, htperbolique, …
1. Principes
On cherche à déterminer une fonction du premier degré reliant x et y de la forme y = ax + b. C'est l'équation
de la droite qui traverse au maximum le nuage de points. Elle va permettre de calculer ŷ pour toute valeur de
x. C'est la droite de régression de y en x.
Elle consiste à trouver l'équation de la droite qui minimise pour l'ensembme des points la somme des carrés
des erreurs.
L'erreur ei ( = résidu ) c'est l'écart entre la valeur observée yi et la valeur prédite par ŷi.
On démontre que a =
→ y = 28,21x – 181,85
lOMoARcPSD| 8251333
Pour x = 9 → ŷ = 72 œufs
3. Droite de régression de x en y
x et y doivent tous les deux être des variables aléatoires. On peut prédire y à partir de x. Mais on peut aussi
prédire x à partir de y. C'est une régression de x en y.
L'erreur ne correspond plus à des distances verticales mais à des distances horizontales.
Régression de x en y : x = yc + d
Exemple : x = yc + d
x = 0,0239x + 7,14
La droite de régression de x en y est la droite de régression de y en x diffèrent. Toutes les 2 passent par le point
(ẍ ;ŷ) qu'on appelle le barycentre ou centre de gravité. C'est aussi le point d'intersection des 2 droites. L'angle
alpha que forme les 2 droites de régression dépend de la qualité de la corrélation. Alpha est d'autant plus petit
que la corrélation entre x et y est grande. Si la corrélation est parfaite, alors les deux droites sont confondues.
Si la corrélation est nulle, alors les 2 droites sont orthogonales entre-elles et parallèles aux axes.
• Si r = 1 → α = Arccos 1 = 0
• Si r = 0 → α = Arccos 0 = 90°
Il est possible de tester la signification de la régression. Pour cela il faut tester si R² ou a (pente) sont
significativement différents de 0. On peut pour cela utiliser l'ANOVA avec H0 = R² = 0
Remarque : la relation est biunivoque car x comme y sont deux variables aléatoires.