Vous êtes sur la page 1sur 100

Sommaire

Quelques dfinitions utiles


Conseils utiles
Statistique descriptive


Notions statistique et gnralits

Srie statistique

Prsentation graphique des sries statistique

Les variables alatoires




Introduction

Type de variable alatoire

Fonction de probabilit

Distribution de rparation

Caractristiques dune variable alatoire

Proprets de la variance

Variable centre rduite

Loi de probabilits


Variable alatoire discrte

Loi binomiale

Loi de poisson

Loi continue

Approximation de la loi binomiale par la loi normale

Infrence statistique


Dfinition de lhypothse

Risque derreur et rgle de dcision

Test de conformit ou dajustement


o Test de x2
o Comparaison dune % observ un % thorique
o Comparaison dune moyenne observe un e moyenne thorique

Test dhomognit
o Comparaison des moyennes avec le test dhomognit
o Comparaison des % avec le test dhomognit

Test dhomognit de plusieurs chantillons

Test de comparaison des variances

Rgression simple


Rgression du second degr

Test de corrlation

Test dgalit de deux coefficients de corrlation

Test dgalit dans le cas de plus de deux coefficients rgression multiple

Rgression multiple


Coefficient de corrlation partielle

Test de signification des corrlation en partie

Lanalyse de la variance ANOVA




Principe de lanalyse de la variance

Conditions dapplication de lANOVA

ANOVA un seul facteur


o Dispositif compltement alatoire
o Dispositif en bloc alatoire complet
o Dispositif suivant un carr latin

ANOVA deux facteurs


o Dispositif en rendomisation totale
o Dispositif deux facteurs en blocs alatoires complets
o Dispositif en blocs alatoires complets avec parcelles divises (splits plot)
deux facteurs

Comparaison multiple des moyennes en cas dabsence de tmoin


o Le teste de la PPDS
o E teste de la PPAS

Comparaison de moyenne en prsence de tmoin


o Le test de la PPES

Conclusion concernant la comparaison de moyenne


Conclusion concernant lANOVA
Organigramme de lANOVA
Guide dinterprtation de lANOVA

Quelques dfinitions utiles :


Exprience : cest le test ou lessai lui-mme
Exprimentation : lemploi systmatique de lexprience scientifique
Protocole exprimental : cest la planification systmatique de lexprience, et qui consiste
dfinir le but et les conditions de lexprience, les facteurs tudis, les units exprimentales
qui font lobjet de lobservation, le matriel utilis et enfin elle doit prciser le dispositif
exprimental.
Dispositif exprimental : Cest la manire dont les diffrentes facteurs (ou objet) devront
tre affects baux diffrents units exprimentales. Il y a un nombre important de dispositifs
dont les dispositifs en randomisation totale, les dispositifs en blocs, split plot .
Vous voyez bien que le dispositif exprimental nest quune partie du protocole exprimental,
mais il reprsente son noyau.
Population : Cest tout lensemble des individus qui reprsentent un ou plusieurs critres bien
dfinis.
Supposons quon sintresse au sexe masculin et lge 18 ans en Algrie pour tudier leur
contribution et leur efficacit dans la socit. Alors imaginez combien y a-t-il en Algrie de
garon de 18 ans ; des milliers ? des millions ? .
Cet ensemble forme la population des jeunes garons de 18 ans.
Echantillon : Cest un sous ensemble bien limit extrait partir dune population, mais quil
doit la prsenter le plus fidlement possible, c'est--dire port les mmes critres que la
population.
Dans notre exemple prcdent : comme cest impossible dtudier tout lensemble des jeunes
garons de 18 ans qui existent en Algrie, on va choisir une centaine ou plus, mais qui sont
reprsentatifs de la population.
Unit exprimentale : Cest lunit de base sur laquelle porte lexprimentation. Cest par
exemple, la parcelle lmentaire dans un essai de production vgtale, une vache ou groupe
de vaches dans lexprimentation animale.
Variable : Les rsultats dune exprience sont apprcis par des variables. Nous distinguons :

Les variables mesures ou saisies : Cest par exemple, une humidit, une teneur en
matire sche, un poids parcellaire, les poids dun poids dun animal diffrentes
dates ou encore ses consommations .

Les variables labores ou calcules : Ce sont des variables calcules partir des
prcdentes, par exemple, le rendement par hectare une humidit de rfrence, le
gain de poids dun animal entre deux dates.

Facteurs tudis et facteurs contrles : Considrons, par exemple, un essai de


varits de bl et de produits fongicides (avec 3 varits V1, V2 et V3 et 2 produits
fongicides : X et Y), disposs sur le terrain selon un dispositif en blocs (avec 4 blocs).
-

2 facteurs tudis, le facteur varit de bl et le facteur produit fongicide .


Ces facteurs constituent le but de lexprimentation.

1 facteur contrl, le facteur bloc. On veut liminer son influence sur la ou les
variables analyss.

Un bloc est
o Bloc : Cest un ensemble dunits exprimentales homognes.
Il peut tre dfini par :


Un gradient de profondeur de sol, un rideau darbres ; ..


en exprimentation vgtale.

Niveaux,

Le sexe, le poids la naissance, .. en exprimentation animale.

variantes

ou

modalits

dun

facteur :

Chaque

facteur

dune

exprimentation est tudi (ou contrl) plusieurs niveaux, variances ou modalits.


On parle de variantes quand il sagit de facteur qualitatif (varits par exemple), et de
niveaux quand il sagit de facteur quantitatif (des dun produit par exemple), et de
modalits dans les 2 cas.
Mais gnralement on ne fait pas la diffrence. Comme dans notre exemple prcdent
on tudie 3 variantes ou 3 niveaux du facteur varits de bl (V1, V2, V3) et deux
niveaux du facteur produit fongicide (X et Y) et le facteur contrle bloc
comporte 4 niveaux (4blocs).

Traitements : Les combinaisons des diffrents niveaux des facteurs tudis


dfinissent des traitements. Dans notre exemple, il y a 6 traitements :
V1 avec le produit fongicide X.
V1 avec le produit fongicide Y.
V2 avec le produit fongicide X.
V2 avec le produit fongicide Y.
V3 avec le produit fongicide X.
V3 avec le produit fongicide Y.

Modles croiss :
Dans le cas de lanalyse de variance 2 facteurs, le modle est dit crois quand les 2

facteurs sont placs sur le mme pied dgalit (mme niveau).


En gnral, dans les exprimentations de plein - champ, les facteurs sont croiss :
chaque niveau de lun des facteurs est appliqu avec chacun de tous les niveaux de lautre
et vis - versa.

Modles hirarchiss : Le modle est dit hirarchis quand les 2 facteurs sont
subordonns lun lautre.
Et un facteur est hirarchis un autre si ses niveaux sont spcifiques lintrieur de
lun des niveaux de lautre.
Par exemple le facteur bloc est hirarchis au facteur lieu.

Modle mixte : Il sagit du cas o lun des facteurs est fixe et lautre alatoire. (non
soumis un risque derreur car non mesur ..).
Dans les exprimentations de plein champ, les facteurs tudis sont gnralement
considrs comme fixes. Cest le cas dans lexemple du facteur varit et du
facteur produit fongicide ; cela signifie que les conclusions de lexprimentation ne
seront applicables quaux seules varits et aux seuls produit fongicides tudis.

Modle alatoires : Cas o le facteur est alatoire cest le cas, par exemple, du facteur
lieu dans le regroupement des essais dune rgion, ceci signifie que les conclusions
de lexprimentation sappliqueront lensemble de la rgion dont les lieux dessais
sont reprsentatifs, ce qui suppose que lieux ont t tirs au hasard, c'est--dire de
manire alatoire.
La distinction Fixe Alatoire nest pas toujours vidente !!!

Rptitions : On parle rptitions si plusieurs units exprimentales reoivent les


mmes combinaisons des modalits (traitements) des facteurs (tudis ou contrls).
Mais attention, il ne faut pas confondre rptitions des traitements et rptitions de la
mesure.

Conseils utiles :
Une fois que vous avez choisi le thme de votre travail de mmoire de fin dtudes, et
avant de se lancer dans lexprimentation, comme il se fait gnralement, il faut tout dabord
faire une ou des rencontres avec votre promoteur pour dfinir :
-

Lobjectif et le but de votre travail,

Les moyens et matriels utiles et disponibles pour raliser un tel objectif afin de
pallier au manque ventuel de ces moyens au dbut de lanne de
lexprimentation,

Le lieur de votre exprimentation, les gens avec les quels vous allez travailler,

. Bref en quelque sorte dfinissez un avant - protocole exprimental, tout en


sachant qun protocole exprimental peut tre modifie au cours du droulement de
lexprimentation en fonction du matriel ou conditions disponibles.
Aprs cela, il faut faire une petite recherche bibliographique, afin de se familiariser avec
le sujet de votre travail, mais attention, cette recherche bibliographique est diffrente de la
partie bibliographique qui constituera votre mmoire par la suite.
Une telle recherche se fait surtout en consultant certains travaux de thses qui ont
abord le mme sujet ou des sujets analogues avant vous.
Une deuxime rencontre avec votre promoteur est importante afin de dfinir votre
plan dexprience quon appelle communment dispositif exprimental , attention,
celui-ci au cours de lexprience veut dire tout simplement recommencer zro qui se compte
par fois par une ou 2 annes.
Cest pour cela que le choix du dispositif doit tre fait scientifiquement et avec
beaucoup de rflexion, car il faut toujours avoir lide que cest en fonction de votre
dispositif exprimental que se feront toutes les analyses statistiques en loccurrence
lanalyse de variance.
Pour le choix de votre dispositif exprimental, bien sr, aprs que vous consultez votre
promoteur, il existe un logiciel appel STATIT CF , avec son option G. Gestion des
donnes pour une analyse de variance , en rpondant certaines questions concernant le
nombre de facteurs tudis et leurs niveaux ou modalits ; vous pouvez choisir le dispositif
qui vous semble tre le mieux adapt votre travail.
Aprs cela il vous suffit uniquement de le trier sur papier et de lexcuter sur terrain.
Tout ce travail sur micro-ordinateur ne vous prendra quune dizaine de minutes et a
vous fera gagner un temps norme lors de lexploitation des rsultats.

Si non, si vous faites comme on le fait le plus souvent, en allant directement sur terrain
sans dfinir un dispositif exprimental appropri, on rcolte alors des donnes qui ne seront
jamais cohrentes pour une analyse de variance.
Une fois le dispositif exprimental est dfinitivement fix, il ne vous reste maintenant
que de linstaller sur terrain, et l il faut veiller sa bonne installation, en respectant
lhomognit des blocs, sil y en a, en redressant par exemple la pente du terrain, de telle
faon que les parcelles des blocs se trouvent dans les mmes conditions dinstallation pour
viter certains problmes de ruissellement en cas dirrigation ; ou migration des engrais ou
produits phytosanitaires en cas de traitement ect, bref, il faut veiller minimiser au
maximum leffet bloc qui doit tre bien contrle.
Le dispositif tant compltement install (bloc, .. ect) il faut effectuer des visites
continues hebdomadaires, voire journalire fin de bien contrler toutes les conditions du
droulement de votre exprience. A cet effet, il est prfrable davoir un carnet de note o
vous devez mentionner chaque visite la date (et mme lheur sil le faut), tat du climat
(pluie, sens du vent, sirocco ), tat du dol (humide, sec*, tass ou non .. etc), tat du
vgtal (couleur, croissance .) prsence dinsectes ou non, bref, il faut noter tout et
surtout la date et mme lheur, car au temps correspond un stade vgtatif dune culture, ou
phase dun cycle pour un animal et la prsence dun insecte particulier peut tre une
indication dune maladie quelconque.
Vous allez voire que tous ces relevs peuvent vous servir dans linterprtation de vos
rsultats, surtout en cas danomalie ou de rsultats aberrant.
Pour effectuer des mesures (ou observations) sur des variables, veiller ce quelles
doivent tre faites dans lobjectivit, cela veut dire dutiliser des instruments de mesure
adquats, bonne rgle si vous mesurez des longueurs, une balance fiable pour la pese des
poids, un bon comptage .. et surtout un bon chantillonnage qui doit tre au hasard. En
effectuant plusieurs mesures (des rptitions de mesure) sur le mme paramtre ; cela vous
permettra de minimiser le risque derreur de mesure.
Les relevs des observations (ou de mesures) doivent tre prsents dans un tableau
bien organis de telle sorte quil vous sera trs facile par le suite de le traiter pour lanalyse
statistique, et utilisez pour cela comme jai dj indiqu, des carnets et viter les feuilles
volantes que vous risquez de prendre . !
Une fois que vous aurez rcolte toutes vos donnes, il faut maintenant les prsenter sous
forme de tableaux refltant exactement votre dispositif exprimental.

Il est trs utile parfois de faire des reprsentations graphiques (histogramme, courbe
.etc) pour voir la nature de leur volution.
Mais pour savoir la prcision de votre essai, ainsi que leffet des facteurs tudis sur les
variables fixes comme objectifs il faut procder lanalyse de variance.
Pour cela, il faut revenir la salle dinformatique de votre institut et consulter encore
une fois le logiciel STATIT CF , mais cette fois ci en utilisant votre fichier initial o vous
avez stock votre dispositif exprimental, pour procder au calcul de lanalyse de variance.
Il faut noter que vous pouvez utiliser dautres logiciels tel que ANOVA, NDMS,
STATGRAF, STATISTICA. qui sont disponibles linstitut.
Parfois on souhaite connatre sil existe des corrlations entre 2 ou plusieurs variables,
dans ce cas on doit faire des rgressions simples ou multiples.
Aprs que vous tirez (sur imprimante) vos rsultats danalyse de variance, et vos
rsultats de rgression, et certains graphes si vous en avez fait ce moment l, vous
allez confronter tous ceux-ci la partie bibliographique pour trouver des interprtations
agronomique mais surtout scientifiques et objectifs et noubliez pas dutiliser et de consulter
votre carnet de notes pour trouver certaines explications certaines anomalies.

Statistique descriptive

I.1. Notions statistique et gnralits :


Population : Cest lensemble de tout les individus concerns lors de ltude dun sujet
particulier.
Exemple : lge des tudiantes de luniversit.
Echantillon : Toute partie ou sous ensemble de la population qui doit tre
reprsentative et pris au hasard.
La population peut tre :
Fini : Si elle comporte un nombre dtermin dindividus.
Exemple : nombre de filles
Infini : Si elle comporte un nombre infini dindividus.
Ex : nombre darbres.
Individu : on appelle individu, chaque lment de la population dans le cadre dune
tude bien dtermine.
Taille : est le nombre dindividus dun chantillon (n) ou des populations (N).
Caractre : (Variable statistique) chaque individus peut tre tudi relativement un
ou plusieurs caractres.
Le caractre est laspect particulier que dsire tudier.
Ex : lge, sexe, taille..
Chaque caractre peut prsenter plusieurs modalits (ex : sexe fminin, masculin).
Modalits : les diffrentes manires dtre que peut prsenter un caractre.
Un caractre est qualitatif si ses modalits ne sexpriment pas par un nombre. Ex : sexe,
religion, couleur .
Il est quantitatif si ses modalits sont numriques.
Ex : ge, taille, poids .

Il peut tre discret (discontinu) quand il prend des valeurs isoles (bien fini) ex : nbre
denfants dans une famille.

Ou bien continu sil peut prendre toute valeur appartenant un intervalle de variation
ou lorsque les valeurs possibles de ce caractre sont des nbres rels ] -, + [ ex : la
taille dun nouveau-n.

Ex : supposant quon va faire une tude sur les tudiants de luniversit de Tiaret pour
connatre le sexe, lge au 1er septembre, la taille, la masse.

Identifier la population, les individus, les variables statistiques (caractres) et leurs


modalits.

Solution :
Population : Tous les tudiants de luniversit de Tiaret.
Individu : Tout tudiant inscrit au 1er septembre.
Caractres :
X = sexe.
Y = ge au 1er septembre.
U = Taille (cm).
V = masse (kg).
Modalits :
X = {masculin, fminin}.
Y = {18, 19, 30}.
U = [130, 210].
V = [40, 120].

I.2. Srie statistique (distribution des frquences) :


Ex : soit ltude de ltat civil de 40 employrs dune entreprise donne :
N = 40
X = reprsente la variable statistique (tat civil).
On admet pour X = {mari, divorce, clibataire, veuf}.
X = {x1, x2, x3, .}.
Pour chaque modalit xi on calcul le nbre dindividus ayant cette modalit partir
des donnes brutes.
On note ce nombre par ni et lappel frquence absolue (ni).

Frquence relative (fi)

Modalit (xi)

Frquence absolue (ni)

0,5

Mari (x1)

20

0,27

Clibataire (x2)

11

0,15

Divorce (x3)

0,07

Veuf (x4)

(xi, ni) = srie statistique.


A chaque modalit xi on associe une frquence ni ; lensemble des couples (xi, ni) est
une fonction quon nomme distribution des frquence de x ou srie statistique.
{(mari, 20), (clibataire, 11), (divorc, 6), (veuf, 3)}.

a Srie statistique dans le cas dun caractre quantitatif discontinu :


En considrant un chantillon de taille n (compos de n individus) et appelant X la
valeur dun caractre donn avec des modalits x1, x2, ., xn ; on a :
Leffectif total de la srie est le nbre n lments de lchantillon tudi.
La frquence absolue (ni) : est la rptition de la modalit xi, n fois dans la srie statistique.
La frquence relative :
n

n
fi = i
N

=1

i =1

Pourcentage = fi 100.
Ex : On a rparti 150 grenouilles suivant le nbre de parasiter quelles hbergent.
nbre de parasite/grenouille

Nbre de grenouille correspendant ni

Frquence relative fi

11

0,07

22

0,14

45

0,30

40

0,26

19

0,12

11

0,07

0,01

150

b- Srie statistique dans le cas dun caractre quantitatif continu :


A fin de permettre une tude exacte et dviter une rpartition de frquence trop
disperse, en constitue des classes en divisant ltendue de la srie statistique en un certain
nbre dintervalles partiels gale ou ingale.
Chaque classe contiendra toutes les valeurs gales ou suprieures sa limite infrieur
mais strictement infrieur sa limite suprieur.
Les classes ne doivent jamais se chevaucher.
Ex ; poids des nouveaux ns (2,240 kg 4,490 kg).

Classe

Limites de la classe

Entre de classe

Effectif fq absolue

fr relative fi

[2,2 2,5[

2,350

0,031

3,1

[2,5 2,8[

2,650

11

0,068

6,8

[2,8 3,1[

2,950

24

0,148

14,8

[3,1 3,4[

3,250

40

0,248

24,8

[3,4 3,7[

3,550

42

0,259

25,9

[3,7 4[

3,850

20

0,124

12,4

[4,0 4,3[

4,150

13

0,080

[4,8 4,6[

4,450

0,037

3,7

161

100

c- Srie statistique dans le cas dun caractre qualitatif :


Pour reprsenter les rsultats dune srie statistique relative un caractre qualitatif,
on groupe les rsultats en un nbre de classe gal au nbre de modalit du caractre tudie.
A chaque classe est associ son effectif ni (fq absolue) ainsi que sa fq relative fi.
Ex : analyse du sang 100 individus.

Groupe sanguin xi

Frquence absolue ni

Frquence relative fi

40

0,40

40

43

0,43

43

12

0,12

12

AB

0,05

100

100

I.3. Prsentation graphique des sries statistiques :


a- Caractre discret :
a-1. Diagramme en btons : Cest un ensemble de bton.
Ex : On fait la prsentation graphique de lexemple prcdent (150 grenouilles).

ni

45
40

22
19
11
2
0

xi

Cest un ensemble de bton ayant pour abscisse les valeurs x1, x2, x3, du caractre
et en chacun des points dabscisse xi correspond une cordonne proportionnelle leffectif ni
de xi.
a-2. Polygone des frquences : On obtient le polygone des frquences en joignant par des
segments droits les extrmits des btons, cest un graphe linaire passant par des points ayant
pour abscisse xi et pour coordonns ni.
ex : le mme exemple des grenouilles.

ni

45
40

22
19
11
2
0

xi

a-3. Diagramme cumulatif : On appelle leffectif cumulatif jusqu la 1re valeur xi du


caractre la somme n1 + n2 + ..+ ni des effectifs obtenus pour les 1re valeurs du caractre
de mme la frquence relative cumulative.
Ex : Prenons le mme exemple (celui de 150grenouilles).

ni

ni cumule

fi

fi cumule

11

11

0,07

0,07

22

33

0,14

0,21

45

78

0,30

0,51

40

118

0,26

0,77

19

137

0,12

0,89

11

148

0,07

0,96

150

0,01

0,97

Effectif
cumule

150
148
137
118

78

53

11
0

xi

b. Caractre continu :
b.1. Histogramme : Cest un ensemble de rectangles ayant pour largeur lamplitude (tendu)
de la classe et pour hauteur leffectif de la classe.
Ex : Prnoms lexemple de poids des nouveaux-ns.

ni

42
40

24
20
11
6
5
1,9

2,2

2,5

2,8

3,1

3,4

3,7

4,3

4,6

4,9 xi

Les variables alatoires


Introduction : On a dj vu la variable statistique qui concerne ltude dun caractre
quantitatif sur les individus dune population, cette tude est mene dun point de vue pratique
ou exprimental, cette fois-ci on va voir la variable alatoire qui a une certaine analogie avec
la variable statistique ce pendant la variable alatoire concerne ltude du mme sujet mais en
plus du point de vue thorique.

Dfinition : Cest une fonction dun ensemble S dans R :


X : s R

si x(si)

S
X

si
2(si)

Autrement dit cest un processus par le quel on associe tout lment de S un nombre rel.
Ex : on lance une pice de monnaie 3 fis daffils, alors la variable alatoire (VA) X
reprsentant le nbre de cot face obtenu.

fff
ffp
fpf
pff
fpp
pfp
ppf
ppp

R
3
2
1
0

On dit alors que X est une VA pouvant prendre les valeurs 0, 1, 2, 3, il est possible dimaginer
dautres VA de la pratique.

Ex :
Caractre

VA associe

Elve de classe

Taille

Taille en Cm

Etudiants

Sexe

Sexe cod 0 et 1

Participation au marathon

Rythme cardiaque

nbre de battement ^par min


larrive

Type de variable alatoire : A lgard de la variable statistique on distingue 2 types de VA :


1- VA discrte : si lensemble de valeurs quelle peut prendre est un nbre fini et
dnombrable, on parle de VA discrte.
Ex : exemple prcdent pice de monnaie.
2- VA continue : qui est susceptible de prendre toutes les valeurs numriques dun
intervalle donn.
Ex : taille.
Traitement de VA discrte : pour cerner le comportement dune VA, il ne suffit pas prciser
lensemble des valeurs quelle peut prendre, il faut en plus savoir associer une probabilit
chacune de ces valeurs, ce qui nous permettra de passer au calcul de valeur caractristique et
lattacher une variable.
Fonction de probabilit :
Dfinition : la fonction de probabilit dune VA X est la fonction f qui associe
chaque nbre rel x la probabilit que la variable X prenant cette valeur x :
f : R [0, 1]

f : R (Xi, p)

X f(n) = p(X =x).

Ex : lexemple prcdent
f(x = 0) = p(X=0) = 1/8

car x = 0 correspond lvnement [ppp].

f(x = 1) = p(X=1) = 3/8

car x = 1 correspond lvnement [fpp, pfp, ppf].

f(x = 2) = p(X=2) = 3/8

car x = 2 correspond lvnement [fpf, ffp, pff].

f(x = 3) = p(X=3) = 1/8

car x = 3 correspond lvnement [fff].

La fonction de probabilit est la suivante : (tableau I)

Xi

F(Xi)

1/8

3/8

3/8

1/8

Distribution de probabilit :
Si X prend x1, x2, x3, .. xn et pour chaque Xi on a une probabilit P [0, n] donc le
tableau des couples f(xi) = p(X=xi) forme ce quon appelle la distribution de la probabilit
(tableau I)

f(xi)

3/8
2/8
1/8

xi

La distribution de probabilit dune VA discrte se prsente graphiquement par un diagramme


en colonne sur laxe horizontal on note des ralisation de x et sur laxe vertical on prend les
probabilits f(x) associes chacune des valeurs.
Lorsque lensemble des ralisations dune fonction alatoire discrte est suffisamment grande
la reprsentation graphique dune fonction de probabilit se fait en utilisant un histogramme
ou un polygone de probabilit.

f(xi)

Polygone de probabilit

xi

Fonction de rpartition : (distribution de probabilit cumule)


La fonction de probabilit ou distribution indique pour chaque ralisation xi une
probabilit xi f(xi)=p=(X=xi) dans certaines situations il serait intressant de connatre la
probabilit de 2 ou plusieurs ralisations, il se fait alors de cumuler les probabilit pour
obtenir les rsultats dsirs.

Ceci conduit dfinir une distribution de probabilit cumule que lon appelle
fonction de rpartition.
Si X est une VA discrte ayant une fonction f(xi), on dfinie une fonction de
rpartition

F(Xi) = P (X < xi)


= f(x1) + f(x2) + + f(xi).

xi

f(xi)

F(Xi)

1/8

1/8

3/8

4/8

3/8

7/8

1/8

8/8

La reprsentation graphique dune fonction de rpartition dans le cas dune VA discrte


sappelle une courbe de distribution de probabilit cumule, elle a la forme dune fonction
en escalier.

F(xi)
1
3/8
2/8
1/8

xi

De la dcoule quelque proprits :

La fonction de rpartition F(xi) prend ses valeurs dans lintervalle [0, 1] ;

f(a) = 0

si

a < xi est la plus petite ralisation ;

f(a) = 1

si

b xi est la plus grande ralisation ;

F(xi) est constante entre 2 ralisations ;

F(xi) est croissante ;

P (a < x b) = F(b) F(a), c--d la probabilit que la VA X prend des valeurs


suprieures un nbre a et infrieur b est donne par la diffrence entre la
fonction de rpartition valu en b et F(xi) en a :

Exemple :
Dans lexprience alatoire consistant lancer 2 ds, on considre la VA X : somme des
rsultats des 2 ds.
Construire un tableau de distribution de probabilit ?
Trouver la fonction F(xi)
Tracer la courbe de distribution de probabilit cumule
Trouver les probabilits suivante : p(4 < x 8), p(2 x < 5), p(x 9).

Solution :
Lensemble de ralisations de x = {2, 3, ... 12}.
f(2) = p(x = 2) = p ({1,1}) = 1/36
f(3) = p(x = 3) = p ({1,2},{2,1}) = 2/36
.
.
.
f(12) = p(x = 12) = p ({6,6}) = 1/36

xi

F (xi)

F(xi)

1/36

1/36

2/36

3/36

3/36

6/36

4/36

10/36

5/36

15/36

6/36

21/36

5/36

26/36

4/36

30/36

10

3/36

33/36

11

2/36

35/36

12

1/36

F(xi)

1
35/36
33/36
30/36
26/36
21/36
15/36
10/36
6/36
3/36
1/36
0

P(4 < X 8) = F(8) F(4) =

10

11

12

26 6 20

=
36 36 36

P(2 < X 5) = p(x = 2) + p(x = 3) + p(x = 4) =

1
2
3
6
+
+
=
36 36 36 36

P(x 9) = p(x = 9) + p(x = 10) + p(x = 11) + p(x = 11) + p(x = 12) =
4
3
2
1 10
+
+
+
=
36 36 36 36 36
Ou :
P(x 9) = 1 - p(x 8) = 1- F(8) = 1

26 10
=
36 36

Caractristiques dune VA : une VA est dtermine entirement par sa fonction de


probabilit, mais il est toujours intressant de dcrire brivement une distribution de

xi

probabilits dune VA par quelques caractristiques simples. On a 2 types de caractristiques


qui sont de : position et dispertion.

a- Paramtre de position (tendance centrale) :


c\ code : cest la ralisation de x la quelle correspond la plus grande probabilit note
Mo.

c\ ldiane : cest la 1re ralisation de x pour laquelle la fonction de rpartition F(X)


dpasse note Me.

Esprance mathmatique : (moyenne) est la valeur moyenne dune VA x que lon note
E(X) ou est dfinie par :
E(X) = xi f(xi)
Exemple prcdent :

Mo = 7
Me = 7
E(X) = 7

Proprit de E(X) : sous forme de thorme


Thorme I : transformation
Si y = ax + b E(y) = aE(x) + b

Thorme II :
Si X est une VA et si = E(X)
E(X N) = 0 E(X - E(X)) = 0

Thorme III :
Si X et y 2 Va associes une mme exprience alatoire
E(X+y) = E(X) + E(y)

Thorme IV :
Si X et y sont des VA indpendantes c--d pour tout i, p(X = xi) ,
y = yi = p(X = xi) p(y= yi)
E(Xy) = E(X) E(y)

Thorme V :
Si y = g(x) fonction dune VA X alors y est aussi une VA dont
E(y) = E(g(x)) = g(xi) f(xi)

b- Paramtre de dispertion :
Etendu : est la diffrence entre la plus grande et la plus petite ralisation de X.
Ecart moyen : dune VA X est Em
Em = (xi E(n)) f(xi)

La variance : Var (X) = = (xi E(X)) f(xi)


Ecart type : =

(x

E (X)) .f (x i )
2

Ecart inter quantile :


Q=

Q 3 Q1
2

Proprets de la variance :
Thorme I :
Var(X) = E(X) E(X)

Thorme II :
Si y = ax + b transformation linaire de VA x
Alors Var(y) = a Var(X)

Thorme II :
Si X et y sont des VA
Var(X + y) = Var(X) + Var(y)

Variable centre rduite :


Une Va dont E(X) = 0 est dite VA centre.
Une VA dont Var(X) = 1 est dite VA rduite.
Une VA dont E(X) = 0 et Var(X) = 1 est dite Va centre rduite.
Pour toute VA x, la transformation linaire ;
Z=

Xn

( = t(X)) fait de Z une VA centre rduite.

Lois de probabilits
I- VA discrte : Parmi les loi de probabilit dune VA discrte, les plus importantes sont : la
loi binomiale, la loi de poisson chacune delles correspond un modle dexprience simple.

Loi binomiale : (Bernoulli)

On appelle une preuve de Bernoulli, une exprience alatoire qui ne comporte que 2
ralisations possibles, une appele succs et lautre appeles chec.
On note la probabilit dun succ p et lautre q
p + q = 1 q = 1- p.
Si on rpte n fois et dans les mmes conditions lpreuve de Bernoulli de sorte que la
ralisation de chaque preuve soit indpendante de la ralisation des autres preuves, alors la
VA x correspondant en nbre des succs enregistrs lors de ces preuves suit une loi Binomiale.
X (n, p)
Ex : Soit lpreuve A qui consiste jeter une monnaie 3 fois successives
VA x = nbre de pille obtenu
p : pile (succ)
q : face (chec)
VA x nbre de pille

Evnement

FFF

PFF
1

FPF
FFP

Loi binomiale :
p = (X = K ) = C Kn p K q n K

qqq = q3 = C3 p q3

pqq = pq

qpq = pq = 3 pq = C3p1q
qqp = pq

PFP

ppq = pq

qpp = pq = 3 pq = C3pq1
pqp = pq

PPP

ppp = p3 = C33 p3q

PPF
2

Probabilit

FPP

Xi

..

qn

C1n pq n 1

C 2n pq n 2

..

C Kn pq n K

C nn pq o

(p + q )n = C Kn p K q n K
K=0

Ex :
(p + q)3 = p3 + 3pq2 + 3 p2q + q3.

Proprits de la loi binomiale :


On note que la moyenne (esprance mathmatique) dune loi binomiale
m = np

et que

= npq = np(1 p)

ex : Un vendeur dautomobiles estime que le nbre dautomobiles vendu chaque semaine suit la
distribution de probabilit suivante :
si son salaire hebdomadaire est de 50 + une commission de 100 par automobile vendu.

Quel salaire hebdomadaire peut-il espre ?

Soit X la VA : nbre dautomobiles vendu par semaine et soit y sont salaire


hebdomadaire y = 100 X + 50

Calculer la var et lcart type de X et y.

Solution :
nbre dautomobiles vendu par semaine

Probabilit f(xi)

xi . f(xi)

x i

xi. f(xi)

0,05

0,07

0,07

0,07

0,08

0,16

0,32

0,09

0,27

0,81

0,16

0,64

16

2,56

0,20

25

5,00

0,15

0,9

36

5,40

0,10

0,7

49

4,90

0,05

0,4

64

3,20

0,04

0,36

81

3,24

10

0,01

0,1

100

1,00

Il peut dons esprer vendre 4,6 voiture par semaine

E(X) = xi . f(xi)

E(y) = a E(X) + b
= 100 (4,6) + 50
= 510

il peut donc esprer un salaire hebdomadaire de 510 .

Var (X) = E(X) E(X)


= 26,50 (4,60)
= 5,34

Var (y) = a Var (X)


= (100) . 5,34
= 53400
(X) = Var (X) = 2,31
( y) = Var ( y) = 231

Loi de poisson :
Dfinition : Une VA discontinue valeur K dont N suit la loi de poisson de paramtre
quand :
p(X = K ) =

K K
e
K!

>0

Cest une fonction qui dpend seulement de , cette loi nest quune approximation de la loi
binomiale quand :
n +

et

p 0.

E(X) = n p = ( est lesprance de la loi binomiale).


Donc si :
n+

p0
(n , p) p( )
E(X ) = np =

loi de poisson.

En pratique on considre sue p() est une approximation de la loi binomiale quand n 50 et
p< 0,1
0 < n p 10
Ex : on extrait 520 fois une carte dun jeu de 52 cartes.
Quelle est la probabilit dextraire 9 fois 1 (ase de pic) sur ces 520 fois preuves.
Solution :
N = 520

1
< 0,1
52
np = 10

p=

p ( X = 9) =

10 9 10
e 0,125
9!

La loi continue : (loi normale)


Jusqu maintenant on a envisag que les variables discrtes.
On a tudi le cas dune preuve pouvant conduire un nbre fini dvnements
distincts, chacun de ces vnements associes certaines valeurs une VA X correspond
une certaine probabilit P, il correspond des lois de probabilit discontinue il faut que la
somme des probabilits gal 1, il se peut que le nbre dpreuves n peut tre infini comme le
cas du poisson. Dans dautre cas la VA associe une preuve pouvant avoir une infinit
dventualit dans certains intervalle, donc on assiste ici un phnomne continu qui ne peut

tre expliqu que par une loi continue, la loi la plus connue cest la loi importance
considrable en statistique, elle est dfinie par une quation :

y = f (x) =

1
2

(X m)2
2 2

La loi normale est dfinie par ces 2 paramtres :


La moyenne et lcart - type donc (m, )
y = f(x)

1
2

m-

m+

A partir de la dfinition et de la reprsentation graphique on remarque :

Courbe en cloche (cloche de gauss),

La courbe est symtrique par rapport la droite verticale X = m ( la moyenne).

La courbe atteint son maximum

Le mode, la mdiane et la moyenne sont les mmes,

La courbe a 2 points dinflexion qui sont m - et m + ,

La courbe a un comportement asymptotique, elle stale indifinement en se la courbe

1
2

quand X = m,

est = 1,

E(X) = m, Var (X) = .

Comme cette loi est dfinie par m et donc la forme de la courbe dpend de m et .
- Si m charge la courbe se dplace horizontalement.

m1 < m2
1 = 2

m1

m2

- Si change la courbe se dplace verticalement.

m1 = m2
1 < 2

1
2
m

Calcul dune probabilit dans le cas dune loi normale :


Pour facilit le calcul de la probabilit, on a pens construire les tables donnant les
principales valeurs de l(intgrale de lquation de Gauss
b

p(a < X < b) = f ( x )dx =


a

1
2

( X m )
2

Cependant ces valeurs changent dune courbe normale une autre selon m et (impossible
davoir une infinit de table).
Pour contourner ce problme on a pens la loi normale centre rduit, en ramenant toutes
les courbes une seule.

Loi normale centre rduite : (CR)


VA Va CR
(m, )
X Z =

(0,1)
Xm

m = 0, = 1

a m X m b m
p(a < X < b) = p
<
<


b m
a m
= p
<Z<

f(x)
f(x)
b m
a m
p
<Z<

P(a<X<b)

am bm

a b m
X

(m, )

Z
(0,1)

f(x)

a b

am bm

On remarque que la trs grande partie de laire comprise entre cette courbe et laxe horizontal
stal entre les points dabscisse 3 et + 3 en consquence on peut ngliger toute surface
correspondant des valeurs Z lextrieur de cette intervalle.

-3 -2 -1 0 +1 +2 +3
0,6826
0,9544
0,9974

Conclusion : Pour valuer une probabilit en terme de surface sous la courbe de loi normale
centre rduire, on se sert dune table construite a cette fin .cette table donne exclusivement la
surface sous cette courbe a gauche de la valeur Z non ngative.
Elle donne la probabilit de Z dans un intervalle ] - , Z]
P(Z) ] - , Z]
Ex : Z = 1,35.
P(Z 1,35) = fZ (1,35) = 0,9115.

Evaluation dune aire gauche des valeurs Z :


P(Z z).
Si Z 0

p( Z z ) = FZ(Z) Elle se lit directement sur la table

Ex : P(Z 1,35) = FZ (1,35) = 0,9115


Si Z < 0

p(Z z) = FZ (-Z) = 1 F(Z).

Z
Z
Aire gauche de Z

are totale

Z
aire gauche de Z
Z symtrie de Z(Z= -Z)

P(Z< z) = 1 p(Z Z)
Ex : Z = -2,13
P(Z -2,13) = FZ (-Z) = 1- FZ(2,13) = 1 0,9834 = 0,0166.

Evaluation dune aire droite dune valeur Z :


Si Z 0

p( Z > z ) = 1 p(Z z)

Aire droite de Z

Ex :

aire totale

aire gauche de Z

p(Z > z) = 1 p(Z z)


p(Z > 0,56) = 1 p(Z 0,56) = 1 FZ (0,56) = 1 0,7123 = 0,2877

Si Z < 0

Z
Aire droite de Z

Z
aire gauche de Z

Ex : p(Z > - 1,75) = p(Z 1,75) = FZ (1,75) = 0,9599

Evaluation dune aire entre 2 points :


p (Z1 Z Z2)

Z1

Z2

Z2

Z1

p (Z1 Z Z2) = p(Z Z2) - p(Z Z1)


= FZ (Z2) - FZ (Z1)
Ex : p (-1 Z 1) = FZ (+1) - FZ (-1)
= -(1 - FZ (1)) + FZ (1)
= -1 + 0,8413 + 0,8413
= 2(0,8413) 1

Approximation de la loi binomiale par la loi normale :


(n,p)

(m, )

Si n est suffisamment grand et p 0,5 avec m = n p et


= n p q

Ex : Parmi les 100 prochains bbs natre :


Trouver la probabilit que lon compte :
-

au plus 60 filles.

Exactement 55 filles.

Solution :
X : nbre de fille parmi les 100
X

(100, )

n p = 100 = 50 > 10

loi normale.

= n p q = 100 = 25

60,5 50
p(X 60) = FX (60,5) = FZ
= F(2, 1) = 0,9821

55,5 50
54,5
p(X = 55) = p (54,5 X 55,5) = p
Z

5
p (0,9 Z 1,1) = 0,0484

Infrence statique
Nous sommes arrivs au stade o la statistique doit enfin servir claircir les dcisions
qui peuvent tre prise dans diffrents domaines, et ceux avec le plus de prcision possible.
Pour rpondre des questions de dcision il faut utiliser une procdure permettant
lacceptation ou le rejet dhypothse pose.
Cette procdure sappelle test dhypothse.
La confirmation ou linformation dune hypothse est toujours fait avec une certains
probabilit que lon voudra aussi forte que possible.

Dfinition de lhypothse : En pratique, on a 2 types dhypothse H0 et H1 et qui sont


exclusives.
H0 : hypothse nulle qui sera rejet, qui namne pas de changement et daction
entreprendre.
Ex :

H0 : personne innocente dun crime.


H1 : qui sappelle aussi hypothse alternative contre lhypothse qui sera

accepte lorsque H0 est rejete. Cest une hypothse qui amne un changement et qui
implique une action entreprendre H1 dans lexemple X est coupable.

Risque derreur et rgle de dcision :


Avant darriver accepter ou rejeter une hypothse, il faut tudier les processus
menant une dcision, pour tablir cette rgle de dcision il faut tenir compte de distribution
dchantillonnage de lestimateur (loi normale) du paramtre tudier et des risques derreur
que cette distribution entrane.
Logiquement on a 4 situations selon H0 soit varie ou fausse et selon quon accepte ou
on rejette.
Ralit
Dcision
H0 accepte
H0 rejete

H0 est vraie

H0 est fausse

Bonne dcision

Erreur de 2me espce

Erreur de 1re espce

Bonne dcision

Erreur de 1re espce = = p(H0 rejete / vraie).


Erreur de 2me espce = = p(H0 accepte / fausse).

Dans 2 de ces situations on prend une bonne dcision, on doit donc chercher faire en
sorte que les probabilits que ces 2 situations se produisent soit grande ou minimiser la
probabilit de commettre des erreurs.
On dit quon commet une erreur de 1re espce si on rejte H0 et que H0 est vraie, on
note par la probabilit de commettre une erreur de 1re espce.
On dit quon commet une erreur de 2me espce si on accepte H0 et que H0 est fausse,
on note par la probabilit de commettre une erreur de 2me espce.
Cette probabilit sappelle le niveau de signification du teste (seuil de
signification).
Gnralement est fixe lavance suivant la nature du problme (generalement on
prend = 5%)

I- Teste de conformit ou dajustement :


I-1. Comparaison dune rpartition observe une rpartition thorique (Teste du ) :
On veut savoir si une rpartition exprimentale est bien conforme une rpartition
thorique par le biais du test du .
Si on suppose que la rpartition de la population suit une loi thorique donne, on va
observer un cart en leffectif thorique de cette mme classe. Dans ce cas on amen a utiliser
la somme des carts quadratique entre leffectif observ et thorique.

(O

C i )

Ci

Oi : effectif observ ;

Ci : effectif thorique.

Le test de se fait selon les tapes suivantes :


-

On pose lhypothse nulle H0

H0 : il y a conformit entre la rpartition thorique et observ.


-

Il faut fixer lavance.

On calcul .

Au seuil et un degr de libert (ddl) n -1 gnralement.

On lit sur la table de thorique.

La condition sera ainsi :

a- observ thorique

H0 est rejete.

b- observ < thorique

H0 est accepte.

Remarque :
Pour appliquer , leffectif thorique par classe doit > 5 ; Ci > 5.
Ex : On a crois 2 races de plantes diffrentes ayant comme caractre A et B.
La 1re gnration est homogne
La 2me gnration fait apparatre 4 phnotypes : AB, Ab, aB, ab
Si les caractres se transmettent selon les lois de Mendel les proportions thoriques de
4 phnotypes sont :
9/16, 3 /16, 3/16, 1/16 mais , une exprience sur un chantillon de 160 plantes a
donne :
AB : 100

Ab : 18

aB : 24

ab : 18.

Cette rpartition est elle conforme aux lois de Mendel un seuil cde signification de
5% ?

Solution :
H0 : La rpartition observe est conforme aux lois de Mendel = 0,05.
Phnotype

AB

Ab

aB

ab

Total

9/16

3/16

3/16

1/16

Effectif

9/16 . 160

3/16 . 160

3/16 . 160

1/16 .160

thorique Ci

90

30

30

10

100

18

24

18

Proportion
thorique

Effectif
observ Oi

2
observ
=

2
observ

(O

C i )

Ci

160

160

(100 90) (18 30) (24 30) (18 10)


+
+
+
10
90
30
30

= 12,51

ddl = K 1 = 4 1 = 3
= 0,05
02, 05;3 = 7,815 (thorique, lu sur la table de ).
2
observ
> 2thorique H 0 est rejete au seuil de signification = 5%

ou bien H 0 est rejete au seuil de securit de 95%.

I-2. Comparaison dun % observ % thorique :


La comparaison entre le % p (proportion) observ sur un chantillon exprimental et le
% thorique p0 de la population de lchantillon. La comparaison est base sur lcart rduit

p p0

au seuil de signification 5 %.

p0q 0
n

Si < 1,96 2 la diffrence nest pas significative.


Si 1,96 la diffrence est significative au seuil de 5%.
Au seuil de 1 % :
Si < 2,576 2,6 la diffrence nest pas significative.
Si 2,576 la diffrence est significative.

Remarque : On peut faire cette comparaison avec le .


Ex : Une race de souris prsente des tumeurs spontanes avec un taux parfaitement connu soit
p0 = 20%.
Dans une exprience portant sur 100 souris, on observe 34 atteintes, soit p = 34%.
On demande si la diffrence entre p0 et p est significative.

Solution :

0,34 020

0,2 0,8
100

=3,50

= 3,5>1,96la diffrence est significative seuil de 5%


Appliquons le mme exemple en employant le X
Solution
Tumeur

Pas de tumeur

total

Effectif thorique Ci = np

20%

80%

100%

Effectif observe Oi

34%

66%

100%

% thorique P

20%

80%

100%

2
0 , 05

(O

Ci)

Ci

(34 20) (66 80)


+
= 12,25
20
80

= 0,841

Remarque : On remarque que le observ =


12,25 = (3,50)

lu

= t

0 , 05

3,841 = (1,96)
En effet la mthode de comparaison par lcart rduit et le test du sont absolument
superposables.

I-3. Comparaison dune moyenne observe une moyenne thorique :


Soit comparer un chantillon exprimental une population dont la moyenne m et lcart
type sont connus.
Prenant le cas o n > 30 (n grand chantillon).

population

N (m,

N(0,1)

t=

Xm
(variable de student)

n
H0 : m = m0

( = 5%)

Si t< 1,96 la diffrence nest pas significative


H0 est accepte.
Si t 1,96 la diffrence est significative
H0 est rejete.
Ex : On a prlev un chantillon de 100 paquets de tabac dans la production dune machine
paquets, la mesure du poids de ces paquets a donn une moyenne m = 369.
On demande si la moyenne observe est compatible avec lhypothse que la machine fabrique
en moyenne des paquets de m0 = 40g avec un cart type de 18g ( = 5%).

Solution :
X = 36, m 0 = 40
t=

X m 36 40
=
= 2,22

18
n

t> 1,96

100
la diffrence est significative.

La moyenne observe differt de la moyenne thorique au seuil = 5%.

II. Test dhomognit :


Supposant quon a 2 chantillons pris dans 2 endroits diffrents. Peut on considrer
que ces 2 chantillons proviennent de la mme population ou 2 populations diffrents.
Le principe de la comparaison consiste poser H0.
H0 : il ny a pas de diffrence significative entre les 2 chantillons on procde au test
au seuil de signification ou au seuil de scurit 1 - .
Si H0 est rejete cela signifie que les 2 populations sont diffrentes.
Si H0 est accepte : il ya 2 explications possibles :

Soit les 2 chantillons sont effectivement semblables.

Soit les 2 chantillons sont rellement diffrentes, mais la taille des


chantillons est insuffisante pour pouvoir mettre diffrence en vidence.

Pour pouvoir conclure que 2 populations sont identiques entre elles, il faut comparer
les paramtres qui les caractrisent tel que : la moyenne, la variance, %

II-1. Comparaison des moyennes avec le test dhomognit :


n1

Soit 2 chantillons : i1, i = 1,2,3,..,n1

X1 =

i1

i =1

n1
n2

i2, i = 1,2,3,..,n2

X2 =

i2

i =1

n2

Avant de comparer les moyennes X1 et X 2 , on tudie dabord lintersection des


intervalles de confiance des moyennes m1, m2.

n > 30 (grand chantillon)


Lintervalle de confiance IC :
IC : X1 t

ech1
n1 1

et

X 2 t

ech 2
n2 1

5 % t = 1,96
1 % t = 2,58

n 30 (petit chantillon)
IC : X1 t

ech1
n1 1

et

X 2 t

ech 2
n2 1

t : utiliser la table de student, , ddl = ni -1

3 cas peuvent se prsenter :

a- Intervalles de confiances disjoints :

X1

X
X21

On conclue quil y a une diffrence signification entre les moyennes des 2 populations.
IC (m1) IC (m2) = 0

b- Intervalles de confiances non disjoints :


X1

X2

X1 IC(m 2 )
X 2 IC(m1 )
Dans ce cas on conclue que la diffrence entre les 2 moyennes des 2 populations nest
pas significative.

IC(m1 ) IC(m 2 ) 0

c- Intervalles de confiance non disjoints :

X1

X2

X1 IC(m 2 )
X 2 IC(m1 )
Dans ce cas pour pouvoir conclure si les 2 moyennes des 2 populations nest pas
significative possde au test de comparaison des moyennes (utiliser le test de lcart
rduit )

IC(m1 ) IC(m 2 ) 0

n1 et n2 > 30

1- H0 : m1 = m2
Les 2 chantillons proviennent de la mme population
2- =

X1 X 2
2
ech
2
1
+ ech 2
n1
n2

3- Conclusion : au seuil de 5 %

1,96

on rejete H0.

< 1,96

on accepte H0.

Ex : Un chercheur a fait ltude sur 2 chantillons de souris quil a captures en 2


endroits diffrents, il a obtenu les rsultats suivants :
Echantillon 1 : n1 = 50

X1 = 51g

12 = 256g .

Echantillon 2 : n2 = 50

X1 = 45g

12 = 144g .

Ces souris appartiennent t-elles la mme population ?

Solution :
H0 : m1 = m2
-

IC (m1) ?

X1 1,96
51 1,96

1
n1 1
16

m1 X1 + 1,96

m1 51 + 1,96

49
m1 [46,4;56,6]

1
n1 1

16
49

IC (m2) ?

X 2 1,96
45 1,96

2
n2 1
12

m 2 X 2 + 1,96

m 2 45 + 1,96

49
m1 [41,6;48,4]

12
49

2
n2 1

X1
45,6

X2
46,4

48,4

56,6

X1 IC(m 2 )
X 2 IC(m1 )
51 45

256 144
+
50
50

= 2,48

Au seuil de 5 % : > 1,96

H0 est rejete.

Les 2 populations de souris sont diffrentes.

n1 et n2 < 30

H0 : m1 = m2 (les 2 chantillons appartiennent la mme population), le S2 (remplace ).


Il est mont quune bonne estimation de (cart type de la population) est fouurni par
S.

(X

S =

X1 ) + (X 2i X 2 )
n2

n1

1i

(n 1 1)(n 2 1)

2
2
n 1 ech
1 + n 2 ech 2
n1 + n 2 2

Au lieu de lexpression de lcart rduit on utilise le test de student :

X1 X 2

t=
S

1
1
+
n1 n 2

Conclusion : en comparant le t calcul avec t lu partir de la table de strudent avec


ddl = n1 + n2 2.

Si t > t la diffrence est significative : H0 est rejete les 2 chantillons


nappartiennent pas la mme population.

Si t < t la diffrence est significative : H0 est accepte les 2 chantillons


nappartiennent pas la mme population.

Ex : Dans les effets danesthsi, on compare les effets de 2 somnifres, on not les
dures de sommeil en minute qui ont suivi les injections dune dose bien dfinie.
Somnifre 1 : 170, 175, 187, 190, 165, 175, 174, 173, 181.
Somnifre 2 : 155, 160, 164, 150, 160, 159, 154, 156, 160, 167, 153, 158.

Solution :

X1 = 177

, n 1 = 10.

X 2 = 158

, n 2 = 12

t=

S = 38,4

177 - 158

= 7, 2
1
1
38,4
+
10 12
= 5%.
ddl = n 1 + n 2 2 = 10 + 12 2

(t t )

t 2,09

La diffrence est significative : H0 est rejete donc le somnifre 1 est efficace que le
somnifre 2.

II-2. Comparaison des % avec le test dhomognit :


Soient 2 chantillons X1 et X2 dont les quels le nbre dindividus possdant un certains caractre
A sont respectivement K1 et K2 do le % p1 =

K
K1
et p 2 = 2 .
n1
n1

Peut on considrer que ces 2 chantillons sont extrait dune mme population
H0 : p1 = p2
Comme dans le cas de test de comparaison des moyennes on tudie dabord lintersection des
intervalles de confiances des 2 chantillons.
IC : p1 t

p1 (1 p1 )
n1

= 5%

t = 1,96

= 1%

t = 2,6

p2 t

p 2 (1 p 2 )
n2

3 cas peuvent se prsenter :

p population

, p chatillon

a. IC disjoints :
p1

IC(p1 ) IC(p 2 ) = 0

p2

b. IC non disjoints :
p1

p2

p1 IC(p 2 )
p 2 IC(p1 )

IC(p1 ) IC(p 2 ) 0

Dans ce cas on doit faire le test en utilisant lcart rduit et on a 2 cas :


n1 et n2 > 30

, p1 et p2 pas trop voisin de 0 et 1.

p1 =

K1
n1

K 1 = n 1 p1

p2 =

K2
n2

K 2 = n 2p2

Au total : K1 + K2 = n1p1 + n2p2 dindividus qui portant le caractre A dans les 2


chantillons.
On estime le % moyen du caractre A entre les 2 chantillons

p=

n 1 p1 + p 2 n 2
n1 + n 2

1. H 0 : p 1 = p 2
2. =

p1 p 2
1
1
p(1 p ) +
n1 n 2

3. Conclusion : = 5%.

Si 1,96 la diffrence est significative : H0 est rejete les 2 chantillons


nappartiennent pas la mme population.

Si < 1,96 la diffrence est significative : H0 est accepte.

Ex : Pour dceler la prsence dune maladie M chez un individu, on peut utiliser 2


tests diffrents, 2 sries dobservations ont t faites.
1re test : sur 300 personnes prsentant effectivement la maladie M le test 1 a dcel la
prsence de la maladie chez 243 individus.
2me test : sur 200 autres malades, le test 2 a dcel la prsence de la maladie chez 152
individus.
Peut on admettre que les 2 tests ont un pouvoir de dtection sensiblement gal ?

Solution :
Echantillon 1 : n1 = 300

p1 =

K1 = 243.

K2 = 152.

K 1 243
=
= 0,81
n 1 300

Echantillon 2 : n2 = 200

p2 =

K 2 152
=
= 0,76
n 2 200

IC(p1 ) = ?
0,81 1,96
IC(p 2 ) = ?

0,81 0,19
0,81 0,19
p1 0,81 + 1,96
300
300

0,76 0,24
0,76 0,24
p 2 0,76 + 1,96
200
200
IC(p 2 ) = [0,70;0,82]

0,76 1,96

p1

0,70

0,77

p2

082

0,85

On doit faire le test

p=
=

K 1 + K 2 152 + 243
=
= 0,79
n1 + n 2
500
0,81 0,76
1
1
0,79 0,21
+

300 200

= 1,35

Conclusion :
= 5%
< 1,96 H0 est accepte, les 2 tests ont un pouvoir de dtection sensiblement gal.

III. Test dhomognit de plusieurs chantillons :


Soit plusieurs chantillons deffectifs n1, n2, n3,.., nm on va sintriser au %
dindividus portant un caractre A.

p1 =

K1
K
K
, p1 = 1 ,.........., p m = m
n1
n1
nm

q1 =

n1 K1
n K2
n Km
,q2 = 2
,.........., q m = m
n1
n2
nm

Tableau des effectifs exprimentaux :

Prsence caractre A

Absence du caractre A

Total

Echantillon 1

K1

n1 - K1

n1

Echantillon 2

K1

n2 K2

n2

K1

nm Km

nm

.
.
.
.

Echantillon m

Le problme se pose comme suit :


Peut-on considrer que ces chantillons sont extraits dune mme population ou de population
divers ?
H0 : les chantillons proviennent de la mme population.

p0 =

K 1 + K 2 + ........... + K m
n 1 + n 2 + .......... + n m

(la probabilit globale de la population).

Ci = n i p 0
ech 1 C1 = n 1 p 0

M
ech m C m = n m p 0

Tableau des effectifs thoriques :

Prsence caractre A

Absence du caractre A

Total

Echantillon 1

C1 = n1p0

n1 C1

n1

Echantillon 2

C2 = n2p0

n2 C2

n2

Echantillon m

Cm = nmp0

nm C m

nm

Le problme pos peut tre ramen un test de conformit dune rpartition exprimentale
une rpartition thorique.
Effectif exprimental : K1, K2,., Km.
Effectif thorique : C1, C2,., Cm.
A partir de a on peut calculer le .

ddl = m 1

(K

C i )

Ci
(m : nbre dchantillon)

Si < H0 est accepte.


Si H0 est rejete.

= 5%.

Ex :
Une maladie est traite dans 4 hpitaux, en appliquant dans chaque hpital un
traitement diffrent, on a trouv les observations suivantes :

Cas de gurison

Cas de non

Nbre total des

gurison

malades traits

% de gurison

Hpital 1

123

28

151

81,4

Hpital 2

95

19

114

83,3

Hpital 3

152

63

215

70,6

Hpital 4

132

53

185

71,3

total

502

163

665

75,6

Peut-on considrer que lefficacit des 4 traitement est la mme ? = 5%.

Solution : H0 : lefficacit des 4 traitements est la mme


p0 =

502
= 0,756
665

Cas de gurison

Cas de non

Nbre total des

gurison

malades traits

% de gurison

C i = ni p0

ni - C i

Hpital 1

144

37

151

75,6

Hpital 2

86

28

114

75,6

Hpital 3

162

53

215

75,6

Hpital 4

140

43

185

75,6

total

502

163

665

75,6

(123 144) + (95 86) + (152 162) + (132 140) + (28 37) + (19 28) + (63 53)

144
(53 48)
+
48
= 11,11

86

162

140

37

28

53

m = 4 1 = 3
02, 05;3 7,82
2 <
1-

donc H0 est rejete, il y a une diffrence significative entre les 4 traitements.

=5%

diffrence significative (S).

=1%

diffrence hautement significative (HS).

2- T1 T2 T3 T4
3- T2 > T1 > T4 > T3

IV- Test de comparaison des variances :


H 0 : 12 = 22 on utilise :
1- teste de Fischer snedecor :

Fobs =

Fobs

12
22

12 =

(x

SCE 1
n 1
= 1
SCE 2
n2

F lu partir de la table de Fischer.


Fobs > F H0 est rejete.

X )

SCE
(chantillon )
n

2- Test de Bartlett :
H 0 : 12 = 22 = .............. = 2p

(n p) log 2 [(n 1) log i2 ]


p

2
obs
=

i =1

1+

1
1
1

3(p 1) i =1 n i 1 n p

SCE
np
SCE i
i2 =
ni 1

l' ensemble des chantillons

V- Test dindpendance :
(Analyse bivarie, statistique bivarie).
5.1 Variable alatoire caractre qualitatif :
5.1.1 Comparaison de plusieurs rparations observes :
Dans les tests prcdents le consistait gnralement trouver si une distribution
observe differt dune distribution thorique connue.
Nous allons utiliser le test pour comparer entre elles, des distributions relatives
plusieurs chantillons afin de dterminer si les diffrences observes sont significatives.
Dans ce cas les donnes figurent en gnral dans un tableau double entre (r,l).
Ce tableau constitue une distribution deffectifs associs 2 variables.

Classes
Echantillons

Classe 1

Classe 2 .. Classe r

Total

Ech 1

O11

O12

O1r

n1

Ech 2

O21

O22

O2r

n2

Ech l

Ol1

Ol2

Olr

nl

Total

Le test dindpendance se fait selon les tapes suivantes :


1- Poser H0
H0 : les variables qualitatives sont indpendantes.
2- Dans lhypothse dindpendance, on calcul partir du tableau de contingence, pour
chaque case on calcul leffectif thorique qui test le produit du total des effectifs
observs de la ligne i(ni) par le total des effectifs observs de la colonne j(nj) devis
par leffectif total n.
C ij =

ni n j
n
O ij C ij

(
=

C ij

ddl = (l 1)(r 1)
Il faut lire le dans la table
H0 est rejete : il y a une dpendance entre les variables.
< H0 est accepte : il y a une indpendance entre les variables.

Remarque : Tout les effectifs sont > 5.


Ex : Afin de dterminer sil y a indpendance entre les groupe sanguins et le sexe, on a
examin 976 individus prlevs au hasard et on a trouv les rsultats suivants :
= 5 %.
G.S

AB

Total

Homme

25

215

200

60

500

Femme

15

207

194

60

476

Total

40

422

394

120

976

Sexe

Solution :
H0 : il existe une indpendance entre les groupes sanguins et le sexe.

G.S
Sexe

AB

Total

Homme

20,49 216,18 201,84 61,47

500

Femme

19,50

205,8

476

Total

40

422

192,15 58,52
394

120

976

2
2
2
2
2
(
(
(
(
(
25 20,49)
215 216,9)
200 201,84)
60 61,47)
15 19,51)
=
+
+
+
+

20,49

(207 205,81)
205,81

216,9

(194 192,15)
192,15

201,84

(60 58,52)

61,47

19,51

58,52

= 2,154
ddl = (4 1)(2 1) = 3
< H0 est accepte entre les G.S et le sexe il existe une indpendance.

5.1.2 VA quantitative :
Dans ce cas ltude statistique porte simultanment sur 2 ou plusieurs variables caractre
quantitatif, le problme est de dterminer sil existe une liaison (corrlation) entre les
variables pour un m^me individu.
Les variables pour un mme individu.
(Lobjectif est de trouver cette corrlation).
Dterminer une corrlation entre 2 VA revient caractriser leur egr de dpendance par
un coefficient numrique.

Liaison fonctionnelle linaire


(dpendance)

x
Liaison non fonctionnelle linaire
(x de dpendance)

y = ax + b

x
Liaison fonctionnelle
exprimentale

Rgression simple
On chercha trouver une liaison mathmatique entre la variable y et x.
y=ax+b

model dterministe.

y = a x + b+

model stochastique (probabiliste).

Notre objectif est de dterminer le model stochastique


Y = a X + b + avec lhypothse que = 0.
y = f(x) +
Y=aX+b+

= 0
X = {x1, x2, ., xi}
Y = {y1, y2, ., yi}
= {1, 2, .., i}
Dterminer le modle revient dterminer les constantes a et b cest lobjectif de la
rgression simple.

Remarque : Elle est dite simple parce que Y est expliqu par un seul caractre (Variable)
X.
y

y=ax+b

yi
yi*

xi

e = y i y *i = 0

(y

)
(y y ) = 0
i

(y

y*i
*
i

ax i b ) = 0

soit le minimum possible (mthode des moindres carrs).

y ax b = 0
i

a x i Nb = 0

a x i = Nb b =

N : taille de lchantillon

N
b = y aX

X : moyenne de la variable X
Y : moyenne de la variable Y

(y

) (y

y *i =

axi b)

(y axi y + ax )
= [(y y) a (x x )]
i

a=

(y y)(x x )
(x x )
(y y)(x x )
i

a=

N
(x i x )

Cov(x , y )
Var (x )

N
Ex : soit un chantillon avec la distribution suivante :

xi

10

12

14

yi

11

14

18

20

23

Rgression de second degr :


Quand lallure du nuage de point semble tre une parabole, on a 1000 raison de penser que
model de rgression sera une quation du 2me degr de la forme
y = ax + bx + c

En appliquant la mthode des moindres carrs, on dtermine les constantes a, b et c.

(x x ) (x x )(y y)
[ (x x )] N (x x)
(x x )(y y)
b=
(x x )

C=

a=

N.C
(x i x )

Et de la mme faon, on tablit le model exponentiel, logarithmique., cet effet il est


conseill avent de procder au calcul de la rgression de faire une prsentation graphique
afin de choisir le model de rgression convenable (parabolique, logarithmique).

Apprciation de lintensit de la rgression linaire : coefficient de corrlation :


Lintensit entre les variations de x et celles de y est mesure par le coefficient de

corrlation

qui est un thme sans dimension il est exprim en % quil est

-1 < Coefficient < +1 c--d [-1, +1].

y
y = -ax + b

y = ax + b

r=

Cor (x , y )

Var (x ).Var (y )

(x
(x

x )(y i y )

x ).(y i y )

Cor (x , y )
x . y

r : Coefficient de corrlation vaut +1, -1 dans le cas dune liaison fonctionnelle, il vaut 0
dans le cas contraire donc il y a une indpendance entre X et Y pas de corrlation
r = 1, r = -1 il y a une dpendance entre X et y de liaison.

Remarque : Dans la pratqieu on utilise non pas le r mais r dans ce cas r est positive
[0,1] par fois r est appel coefficient de dtermination.
Ex : Trouver pour lexemple prcdent :

r=

Cor (x , y)

Var (x ).Var (y)

r = 0,99

Celui la veut dire que 99% de la variation y est explique par la variation de X ou bien, on
peut dire que 99% de la variation de X est explique par le model de rgression suivant
Y= 1,32 x + 4,5.
Les 2 variables x, y sont corrles mais attention cette corrlation doit subit le test de
signification pour quelle soit accepte.
Une bonne corrlation nimplique pas toujours un bien de causalit.

Teste de corrlation :
H0 : r = 0
Notre objectif est de tester si le r retrouv differt significativement d 0 .
A laide de t =

r
1 r2

n2

A partir de cette formule on a calcul la table de signification du coefficient de corrlation


r diffrents seuil de signification et ddl = n 2
Ex : A partir dun chantillon de 37 individus on a calcul le r = 0,28
Est-ce que r differt significativement de 0 au seuil de 5% ?

Solution :
H0 : r = 0
ddl = 37 2 = 35
A partir de la table 6 et a = 5% avec ddl = 35 on a lu r = 0,3246
r < r (0,28 < 0,32) H0 est accepter r nest pas significatif pour conclure une
dpendance entre les 2 variables.
Les 2 variables sont compltement et ne peuvent tre corrles mme = 1% r = 0,41.

Remarque :
-

Pour avoir une bonne corrlation qui est significative il faut que lchantillon soit
grand.

On peut utiliser la table 6 pour avoir la taille minimale n qui doit avoir
lchantillon afin darriver une corrlation significative pour quelconque.

Parmi les conditions importantes pour la rgression ou lanalyse statistique, la


distribution de lchantillon doit suivre une loi normale.

Et il faut que la variance soit constante durant toute lexprience.


Gnralement on a une loi normale quand n est suffisamment grand.
Dans le cas o la distribution ne suit pas une loi normale il est utile que les coefficients
de corrlation doivent tre normalis par la transformation de Fischer

(1 + r )
Ln (1 + r ) Ln (1 r ) 1

= Ln
(1 r )
2
2
2
1+ r
et Z = 1,1513Log
1 r
Z = Arg thr
Z=

Sil nexiste aucune liaison fonctionnelle entre xi et et yi on dmontre que la variable Z


suit une loi normale

1
0,
.

N 3
En choisissant un risque derreur , on peut dterminer un intervalle Z [ Z/2, Z1-/2].

1
0,

N 3

Z
Z/2
Liaison
fonctionnelle

Z1-/2
Pas de liaison
fonctionnelle

Liaison
fonctionnelle

Si Z [Z / 2 , Z1 / 2 ] aucune liaison fonctionnelle

pas de corrlation.
liaison fonctionnelle

Si Z < Z/2 ou Z > Z1- /2

le test est significatif


Ex : n = 4

r = 0,97.

Le plus proche cest 0,96986 0,97


Donc Z = Arg th 0,97 = 2,09 [tabule]
0,09 + 2,0 = 2,09

Z0
Z0
Z = t S
=
1
S
n3
si = 5% t = 1,96 Z[ 1,96;+1,96]
t=

si = 1% t = 2,58 Z[ 2,58;+2,58]

si = 5% Z[ 1,96;+1,96] liaison fonctionnele


si = 1% Z[ 2,58;+2,58] pas de liaison fonctionnele

Prcision de la corrlation :
Lvaluation de la prcision dune corrlation consiste dterminer lintervalle de
confiance (IC) des valeurs estimes par y par le model de rgression (Ex : y = a x + b)
avec un risque derreur .
IC se calcul comme suit :

y = y i t VR
VR =

1- r

y)

N2
1 - r y i Ny
2

VR =

(y

(VR : varience)

N2

P(yi-y) = p(E)

cart de la corrlation

N(0, VR )

y
1,96 VR

+ 1,96 VR

= 5% y
+ 1,96 VR
Y=a x + b

1,96 VR

Test dgalit de deux coefficients de corrlation :


Pour des effectif n1 et n2 suffisamment levs, le test dgalit de 2 coefficients de
corrlation tre ralis par la mthode de lerreur standard grce la transformation
Z = Arg thr
H0 : r1 = r2

obs =

Z1 Z 2
1
1
+
n1 3 n 2 3

H0 doit tre rejet au niveau lorsque :


obs 1,96 ( = 5%)
Pour chantillons de mmes effectifs n1 = n2 = n3

obs =

Z1 Z 2
n3
2

Ex : On cherche une corrlation entre la teneur en C et en N du sol, en 2 endroits


diffrents on a prlev 10 chantillons du sol dont on a dos le C et le N, on a trouv
r1= 0,349 ; r2 = 0,827. On demande si ces 2 rsultats diffrents significativement lun
de lautre.
H0 : r1 = r2
Z1 = 0,3643

obs =

Z2 = 1,1784

0,364 1,178
7
2

[tabule].

= 1,52

obs 1,96 H0 est accepte pour = 5%.

Question : Quest ce quon va prendre r1 ou r2 ?

Test dgalit dans le cas de plus de 2 coefficients :


Dune manire plus gnrale, on peut tester lhypothse dgalit de p coefficients de
corrlation.
(H0 : r1 = r2 = . = rp)
En faisant appel au distribution

(n

= (n i 3)(Z i Z)
p

2
obs

avec Z =

i =1

i =1
p

(n

3)Z i
i

3)

i =1
2
On rejet lhypothse nulle lorsque obs
est trop lev

2
2
obs
> ddl

avec

ddl = p 1

Lorsque les effectifs sont gaux n1 = n2 = .. = np = n la valeur


2
obs
= (n 3) (Z i Z)
p

i =1

La moyenne Z est alors la moyenne arithmtique simple des Zi est gal


Z1 + Z 2 + ................... + Z n
n
Ex : Quatre emplacements diffrents ont t tudis et en chacun deux 10 chantillons
de terre ont t prleves, le dosage de C et N conduit lobservation des 4 valeurs
suivantes
R1 = 0,349

r2 = 0,827

r3 = 0,667

, r4 = 0,807

Est-ce que les rsultats diffrent significativement ?

Solution :
H0 : r1 = r2 = r3 = r4
Z = 0,8666
Z1 = 0,3643

Z2 = 1,1784

Z3 = 0,8054

Z4 = 1,1183

2
obs
= (n 3)SVE Z = (10 3).0,4166 = 2,92

dll = 4 1 = 3

et

= 5%

= 7,81
2

2
02, 05;3 > obs
H0 est accepte au seuil de 5%.

Remarque importante :
Quand une hypothse dgalit de 2 ou plusieurs coefficients de corrlation est
accepte des problmes peuvent se poser tel que la recherche dune estimation
commune de coefficient de corrlation et des limites de confiance correspondante. La
meilleure estimation est obtenu par lintermdiaire de la moyenne pondre des
valeurs transformes Z .

r =

e 2Z 1
e 2Z + 1

coefficient de corrlation commune.

Les limites de confiance correspondantes peuvent tre calculs.


Comme dans le cas gnrale mais la place de lerreur standard

1
n 3p
Z1 = Z

1
n 3

on utilise

et notre intervalle de C sera [Z1, Z2]

t
n 3p

Z2 = Z +

t
n 3p

n = n i = effectif total des diffrents chantillons.


Ex : Rponse de la question prcdente.
e 20,866 1
= 0,70
= 5%
e 2 0,866 + 1
1,96
Z1 = 0,866
= 0,492
40 3 4
1,96
Z 2 = 0,866 +
= 1,237
40 3 4
r1 = 0,46
r2 = 0,84

r =

Les limites de confiance correspondantes sont approximativement pour un degr de


confiance 95 %.

Rgression multiple
NB : Lorsque H0 est rejete donc on doit faire la comparaison multiple des moyennes.
Ex : r1 r2 r3 r4, lorsque H0 est rejete et on a r1 et r2 on prend r le plus lev.
Dans le cadre dune rgression on a vu la corrlation se fait entre 2 variables mais en
pratique cela ne suffit pas car la majorit des variables dpendent de plus dun facteur
ou dune variable.
Si on dsigne par y le rendement agricole dune culture y = R dt il est vident que ce
rendement dpend de plus dun facteur dont on peut citer : les engrais (X1), eau (X2),
climat (X3), .Xn
y = 0 + 1X1 + 2X2 + .+ nXn
X1, X2, X3, .., Xn : variable
0, 1, 2, .n : coefficient de rgression.
Le principe consiste dterminer 0, 1, 2, .n la dtermination de coefficient
de rgression (i) se fait sur la base des donnes empriques des variables tudies par
la mthode des moindres carrs.
Ex :

X : ge de la mre
y : poids du bb la naissance.
Z : rang de la naissance.

On doit fixer par exemple Z pour trouver la relation entre Z, y, X on peut fixer
nimporte quelle variable X, y ou Z.

Coefficient de corrlation partielle :


Si on prend lexemple prcdent
n = 200

rXy = 0,24

ryZ = 0,28

rXZ = 0,60

Le poids la naissance est donc li positivement dune part lge de la mre et


dautre part au rang de la naissance, mais ces 2 variables elles mmes sont trs lies, leur
liaison vidente priori est chiffre par le coefficient de corrlation rXZ = 0,60 qui est trs
significative. Il est donc intressant de connatre le rang relatif des variables X et y : pour des
naissances de mme rang le poids est ip en cor li lge de la mre ? et pour des mres dge
donn le poids est-il li au rang de naissance ?
On pourrait rpondre ces questions en examinant les sries de naissance dun rang
donn (Z = 1 les premiers ns) donc on peut calculer le coefficient de corrlation entre le

poids la naissance et lge de la mre puis des sries correspondantes un mme ge de la


mre et en calculant le coefficient de corrlation entre le poids et le rang de naissance mais il

nest pas ncessaire de recourir de telle srie car on peut partir de 3 coefficient de

corrlation rXy, rXZ, ryZ estimer les coefficient corrlation partielles par les formules
suivantes :
1- Matrice de corrlation :
X

rXy

rXZ

rXy

rXZ

rXZ

rXy

2- coefficient de corrlation entre Y et Z pour X constant :

ryZ,X =

(r r .r )
(1 r )(1 r )
yZ

yX

2
yX

XZ

2
ZX

3- coefficient de corrlation entre Z et X pour y constant :

rZX , y =

(r r .r )
(1 r )(1 r )
ZX

Zy

2
Zy

Xy

2
Xy

4- coefficient de corrlation entre X et y pour Z constant :

rXy , Z =

(r r .r )
(1 r )(1 r )
Xy

XZ

2
XZ

yZ

2
yZ

rXy,Z est par exemple une estimation de la relation fonctionnelle entre X et y pour Z
constant .

Solution :

rXy , Z =
rZX , y =
ryZ,X =

0,24 (0,60.0,28)

(1 0,60)(1 0,28)
0,60 (0,28.0,24)
(1 0,28)(1 0,24)
0,28 (0,24.0,60)
(1 0,24)(1 0,60)

= 0,09

Test de signification des coefficients de corrlation en parties :


Le test est semblable celui des coefficients de corrlation entre 2 variables, le ddl tant toute
fois pour 3 variables ddl = n 3 on peut utiliser soit la table de r, soit la table de student.
t=

r
1 r

n3

Exemple prcdent :
H0 : r = 0

Pour rXy,Z = 0,09

t=

0,09

200 3

1 0,09

t = 1,26
ddl = 197 et =5% 1,26 < 1,96 le test nest pas significative au seuil de 5% H0 est
accepte.
Pour ryZ,X = 0,18 t =

0,18
1 0,18

200 3 = 2,56

ddl = 197 et =5% 2,56 > 1,96 le test est significative H0 est rejete.
travers cet exemple on peut citer les rsultats suivants :
-

Pour des sries de naissance correspondantes un mme ge donn de la mre et


le poids la naissance est li significativement au rang de la naissance.

Par contre pour une srie de naissance de rang donn il ny a pas de relation
significative entre le poids et lge (soit elle nexiste pas ou elle est faible).

Ces rsultats apportent une clarification certaines ltude de poids la naissance :


Les 2 variables qui paraissent intervenir, elles semblent bien quune seule Z (rang
de naissance) soit intressante.

Conclusion :
La mthode de corrlation partielle qui est gnralisable un plus grand nbre de
variables apporte dons un moyen dinvestigation original et puissant
Z = 0 v + 1 X 1 + 2 X 2
2Xy , Z
R = 1 2
Z

avec

2
Z

(Z
=

Z)

SCE Z
n

R est le coefficient de dtermination multiple.

2
Xy , Z

SCE Z
=
n3

2
2
rXZ
+ ryZ
2rXy rX ryZ
1

2
1 rXy

Remarque :
Pour chaque coefficient de corrlation on doit calculer IC.

Lanalyse de la variance
ANOVA
Introduction : Lorsquon fait une exprience, on fait souvent affecter des facteurs quon
appelle souvent traitement ou objets (par exemple : dose dazote, dose derrigation..).
On veut donc savoir leffet de ces facteurs sur 1 ou plusieurs variables de ces units
exprimentales, ces variables peuvent tre par exemple dans le cas de la production vgtale
les composantes du rendement (poids de mille graines, nbre de pieds par m.) et dans le cas
de la production animale les performances zootechniques de la production (poids, production
laitire).
Ex : Dans chacune des 3 rgions agricoles, on cultive 4 varits de tomate en utilisant 2 sortes
dengrais.
Lordre dvaluation de la production des 3 rgions aprs 1 anne, on pose les 4 questions
suivantes :
1- y a t il une diffrence significative entre les productions.
2- Si oui quel facteur est elle de.
3- Peut on estimer linfluence de chacun des facteurs.
4- Y a-t-il une influence qui est de la combinaison des facteurs.
Sur la base de votre plan dexprience (dispositif exprimental) il ny a que lANOVA qui
peut vous rpondre.

Principe de lanalyse de la variance :


Le principe de lANOVA dcoule de lhypothse H0 qui consiste dire que toutes les
moyennes des variables sont gales et que quil ny a pas de diffrence significative entre
elles, cela veut dire quon suppose que les facteurs tudis nont pas deffet sur les variables.
H0 : m1 = m2 = m3 = .
Puis en fonction de chaque dispositif exprimental, on procde ltablissement de
lANOVA par le calcul de :
-

La moyenne gnrale

La moyenne de chaque facteur (ou bloc sil y on a)

La somme des carrs des carts SCE (SCEa, SCEb,..)

La somme des carrs des carts de linteraction SCEab

La somme des carrs des carts rsiduels SCEr

Les carrs moyens factoriels (CMa, CMb,..)

Les carrs moyens interfactoriels CMab

Les carrs moyens rsiduels CMr

Fobserv

Fa = Fa =

CM a
CM b
CM ab
; Fb =
; Fab =
CM r
CM r
CM r

On va rsumer tout dans un tableau.


Source de variabilit

ddl

SCE

CM

Fobs

Variabilit factorielle

SCEa, SCEb

CMa, CMb

Fa,Fb

Variabilit de linteraction

SCEab

CMab

Fab

Variabilit du bloc

SCEi

CMi

Fi

Variabilit rsiduelle

SCEr

CMr

Fr

Variabilit totale
Si Fobserv < Fthorique cela veut dire que les facteurs nont pas deffet et dans ce cas
on doit sassurer de la prcision de lessai pour accepter un tel rsultat.

Conditions dapplication de lanalyse de la variance :


Thoriquement, lANOVA ne peut sapplique que sur des donnes :
-

Qui sont normales c--d obissent une loi normale

Qui sont indpendantes et qui nont aucun lien de dpendance ou corrlation, cela
veut dire que lerreur commise sur parcelle ne doit pas tre lie lerreur faite sur la parcelle
voisine.

Qui ont la mme variance (mme dispersion) dans tous les traitements et dans tous
les blocs, cela veut dire que les erreurs doivent tre de mme ordre de grandeur ou presque
quelque soit le bloc ou le traitement.

Pour vrifier la normalit des observations, on procde souvent une


reprsentation graphique des rsidus qui doit sapprocher plus ou moins de la forme dune
cloche pour accepter le test de normalit. Mais le calcul du coefficient dasymtrie et le
coefficient daplatissement permet avec beaucoup de prcision dapprcier la normalit dune
distribution.
Pour cela il faut que :

le coefficient dasymtrie 1 =0
le coefficient dasymtrie 2 =3

Lindpendance des donnes est dtecte par une reprsentation graphique des
rsidus sur le plan mme de lessai tel quil a t mis en place.
Lensemble des rsidus est divis en quatre tranches dont chacune est reprsente par un
symbole.

Tant que la rpartition de ces symboles sur lessai est purement alatoire et n donne aucun
schma structur, on peut dire que les rsidus ou les observations tudies sont indpendantes.
Il faut dire que cette solution est subjective et arbitraire.

Lgalit des variances qui est donne sous forme dune hypothse H0 est teste
par la mthode de Bartlet qui consiste calculer un paramtre qui suit une loi de ddl gal
au nbre de traitement ou au nbre de bloc moins 1 (K 1) avec une probabilit de calculer p.
(bien sr un risque derreur gnralement gal 5% ou 1%)
Si p > on conserve lhypothse H0 (galit des variances).
Si p < on rejette H0 (les variances sont ingal).

Analyse de variance un seul facteur :


1-

Dispositif compltement alatoire (randomisation totale) :


Si on cherche savoir si lalimentation a une influence sur la production laitire, alors on fait
un plan dexprience :
On tire les vaches au hasard, on leur fait administrer un aliment qui est aussi choisi au hasard,
ce type de plan est appel dispositif compltement alatoire.
Supposons on prend K aliments, on aura au minimum K populations dans les quelles on
extrait K chantillons.
j la moyenne de la population pj
1 la moyenne de la population p1
2 la moyenne de la population p2
.
.
.
.
x la moyenne de la population px
y estime j
y 1 estime 1
y 2 estime 2
.
.
y K estime K

1-1.

Prsentation des donnes :


A1

A2

Aj

Ak

y11

y12

y1j

y1K

E2

Y21

Y22

Y2j

y2K

Ei

Yi1

Yi2

Yij

yiK

En

yn1

yn2

ynj

ynk

Moyenne

y1

y2

yj

yK

Variance

S12

S22

S j2

SK2

E1

y1 =

j1

n j1
n

y
y=

production laitire moyenne de s vaches qui ont consomm laliment A1.

ij

i =1 j=1

moyenne gnrale de la production laitire des vaches.

ni

(y
S =
2
j

yc
variance de la production laitire des vaches qui ont consomm laliment

n j 1

Aj.

(y
n

S =

ij

i =1 j=1

n 1

1-2.

Estimation du modle :
Variabilit totale = Va + Vr

) (
)
(y y) = (y y) + (y y )
(y y) = (y y) + (y
(y y) = n (y y) (y
y ij y = y j y + y ij y j
ij

ij

ij

ij

ij

ij

)
y )

yj
j

SCE t = SCE a + SCE r


Cette relation montre que la somme des carrs des carts par rapport la moyenne gnrale
galement appel SCEt peut tre divise en 2 composantes additives :

Une SCE factorielle (SCE entre chantillon ou entre traitement) SCEa.

Et une SCE rsiduelle (SCE entre les chantillons) SCEr en divisant les SCE sur
les ddl respectifs, on obtient ce quon appelle les carrs moyens qui serviront de base pour
rejeter ou accepter H0.
SCE b
ddl
SCE a
CM a =
K 1
SCE r
CM r =
nK

CM t =

carr moyen total ddl = n - 1


carr moyen factoriel
carr moyen rsiduel

A partir de cela, on calcul

Fobs =

CM a
CM r

une valeur observe dune variable F de Fischer Sendecor qui est lu partir

de la table de Fischer snedecor V1 = K 1 et V2 = n K de degr de libert pour un seuil


donne.
On rejette lhypothse H0 lorsque Fobs >>> Fthorique.

1-3.

Tableau de lANOVA :

Source de variation

ddl

SCE

CM

Variation entre traitement ou factorielle

K-1

SCEa

CMa

Variation rsiduelle

nK

SCEr

CMr

Variation totale

n-1

SCEt

Si Fobs F

K 1, n K

Fa =

CM a
CM r

on accepte H0 aucun effet des traitement sur les variables dans ce

ces il faut voir la puissance de lessai.


Si Fobs > F

K 1, n K

on rejette H0 leffet des traitements est significatif.

On passe la CMM (comparaison multiple des moyennes).


Ex : On dsire comparer 3 types daliments en ce qui concerne leur effet sur la production
laitire, cet effet on prend 15 vaches on sert le premier aliment A1 aux 5 premires vaches
choisi au hasard, laliment A2 sera administr aux 5 autres vaches, laliment A3 sera
administr aux 5 dernires vaches et ceci au hasard.

A1

A2

A3

38

42

30

40

45

32

41

43

41

35

44

34

36

39

33

Tester lhypothse que les aliments nont aucun effet sur la production laitire des vaches.

Solution : = 5%
1) y1 = 38,00 ; y 2 = 42,60 ; y 3 = 34,00 ; y = 38,20
2)

SCEa = 5 [(38,00 38,20) + (42,60 38,20) + (34,00 38,20)] = 185,2


SCEt = (38 38,20) + (40 38,20) + (41 38,20) + .+ (33 38,20) = 302,4
SCEr = SCEt SCEa = 302,4 185,2 = 117,2

3)

CM a =

SCE a 185,2
=
= 92,60
K 1 3 1

CM r =

SCE r 117,2
=
= 9,77
n K 15 3

4) Fobs =

CM a 92,60
=
= 9,48
CM r
9,7

Source de variation
Variation entre facture
Variation rsiduelle
Variation totale
F
= 3.89
Fobs > F

DDL
2
12
14

SCE
185.2
117.2
302.4

CM
92.60
9.77

ET

CV

9.48

0.0035

3.13

8.2 %

H0 est rejete : le traitement est significatif .

On remarque que F obs est suprieur F thorique (ou la probabilit P = 0.0035 < 5 ce qui
indique que lalimentation bien un effet sur la production litire )dans ce cas , on dit que le
traitement est signification , il est mme hautement signification puisque P est aussi infrieur
1% et le F obs est largement suprieur F thorique mais la question qui reste est quel aliment
A1, A2, A3, qui donne la meilleur production laitires , cest pour ce la quon doit passer la
comparaison multiple des moyennes C M M pour rpondre une telle question .

 Il faut remarquer aussi lcart type rsiduel qui est lerreur globale de lessai.
D habitude cest le 1er paramtre voir car il indique la prcision de lexprience,
apparemment notre essai est assez prcis pour accepter les rsultats de l ANOVA puisque
ET = 3.13 qui est une valeur assez faible.

2- Dispositif en blocs alatoires complets :


(Gardons le mme exemple), parfois il est souhaitable de classer les units
exprimenttes suivant un certains N bre de critres avant de faire lexprience.
On classe par exemple les vaches suivant lge , on aura dtermin les blocs une fois
les units classes.
B1 :

{ge entre 3 et 5}

B2 :

{ge entre 5 et 9}

B3 : {ge plus de 9}.


Supposons quon a K aliments tester
H0 : M1 = M2 = = M K.
Il faut que la taille de chaque bloc soit au moins ga1le au N

bre

de traitement c--d

quil soit complet.


Une fois les blocs constitus on commence lexprience :
-

On prend le bloc 1 et on affecte les traitements aux units exprimenttes dune


manire alatoire.

On fait la mme chose aux 2 autres blocs et cest pour ce la quon parle du dispositif

en blocs alatoires complets.

Si on constituer

no blocs et on a K traitements alors on aura n0 . K

units

exprimentales.
2-1 Prsentation des donnes :

BLOC1

T1
y11

T2
y12

BLOC 2

y21

y22

.
.
.
.

.
.
.
.

.
.
.
.

BLOC i

y i1

y i2

.
.
.
.

.
.
.
.

.
.
.
.

BLOC n0

yno1

yno2

y1.

y2.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

TJ
y1j
y2j
.
.
.
.

y noj
.
.
.
.

ynoj

yj.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

TK
y1k.

y.1

y2k

y.2

.
.
.
.

.
.
.
.

ynok

y.no

.
.
.
.

.
.
.
.

ynok

y.no

yk.

n0 : nbre de bloc
K : nbre de traitement
n + noK
1
y ij
n
1
y i = y i = moyenne par bloc i.
K
1
y j =
y j = moyenne par traitemlent j.
n0
y=

2-2 Estimation du modle :


En plus du modle prcdent. On doit ajouter leffet bloc qui correspond la
variabilit dure au bloc.
SCE T = SCEa + SCE GI SCE r

(y

y = n 0 y j y + K y j y + y ij y C y j + y
2

ij

En bloc alatoire complet la variation totale peut se subdiviser en SCE a , SCE G et


SCE F et

partir de cela on peut dduire les carrs moyens suivants :

SCE t
n 1
SCE a
CM a =
K 1
SCE G
CM G =
n0 1
CM t =

CM r =

: carr moyen total


: carr moyen factoriel
: carr moyen bloc

SCE r
(n 0 1)(K 1)

n 0 : bloc

: carr moyen rsiduel

, K : traitement

On peut caculer
Fa =

CM a
CM r

FG =

CM G
CM r

2-3 tableau de l ANOVA :


Source de variabilit
Variable factorielle
Variable du bloc
Variable rsiduelle
Variable totale

DDL
K- 1
n0-1
(K-1) (n0-1)
n-1

SCE
SCE a
SCEG
SCEr
SCEt

CN
CMA
CMg
CMR
CMt

F
Fa
FG

F
F k1(k1)(no-1)
F NO-15K-15NO-1)

EX :
Les rsultas suivants relatifs la teneur en cendre (exprim en %) ont t obtenus par
lintermdiaire dun essai en bloc alatoire complet des tir comparer linfluence de la
fumure diffrente sur une mme varit du tabac.
En fonction de ce rsultat doits on conclure lexistence des diffrences significative
due au fumure ?
Fumures

BLOC 1

BLOC 2

01
02
03
04
05
06
07

21.3
18.3
19.1
19.9
19.3
19.8
19.0

2204
19.9
22.6
24.6
23.0
22.2
22.2

BLOC 3
20.4
20.0
19.8
19.3
19.9
19.1
20.2

Solution :
H 0 : Y1 = Y2 = .............. = Y7
Y1 = Y2 = Y3
Y1 = 21,36 ; Y2 = 19,4 ; Y3 = 20,5 ; Y4 = 21,26 ; Y5 = 20,73 ; Y6 = 20,52
Y7 = 20,6
Y1 = 19,52 ; Y 2 = 22,41 ; Y3 = 19,81
Y = 20,58
SCE t = (21,3 20,58) + ................................. + (20,2 20,58) = 53,03
2

[
= 7[(19,52 20,58)

SCE a = 3 (21,36 20,58) + ............................. + (20,4 20,58) = 7,6647


2

SCE G

+ (22,41 20,58) + (19,81 20,58) = 35,4578


2

SCE r = SCE t (SCE a + SCE G )

SCE r = 53,038 (7,66 + 35,45) = 9,9155

SCE a 7,66
=
= 1,277
3 1
6
SCE G 35,45
CM G =
=
= 17,7289
3 1
6
SCE r
9,9155
CM r =
=
= 0,8262
(7 1)(3 1) 12
SCE t
53,038
CM t =
=
= 4,8216
[(7 1)(3 1) 1] 11
CM a
Fa =
= 1,546
CM r

CM a =

FG =

CM G
= 21,458
CM r

Source de variable
Variable factorielle
Variable du bloc
Variable rsiduelle
Variable totale

ddl
6
2
12
20

SCE
7.6647
35.4578
9.9155
53.038

CM
F
1.277
1.546
17.7289
0.8262 21.456

F
3.00
3.89

Puisque Fobs = 1.54 < Ftheo = 3 les fumures sont identiques et quil ny a aucune
diffrence entre elles.
On remarque aussi que les blocs sont htrogne et nont pas t bien contrls car
21.45 > 3.89 donc il y a effet bloc.

3- dispositif suivant un carr latin :


Soit une population bovine P et soit K aliments , on veut tester lefficacit des
aliments, mais on craint que leffet ge et leffet race nous fausse les conclusions quand
lefficacit des aliments, on veut donc isoler leffet traitement ( alimentation ) des autres effets
(ge et race ).
Dune manire gnrale pour des problmes de ce genre on classe les units
exprimentales (bovins) suivant 2 critres au lieu dun critre.

Ex : supposant quil y a 3 niveau pour le 1

er

critre et 3 niveaux pour le 2me critre et 3

traitement pour menu bien lexprience il faut utiliser 333 = 33 = 27 bovins.


Malheureusement une opration de ce genre est trs coteuse en argent et en temps,
de plus certaines combinaisons (ge et race) sont dans la pratique indoservable devant de
telles difficults on a recours lexprience suivant un carr latin, lide est la suivante :
Chaque traitement sera expriment une fois et une seule fois pour chaque niveau du
2

me

critre (race).
Si les traitements sont reprsents par A, B , C on peut rsumer le carr latin par le

tableau suivants :
Race

Age

On peut noncer la dfinition suivante :


On appel un carr latin un tableau dont chaque nbre figure une fois et une seule fois par
ligne et une fois et une seule fois par colonne.
En exprimentation au lieu de parler de la ligne on parle du bloc horizontale, (BH) et
au lieu de parler de la colonne on parlera du bloc vertical (BV), lintersection entre la ligne i
et la colonne J sappelle cellule (i,j)

3-1 prsentation des donnes :


BV

y11(1)

y12(2)

.
.
.

y ij(j)

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

BH

i
.
.
.
r

.
.
.

y ij(I+j)

..

r
yir (r)

.
.
.
.
.
.

yi1(1)

yi2(I+2)

.
.
.

.
.
.

.
.
.

.
.
.

.
.
.

yr1(r)

yn2(r)

.
.
.

ynj(r)

.
.
.

.
.
.

yir(1)
.
.
.

y2r(r-1)

y11(1) : cellule (1,1) qui a utilis le traitement 1 ou traitement 1 figurant dans le BH1 et BV 1
On calcul de ce tableau les quantits suivantes :

La moyenne des B H : y j =

1
y ijK
r jK

La moyenne des B V : y j =

1
y ijK
r jK

La moyenne des traitements : y K =

La moyenne totale : y =

3-2 Estimation du modle :

1
y ijK
r

1
y ijK
r jK

SCE t = SCE a + SCE BH + SCE BV + SCE r


r

SCE t = y ijK y

SCE a = r (y K y)

SCE BH = r (y i y )

SCE BV = r y j y

SCE r = SCE t [SCFa + SCE BH + SCE BV ]

= y ij y i y K y j + 2 y

SCE a
r 1
SCE BH
CM BH =
r 1
SCE BV
CM BV =
r 1
SCE t
CM t =
r 1
SCE r
CM r =
(r 1)(r 2)
3-3 Tableau de lANOVA :
CM a =

Source de variable
Variable inter traitement

ddl
R-1

SCE
SCEa

CM
CMa

Variable inter blocs horizontaux

R-1

SCEBH

CMBH

Variable inter blocs verticaux

R-1

SCEBV

CMBV

(r-1)(r-2)
r2 - 1

SCEr
SCEt

CMr
CMt

Variable rsiduelle
Variable totale

F
CM a
Fa =
CM r
CM BH
FBH =
CM r
CM BV
FBV =
CM r

Ex :
20

80

15

25

185

242

177

214

15

25

20
209

30
238

117

229

3M

30

20

25

15

200

200

222

154

3M
25

15

30

218

174

247

20
205

6M
Un essai de chauffage du sol ralis en serre sur une varit dcorative de ficus

elastica R.
Les tempratures du sol prises en considration sont 15.20 .25 et 30 C 12cm de
profondeurs les autres condition de

culture tant en principe uniformes. Les units

exprimentales sont des par celles de 9 plantes cultives en pots enfoncs enterre, on mesure
laccroissement moyen en hauteur de la plante en mm faites les analyses ?

Solution :
BV

BH
1
2
3
4
y j

185
117
200
218
180

2
242
229
200
174
211.25

3
177
209
222
247
213.75

4
214
238
154
205
164.3125

La moyenne des traitements :


y15 = 155,5 ; y 20 = 199,75 ; y 25 = 220,75 ; y 30 = 231,75

H 0 taritemeent : y 1 = y 2 = y 3 = y 4
contole
BH : y1 = y 2 = y 3 = y 4
BV : y 1 = y 2 = y 3 = y 4

SCE t = (185 202) + ................... + (205 202) = 17743

SCE a = 4[(155,5 202) + ................... + (232 202) ] = 13616

SCE BH = 4[(204,5 202) + ................... + (211 202) ] = 661

SCE BV = 4[(180 202) + ................... + (202,75 202) ] = 2833


SCE r = SCE t [SVE BH + SCE BV + SCE a ]

= 17743 [13616 + 661 + 2833]


= 633
SCE t 17743
CM t =
=
= 1182,86
16 1
15
SCE a
CM a =
= 4539
4 1
SCE BH
CM BH =
= 220
4 1
SCE BV
CM BV =
= 944
4 1
SCE r
CM r =
= 105,5
(4 1)(4 2)
CM a 4539
Fa =
=
= 43
CM r 105,5
FBH =

CM BH
220
=
= 2,08
CM r
105,5

FBV =

CM BV
944
=
= 8,94
CM r
105,5

y i
204.5
198.25
194
211
Y=201.9375

Source de variable
Temperature

ddl
3

SCE
13616

CM
4539

F OBS
43

F tho
4.76

BH

661

220

2.09

4.76

BV
variable rsiduelle
Totale

3
6
15

2833
633
177743

944
105

8.94

4.76

Puisque F obs > F tho Ho est rejete (elle supposait lgalit des 4 temprature)
Cela veut dire que la diffrence entre ces moyennes est hautement significative ce
qui indique que le facteur temprature a une influence trs marqu sur laccroissons de la
plante tudie.
Mais la question qui se pose toujours est quelle temprature est la plus significative ?
- Concernant les blocs horizontale on remarque que 2.09 > 4.76 cela traduit le bon contrle de
BH.
- Concernant les blocs verticaux on remarque que 8.94 > 4.76 cela traduit le mauvais contrle
des B V , apparemment ce mauvais contrle est due la position des 2 sries.

Lanalyse de variance 2 facteurs :


Dans ce cas, on traitera des plans dexpriences qui utilisent 2 facteurs en mme temps
c d quon utilisera les mme units exprimentales (mme parcelle ou mme animale par
exemple) pur tudier leffet de chacun des facteurs, on tudiera aussi leur effet commun quon
appelle : interaction, car il est impossible dtudier cet effet sur des expriences spares
concernant chacune un seul facteur.
Illustrons cela par lexemple suivant :
Supposons quon veut tudier lefficacit de 3 engrais 1.2.3.facteur A. 3 doses dirrigation
1.2.3.facteur B.
Dans ce cas on teste 3 hypothses diffrentes :
H A : 1 = 2 = 3 Ce la veut dire que les 3 engrais nont aucun effet particulier.
H B : 1 = 2 = 3 Cela veut dire que les 3 doses dirrigation nont pas deffet sur la production.
H AB : 11 = 1 2 = 1 3 = 2 1 = 2 2 = 2 3 = 31 = 3 2 = 3 3
c- d quil ny a aucune interaction entre les engrais et les doses dirrigation.
Dtecter quel niveau il y a une diffrence significative.

Si

Fobs < Ftho H0 est accepte et on dit que le traitement est nom signification et

gnralement dans ce cas on cherche estimer la puissance de lessai.


Le principe consiste tester ces hypothses (les accepter ou les rejeter) par le biais de
lanalyse de la variance.
Si on accepte par exemple lhypothse HA, cela veut dire que les lengrais nont aucun
effet sur la production, autrement dit les engrais 2 ou 3 na pas dimportante sur le plan
agronomique et dans ce cas il est prfrable dutiliser lengrais le plus conomique (qui cote
le moins chre par exemple).
Identique pour HB et HAB.

Dispositif en randomisation total (compltement alatoire) :


Le principe de lANOVA restera le mme dans le cas des plans dexprience un seul
facteur en cherchant expliquer la variance totale. Mais cette fois ci la variation est de la
prsence de deux facteurs. Plus la variation rsiduelle, et ventuelle variation de
linteraction de ces 2 facteurs. Donc le modle de lANOVA a 2 facteur peut se rsumer de la
faon suivante :
variation totale = variation de au facteur A + V de au facteur B + V inter factorielle A B
+ V rsiduelle.
Ou
SCEt = SCEa + SCEb + SCEab + SCEr

1.1 Prsentation des donnes :


Si on a I niveaux pour le facteur A
Si on a J niveaux pour le facteur B
et si on utilise K units exprimentable pour chaque cellule ( i . j ) ou K rpartitions .
On aura besoins au total N = I J K exprimentales pour mener bien votre exprience.
i = ( 1.2..I)
j = ( 1.2i )
k = ( 1.2K )

Facteur B 1

Facteur A
1

y11/1

y12/1

y1j/1

y11/2

y12/2

y1j/2

y11/k

y12/k

y1j/k

yi1/1

yi2/1

yij/1

yi1/2

yi2/2

yij/2

yi1/k

yi2/k

yij/k

yij/k = Kme production de la par celle qui a utilis le niveau du facture A et le niveau J du
.

facture B.

.
etc
Gnralement, on calcule les quantits suivantes :

La moyenne de la cellule (i, j) = y ij =

1 K
y ij k
K 1
1
y ij k
JK j k

La moyenne du niveau i du facture A = y j =

La moyenne du niveau J du facture B = y j y ij


i

La moyenne gnrale : y =

1
y ij k
IJK i j k

avec I J K = n
on a dj dit que :
SCEt = SCEa + SCEb + SCEab + SCEr

avec :

SCE t = y ij y n 1ddl

k
i
j
k
I

SCE a = JK (y i y) I 1 de ddl
i

SCE b = IK y j y J 1 de ddl
j

SCE ab = K y ij y i y j y
i

(I 1) (J 1)de ddl

SCE r = SCE b (SCE a SCE b + SCE ab )

= y ik y ij IJ (K 1) de dll
i

Les C M se dduisent de la faon suivante :


SCE t
SCE a
SCE b
, CM a =
, CM b =
n 1
I 1
J 1
SCE ab
SCE r
=
, CM r =
(I 1)(J 1)
IJ (K 1)

CM t =
CM ab

Et on calcule les F observs :

CM a
CM r

Fa =
1-1

, Fb =

CM b
CM r

, Fab =

CM ab
CM r

Tableau de l ANOVA :
Source de variabilit
- V. facteur A
- V . facteur B
- Interaction A B
- V . rsiduelle
V . Totale

ddl
I1
J1
(I - 1) (I -1)
IJ ( K 1 )
n-1

SCE
SCEa
SCEb
SCEab
SCEr
SCEt

CM
CMa
CMb
CMab
CMr
CMt

F
Fa
Fb
Fab

P
Pa
Pb
Pab

On va lire les F thorique sur totale de Snedecor :


Fa th = 5 ou = 1% pour V1 = I 1 et V2 = IJ (K 1)
Fb th
Fab th

= 5 ou = 1% pour V1 = J 1 et V2 = IJ (K 1)

= 5 ou = 1% pour V1 = (I 1)(J 1) et V2 = IJ (K 1)

et le test de comparaisonest identique celui de lANOVA un facteur ( voir conclusion


prcedente ).

1-3 Remarque importante :


Quand on ne dispose que dune seule observation ou une seule rptition ( K = 1) par
parcelle par exemple ), la variation rsiduelle sannule puisque lexpression .

SCE r = y ijk y = (1 1) = 0
C

et
SCE t = SCE a + SCE b + SCE ab
Facteur B
Facteur A
1
2
.
.
.
.
I

y11
y12
.
.
.
.
y1I

y12
Y22
.
.
.
.
YI2

y1J
.
.
.
.
.
yIJ

Dans ce cas le tableau de lANOVA devient :


Source de variation
V. facteur A

SCE
I1

CM
SCEa

F
CMa

V. facteur B

J1

SCEb

CMb

V. facteur AB
Variation total

(I-1)(J-1) SCEab
n-1

CM a
CM ab
CM b
Fb =
CM ab
Fa =

CMab

Notons bien ici que le test de signification des facteurs se fait par rapport
linteraction (CMab) puisquil nexiste pas le CMr (CMr). Ici on ne peut pas tudier
linteraction des 2 facteurs par manque dobservation.
A cet effet et pour ce genre de dispositif, il est trs conseill de faire plusieurs

observations (rptitions) dans les cellules (i,j) pour bien apprcier leffet des facteurs et
surtout leffet de linteraction.
Il faut noter que pour la comparaison des moyennes par PPDS et en PPAS et
pour ce genre de situation (K = 1) il faut utiliser le CMab au lieu de CMr comme carr moyen
de comparaison (voir chapitre de comparaison multiple des moyennes).

2- dispositif 2 facteurs en blocs alatoires complets :


Pour ne pas rpter, et taler longtemps, on se contente de dire que le principe est
toujours le mme pour le calcul de l ANOUVA.
Puisque notre dispositif est en blocs, alors il faut ajouter un modle prcdent leffet
des blocs, et leffet de leur interaction avec les 2 facteurs tudis.

Aprs ltablissement du tableau de lANOVA qui doit contenir en plus du tableau


prcdent, la source de variabilit de leffet bloc et leur interaction avec les facteurs, vous
devez faire la comparaison du Fobs avec le Fthorique pour accepter ou rejeter lhypothse H0.

3- Dispositif en blocs alatoires complets avec par celles divises (ou split splot) 2
facteurs :
Supposons quon a

I niveaux du facteur A.
et

J niveau du facteur B.

et

K bloc

Le principe du split splot consiste en une rpartition des facteurs en deux tapes.
La 1re tape est une rpartition classique des I niveau ou variantes du facteur A au
sein des K blocs, conduisant la dlimitation de I K parcelles ou unit du premier degr aussi
appeles grandes parcelles.
La 2me tape consiste ensuite en une rpartition alatoire et indpendante des J
niveaux ou variantes du facteur B lintrieur des I K grandes parcelles, de manire
constituer I J K sous parcelles ou petites parcelles ou unit de 2me degr.

Bloc 1

Bloc 2

Petite
parcelle

Grande
parcelle

Le principe de lANOVA reste toujours le mme pour ce genre de dispositif, en


dcomposant la variation totale, en variation factorielle (facteur 1 et facteur 2) variationiner
factorielle

variation de grande par celle, petite parcelle, leur interaction avec les

facteurs..plus la variation rsiduelle

Mais il faut que dans le split splot , on a souvent remarqu que le facteur affect dans
les grandes parcelles est dot dun risque derreur important par rapport au facteur affect
dans les petites parcelles .
Cest pour cette raison quil faut toujours affecter aux petites parcelles le facteur dont
on veut savoir leffet direct sur les variables analyss c-- d le facteur le plus important.

Comparaison multiple des moyennes


CMM

Quand on fait lANOVA, et on arrive trouver un Fobserv trop grand par rapport au
Fthorique ou P < on peut conclure que notre traitement est significatif, cela veut dire tout
simplement quon rejette lhypothse de dpart H0, qui suppose lgalit des moyennes.
Rejeter HO rejette revient dire que :
m1 m2 . mn
Mais le problme maintenant est de savoir quelles sont les moyenne (ou traitement)
qui sont effectivement diffrentes c-a-d quel niveau la diffrence est significative; autrement
dis quelles sont les causes qui nous ont conduire ho, et par consquent quel est le traitement le
plus efficace parmi les autres pour cela on va faire la comparaison multiple des moyennes est
ce niveau, on a 2cas aborder :
1/ un cas ou on a labsence dun tmoin c--d que les facteurs ou traitements tudis
jouent le mme rle ; et sont placs au mme pied dgalit , dans ce cas on utilis souvent
pour la comparaison des moyennes :

Le teste de la PPDS

Le test de la PPAS.
2/ quand parmi les traitements tudis, on la prsence dun tmoin ou dune

rfrence ou nom que le tmoin, dans ce cas on utilise soubent :

Le test de PPES

La mthode des contrastes

A comparaison multiple des moyennes en cas dabsence de tmoin :


Quand on a pas de tmoin et on trouve des traitements significatifs la comparaison
des moyennes part se faire par :
Le test de la plus petite diffrence significative (PPDS) ou le test de la plus petite
amplitude significative (PPAS).
Il faut noter quil existe dautres mthodes de comparaison des moyennes

A-1- le test de la PPDS :


Le test consiste faire la comparaisons des moyennes 2 2 et de rejeter lhypothse
dgalit

des moyennes chaque fois que la diffrence entre 2 moyenne m i m i ' est

suprieure ou gale la PPDS.

Dans il suffit uniquement de calculer la PPDS et faire la diffrence entre les moyennes
(2 2), et toute diffrence (m1, m2) qui est gale ou suprieure la PPDS est considre
comme significative (DS), et toute diffrence (m1, m2) qui est infrieure la PPDS est
considre comme non significative (NS) ce la veut dire que ces 2 traitements sont identiques,
mme sils donnent 2 rsultats diffrents.
Mais maintenant comment calculer cette PPDS ?

Pour lANOVA un facteur la PPDS est calcule de la faon suivante :

PPds = t

1
2

2CM r
n

avec :
CMr, carr moyen rsiduel (il est indiqu sur le tableau de lANOVA )
n : nbre dobservation qui interviennent dans chacune des moyennes.
t

= t de student (la partir de la table de student 95 ou 97 % ).

Pour les autres ANOVA notamment en bloc alatoire complet :

PPds = t

1
2

2CM ab
q.n

n : est toujours nber dobservation par parcelle .


t

: t de student 95 ou 97 % avec ddl du CMab


ddl = (P -1) (q- 1)

q : nbre de blocs .
P : nbre de traitements
CMab : carr moyen de linteraction .

A 2 Test de la PPAS :
Ce test est celui de NEWMAN (1952) et KEULS (1939), il est bas sur la
comparaison des amplitudes observes pour des groupes de 2, 3,..K

moyenne, avec

lamplitude maximum attendue niveau de signification donn.


Il permet donc de constituer des groupes homognes de traitements, ceux appartement
un mme groupe sont considrs comme non diffrents au risque de 1re espce choisi
( = 5 ou 1%)
La constitution des groupes homognes (A.B. C) se fait partir des plus petites
amplitudes significatives (PPAS).

Lorsque lamplitude observe entre les moyennes extrmes dun groupe de K


moyennes est infrieur la PPAS pour K moyenne, on dclarera que ces K moyennes
constituent un groupe homogne.
Pour effectuer cette comparaison, on doit tout dabord calculer la PPAS relative des
groupes de 2 moyenne, 3 moyennes .etc . Ce calcul ncessite lemploi de table particulire
(table du test de NEWMAN KEULS) dont les valeurs q1- remplacent les quantits
t

2 intervenant dans le calcul de la PPDS.

Pour lANOVA un seul facteur

PPAS = q 1

CM r
n

Avec :
n : nbre dobservation par unit exprimentale ( par par celle )
CMr : carr rsiduel
q1- : valeur de NEWMAN et KEULS qui doit tre lu partir de la table de
NEWMAN KEULS et ( = 5 ou = 1%) ddl K et P.
P : nber de moyennes considres.

K : ddl du CMr,

Comme pour la PPDS pour les autres dispositifs 2 facteurs et plus (bloc s alatoires
par exemple).
Il faut remplacer CMr par CMab qui a servit de comparaison.

PPAS = q 1

CM ab
n

B- comparaison de moyennes en prsence de tmoin :


B 1 test de PPES : (plus petit cart significatif)
Ce test t labor par Dunnett (1964), il est presque simillaire que celui de la PPDS
en remplaant seulement la valeur de student t

par la valeur critique de Dunnett d

et la

PPES sera gale en cas dun dispositif un seul facteur .

PPES = d

2CM r
n

Dans dautre dispositif, il faut remplacer le CMr par le CMab qui a servi de base de
comparaison.
Dans ce test de comparaison de moyennes, tout est dclar suprieur (infrieur) au
tmoin ( cd diffrent du tmoin).

Lutilisation de ce test suppose donc la prsence dun tmoin.


Un tmoin peut tre, par exemple :

une parcelle non traite

un traitement de rfrence (produit de rfrence, une varit de rfrence)


[La rfrence est un traitement bien connu, parmi les plus utilises, en pratique].

C Conclusion concernant la comparaison de moyenne :


Il faut noter quil existe un nbre important de mthodes pour procder la comparaison
des moyennes , et nous nous sommes limits que seules mthodes, les plus utilises et les plus
connu : dans notre milieux mais il y a toujours un problme de choix pour telle ou telle
mthode . a cet effet nous pouvons dire :
- Si vous chercher la facilit de calcul, vous ne trouverez pas plus facile que la
mthode de la PPDS, mais attention, cette mthode, nest pas labri de certaines faiblesses
telle que le risque derreur quelle peut causer.
- cest pour cela, il est conseill dutiliser la mthode de la PPAS qui vous permet de
former certains groupes homognes qui seront accessibles linterprtation avec un risque
derreur moins lev que la PPDS.
Il faut noter aussi que la comparaison de moyennes ne peut se faire que si le traitement
est significatif. Ceci se fait automatiquement sur microordinateur.
Si vous utilisez STATIT CF pour lANOVA, ce programme passe directement au
calcul de la comparaison des moyennes sil trouve que votre traitement est significatif, bien
sr, il vous donne le choix de choisir une des mthodes qui vous propose pour cette
comparaison. Mais conventionnellement, et si vous ne choisissez pas une mthode particulire
de comparaison des moyennes, le STATIT

CF procdirectement la comparaison des

moyennes par la mthode de la PPAS (NEWMAN KEULS) en vous cassant les traitements
en groupes homognes nots A,B, .D, en fonction de la comparaison des PPAS de ces
groupes de moyennes.
Alors non diffrent c--d que les traitements correspondants ce groupe sont

identiques.

Conclusion concernant lANOVA :


Nous pouvons rsumer le calcul statistique en matire danalyse de la variance dans
lorganigramme suivant).
Cet organigramme pourra vous tre utile pour suivre les dmarches faire pour
raliser un traitement statistique en exprimentation agricole.

Dbut

Vrification des conditions de lANOVA


Normalit
Egalit des variances Indpendance

Vrification H0
m1 = m2 = .. = mn

Calcul de lANOVA
yi
y=
n
SCE
CMa, CMb
CM a
CM r
CM a
F=
CM r

Fobs > Fth

H0 est accept
m1 = m2 = = mn

H0 est rejete
m1 m2 mn

Tester la puissance de
lessai

Comparaison des
moyennes

Fin

Organigramme de lANOVA

Guide dinterprtation de lanalyse de la variance :


Par lanalyse de la variance, on cherche principalement leffet des traitements mis en
exprience sur certaines variables qui ont t mesures en respectant certains dispositifs
exprimentables.
Durant les chapitres prcdents on a vu comment faire cette analyse de variance qui se
termine par ltablissement dun tableau ou sont rsums tous les rsultats de cette analyse,
afin rpondre si leffet traitement est significatif on non, avec certains risque derreur.
Linterprtation doit donc tre base sur la lecture du tableau de lANOVA.
A cet effet, vous trouverez ici, quelques notions vous permettant de mieux interprter
vos rsultats.
Il faut noter quun tableau de lANOVA est compos, en fonction du dispositif
exprimental :

Dune ligne de variation

Dune ligne de variation inter factorielle ou enter traitement (interaction entre facteur

factorielle ou traitement (facteur 1, facteur 2 ..).

1 et facteur 2 .).

Dune ligne de variation inter blocs.

dune ligne de variation rsiduelle.

Dune ligne de variation totale.


Chaque ligne comporte ddl, SCE, CM, F et P et ventuellement cart type rsiduelle

dans la ligne de variation rsiduelle.

a) Ligne de variation factorielle (ou traitement) :


Dans cette ligne, il faut voir le F observ qui doit tre compar au F thorique lue
partir de la table de snedecor au seuil ( = 5 ou = 1%) avec les degrs de libert (ddl) de
la variation factorielle du traitement et ddl de la variation rsiduelle.
Si
- Fobs > Fthe on dira que le traitement est significatif.
Si
- Fobs >>> Fthe (largement suprieur), on dira que le traitement est hautement significatif
Si
- Fobs < Fthe le traitement est non significatif.
On pourra aussi voir la probabilit P avec la quelle Fobs a t calcul (P doit figurer
sur le tableau).

Notons quun fur et mesure que Fobs augmente, la probabilit P sera petite. Mais
gnralement, on fait la comparaison suivante :
Si P < on dira

Que le traitement est significatif.


Que le traitement est hautement significatif.

P > on dira que le traitement est non significatif.

Si par exemple, la probabilit L, dans un essai, est gale 0.0001, cela signifie quil y
a une chance pour 1000 dobserver des moyennes de traitement aussi diffrentes que celles
obtenues dans lessai si lhypothse H0 est vraie.
Une telle probabilit amnera rejeter cette hypothse pour conclure : il y a des
diffrences hautement significatives entre traitements.
Mais si, dans un quatre essai, la probabilit est de 0,30 on ne pourrez alors que
conserver lhypothse qui suppose lgalit des moyennes des tranement s. Ce pendant il y a
matire porter ce niveau une petite discussion dans la mesure ou 2 cas sont possibles.
1re cas : ou bien les traitement sont effectivement identiques et la conclusion est
correcte (vous pouvez en confrontant votre essai dautre essais similaires, voir sil rejoint les
mme conclusion ou non ).
2me cas : ou bien les traitement sont diffrents mais lessai nest pas assez puissant pur
pouvoir mettre en vidence ces diffrences ( nbre de blocs est insuffisant , cart type rsiduel
trop lev etc.).

Cest pour cela quand le traitement et non significatif c- d on accepte lhypothse


H0, on doit passer automatiquement pour voir la puissance de lessai pour voir le bien
fond de notre essai.

Et quand le traitement est significatif c d on rejette lhypothse H0, on doit passer au


calcul de la comparaison multiple des moyennes pour voire quel niveau la diffrence
est significative et par consquent, on doit mettre en vidence le traitement le plus
efficace (le plus diffrent).

B) Ligne de variation inter factorielle (interaction) :


Cette ligne ne peut figurer que dans le cas de lANOVA 2 facteurs.
Dans cette ligne, il faut aussi voir le Fobs, ou la probabilit P et faire de la mme
manire que la ligne de variation factorielle, la comparaison avec le Fthorique et .

Le Ftho doit tre lue (ici) dans la table de snedecor au seuil avec le ddl de la variation
inter factorielle (interaction) et le ddl rsiduel.
Si le Fobs est grand (ou P < ), cela veut dire quil existe une interaction entre les 2
facteurs. Dans ce cas les 2 facteurs dpendent lun de lautre.
Si par contre le Fobs est petit (ou P > ) linteraction est absente , et que les 2 facteurs
peuvent tre traiter sparment .

C - ligne de variation blocs :


Linterprtation de celle peut se faire de la mme faon que celle de la variation
factorielle ou inter factorielle toute fois lessai nest pas ralise tant un facteur contrl ).
Vous ne retiendrez ici, surtout que l(ordre de grandeur F calcul pour savoir si le

contrle de lheterogeneit par les blocs sest avere efficace ou non.

Fbloc < 1 : Non efficacit de ce facteur (soit que le terrain est parfaitement
homogne, soit que les blocs sont mals disposs )

Fbloc > 1 : le contrle est satisfaisant, plus le F est lev meilleur est lefficacit du
contrle.

N. B : toute fois, il faut se mfier dun F trop lev : si les blocs sont trs diffrents, il y a
risque quils soient en interaction avec les traitement s !!!!.

D- Ligne de variation rsiduelle :


Cette ligne sobtient partir de lensemble des rsidus (cart entre observ et
thorique).
Ce quil faut observer au niveau de celle ligne, cest lcart type rsiduel. Etant
exprim dans la mme unit que la variable analyse (par exemple q/hs) lcart type rsiduel
traduit la prcision des rsultats, cest une estimation globale de lerreur.
Son apprciation est laisser linitiative de lexpriment ateur lui mme qui doit
juger la prcision de son essai peut tre en comparant lcarte type rsiduel obtenu lordre
de grandeur des carte types rsiduels gnralement observe dans des essais analogues.
Selon donc le jugement de lexprimentateur 3 cas peuvent avoir lieu :
1re cas : lessai est trs prcis :
On peut alors se contenter de regarder les rsultats du test de comparaison des
moyennes .

2me cas : lessai est moyennement prcis : il faut alors regarder :


Linteraction traitement * blocs : si cette interaction est significative ..vos blocs sont
peut tre trop diffrents, ou lun dentre eux seulement , ou mal disposes.
Analyse des rsidus (histogramme, cartographie, lcart type intra traitement et intra
blocs).
. Il y a certainement des rsidus suspects !!!
Lanalyser de ces paramtres ci dessus doit vous permettre de dcaler des parcelles
suspectes : consultez alors les notes que vous prenez lors de vos visites dessais (observation
de maladies, par exemple ) elle peuvent peut tre vous expliquer ces anomalies !!!!
Alors que faire ? sil y a des justification agronomiques valables, vous pouvez toujours
liminer les parcelles en cause et recommencer lanalyse , sinon cest que votre essai nest pas
trs prcis et par consquent les conditions exprimentales ne sont peut tre pas en accord
avec la mthodologie exprimentale :
Terrain trop homogne.
Trop de traitements expriments a la fois ?
3me cas : lessai est trs imprcis
Il faut dabord sassurer quaucune erreur de transcription ne sest produite si non
laisser tomber tout et recommencer zro !!!!!.

E- Ligne de variation totale :


Cette ligne est ignorer, elle ne prsente aucun intrt dans linterprtation.