Académique Documents
Professionnel Documents
Culture Documents
Stats
Stats
STATISTIQUES DESCRIPTIVES.............................................................................................2
Distribution normale...............................................................................................................3
PROBABILITS........................................................................................................................4
Distribution binmiale............................................................................................................4
STATISTIQUES INFRENTIELLES........................................................................................6
TEST DHYPOTHSE SUR UNE MOYENNE........................................................................7
Distribution de t......................................................................................................................8
TESTS DHYPOTHSE SUR LA DIFFRENCE ENTRE 2 MOYENNES............................9
INTERVALLES DE CONFIANCE..........................................................................................11
PUISSANCE DE TEST............................................................................................................12
ANOVA UN FACTEUR (one-way)......................................................................................13
Comparaisons post-hoc.........................................................................................................14
ANOVA DEUX FACTEURS (two-way)..............................................................................16
CORRLATION.......................................................................................................................18
Rgression et prdiction........................................................................................................19
Interprtation de r..................................................................................................................20
Coefficient de dtermination.................................................................................................20
Infrences sur la significativit du r......................................................................................21
CHI-2 (2 ; chi-square)..............................................................................................................22
Applications du 2.................................................................................................................22
STATISTIQUES NON-PARAMTRIQUES...........................................................................24
Coefficient de corrlation de Spearman (rs)..........................................................................25
Ltymologie ne nous apprend pas grandchose : status Utilises dans le pass pour la
collecte des impts par les tats, les Stats prennent une importance majeure dans la recherche
moderne. Ex : en 1987, la FDA donne le feu vert pour la mise sur le march de lAZT en un
temps record de 21 mois de recherche clinique (au lieu des ~9 ans habituels) tant donn la
situation dramatique des victimes du SIDA. LAZT avait des effets secondaires mais la preuve
statistique dune rduction du nombre de morts justifiait son utilisation.
On peut distinguer 2 sortes de Stats :
1) Stats descriptives : il sagit dorganiser et rsumer des observations. On ne fait pas de
comparaisons et on sintresse en gnral un seul groupe, chantillon ou population.
2) Stats infrentielles (ou inductives) : on peut ici viser 2 buts :
a) Dduire les proprits dune population partir de ltude dun chantillon.
Cest par ex le principe des sondages. Il est important que lchantillonnage
soit fait au hasard (random). On met ici le doigt sur la notion de variabilit,
principe inhrent tout phnomne biologique.
b) Comparer 2 ou plusieurs populations ou chantillons ; si une diffrence existe,
on se demandera si cette diffrence est due la variabilit (hasard), ou un
facteur diffrenciant les groupes tudis.
Un troisime type de Stats la charnire entre S descriptives et infrentielles a trait aux
notions de corrlation et prdiction (voir chapitre concern).
Dans toute dmarche utilisant les Stats, il convient dabord de poser une question de
recherche (ex. AZT freine-telle la lthalit du SIDA ?), laquelle est diffrente de la question
statistique o ce qui est trait, ce sont des donnes numriques. Les Stats font partie du plan
(design) exprimental gnr par la question de recherche. Ce plan fait en gnral intervenir 4
types de paramtres :
1) La variable indpendante : il sagit du X, ex. le stimulus dans une tude stimulusrponse ; exx. influence du stress dans un test de labyrinthe.
2) La variable dpendante : cest Y, ce que lon mesure, la rponse, le nombre de bons
(ou mauvais) choix dans le labyrinthe.
3) Le ou les facteurs sujets dtude : ex. effet dun tranquillisant sur les relations entre
stress et performance dans le labyrinthe.
4) Variables parasites : ex. coton autour du muscle en TP de LSV2 ; influence du cycle
jour/nuit sur un dosage hormonal. Il faut faire en sorte que les variables parasites
soient les mmes pour tous les groupes.
Aprs un test, on tire une conclusion statistique dordre quantitatif (ex. il y a 5% de chances
que tel rsultat soit d au hasard). Il ne sagit pas dune estimation qualitative : on ne peut pas
dire par ex. que les groupes A et B sont diffrents. Aprs excution du plan exprimental,
lequel comprend plusieurs tests (parfois un grand nombre), on peut esprer atteindre une
conclusion de recherche dordre qualitatif.
Les Stats mentent-elles ? En dehors de la manipulation dlibre, la possibilit existe de faire
des erreurs de design , par ex en ne contrlant pas certaines variables parasites ou en
effectuant inconsciemment un chantillonnage non-alatoire. Dautre part, la quasi-totalit des
rsultats publis dans les journaux scientifiques sont des rsultats positifs obtenus en
gnral avec un seuil de significativit (significance) de 0,05. Cela signifie que si 20 quipes
travaillent sur le mme sujet de recherche, dont 19 ne trouvent pas de rsultat positif, il existe
1/20 chances quun rsultat faux soit publi ! (ex des plannaires et des engrammes). Les
erreurs dchantillonnage sont les plus communes, particulirement en rapport avec la taille.
Une trop petite ou trop grande taille dchantillon peut amener des conclusions statistiques
qui faussent la conclusion de recherche.
STATISTIQUES DESCRIPTIVES
Pour avoir un coup dil densemble sur un grand nombre de donnes, on peut les reprsenter
en distributions de frquences, dont une forme commune est lhistogramme de frquence.
Dans ce dernier, le rapport de laire de chaque barre sur laire totale de lhistogramme donne
la frquence de lintervalle par rapport au nombre total de cas dans la distribution. Un
intervalle adquat peut se calculer partir de la formule de Sturge : 1+(3,3 log10 n) ; ou de
Yule : 2,5 4 n . Diffrents types de frquences peuvent sexprimer :
1) Absolue
2) Relative : permet de comparer des groupes deffectifs diffrents. Attention aux nonsens sur des n faibles (ex. le fait quun des 2 mcaniciens dAspremont soit alcoolique
ne veut pas dire que 50% des mcaniciens dAspremont sont alcooliques)
3) Cumulative absolue
4) Cumulative relative : permet de reprer les centiles (percentiles) dune distribution. La
courbe a une allure sigmode dont lacclration centrale est due la concentration des
effectifs autour de la moyenne.
Trois paramtres suffisent caractriser les distributions de frquences :
1) Forme : Poisson (J invers) ; asymtrique positive ou ngative (skewed) ;
rectangulaire ; bi- ou multimodale ; en cloche.
2) Tendance centrale
a) Mode (NB : le mode la mode) : toujours utilis avec les chelles nominales.
b) Mdiane : spare leffectif en 2 moitis. Formule complique mais facile
reprer sur une distribution de frquences cumulatives.
X
X
c) Moyenne arithmtique : =
pour la population ; X =
pour
N
n
lchantillon. NB : i) (X X ) = 0. ii) La
moyenne est sensible aux extrmes de la
distribution. iii) Est utilise pour les tests
statistiques si la distribution est normale car
cest le paramtre qui varie le moins dun
chantillon lautre. Dans une distribution
asymtrique, la mdiane est la meilleure
reprsentation de la tendance centrale. iv)
Dans une distribution symtrique, le mode, la mdiane et la moyenne ont la
Mode
Md Moy
mme valeur.
d) Moyenne gomtrique de n valeurs : nme racine de leur produit
MG =
i1
3) Dispersion (variabilit)
Paramtre important pour les Stats infrentielles. Quantifie par :
a) Etendue ou talement (range) : max-min
b) Variance : comme (X X ) = 0, on prend le carr des dviations :
2
2
(X
2
2
(X
X
)
X
=
(pop) ; S =
(ch ;
(X X)
formule suivante : SC = X X-
1
-3
5
+1
7
+3
3
-1
16/4 = 4 = 0
(X)
n
. Ex :
(X - )2
9
1
9
1
= 20 ; 2 = 5
2 ; SX =
X X
S X (ou s X )
; NB : Z = 0 et z = 1.
Distribution normale
99,7%
95%
68%
-3 -2
-1
+1 +2
+3
Proprits : 95% des donnes sont comprises entre 1,96 et 99% entre 2,58 carts-type.
Ex : avec une moyenne et un cart-type de 100 15, on sait que 95% des donnes sont
comprises entre 70 et 130.
On peut consulter une Table daire sous la courbe pour dautres valeurs.
La courbe normale peut se dcrire par un formalisme mathmatique (sans grand intrt ici) :
N
2
(X X) /2 2
Y=
2 e
PROBABILITS
Nombre de possibilits correspondant au critre X f
Dfinition : Proba(X) = =
Nombre total de possibilits
N
( condition que toutes les possibilits aient des chances gales)
Ex : pile ou face = = 0,5. Exx : proba de sortir un pique = 13 = 0,25. NB : 0<P<1
52
1)
52
2)
52
52
52
1
2
Distribution binmiale
Dfinition : distribution de probabilit P dapparition dun vnement X fois au cours de n
observations dichotomiques, ce dernier terme signifiant que seules peuvent se produire
lapparition de lvnement de proba p ou sa non-apparition de proba q (= 1-p).
PX peut tre calcule partir des termes successifs de dveloppement du binme de Newton
(expansion binmiale), lequel scrit (p + q)n.
Ex : distribution binmiale des rsultats de 2 jets de pice = (p + q)2 = p2 + 2pq + q2
= 0,52 + 2(0,5)(0,5) + 0,52 (PP-PF-FP-FF)
= 0,25 + 0,5 + 0,25
= 1 (NB : p + q toujours gale 1)
Quand n grandit, lexpansion devient trs complexe. De fait, lquation de la loi binmiale
n!
scrit : PX = (n X)!X! qn-X pX, o 0 X
On peut aussi consulter une Table de distribution binmiale pour 0,05 p 0,95 et 1 n 15.
Ex : on fait passer un QCM de 10 questions 4 choix (p = 0,25). Quelle est la proba davoir la
moyenne (5 questions justes) en rpondant au hasard ? Il faut faire la somme des probas
davoir 5, 6, 7, 8, 9 ou 10 questions justes. En regardant dans la Table, on trouve P = 0,0584 +
0,0162 + 0,0031 + 0,0004 + 0,0000 + 0,0000 = 0,078, ce qui veut dire que sur 100 tudiants 7
ou 8 peuvent passer par hasard .
A vous : quelle est la proba davoir 5 filles dans une famille de 10 enfants ?
Reprsentation graphique
PX 0,5
n=2
PX 0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
PX 0,5
4 X (p 0,5)
n=4
0,4
0,3
0,2
0,1
0
n=3
4 X (p 0,5)
4 X (p 0,5)
STATISTIQUES INFRENTIELLES
Buts : 1) Les caractristiques de lchantillon dcrivent la population
2) Tester lhypothse nulle (H0) quun rsultat ou une diffrence entre groupes soient
ds au hasard. Exs : pile ou face sur 100 coups si f sloigne trop de 0,5 la pice est
truque ; rsultats au bac du lyce Imprial compars la moyenne nationale ; drogue
A compare drogue B ; etc).
En fait les 2 buts sont lis dans les tests statistiques : dans lexemple prcdent des drogues A
et B, on postule que les chantillons utiliss pour tester lhypothse sont reprsentatifs de leur
population respective, ce qui permettra de prdire avec une certaine proba quil vaut mieux
prescrire A, B, les 2 indiffremment, ou ni lune ni lautre. Un prrequis fondamental pour
valider ce postulat est que les chantillons soient constitus de manire alatoire.
Les tests dhypothse reposent essentiellement sur la mesure de la moyenne. Dans une
population finie, si on extrait tous les chantillons possibles dune taille donne, on obtient
une distribution de leurs moyennes appele distribution dchantillonnage alatoire de la
moyenne (random sampling distribution of the mean). La moyenne de ces moyennes,
est gale la moyenne de la population :
= X.
2)
X
n
X ,
numros tirs
val
8 1/16
X- SC
27 2/16
-3
9
46 3/16
-1
1
65 4/16
+1
1
84 3/16
+3
9
53 2/16 20
22 =1/16
20/4 =5
X = 5 = 2,24
X <
b) X diminue quand
NB : a)
3)
X .
6
Ex : z =
X hypo
X/ n
Ecart-type pop
(hypo)
9085
= 2,5
20/ 100
Taille ch.
Zone de rejet
(hypo)
La moyenne obtenue est 2,5 erreurs-type au-dessus de la valeur attendue si H0 tait vraie.
H0 est rejete = 0,05
mais retenue ( accepte) = 0,01 (z = 2,58).
Importance de la taille de lchantillon !
NB : il est le plus souvent impossible de connatre lcart-type de la population entire, X. Il
faut donc lestimer partir de lchantillon, comme on estime X partir de
X . Le
(petit s) =
sX
t=
sX
X hypo
sX / n
N
S2 : variance de lchantillon, SC
n
s2 : estimateur non-biais de 2, SC
n -1
X : cart-type de la population,
SX : cart-type de lchantillon,
sX : estimateur non-biais de X,
2
2
X : erreur-type de la moyenne,
sX
X
n
sX
n
ou
SX
n -1
ou
s
n
Distribution de t
Mme si X a une distribution normale, le fait de diviser par
varie dun chantillon lautre, fait que t na pas une distribution normale.
Dcouverte de Gossett, qui crivait sous le pseudo de Student (GB, ca. 1900).
Pour des chantillons dont n , t ~ z, sinon :
Similarits
Diffrences (des distributions)
- Moyenne = 0
- Leptokurtique (+ troite au pic ; + large aux extrmits)
- Symtrie
- t > z (=1)
- Unimodicit
- Dpend du nombre de DL (t = z pour DL = )
t
DL = degrs de libert (degrees of freedom)
z
Ex : avec 5 DL, t0,05 = 2,57 contre 1,96 pour z
Il faut aller chercher une diffrence plus loin avec t
Pour consulter la Table de distribution de t, DL = n-1 car comme (X X ) = 0, le dernier
X- X nest pas libre de varier.
Ex. sur une pop de 3 lments : (sX =
(X X)
n 1
; avec (XX) = 0)
X Y
= 0 si H0 est vraie.
Le thorme de limite centrale sapplique cette distribution : elle est peu prs (2) normale
mme si les distributions de X et Y ne le sont pas.
A ct de la tendance centrale et de la forme, le 3me paramtre qui caractrise une distribution
est le degr de dispersion. La valeur de lcart-type de la distribution des XY , ou erreur-
ts
ts
, et on
sX Y
sX sY
nX nY
, ce qui
s X Y
sc sc
nX nY
2
sc ( 1 1 ) , o sc2
nX nY
2
c =
SCX SCY
n X n Y 2
3) Avec variances et n gaux,
X Y =
(XX) (YY)
n X n Y 2
SCX SCY
n(n 1)
est la
2
2sc2
n
10
X Y
s X Y
(X Y)( X Y)hypo
sX Y
Notas :
Test directionnel ou non-directionnel : les mmes principes que pour le test de moyenne
unique sappliquent ; le t calcul a la mme valeur, mais la zone de rejet est soit rpartie (nondirectionnel) soit concentre un des 2 extrmes (directionnel).
Avec des 2 gales, le test est plus efficace (capable de dtecter une diffrence si elle
existe) quand nX = nY car alors
-
s X Y
diminue.
En principe lhomognit de variance est requise pour avoir une distribution de Student.
(jusqu ~20/groupe), ou avec nX = nY. Pour vrifier lquivariance, on peut utiliser un test de
s1 , o 2 > 2 , et DL = n -1 au numrateur et n -1 au
s1 s 2
2
s2
1
dnominateur.
Si F < Fcrit, on retient lhypothse nulle de lgalit des variances.
Quand les conditions sont trop dfavorables, on peut utiliser des tests non-paramtriques
(voir plus loin).
A
sX
(X Y)( X Y) hypo
s s 2r ( s X sY )
2
X
2
Y
= carr de lerreur-type.
Notas :
Le principe dquivariance nest pas requis ici.
DL = n paires 1 car tant donn une valeur X, la valeur Y correspondante nest pas
compltement libre de varier.
Dans un test appari, on peut calculer D , la moyenne des diffrences X-Y (contrairement
au test non-appari o on calcule la diffrence des moyennes), ainsi que leur cart-type estim
11
sD. Sans avoir calculer r, on peut obtenir le mme rsultat en testant H0: D = 0, cest--dire
en comparant D D(hypo), ce qui revient faire un test de moyenne unique :
t=
D D
sD / n
12
INTERVALLES DE CONFIANCE
Dans de nombreux cas, lestimation des IC savre plus utile et informative que les tests
dhypothse. On ne sintressera ici qu lestimation des IC de moyennes. Le but recherch
consistera calculer lIC de la moyenne dun chantillon comme lintervalle de valeurs qui a
95 ou 99% de chances de contenir la moyenne de la population dont cet chantillon est extrait.
Pour une distribution normale, si on connaissait X cet intervalle pourrait tre dtermin,
grce lcart rduit, comme X z
respectivement).
Ne connaissant pas la plupart du temps X et
estimateur de
X , on substitue s X
(= sX/ n ) comme
0,05 ou 0,01.
On cherche donc dans la Table le t correspondant avec DL = n-1 (NB : quand n, IC).
De mme, on peut calculer lIC dune diffrence entre 2 groupes, (XY) tp X Y , avec
s X Y
sX
t ps X
sX
tp
n
15
= 3 ; t0,05 2 avec DL = 24.
25
85 (2x3) = 79 ; 85 + (2x3) = 91
d1 = 6/15 = 0,4 ;
tp
n
= 2/5 = 0,4.
t ps X Y
, o s
s moy
moy
s X Y
48.
IC95 = 5x2 = 10 2 XY 22, o zro napparat pas
13
14
PUISSANCE DE TEST
(+ dtermination de la taille de lchantillon)
Comme un trop petit chantillon peut faire rater une diffrence importante, un trop grand
chantillon peut rvler une diffrence sans importance bien quelle soit significative.
Ex : QI / taille des enfants corrls (calcul a posteriori, r = 0,03 !) p<0,001 avec un
chantillon de 14000 (NY Times, 1986).
Rappel : erreur de type I = = proba de rejeter H0 quand elle est vraie
- Erreur de type II = = proba de retenir H0 quand elle est fausse
1 - = proba de rejeter H0 quand elle est fausse (= proba de dtecter une diffrence) =
puissance du test.
NB : quand diminue la puissance du test augmente
Facteurs qui affectent la puissance du test :
1) Distance X hypo (plus la distance est grande, plus il y a de chances de rejeter H0)
2) Taille de lchantillon :
sX
sX
X hypo
(ou s)
(X -Y) - ( X - Y) hypo
(ou s)
On peut par ex. considrer respectivement comme modre et consquente une d de 0,5 et 0,8
carts-type.
NB : on ne peut en principe calculer la puissance du test que si est connue, ce qui est
rarement le cas choisir une puissance dau moins 0,8 (80% de chances de rejeter H0 quand
elle est fausse).
On peut maintenant dterminer la taille de lchantillon en fonction de la :
Puissance du test = proba de ne pas rater une
Diffrence de grandeur choisie (rsolution).
Par ex., avec d = 0,5 et 1- = 0,8, la consultation de courbes de puissance (power curves)
pour un test de t non-appari et non-directionnel = 0,05 donne un effectif (n) de ~60.
Ralit
H0 fausse
H0 vraie
15
Dcision
Rtention Type II
OK
Rejet
OK
Type I
Domaine Domaine
ANOVA UN FACTEUR (one-way)
s 2
k
estime
2 (intra)
peut dire : n s X
estime
2 (inter), o
sX
sX
= s2/n, on
X-
- Calculer SC totale :
SCt =
(X X)
16
(X X)
(XX)
=
SCintra
n i (X i X )
SCinter
(X X)
k
(X A X A)
(X BX B)
+ k
17
Degrs de libert :
Rappel : s2 = SC/DL (= n-1 pour 1 chantillon)
DL pour SCt = nt-1
SCintra = (nA 1) + (nB 1) +... = nA + nB +... + nk k = nt k
SCinter = k-1
NB : nt k + k-1 = nt-1 = DL pour SCt
2
=
intra
SCintra ; s2
inter
nk
SCinter
k1
, et F =
sinter
2
sintra
(X)
n
Prrequis (assumptions) :
Distribution normale (sinon OK quand n est grand)
Homoscdasticit (sinon OK quand les groupes ont la mme taille)
Indpendance vraie pour ce type dANOVA
Echantillonnage alatoire
On a vu plus haut quon pouvait utiliser le F pour tester lhomoscdasticit de 2 chantillons.
Pour >2 chantillons, il faut utiliser dautres tests tels que Bartlett ou Levene (voir Scherrer).
Comparaisons post-hoc
A nutiliser que si F est significatif
En ordre croissant de conservatisme (donc dcroissant de puissance) :
Duncan, Newman-Keuls, HSD de Tukey, Scheff, etc.
1) Pour comparer toutes les paires possibles, on peut utiliser le HSD de Tukey : on
compare la diffrence de 2 moyennes (2 groupes) HSD (honestly significant
difference). Si
HSD = q
sintra
n
k
(1/ n A) (1/ n B) ... (1/ n k)
X A = Xtmoin ; XB = Xtmoin
XAXtmoin
2
sintra( 1 1 )
n A n tmoin
t=
; etc
et DLintra.
II. Groupes dpendants (mesures rptes)
Uniquement avec des groupes de mme taille !
SCt et SCinter ne changent pas (SCinter est plus facile calculer car n est le mme).
SCintra est partitionne entre : - SCel : variation entre lments et
- SCres : variation rsiduelle (= alatoire).
A
1
2
3
1
2
3
B
C
2
3
3
4
4
5
Variation lments
6
9
12
1
2
3
A
1
2
3
B
C
2
3
1
3
2
1
Variation rsiduelle
6
6
6
Ex :
SCel = k ( Xel -
)2, o
Xel
(traitements)
SCres = SCt - SCinter - SCel avec DLel = n-1 et DLres = (DLel)(DLinter) = (n-1)(k-1)
2
F=
sinter
2
sres
NB : ce test est plus puissant que pour les groupes indpendants car on enlve la variation due
aux diffrences entre lments : s 2res <
sintra
On peut aussi utiliser les tests post-hoc pour mesures rptes, mais :
HSD = q
s res
n
(au lieu de
sintra ).
19
X B1 = X B2
Effet engrais H : X A1 = X A2
1
B
cellules
1
2
facteur : F1 =
s2A
s2res
; F2 =
s2AB
s2res
2
slignes
scol
2
slxc
20
On peut enfin faire des comparaisons post-hoc si le nombre de conditions par facteur est >2.
Ex : HSD = q
sintra -cell
n
conditions par facteur et de DLintra-cell, et o n = nombre de X par colonnes ou par lignes, selon
quon cherche les diffrences parmi les conditions des facteurs A ou B.
Une diffrence de moyenne entre 2 conditions dun facteur donn est significative si elle
est >HSD.
Notas :
- Pour interprter leffet interaction, il faut en principe corriger la moyenne de chaque
cellule en soustrayant les effets principaux :
moy. cell. corrige = moy. cell. - (( L - X ) + ( C - X ) + X ), o L et C sont les moyennes
de chaque ligne et colonne qui constituent la cellule.
- Les prrequis sont les mmes que pour ANOVA 1 facteur, sauf quici un nombre gal de
X par cellule est plus important.
- On peut aussi faire des ANOVA 2 (ou +) facteurs avec mesures rptes. Ex des
contrleurs ariens : effets de 2, 12 ou 24 h de veille sur un test de vigilance rpt lors de 4
sessions sur n sujets. Ce type danalyse est assez complexe voir ouvrages spcialiss
Exemples de rsultats avec ANOVA-2F :
Rendement
Bl 1
Rendement
Bl 2
Aucun effet
Rendement
Bl 1
Bl 1
Rendement
Bl 2
Effet engrais
Rendement
Bl 2
Bl 1
Bl 1
Bl 2
Effet varit
Rendement
Bl 2
Bl 1
Bl 2
21
22
CORRLATION
Notion lie celle de prdiction. Exs : taille parents / enfants (Galton) ; nombre de cigarettes
fumes / incidence du cancer pulmonaire ; ex. de corrlation ngative : nombre dheures
passes par des enfants devant la tl / rsultats aux tests de lecture
On part dune distribution bidimensionnelle (bivariate) ; on fait dabord un graphe (ou
diagramme) de dispersion (scatterplot). Ceci permet de reprer a priori une relation linaire,
la seule accessible au traitement mathmatique de Pearson (~1900).
NB : il existe aussi des relations non-linaires (ex : courbes dose-rponse ; courbes en cloche,
etc.). Dans ce cas, il faut mathmatiquement linariser les donnes (ex. log X si Y = a log X +
b)
La corrlation peut tre positive ou ngative, la pente de la relation tant toujours 0.
Coefficient de corrlation (de Pearson) : -1 r +1
r=
(z X z Y) =
n
(XX)(YY)
nSXSY
(XX)(YY)
(SC X)(SC Y)
Finalement, r =
Dv. pos. de
Y
x
-+
x
x
+
+
x
+
+
x
x
x
Dviations
positives de
-+
Dviations
ngatives de
X
Notas :
- Prendre un chantillon assez grand sur le plan taille absolue (N) et sur le plan gamme de
Z
talents .
- Corrlation causalit ; ex : X Y ? ou
?
X
Y
Ex : force physique / intelligence chez les enfants de 8 12 ans ; nombre de nids de cigognes /
nombre de naissances dans les villes dEurope
- Il existe dautres types de corrlation, ex. Spearman (voir dernier cours sur tests nonparamtriques).
23
Rgression et prdiction
Le terme de rgression vient du fait que pour des valeurs extrmes de X, les Y ont tendance
rgresser vers la moyenne. Par ex., les enfants de parents de taille ou de QI trs levs ont
tendance tre plus grands et intelligents que la moyenne, mais pas autant que leurs parents.
Les tudiants trs dous en maths ont tendance tre forts en stats, mais ne sont pas
forcment les meilleurs Le degr de rgression vers la moyenne dpend du r : nul si r=1,
total si r=0.
On trouve le meilleur ajustement (best fit) de la droite de rgression par la mthode des
moindres carrs (least squares) : si dY = Y-Y (o Y = valeur prdite de Y), d 2
Y doit tre
le plus petit possible.
Dans le cas o on a plusieurs valeurs de Y pour chaque X, on prdit des valeurs Y qui seront
diffrentes des Y X (moyennes des Y pour un X donn), et qui en sont des estimations. Dans
ce cas, dY = Y- Y X
NB : on peut aussi faire une rgression de X en Y , c--d prdire X en minimisant d 2
X
. Sauf dans le cas o r = 1, les droites de rgression de Y en X et de X en Y seront
diffrentes.
NBB : dans le cas o on a des valeurs aberrantes (outliers), on peut soit ajuster une droite de
rsistance base sur la diffrence Y- mdianeX (au lieu de Y X), soit tout simplement
liminer ces valeurs.
Proprits de la rgression :
- Toutes les droites (r) passent par lintersection de X et Y (pivot on peut calculer r
partir dune valeur de Y).
- Si r = 0, Y= Y .
Equation de la rgression :
Y'Y
SY
=r
X X
SX
Y= (r
SY )X - (r SY ) X + Y
SX
SX
(XX)(YY)
(XX)
b = Y - aX
Erreur-type destimation de Y en X (mesure de la variablit de Y par rapport Y) :
SYX =
(Y Y')
n
= SY
1r 2
24
25
Interprtation de r
SYX = SY
2
S
1 YX
S2Y
1r 2 r =
SYX .
SY
X+
(r SY ) (r SY )X Y
SX
SX
pente = r
SY
SX
x
x
Y-
Y-
(Y Y)
n
S2Y = variance
totale de Y
(Y Y')
n
S2YX = variance
de Y indpendante de X (= rsiduelle)
(Y'Y)
n
S2Y' = variance de
26
S2Y' = r
2
SY
27
1 2
. On note que quand n ou
n 1
augmentent r diminue.
Dterminer la significativit du r revient tester lhypothse H0: = 0. Pour cela, on pourrait
calculer tr =
r n 2
1r 2
directionnel ou pas.
Une mthode plus simple consiste comparer r directement dans une Table de significativit
avec DL = n-2.
Vu que r diminue quand n augmente, on peut, avec des chantillons trs grands, trouver un r
hautement significatif alors que est trs faible. Inversement, avec un n trs faible, on peut,
par hasard, trouver un r lev. Il vaudrait donc mieux donner lintervalle de confiance de r
pour une estimation plus objective. Malheureusement, quand 0 la distribution de r nest
plus normale (elle lest pour =0, ce qui lgitime le test H0 ci-dessus).
Il faut convertir r en zr de Fisher (attention : aucun rapport avec lcart rduit z !) :
zr = ln 1 r distribution normale
1r
z r , o lerreur-type de z , z r =
r
1
.
n 3
zr1zr2
, o lerreur-type de la diffrence entre les 2 z , zr1zr2 =
zr1zr2
r
1 1
n13
n 23
Comparer ensuite z = 1,96 pour = 0,05 ou 2,58 pour = 0,01.
Quand on compare plus de 2 chantillons, il faut faire une analyse de covariance (ANCOVA ;
voir par ex Scherrer : Biostatistique, 1984, p. 676). Ce type danalyse permet de rechercher,
parmi plusieurs droites de rgression, une diffrence de pente et/ou dordonne lorigine.
28
CHI-2 (2 ; chi-square)
Permet destimer si les frquences de distribution dune population dans n catgories diffrent
des frquences attendues selon une hypothse quelconque. Ex : y-a-til une prfrence des
tudiants en LSV pour certaine(s) des 4 options proposes ?
On pourrait ici tester par ex. H0: pA = pB = pC = pD = 0,25 (il ny a pas de prfrence).
Consquemment, le 2 permet de tester la qualit ou la validit dajustement (goodness of fit)
de donnes une quation.
2 =
(f -f ) 2
o a
n
fa
et attendues
(fa = N x p = N x 0,25). On compare ensuite le 2 la valeur critique dans une Table pour un
choisi et DL = nombre de catgories - 1. Si 2 > la valeur critique, on rejette H0.
Frq
.
1
2
4
Frq
.
DL
Zone de rejet de
H0 pour = 0,05
10
6
DL = 3
0
10
20 2
0
10
Notas :
- Trs employ par les gnticiens qui attendent des frquences particulires de
reproduction (ex : apparition de phnotypes selon 9-3-3-1 9/16-3/16-3/16-1/16).
- Un prrequis est lindpendance des observations. Pour utiliser le 2 en mesures rptes,
il faut prendre certaines prcautions (Siegel & Castellan, 1988).
Applications du 2
1) Ajustement dquation
On a vu jusquici quavec la plupart des tests on cherche une diffrence (rejet de H0). Quand
on utilise le 2 pour estimer la qualit dajustement, on cherche au contraire dmontrer quil
ny a pas de diffrence avec la distribution thorique (rtention de H0).
2 =
'
Y1-Y1
2
+
Y 2-Y'2
2
++
Y k -Y'k
2
o
Y est la valeur observe pour un X donn, Y la valeur thorique dtermine par lquation
pour ce mme X, et l erreur-type de Y.
DL = nombre de donnes - nombre de paramtres variables
29
Leg +
Leg -
fo
fa
fo
fa
Prlvements
PACA
2
3,5
8
6,5
10
IdF
2
2,8
6
5,2
8
Nord
10
7,7
12
14,3
22
14
26 = 40 prlvements
(23,5) 2
3,5
(86,5) 2
6,5
6 pour = 0,05.
On ne peut pas exclure que les prlvements sont homognes.
NB : quand 2 est significatif, on ne peut pas localiser lhtrognit, c--d dterminer quels
groupes sont dissemblables. Il faut pour a faire une transformation log complexe
NBB : le 2 a beaucoup dautres applications possibles (voir plus bas par ex.).
30
STATISTIQUES NON-PARAMTRIQUES
Pour distributions non-normales.
Ne testent pas une diffrence entre moyennes (paramtre) mais entre distributions, et peuvent
sadresser indiffremment la tendance centrale, dispersion ou symtrie.
Adaptes aux petits chantillons.
Bases sur un classement des donnes par rangs. Ex :
Valeurs :
4
5
5
8
11
11
11
15
19
Rang :
1
2,5
2,5
4
6
6
6
8
9
moyennes
des
rangs
n X(n X 1) - RX
2
U(n X n Y /2)
n X n Y(n X n Y 1)
12
H = -3 (nt+1) +
(R ) 2 (R ) 2
(R k) 2
1
2
12
...
n1
n2
nk
n t (n t 1)
avec DL = k-1.
Pour les comparaisons multiples (H > la valeur critique), on utilise les tests post-hoc utiliss
en stats paramtriques. Pour comparer tous les groupes entre eux, et si les n de chaque groupe
sont gaux, on peut par ex. utiliser le test de Student-Newman-Keuls en remplaant les
moyennes par la somme des rangs. Avec des n ingaux et/ou pour comparer les groupes un
tmoin, on peut utiliser les tests de Dunn ou Dunnett. Pour plus de dtails, voir Biostatistique
de Scherrer, p. 540.
31
(f o f a )2
f a
(f o f a )2
f a
et voir Table
W 0,25n(n 1)
n(n 1)(2n 1)
24
o 0,25n(n+1) est la
6D2
, o D = diffrence entre les paires de rangs et n = nb de paires de rangs
n(n 21)
Y
5
4
20
15
19
Rang X
1
2
3
4
5
Rang Y
2
1
5
3
4
D
-1
1
-2
1
1
D2
1
1
4
1
1
32
6x8
33