Académique Documents
Professionnel Documents
Culture Documents
NOTE TECHNIQUE N° 81
QUELQUES METHODES
DE L'ANALYSE CLMATOLOGIQUE
par H. C. S. THOM
il
OMM-N°199
NOTE TECHNIQUE N° 81
QUELQUES METHODES
DE L'ANALYSE CLIMATOLOGIQUE
par H. C. S. THOM
(traduite par R. ARLéRY)
OMM-N°199
U * Vo
- 3133'
tffc+S^
NOTE
Les désignations utilisées dans cette publication et la présentation des données qui y figu-
rent n'impliquent de la part du Secrétariat de l'Organisation météorologique mondiale aucune
prise de position quant au statut juridique de tel ou tel pays ou territoire, ou de ses autorités,
ni quant au tracé de ses frontières.
TABLE DES MATIERES
Page
Avant-propos V
Page
Chapitre III - Les méthodes statistiques générales (suite)
Références 60
A V A N T - P R O P O S
£S~ZL-*4Ï5-B.+><•*• -m,
(D.A. Davies)
Secrétaire général
R E S U M E
Après avoir défini ce qu'est une série climatologique pour jeter les bases
d'une analyse statistique valable, l'auteur traite de la distribution de fréquence
(élément capital de l'analyse climatologique). De là, il passe naturellement à la
distribution cumulée pour obtenir des probabilités qui représentent les prévisions
climatologiques.
TABLEAU 1
TABLEAU 2
P f P f
0-19 1 140-159 4
20-39 1 160-179 1
40-59 6 180-199 0
60-79 5 200-219 1
80-99 2 220-239 0
100-119 6 240-259 1
120-139 2
LES SERIES CLIMATOLOGIQUES
TABLEAU 3
m P P m P P m P F
1 18 0,032 11 72 0,355 21 119 0,677
2 23 0^065 12 78 0,387 22 125 0,710
3 41 0,097 13 79 0,419 23 133 0,742
4 44 0,129 14 83 0,452 24 144 0,774
5 48 0,161 15 85 0,484 25 147 0,806
6 49 0,194 16 100 0,516 26 157 0,839
7 54 0,226 17 105 0,548 27 158 0,871
8 57 0,258 18 107 0,581 28 171 0,903
9 62 0,290 19 108 0,613 29 206 0,935
10 67 0,323 20 110 0,645 30 250 0,968
Les valeurs F sont les fréquences relatives cumulées qu'on adopte pour
estimer les probabilités cumulées de la population. On les obtient par :
m « . , , ième
F = où m est le rang de la m valeur dans la liste des valeurs ordonnées
rT+1
selon les grandeurs croissantes, n le nombre de termes de la série climatologique
(ici 30). On divise par n + 1 au lieu de n pour avoir une meilleure estimation des
probabilités, en particulier aux limites de la distribution. On peut montrer que
m
donne la meilleure estimation simple de la probabilité.
ÏTTT
Les valeurs de F indiquent les probabilités que la précipitation soit infé-
rieure à une des valeurs p quelconques figurant dans le tableau. Par exemple, la pro-
babilité que p soit inférieure à 62 mm est F = 0,290; la probabilité que p soit supé-
rieure à 62 mm est donc 1 - F = 0,710. On notera que, si les probabilités sont estimées
pour une variable aléatoire continue comme les précipitations, ce serait méconnaître
les principes de l'échantillonnage que de parler de valeurs "atteintes ou dépassées"
LES SERIES CLIMATOLOGIQUES
TABLEAU 4
m t F m t F m t F
1 16,9 0,032 11 18,6 0,355 21 19,8 0,677
2 17,4 0,065 12 18,7 0,387 22 19,9 0,710
3 17,5 0,097 13 18,7 0,419 23 20,3 0,742
4 17,8 0,129 14 18,9 0,452 24 20,4 0,774
5 17,9 0,161 15 18,9 0,484 25 20,7 0,806
6 17,9 0,194 16 19,2 0,516 26 20,8 0,839
7 18,1 0,226 17 19,3 0,548 27 20,9 0,871
8 18,3 0,258 18 19,5 0,581 28 20,9 0,903
9 18,5 0,290 19 19,5 0,613 29 22,0 0,935
10 18,6 0,323 20 19,7 0,645 30 22,9 0,968
Une série de données est dite homogène si elle est un échantillon d'une
population simple et unique. Puisque, par définition, une série climatologique est
homogène, l'analyse élémentaire des probabilités s'applique seulement aux vraies
séries climatologiques. Les séries précédentes de précipitations et de température
ont naturellement subi un premier examen avant d'être acceptées comme homogènes. Si
une série n'est pas homogène, il faut lui apporter des retouches pour que les estima-
tions statistiques qu'on en tirera soient des estimations valables des paramètres de
LES SERIES CLIMATOLOGIQUES
TABLEAU 5
plus proche de 0,10 ou 0,90. L'écart maximal par rapport aux probabilités exactes
est t 0,03. Si la valeur trouvée pour u est inférieure à la limite inférieure,
l'hétérogénéité est imputable à une tendance ou à un glissement de la moyenne; si
elle dépasse la limite supérieure, il faut penser à des oscillations.
TABLEAU 7
Le tableau 7 montre que le nombre de suites est réduit à 11 par les deux
déplacements de la moyenne qui produisent, en effet, une sorte de tendance. Au
tableau 6, pour N. = 15, la probabilité d'avoir moins de 12 suites est 0,10. Comme
le tableau 7 n'en fait apparaître que 11, le test indique qu'il y a hétérogénéité.
On le savait, naturellement, puisqu'on avait provoqué artificiellement la rupture
d'homogénéité. Mais on soupçonnera, à partir de cet exemple, et on n'aura pas tort,
que l'aptitude d'un test de ce genre n'est pas très bonne pour trouver l'hétérogénéité
quand on ne connaît pas ce qui peut être la raison de la non-homogénéité. Ceci met
en lumière un point très important: le meilleur moyen de déceler l'hétérogénéité
est de bien connaître l'historique de la série d'observations pour voir si on risque
d'y trouver des raisons de douter de l'homogénéité. Si l'historique permet de mettre
en évidence des changements susceptibles de rompre l'homogénéité et si on peut préci-
ser la nature de ces causes et la période qu'elles ont affectée, des tests paramé-
triques plus puissants, t de Student, peuvent être utilisés pour déterminer la
signification de l'hétérogénéité. Mais de tels tests ne peuvent servir que si on
connaît a priori les périodes affectées par l'hétérogénéité et la nature de cette
dernière.
8 LES SERIES CLIMATGLOGIQUES
On peut montrer par l'analyse théorique que les méthodes classiques des
différences et des rapports sont pratiquement optimales pour l'ajustement de moyen-
nes de températures et de précipitations. Ces ajustements sont souvent opérés pour
compenser des lacunes dans les observations ou corriger des hétérogénéités. La
méthode des différences utilise la différence entre les moyennes de température de
deux séries concomitantes comme facteur à ajouter b la moyenne de la série dispo-
nible. La méthode des rapports utilise le rapport entre totaux ou moyennes de pré-
cipitations de deux séries concomitantes comme facteur multiplicatif du total ou de
la moyenne de la série disponible. Le mieux sera d'illustrer ces ajustements par des
exemples.
maintenant que, durant ces deux premières périodes, la station ait changé de place
ou subi des modifications d'exposition des instruments et que nous désirions adapter
une moyenne de 30 ans aux conditions d'observation des dix dernières années. Voilà
le problème d'ajustement typique. D'autres arrangements de l'hétérogénéité dans un
relevé de données peuvent être pris en considération par de simples variantes de la
procédure.
y = a + x (1)
a = v - u (2)
v et û sont les moyennes pour une même période de relevés homogènes simultanés,
respectivement è la station de comparaison et à celle pour laquelle il faut faire
l'ajustement. La procédure d'ajustement de la température consiste donc à estimer
a en utilisant les relevés homogènes faits simultanément à la station de comparai-
son et à la station, à ajuster et à porter cette valeur dans l'équation (l) pour
obtenir la moyenne ajustée y. Les moyennes y, estimées pour les différentes parties
de la période de 30 années sont ensuite pondérées proportionnellement à la longueur
des séries partielles et il ne reste plus qu'à faire la moyenne sur 30 ans.
TABLEAU 8
TABLEAU 9
2y = bzx (3)
TABLEAU 10
S'il est toujours désirable d'utiliser la plus efficace parmi les statis-
tiques disponibles, il est parfois utile, bien que cela ne soit pas essentiel dans
tous les problèmes, qu'on puisse également la considérer comme sans biais (erreur
systématique). Ceci signifie que la moyenne de la statistique pour m échantillons
de taille n tend vers la valeur vraie du paramètre quand m augmente indéfiniment
ou lorsque mn tend vers le nombre de termes de la population totale. L'efficacité
et l'absence de biais ne se produisent pas obligatoirement ensemble. La pratique
courante, en analyse climatologique, est de choisir une statistique efficace et de
la corriger pour le biais, si cette propriété s'avère nécessaire, comme dans les cas
où on doit calculer des sommes ou des moyennes de statistiques. On distingue géné-
ralement deux types de statistiques : a) celles qui sont des estimations directes
des paramètres d'une distribution de fréquence; b) celles qui sont des estimations
d'autres propriétés de la population. La moyenne et l'écart type empiriques sont
des estimations des paramètres de population ou de distribution dans le cas d'une
répartition normale. La moyenne est aussi une estimation de la moyenne d'une popu-
lation, ou espérance mathématique, quelle que soit la forme de la distribution.
être estimés h partir d'un ajustement analytique de la distribution, chaque fois que
c'est possible, car les évaluations basées sur les distributions cumulées empiriques
ou sur les séries de valeurs ordonnées risquent d'être très imprécises.
c est dit moment d'ordre r , u est la moyenne, f(x) est la densité de proba-
bilité, R est le domaine sur lequel f(x) est définie. L'estimation sans biais
du moment de second ordre ou variance est
I
2 <x - «>* (6)
s •— — — — — » *
n - 1
La racine carrée de la variance définit l'écart type. Les moments d'ordre plus élevés
peuvent être estimés par
î (*-5)r
mT (7)
2 l
f (x) - • '
* • • •
et
I(x-x) 2
. /
n - 1
1 2
2 "
du
qui peut être adaptée h n'importe quelle loi normale, simplement en assignant à
M et a les valeurs appropriées. Ainsi, une table unique avec l'argument t , qui
est, en même temps, la table d'une loi normale avec une moyenne nulle et un écart type
égal è l'unité, suffit pour obtenir les probabilités dans une loi normale quelconque.
Naturellement, F(t) donne la probabilité que u soit inférieur à t . La probabi-
lité que u soit plus grand que t est donc 1 - F(t), et F(t2) - F(t.) est la
probabilité que u soit compris entre t. et t„.
20 LES METHODES STATISTIQUES GENERALES
On sait que les températures moyennes mensuelles ont une distribution assez
voisine de la loi normale. Pour ajuster cette distribution, il faut estimer la
moyenne et l'écart type. Les formules d'estimation sont
ix
• B
et
2
s »
77 [ . . ' - ; (..>•]
Les calculs nécessaires sont indiqués ci-dessous pour la température moyenne (en °C)
de janvier à Akureyri, Islande.
Année Température Année Température
2
2x = 240,49 et JgjL* . i ^ ± 9 = 55,22
o 1*5,27
s
~ - 6,3986
29
d'où « - «6,3986 - 2,53»C
x(F) = x + s t(F)
six) - - î — j-*;f
pYr(v)
/3 étant un paramètre d'échelle, 7 un paramètre de forme, r(7) la fonction gamma
ordinaire de 7 .
22 LES METHODES STATISTIQUES GENERALES
et
Y-
7('R
X
Y
A étant donné par
I in x
A - in x -
G(X) - / 9(0 dt
o
et
» -4-
LES METHODES STATISTIQUES GENERALES 23
Les calculs nécessaires pour les précipitations de novembre (en mm), à Reykjavik,
Islande, sont les suivants :
x x 2 468,2
Le tableau donne x = = 82,273
n 30
slnx 127,2760
-—. _ 20 " 4'Z4ZD
D'où A = 4,4100 - 4,2425 = 0,1675
v—
1*11 + 4
0,1675
3,14
- 26,20
3,14
t(F) = -£- = 50
p " 26,20
= 1,91
faible) valeur de l'année, elle résiste à toutes les autres. C'est la distribution
des valeurs extrêmes annuelles qui fournit alors la prévision climatologique appro-
priée. Jusqu'à présent, c'est la loi de Fisher-Tippett du type I qui a suscité le
plus grand intérêt* Elle a été largement utilisée par Gumbel. La fonction de répar-
tition est donnée par
x -a
F(x) = e -e
Le double signe correspond aux valeurs maximales (signe moins) ou aux valeurs mini-
males (signe plus). La loi de Fisher-Tippett, type II, a aussi été employée en cli-
matologie. C'est une transformation exponentielle du type I. Elle peut être ajus-
tée en utilisant une distribution du type I en lnz (voir exemple 3).
m X
.2 X X X X
\ l .3 .4 .5 .6
2 a 0,91637 0,08363
b -0,72135 0,72135
x
il' x i2' x i3' x i4' x i5' x i6
x x x x X x
ll 12 13 14 15 16
X X x x X x
21 22 23 24 25 26
X X X x X x
31 32 33 34 35 36
x X X x X x
41 42 43 44 45 46
X x X x X X
51 52 53 54 55 56
S S S S S S
.l .2 .3 .4 .5 .6
a a a a a ft
-l .2 .3 .4 .5 .6
6
ft
.lS.l a
.2 S .2 a
.3 S .3 a
.4 S .4 a
.5 S .5 a
.6 S .6 £
VjS.j
b b b b b b
.l .2 .3 .4 .5 .6
6
b .1
. S .1
. b .2
0 S .2
, b .3
-S .3
, JB .4
b .4 A b .5
-S .5
,. b fi
.oS .»
fi Ib .S
.3 ..j
Le point indique qu'aucune opération n'est à faire sur l'indice qu'il remplace.
Chaque colonne des x est d'abord sommée pour obtenir les S#.. Ces derniers
sont alors multipliés par les a. de la table de pondération et on fait la somme de
la ligne : z a. S .. Les S . sont ensuite multipliés par les b . et on a la somme
I b.. S.. de la ligne.
26 LES METHODES STATISTIQUES GENERALES
x - a
P
P
P
ou
X a
P - *pyp
Lieblein a montré que, pour y fixé, une estimation de x à variance minimale est
p p
fournie par
X a s k ( b 8 k ) y
P • À . j . / • " . j . / p
1 m
k j=l .j .j
et
m
1
et on range ces trois valeurs dans l'ordre croissant. Appelons-les x,., x,~ et
61 62
X
63* ^ n f ° r m e ^ e tobleau suivant, avec les poids correspondant à m' = 3.
x x x
61 62 63
a a a
.1 .2 .3
a
3
m' = 3 .lx61 a
.2x62 a
.3x63
b b b
de même .l .2 .3
b
.lx61 b
.2x62 b
.3x63 ».j"6j
«p » **.JX6J + (Ib
.JX6J)YP
• m aJ ï S : ->• ro
a* - ]™Z , -? + 2. 2 0 . S .
n k n .) . j
u_ m b : S • _t m
et fi* = J= 2 _ - L ^ J + fl. r b . S
n k n .j .j
La loi du type II étant la même que celle du type I où la variable est remplacée
par son logarithme, l'ajustement des deux distributions peut être illustré en étu-
diant la distribution, selon le type I, du logarithme de la vitesse maximale annuelle
du vent. Cette vitesse est exprimée ici en miles par heure.
In 30 - In z
In v(30) = In v(z) +
Nt
0,355*5 0,225*9 0,16562 0,12105 0,08352 0,04887
b -0,45928 -0,03599 0,07319 0,12673 0,14953 0,14581
i
x.
16
3,7441 3,7652 3,7858 3.7881 3,8475 3,8853
3,7441 3,7441 3,7652 3.9883 4,0684 4,0684
3,7007 3}8452 3,8830 3,919* 3,919* 3,9715
11,1889 11,3545 11>4340 11,6958 11,8353 11,9252
^L
81
1 0,65632 0,25571 0,08797
-0,6305* 0,25582 0,37473
3,6552C 3,66520 3,74410
3 665<
i - , i ( • '
Pour revenir au groupe de 21 valeurs, on prend les 18/21 de la part qui revient aux
3 sous-groupes de 6 et les 3/21 de celle qui provient du sous-groupe de 3.
a
1
e et 7
02 = = "g 1
soit
py = e3'7860 = 44,08
1
= 11,74
0,0852
In In (i)
In v(P) = lnfl?
'2 -"
F x x
< > " tïo 0 vUi-v)^, t-o, i,
£c 0 < <lV
et
«-X
Alors, la probabilité
donne des diagrammes des limites de confiance pour 1 - 2a = 0,80, 0,90, 0,95 et 0,99*
Elles correspondent aux formules et tableaux qui permettent d'obtenir p. et p... La
probabilité 0,90 est le coefficient de confiance le plus élevé qui devrait ordinai-
rement être utilisé dans l'analyse climatologique.
-1 c
Si l'on emploie la notation en fonction inverse h = F (—), l'intervalle
dé confiance pour la vraie valeur v du quantile h peut alors être exprimé par
la relation de probabilité
p
[F"l(pLJ < n• r ¥~lto\lU ' 1
- 2a
*+
*•(*) - A
X n t.
'° t!
car la fonction de probabilité est
f(x) - |»
LES METHODES STATISTIQUES GENERALES 33
Cette loi ne dépend que d'un seul paramètre, la moyenne n , dont la meilleure estima-
— Sx
tion est x = . Les probabilités s'obtiennent immédiatement à partir de F(x),
à l'aide d'une table d'exponentielles et d'une table de factorielles.
2
X 6„ 6 * 8« x x log X log x! log p P g„ F (g -s) /g
o o 0 c c c c 0 c
(1) (2) (3) eo (5) (6) (7) (8) (9) (10) (11)
(7
x2(69) = °x U 9 9 )
-261=60,6
261
2
La table de X indique
2
La valeur de X n'est pas significative et le modèle de distribution de Poisson
est à conserver. Sous forme logarithmique, l'expression de la fonction de probabi-
lité est
P[x2(5)>5,798 î] =-0,30
2 Ix
X„ . » n - Ix
n-i
Zx
LES METHODES STATISTIQUES GENERALES 35
.2
P* .i(.2.,) .-2l.
et
-2
k* = x x
2 - I*
S - X
2
où x et s sont respectivement la moyenne arithmétique et la variance de l'échan-
tillon.
La table de X donne
P(X2(64) >93^7)<.0 9 02
gc(x) = K
(1 + p*)k» + x
r(k* + x)
où p* et k* sont les statistiques et K =
r(x+i)r(k*)
2 f F*"
logP c
X 8
o V S x
o
log K x logj—— P
c g
c
233
La moyenne est x = vg = 3,58
Log K est tiré des tables de la fonction gamma, en utilisant la valeur de k*. Le
dernier terme de l'expression de la fonction de probabilité est partagé en deux fac-
teurs dont un seul contient x. Son logarithme est donné dans la colonne 6. L'autre
facteur a pour logarithme
MOT* * 2 (5) =i (
«c - «o) 2 „ 2/83
«c
2
La table de X montre que
On rappelle que Fisher a montré que l'ajustement par les moments n'est pas
toujours efficace pour la loi binomiale négative. Le critère qu'il a proposé pour
juger si cet ajustement est acceptable est
c
= f1 +
è*> k
P ( * + 2) > 20
C = 30,51 > 20
Si, par exemple, on trouvait C ^ 20, il faudrait avoir recours a une esti-
mation de p* et k* par la méthode du maximum de vraisemblance (voir Thom, 1957).
E( Xi - F ^ (XJ - Mj)
p(xi,xi) =
1
a
m
, 2 . (x.. -x.) (x., -X.)
r(x.,x.) * !5=i V s ' '
i ] ns.s.
Ici x., est le Jcième terme (année) de la iième série climatologique et x., le
kième terme (année) de la jième série climatologique, et x.,s. et x.,s. les
moyennes et écarts types empiriques respectifs.
Pour les séries climatologiques des 1er, 2, 3, ... m mai, évoqués précé-
demment, il existe m(m-l) couples possibles de séries. Comme on a évidemment
[ m 1 m2_ L O m m .
V
40 LES METHODES STATISTIQUES GENERALES
On notera que, si les r(x.,x.) sont nuls, la relation se réduit à la simple for-
mule de la variance
( î ^ i ) • &AA
Si m = 2, avec k. = 1 et k„ = - 1 ,
v(xL - x 2 ) = Sj + s 2 - 2s x s 2 r(x lt x 2 )
VlXj-Xj) = Sj + 8 2
1 1m
Si k = -, la relation linéaire devient une simple moyenne y = — ? , x £ , et
la variance devient
m
.1 xi\
/i=l ! rm 2 m m
Ainsi, la température moyenne de juin a une variance, formée par les variances quoti-
diennes et les corrélations de séquence, donnée par
30
JU
v
/i£i x *\ 1
r30 2 30 30
l
(J±L±) = _ [ I s\ + 2 I I . • r ( x . , x )J
L
V 30 / 900 i=l * i=lj>i 1 J X 3
LES METHODES STATISTIQUES GENERALES 41
( '30 \
i=l i l
30 ,
i=l î
+2
30 30
ill jïi V j r <*i>V
Etant donné que les précipitations totales mensuelles ont rarement une distribution
voisine de la loi normale, on aura plus souvent intérêt à considérer la variance de
la moyenne ou de la normale de n années,
À I *«
1
n 1-1
q = -kjt + k2t' + k„
s(q) = V^(q~)
q = -kj$ + k2ï' + k 3
Une régression est une relation fonctionnelle entre une variable dépen-
dante et une ou plusieurs variables indépendantes. Pour un ensemble donné de valeurs
des variables indépendantes, la régression donne la valeur moyenne de la variable
dépendante. L'analyse de régression est utilisée en climatologie pour estimer les
constantes dans les relations fonctionnelles où elles ne sont pas données directement
comme des quantités physiques. On l'utilise pour établir des relations aussi bien
entre des séries climatologiques qu'entre séries climatologiques et variables d'appli-
cation. Dans le dernier cas, la régression peut souvent être calculée sans faire
appel à une série climatologique pour autant qu'on dispose de séries de valeurs de
la variable indépendante qui forment des échantillons aléatoires et simples dans
chaque ensemble et qui couvrent une étendue de valeurs égale à celle de la série
climatologique. Ainsi la relation entre une variable d'application et les variables
climatologiques peut souvent être établie a partir de courtes séries de valeurs simul-
tanées des deux variables.
Le principe des moindres carrés est très général et peut être appliqué à
presque n'importe quel type de fonction.
le =I
j Cyj " R(x
ir —• x
kjî *o' Pi» • » *yfi2 - *<yd - Rj) 2
LES METHODES STATISTIQUES GENERALES 43
r f hy, - B,)2 = 0
2
i f e * ^ - v • °
jfeî(srj - v 2
• °
La solution simultanée de ces équations fournit les estimations par les moindres
carrés, des constantes 0 , fi., ...., 0.»
La fonction de régression R peut naturellement prendre une variété infinie de
formes. C'est néanmoins la forme linéaire que l'on utilise le plus et on ne consi-
dérera ici que des régressions linéaires à une ou deux variables indépendantes. Mais
des fonctions plus compliquées peuvent être analysées en recherchant leurs propres
équations normales selon le procédé déjà décrit.
a s
et
n _
ly(x-x)
Mx-x)2
44 LES METHODES STATISTIQUES GENERALES
yc = a + b(x-x)
et on a alors une seule équation normale donnant l'estimation par les moindres carrés
Ixy
b =
Ix<
Il est souvent nécessaire de tester l'ajustement d'une régression pour s'assurer de
sa réalité et de sa linéarité. Ceci se fait au mieux grâce a l'analyse de variance,
qui est une technique proposée par R.A. Fisher pour analyser les carrés moyens- asso-
ciés aux diverses composantes de la variation. Pour la régression linéaire étudiée
ci-dessus, la variation totale de y se divise en une variabilité prise en compte
dans la régression et une variabilité résiduelle dont la régression ne rend pas
compte. Ceci peut être exprimé de façon commode dans un tableau d'analyse de variance.
Analyse de variance
Le "degré de liberté" est un terme utilisé par R.A. Fisher pour désigner le nombre
entier par lequel il faut diviser la somme des carrés afin d'obtenir le carré moyen.
Quand on a estimé la moyenne et fixé ainsi sa valeur, il ne reste que n-1
observations dont les variations sont libres; la nième valeur se déduit automati-
quement du fait que les n valeurs doivent avoir pour moyenne la moyenne déjà fixée.
En d'autres termes, un degré de liberté a été utilisé pour estimer la moyenne et il
reste n - 1 degrés de liberté pour évaluer le carré moyen par rapport à la moyenne.
Comme on n'en a pas besoin ici, il n'est pas calculé. Un autre degré de liberté est
perdu dans l'estimation de b; il reste donc n - 2 degrés de liberté pour calculer
le carré moyen résiduel. On voit que la somme des degrés de liberté des composantes
LES METHODES STATISTIQUES GENERALES 45
de la variabilité dans un tableau d'analyse de variance est égale au total des degrés
de liberté. Les sommes des carrés Q_ et CL s'obtiennent de
n? . n -
QT = ly2 - I (ly)2
•T
et -X-.2
[ly(x-x)]
2R =
2(x-x) 2
2 °R
Le carré du coefficient de corrélation s'écrit r = -jr—
S"
2
ce qui montre que r donne la proportion de la variation exprimée par la régression,
Il s'en suit que, si l'on utilise le coefficient de corrélation pour apprécier le
degré de liaison, il est préférable de conserver son carré pour obtenir une estima-
tion réaliste de la fraction de la variabilité prise en compte par la régression. Ce
carré est, naturellement, toujours plus petit que r.
Le tableau d'analyse de variance fournit aussi un test de signification de
la linéarité de la régression. La statistique est donnée par
QR/i
F(lfn-2) =
(QT-QR)/n-2
Elle doit être comparée à une.table de F (ou rapport de variance) avec les degrés
de liberté 1 et n - 2 aux niveaux de signification 0,10 ou 0,05, pour juger s'il
existe réellement une relation linéaire; ou, en d'autres termes, si le carré moyen
pris en compte dans la régression linéaire est suffisamment grand par rapport au carré
moyen résiduel, pour décider qu'une régression existe réellement et qu'elle n'est pas
simplement l'effet d'un échantillonnage au hasard.
un test de linéarité. Un tel test nous indiquera s'il est ou non nécessaire d'ajou-
ter à la formule des termes de degré plus élevé, pour améliorer l'ajustement.
Analyse de variance
k .j - 1 k .j 0
Totale I i v 2 _ ± ( l l v ) = 0 n-1
v
j=l i=l yij n lj=l i=l y ij'
P(k-1, n-k) =
V11-1
<VV /n - k
par l'ajustement des moyennes de colonnes, le résidu de cet ajustement doit être le
plus petit possible. Si ce résidu est soustrait de celui qu'a laissé la régression
linéaire, la partie restante est le résidu de l'ajustement des moyennes de colonnes
après application de la régression linéaire. L'analyse de variance se présente
ainsi:
Analyse de variance
Moyennes de colon-
nes après régres- k-2
k-2
sion
Résidu des moyen-
2r e M n-k *r "M
nes de colonnes n-k
Résidu de la régres*
sion linéaire QT-QR n-2
F (k-2, n-k) =
W1n-k
aux valeurs correspondant aux degrés de liberté k - 2 et n - k d'une table de F.
Si ce test est significatif, la régression linéaire ne suffit pas à expliquer toute
la variabilité et il faut essayer des termes de plus haut degré.
(x-x)2
'D^f* »4WïT+ ^]
l(x-x)2
*KU)-%o5in-2) 8
[y c (x) J < T (x)
< yc(x) + t
o,95 (n - 2) 8 C y c (x) ] l = °» 90
48 LES METHODES STATISTIQUES GENERALES
Q
•v V R , (x-x-)2
u
n-2 " Kx-x)'
p y (x) c
* c " "b,05(n-2) s (y- T ( x Q [y-***)] < y c (*) + ^ 9 5 ("- 2 >s [y-Y(x)| } = 0,90
x
lc " b l + b2(x2 " V *b3(x3 ~ V
Les b sont appelés coefficients de régression. On les estime à partir des équa-
tions normales générales mentionnées précédemment, ramenées au cas particulier d'un
système à deux variables indépendantes.
6ij =I.(xi-xi)<xj-x\j)
on a
Qu=I(x1-î1)2
et
fi12 B ïtxj-itj) (x2-jc2)
Les équations normales pour deux variables indépendantes s'expriment alors par
fi22b2 + fi23b3 = Q 1 2
Q 23 b 2 * Q 33 b 3 - Q n
00
ra-a
Sous cette forme, on voit immédiatement comment les équations normales peuvent être
généralisées à la régression è un nombre quelconque de dimensions. Les coefficients
b autres que b. peuvent être obtenus directement par la résolution simultanée des
équations normales, mais on trouvera plus commode d'exprimer ces solutions à l'aide
des multiplicateurs de Gauss qui permettent d'étendre le calcul è un nombre quelconque
de variables indépendantes.
{
'22 '23 22 *23
= 1
'23 c,,«
33 '23 C
33 J Lo
50 LES METHODES STATISTIQUES GENERALES
[clfel = 1
l'indice 1 n'apparaissant pas parce que les x sont pris par rapport à leur
moyenne.
L'inversion donne
D0 = H -1
C'est-à-dire la matrice des C est la matrice inverse de celle des Q. Les b
se calculent alors à partir de l'équation
s
12
!
13
= C
{
'2k lk
Si
D s
°23 " V ^ S
les c sont donnés par
22
'23
et
c
33 = V *
Les b sont alors donnés par
b X
l = l
b = C
2 22 Q 12 +
°23Q13
et
b C
3 = 23 Q 12 + C
33 Q 13
LES METHODES STATISTIQUES GENERALES 51
! = Q
1.2...k ll ~ b 2 Q 12 ~ b 3 Q 13 ~ ••' ~ b k Q lk
et
Q = Q - b 0
p-q *PP p-q pq
ou
p.q %/%n
Totale Q n-1
n
2 (QQll-
u- QQ1.23)
i.
r
i.23 *v—q^—'
52 LES METHODES STATISTIQUES GENERALES
(Q11-01.23)/2
F(2 n 3)
'" " - a a -
Les trois analyses de variance simples sont les suivantes
A/V de x. en Xg
totale Q
ll n-1
r
1.2
*L1
et le test en F considère
P U . „- 2 ) • ( ^ ^ • 0
Q
1.2/n-2
A/V de x. en x,.
totale
11 n-1
LES METHODES STATISTIQUES GENERALES 53
Q
ll - Q1.3
1.3
Q
ll ' Q1.3
F(l, n-2) =
Q
1.3/ n - 2
A/V de XQ en x^
'22 - % . :
2.3
'22
et r
L'analyse des coefficients de régression partielle r.g 3 i3 2
peut être faite à partir des quantités déjà disponibles dans les tableaux précédents.
Ces coefficients expriment respectivement la corrélation entre x^ et Xg quand on
a éliminé l'influence de x„ et la corrélation entre x1 et x^ après élimination
de l'influence de x«. Les tableaux d'analyse de variance fournissent encore de
façon commode les éléments pour les coefficients de corrélation et leurs tests de
signification. Ils permettent aussi de voir si l'ajustement en x„ réduit de
manière significative les résidus résultant de l'ajustement de x^ en x^ et si
l'ajustement en x« réduit le résidu après ajustement de x, en x^. Ceci est
important pour juger de l'utilité d'ajouter une variable ou, comme on le verra plus
loin, une puissance de la variable.
54 LES METHODES STATISTIQUES GENERALES
A/y partielle de x. en x~
Q
1.2 " Q1.23
F(l, n-3) s *"• *
Q
1.23/n 3
A/V partielle de x. en x^
Q
2 1.3 " Q 1.23
r12
'3 ' Q
1.3
On forme
Q
l 3 ' Q l 23
FI, n-3) . QQ1<3 n P3
1.23/"" 3
X = b + b
lc l 2X+b3x2
peut être conduite par la méthode précédente en remplaçant simplement x„ par les
carrés des valeurs de x et en substituant de même des puissances plus élevées aux
autres termes linéaires. La seule différence est que b. sera maintenant déduite de
b
l " *1 " b2*2 " l b3 Ix2
On constatera encore que les multiplicateurs de Gauss sont très commodes pour obtenir
les écarts types de x. et de (x.-SU) qui permettent de déterminer les limites
de confiance, [j^ est la valeur vraie de x. pour un couple (x2, x~). Les écarts
types pour une régression à trois dimensions sont alors donnés par
s(x lc ) = f — : — L - + c 22 (x 2 -x 2 ) + c 33 (x 3 -x 3 ) + 2c 23 (x 2 -x 2 ) (x3-x3lJ J*
s(xrS) , { J L ^ £i + i + c 2 2 (x 2 -x 2 ) 2 + c 3 3 (x 3 -x 3 ) 2 + 2c 23 (x 2 -î 2 ) Uj-ïjfl}*
56 LES METHODES STATISTIQUES GENERALES
Comme dans le cas simple à deux dimensions, l'intervalle de confiance peut être
déterminé en utilisant la variable t de Student avec, ici, (n-3) degrés de liberté.
Quand il y a k variables indépendantes, les écarts types deviennent
et ,,„,-*, . { M ^ Q + 1 + j 2 j 2 Cij(lrïi) (x .. ; . a ji
Alors
ï = ifl = 11,38
13
25 9 6 9
a =y = = 1 997,62
13
D'où
soit, en éliminant x
y = -297,2 + 201,3 x
La régression fait apparaître un léger décalage de 297,2 kwh. Ceci indique que le
conditionnement d'air n'est utilisé que quand la température dépasse légèrement 65°F.
Si on passe outre, pour que la régression donne y s 0 pour x = 0, le coef-
ficient de régression est simplement
b m Xxy o 3T0_23fi = M ,
Ix 2 2 056
et
y» = 180,1 x
58 LES METHODES STATISTIQUES GENERALES
Degré de
Variabilité Somme des carrés liberté Carré moyen
Ceci indique que la régression linéaire rend compte dans une forte proportion de la
liaison entre y et x (plus de 9055). Le carré du coefficient de corrélation doit
toujours être préféré pour avoir une mesure honnête du degré de liaison. Pour estimer
l'erreur d'une prévision, il faut calculer l'erreur type de y - Y ou Y est la
valeur vraie de y . Cette erreur type est donnée par
s(y - Y) = n
\ n -2 L K x - 3Ï)2 J J
1
121 365 [1,077 +
l 371,08
I}
J)
LES METHODES STATISTIQUES GENERALES 59
- 2
Si x = 15, par exemple, (x - x) = 184,96
Alors
s(y-Y) = (x - x ) 2 = 184,96
y 121 365(1,077 x 0,498)
Les cinq premiers ouvrages de la liste sont recommandés comme références générales.