Vous êtes sur la page 1sur 66

Module 106

Analyse et fouille de donnes

Ajustement et corrlation
1 - Principe de l'ajustement 2 - Principe de la mthode des moindres carrs 3 - Ajustement linaire 4 - Exemple d'ajustement 5 - Corrlation linaire de 2 variables 6 - Retour sur la covariance et la corrlation 7 - Corrlation linaire multiple 8 - Exemple de recherche de corrlation 9 - Modles non linaires 10 - Ajustement polynomial 11 - Test du 2

Exercices

Grard-Michel Cochard cochard@u-picardie.fr

Ch2 - Ajustement et Corrlation

1 - Principe de l'ajustement
Une srie statistique est une collection de couples (xi, ni) o xi est la valeur du caractre (ou le centre d'une classe) et ni l'effectif correspondant. A chaque couple (xi, ni) on peut faire correspondre un point dans un repre cartsien de sorte que la reprsentation graphique d'une srie statistique est un nuage de points :

Effectuer un ajustement consiste :


q q

trouver la courbe qui passe "au mieux" au milieu de ces points trouver l'quation de cette courbe

L'intrt de cette procdure est


q q

d'exprimer les rsultats d'une tude statistique par une loi simple d'liminer les erreurs ou fluctuations accidentelles

Les figures suivantes dcrivent des ajustements des sries statistiques des exemples A et B :

Dans ce qui suit, nous considrerons que les donnes statistiques sont des couples (xi, yi) correspondant chacun un point. Dans le cas d'une srie statistique simple, xi reprsentera une valeur du caractre, yi (appel prcdemment ni) l'effectif (ou la frquence) correspondant.

Il y a plusieurs procds d'ajustement ; les principaux sont :


q q

l'ajustement graphique, amlior par la mthode des points moyens l'ajustement mcanique : mthode des moyennes chelonnes, mthode des moyennes mobiles Ces deux types d'ajustement permettent d'obtenir la forme de la courbe cherche.

l'ajustement analytique : mthode des moindres carrs Cet ajustement permet, en principe, d'obtenir l'quation de la courbe.

Nous ne nous intresserons ici qu' la mthode des moindres carrs.

2 - Principe de la mthode des moindres carrs


Les ajustements graphique et mcanique permettent d'obtenir la forme approximative de la courbe d'ajustement. On fait alors choix d'une courbe de type connu d'quation y = f(x). Cette quation contient un certain nombre de paramtres dont il s'agit de fixer les valeurs. exemples : pour une droite d'quation y = ax + b, les paramtres dterminer sont a et b. pour une parabole d'quation y = ax2 + bx + c, les paramtres dterminer sont a, b, c. La dtermination de ces paramtres est l'objet de l'ajustement analytique. le procd le plus employ est la mthode des moindres carrs. Pour chaque point (xi, yi), on considre le point correspondant de la (prsume) courbe d'ajustement (xi, y'i). Si l'quation de la courbe d'ajustement est y = f(x), on a y'i = f(xi). On mesure alors la diffrence (en valeur absolue) entre ces deux points : |yi - y'i| = |yi - f(xi)| et on forme la quantit :

Pour dterminer les paramtres inconnus de la fonction f, on crit la condition d'optimisation : M doit tre minimum

ce qui se traduit, en gnral, par des quations mathmatiques plus ou moins complexes.

3 - Ajustement linaire
Dans ce qui suit, on se limite au cas o la courbe d'ajustement est une droite d'quation y = ax + b. Il faudra donc dterminer les paramtres a (coefficient directeur) et b (ordonne l'origine). C'est l'objet de l'ajustement linaire.

Considrons la srie statistique reprsente par les couples de nombres : x x1 x2 ------------------------ xi ------------------------ xn y y1 y2 ------------------------ yi ------------------------ yn Pour effectuer l'ajustement linaire de cette srie, procdons par tapes successives : a) changement de variable Effectuons le calcul des moyennes arithmtiques simples des xi et des yi :

ce qui donne le point (mx, my). Puis on effectue le changement de variables :

ce qui quivaut un changement d'axes. La nouvelle srie est la collection (Xi, Yi) : X X1 X2 ------------------------ Xi ------------------------ Xn Y2 ------------------------ Yi ------------------------ Yn

Y Y1

b) expression de la quantit M M = i(Yi - Y'i)2 avec Y'i = AXi + B Yi - Y'i = Yi - AXi - B = (Yi - AXi) - B

(Yi - Y'i)2 = (Yi - AXi)2 - 2B(Yi - AXi) + B2 d'o M = i(Yi - AXi)2 - 2B(iYi - AiXi) + nB2 Mais

iYi = i(yi - my) = iyi - nmy = nmy - nmy = 0 et de mme iXi = i(xi - mx) = ixi - nmx = nmx - nmx = 0

donc M = i(Yi - AXi)2 + nB2 (Yi - AXi)2 = Yi2 - 2AXiYi + A2Xi2

Ajoutons et retranchons l'expression prcdente le terme

c) minimisation de M Il est clair, d'aprs l'expression prcdente, que l'on rendra M le plus petit possible en prenant :

On obtient alors :

Puisque M est une quantit positive (dans sa dfinition, c'est un carr), on remarque que :

d) dtermination de la droite d'ajustement Dans les nouveaux axes, l'quation de la droite d'ajustement est Y = AX Cette droite passe donc par l'origine des nouveaux axes, c'est dire par le point dont les coordonnes, dans les anciens axes sont (mx, my). Dans les anciens axes, la droite d'ajustement a pour quation gnrale y = ax + b Or Y = AX entrane que d'o a = A et b = my - Amx y - my = A(x - mx) ou encore y = Ax + my - Amx

e) relation pratique pour a Exprimons a en fonction des donnes initiales (xi, yi).

4 - Exemple d'ajustement
exemple 11 : salaires moyens d'un ouvrier professionnel dans les industries des mtaux de la rgion parisienne anne salaire (F) 1950 1,15 1952 1,82 1954 1,99 1956 2,36 1958 2,83 1960 3,20 1962 3,75 1964 4,40

La rpartition des points suggre que l'ajustement peut tre fait par une droite d'quation y = ax + b. Pour dterminer a et b, on utilise une disposition en tableau comme suit. Il est, par ailleurs, commode de remplacer les annes par des nombres plus simples xi.

On en tire : mx = 4/8 = 0,5

my = 21,50/8 = 2,69

a = [27,20 - 8x0,5x2,69]/[44 - 8x0,25] = 0,39 b = my - amx = 2,69 - 0,39x0,5 = 2,49 L'quation de la droite est donc y = 0,39x + 2,49. Cette quation exprime approximativement la variation du salaire horaire moyen au cours du temps. Elle permet de faire
q

des interpolations : salaire horaire moyen en 1955 : 0,39x0,5 + 2,49 = 2,30 des extrapolations : salaire horaire moyen en 1966 : 0,39x5 + 2,49 = 4,44

Ch2 - Ajustement et Corrlation

5 - Corrlation linaire de 2 variables


Dans la session prcdente, on s'est intress aux sries statistiques simples. On s'intresse maintenant aux sries statistiques doubles reprsentes graphiquement par des nuages de points de coordonnes (x,y) o x est une valeur du 1er caractre et y une valeur du second caractre. La recherche de l'influence de x sur y ou de y sur x s'appelle la recherche de la corrlation entre x et y. La forme du nuage de points peut renseigner de manire utile sur l'importance de la corrlation :

La corrlation linaire se reconnat au fait que les points reprsentatifs sont voisins d'une droite. L'quation de cette droite peut tre obtenue par l'ajustement linaire :

Cette droite est appele droite de rgression de y en x. Nous la noterons Dy/x. On peut aussi faire jouer x et y des rles symtriques et considrer la droite de rgression de x en y : Dx/y dfinie par :

Les deux droites de rgression sont en gnral distinctes. Cependant elles passent toutes deux par le "point moyen" (mx, my). Une bonne corrlation linaire signifie que les droites de rgression sont presque confondues. Au contraire, une trs mauvaise corrlation linaire correspond deux droites de rgression presque perpendiculaires.

6 - Retour sur la covariance et la corrlation


Nous allons dfinir, dans ce paragraphe, une quantit numrique permettant de mesurer quantitativement la corrlation linaire.

La droite Dy/x a pour quation y = ax + b et son coefficient directeur est a. La droite Dx/y a pour quation x = a'y + b' ou y = x/a' - b'/a' et son coefficient directeur est 1/a'. La corrlation maximum correspond la situation o les droites Dy/x et Dx/y sont confondues, soit a = 1/a' ou encore aa' = 1

Or

La corrlation maximum correspond donc :

Par dfinition, on appelle coefficient de corrlation linaire la quantit

On crit souvent r sous une autre forme que nous allons dterminer et qui fait intervenir les carts-types. n reprsentant le nombre de couples (xi, yi),

la variance de x est

la variance de y est

rappelons que l'on appelle covariance de x et y la quantit

Avec ces dfinitions, on peut crire

Examinons maintenant les proprits du coefficient de corrlation linaire :


q

invariance par translation

Transformons xi en x'i = xi + et yi en y'i = yi + . Alors mx est transform en mx' = mx + et my en my' = my + . Par suite Xi est transform en X'i = x'i- mx' = (xi + ) - (mx + ) = xi - mx = Xi et Yi est transform en Y'i = y'i - my' = (yi + ) - (my + ) = yi - my = Yi En dfinitive, r est inchang.
q

invariance par changement d'chelle

Transformons xi en x'i = xi et yi en y'i = yi. Alors mx est transform en mx' = mx et my en my' = my. Par suite Xi est transform en X'i = x'i - mx' = xi - mx = (xi - mx) = Xi et Yi est transform en Y'i = y'i - my' = yi - bmy = (yi - my) = Yi

r est donc chang en

En dfinitive r est inchang.


q

domaine de variation de r

D'aprs l'ingalit de Schwarz :

d'o

donc

Terminons ce paragraphe par une mise en garde. La corrlation a une interprtation trs dlicate. En gnral, elle correspond une relation cause-effet mais il faut faire trs attention. En effet : a) de x et y, on ne peut savoir (sauf si c'est vident) qui est la cause et qui est l'effet. b) x et y peuvent tre en relation avec un troisime phnomne ; par exemple, on pourra trouver une bonne corrlation entre le chiffre de vente de lunettes de soleil et le chiffre de vente de crme glace ; le troisime phnomne est videmment la temprature. c) Il peut y avoir des corrlations accidentelles. On a pu monter, par exemple, une corrlation importante dans les cas suivants :
q

mortalit britannique et population des mariages anglicans ; nombre d'abonns au tlphone dans le dpartement de la Seine et nombre d'tudiants inscrits la Facult de Droit de Paris ; taux de nuptialit et activit conomique

Il faut donc adopter une attitude prudente.

7 - Corrlation linaire multiple


Le cas tudi prcdemment tait limit la corrlation de deux variables. Examinons maintenant la corrlation entre plus de deux variables ; supposons que nous ayons une variable X(0) et que nous voulons l'"expliquer" partir de k variables X(1), X(2), ...., X(k) par une loi linaire : X(0) = 0 + kkX (k)

Les paramtres k sont, a priori inconnus, sont les coefficients de saturation. X(0) est la variable expliquer et X(k) pour k = 1,N sont les variables explicatives. Pour simplifier l'expos, on admettra que l'on a effectu n observations ce qui a conduit n valeurs Xi(k) pour chaque variable X(k). On affectera chacune de ces valeurs d'un poids statistique de 1 de sorte que les dfinitions usuelles s'crivent :
q

moyennes : mX(k) =(iXi(k))/n variances : v(X(k)) = (i(Xi(k) - mX(k))2 covariances : cov(X(k), X(l)) = [i(Xi(k) - mX(k))(Xi(l) - mX(l))

On dfinira l'cart entre l'exprience et le modle par

dfinition conforme ce que l'on a dj vu. Pour minimiser E et donc trouver les coefficients k, on crira que les drives partielles de E par rapport aux coefficients k sont nulles :

ce qui conduit aux quations suivantes :

La premire de ces quations donne n0 = iXi(0) - ikkXi(k) ou n0 = nmX(0) - nkkmX(k) soit

0 = mX(0) - kkmX
(k)

La seconde quation s'crit alors

0iXi(l) + iXi(l)kkXi(k) - iXi(l)Xi(0) = 0


n0mX(l) + kkiXi(l)Xi(k) - iXi(l)Xi(0) = 0 nmX(0)mX(l) - nkkmX(l)mX(k) + kkiXi(l)Xi(k) - iXi(l)Xi(0) = 0 Pour faciliter l'criture posons

Vkl = cov(X(k), X(l)) =(iXi(k)Xi(l))/n - mX(k)mX(l) d'o kkVkl = V0l ou matriciellement

M est appele matrice des covariances. Pour rsoudre ce systme, il faut calculer la matrice inverse M-1 : B = M-1V

relation qui fournit les coefficients de saturation k pour k = 1, N. On est amen poser, pour mesurer la corrlation globale

Ce coefficient est quelquefois appel coefficient de corrlation multiple (mais d'autres dfinitions existent).

8 - Exemples de recherche de corrlation

exemple1 On donne les deux sries chronologiques suivantes, relatives la Grande Bretagne : Rcepteurs de radio en service (en centaines de milliers) : x 13 20 23 25 27 31 36 46 55 63 70 76 81 85 Nombre de maladies mentales dclares (pour 1000 habitants) : y 8 8 9 10 11 11 12 16 18 19 20 21 22 23

annes

1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1937 1937

Recherchons s'il y a une corrlation entre x et y. Calculons tout d'abord le coefficient de corrlation.

Le coefficient de corrlation est r = 0,99 . Il est donc trs lev ce qui indique une forte corrlation entre x et y. Les droites de rgression, qui figurent cidessous (Dy/x en rouge et Dx/y en jaune) ont pour quations : Dy/x : y = 0,22x + 4,55 Dx/y : x = 4,44y - 19,48

Bien entendu, la corrlation observe ne permet pas de dire si la radio rend fou ou si seulement les fous utilisent la radio !

exemple 2 Le bassin versant du Danube hongrois se situe en Bavire et en Autriche. Si par l, la quantit de condensations atmosphriques devient leve, une vague de crue se produit tout au long du Danube dont le plafond Budapest on veut prdire. Le problme ncessite une approche mathmatique assez complexe mais pour le moment nous nous contentons de prsenter une illustration bien simplifie sur la rgression plusieurs variables. On introduit les trois variables suivantes :
q

X(0) le plafond du Danube Budapest. On ne considre que les cas les plus importants. X(1) la quantit de condensations atmosphriques dans le bassin versant du Danube hongrois. La moyenne mathmatique des donnes mesur par 15 station dobservation en Bavire et en Autriche. X(2) le niveau du Danube Budapest juste avant les grandes eaux causant des vagues de crue.

Le tableau suivant donne les trois donnes de 26 vagues de crue du Danube Budapest.
Numro dordre 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 temps X(0) (cm) X(1) (mm) X(2) (cm)

1896.08.14 1896.08.20 1897.08.08 1899.09.22 1903.07.15 1906.07.20 1907.05.02 1907.06.29 1907.07.21 1912.05.31 1912.07.27 1912.08.04 1912.09.16 1912.09.21 1914.07.14

590 660 780 770 710 640 670 520 660 690 500 460 610 710 620

58 52 133 179 98 72 72 43 62 67 64 33 57 62 54

405 450 350 285 330 400 550 480 450 610 380 460 425 560 420

16 17 18 19 20 21 22 23 24 25 26

1914.07.24 1918.07.01 1918.08.15 1926.06.26 1926.07.01 1926.07.17 1926.08.06 1926.08.14 1954.07.18 1955.06.26 1955.07.16

660 620 590 740 730 720 720 640 805 510 673

48 86 74 95 44 53 77 46 123 26 62

620 390 350 570 710 700 580 700 560 370 430

On tente d'expliquer X(0) en fonction de X(1) et X(2) suivant le modle linaire : X(0) = 0 + 1X(1) + 2X(2) Calculons la matrice M et le vecteur V :

Le modle linaire donne X(0) = 274,89 + 2,35X(1) + 0,44X(2). Les valeurs thoriques sont donnes ci-dessus. On peut, avec le graphique suivant comparer le modle la ralit :

Ch2 - Ajustement et Corrlation

9 - Modles non linaires


On se limitera ici au cas de deux variables alatoires. 2 cas se posent dans la pratique lorsque le modle linaire n'est pas adapt :
s

soit on se ramne par transformation au modle linaire lorsque cela est possible
r

ajustement exponentiel Y = a eX transformation par logarithme : Ln(Y) = Ln(a) + X do ajustement linaire entre Ln(Y) et X ajustement puissance Y = a Xb = a eb Ln(X) transformation par logarithme : Ln(Y) = Ln(a) + b Ln(X) do ajustement linaire entre Ln(Y) et Ln(X)

soit on cherche un modle non linaire simple ; le cas courant est lajustement polynomial Y=a0+a1 X+a2 X2+............+aN XN =

10 - Ajustement polynmial
Examinons plus en dtail ce type de modle en supposant n observations (xj,yj) . On dfinira alors Lcart par rapport au modle par:

Pour minimiser, annulons les drives partielles de E par rapport aux coefficients ak :

soit

Posons

alors ou matriciellement

Par suite lquation

fournit les coefficients cherchs On remarquera que

Toutefois, la mthode prcdente qui donne des rsultats acceptables pour linterpolation, est peu satisfaisante pour lextrapolation. On utilisera de prfrence la mthode des polynmes orthogonaux, par exemple la mthode de Lagrange que nous explicitons ci-dessous. On utilise des polynmes de base Li(x) (polynmes de Lagrange) et on cherche un ajustement de la forme

Si X = xi il faut que Y = yi donc Lj(xi) = 0 si i j et 1 si i = j soit Lj(xi) =


q

ij

le polynme Lj(X) s'annule pour X = x0, x1, ....,xj-1, xj+1, ........., xn , on peut donc lcrire sous la forme Lj(X) = k (X-x0)(X-x1).... (X- xj-1)(X- xj+1) .... (X-xn) Lj(X) = k (X-xi)

pour i=j on a Lj(xj) = 1 soit k

(xj -xi) = 1 et

Finalement lexpression du polynme de Lagrange est

exemple 6 : : 3 points x0 = 0, x1 = 1, x2 = 2

Noter que lon peut poser

11 - Test du 2

La loi du 2 Donnons sans dmonstration quelques rsultats importants : Soit n variables normales centres (c'est dire suivant une loi de probabilit normale rduite) x1, x2, .............., xr. Alors la quantit x1+ x2+ ..............+ xr suit une loi de probabilit du suit une loi de probabilit du 2 (ou de Pearson) = r degrs de libert.

Loi du 2

: nombre de degrs de libert ; densit de probabilit :

esprance mathmatique : variance : si , la loi du 2 tend vers la loi de Gauss

q q

La loi du 2 est donne par des tables qui procurent la probabilit P de dpasser une valeur donne xl
TABLE DE DISTRIBUTION DU (*) 0,995 0,990 0,975 p
2

0,950

0,900

0,750

0,500

3,93E-05 0,000157 0,000982 0,003932 0,015791 0,101531 0,454936

0,010025

0,0201

0,050636 0,102586 0,210721 0,575364 1,386294

0,071723 0,114832 0,215795 0,351846 0,584375 1,212532 2,365973

0,206984 0,297107 0,484419 0,710724 1,063624 1,922558 3,356695

0,411751 0,554297 0,831209 1,145477 1,610309 2,674604 4,351459

0,675733 0,872083 1,237342 1,63538

2,20413 3,454598 5,348119

0,989251 1,239032 1,689864 2,167349 2,833105 4,254852 6,345809

1,344403 1,646506 2,179725 2,732633 3,489537 5,070642 7,34412

1,734911 2,087889 2,700389 3,325115 4,168156 5,898823 8,342832

10 2,155845 2,558199 3,246963 3,940295 4,865178 6,737199 9,341816

11 2,603202 3,053496 3,815742 4,574809 5,577788 7,584145

10,341

12 3,073785 3,570551 4,403778 5,226028 6,303796 8,438419 11,34032

13 3,565042

4,1069

5,008738 5,891861

7,0415

9,299063 12,33975

14 4,074659 4,660415 5,628724 6,570632 7,789538 10,16531 13,33927

15 4,600874 5,229356 6,262123 7,260935 8,546753 11,03654 14,33886

16 5,142164 5,812197 6,907664 7,961639 9,312235 11,91222 15,3385

17 5,697274 6,407742 7,564179 8,671754 10,08518 12,79192 16,33818

18 6,264766 7,014903 8,230737 9,390448 10,86494 13,67529 17,3379

19 6,843923 7,632698 8,906514 10,11701 11,65091

14,562

18,33765

20 7,433811 8,260368 9,590772 10,8508

12,4426 15,45177 19,33743

21 8,033602 8,897172 10,28291 11,59132 13,2396 16,34439 20,33723

22 8,642681 9,542494 10,98233 12,33801 14,04149 17,23962 21,33704

23 9,260383 10,19569 11,68853 13,09051 14,84795 18,13729 22,33688

24 9,886199 10,85635 12,40115 13,84842 15,65868 19,03725 23,33673

25 10,51965 11,52395 13,11971 14,6114 16,47341 19,93934 24,33658

26 11,16022 12,19818 13,84388 15,37916 17,29188 20,84343 25,33646

27 11,80765 12,87847 14,57337 16,15139 18,11389 21,7494 26,33634

28 12,46128 13,56467 15,30785 16,92788 18,93924 22,65716 27,33623

29 13,12107 14,25641 16,04705 17,70838 19,76774 23,56659 28,33613

30 13,78668 14,95346 16,79076 18,49267 20,59924 24,4776 29,33603

40 20,70658 22,1642 24,43306 26,5093 29,05052 33,66029 39,33534

50 27,99082 29,70673 32,35738 34,76424 37,68864 42,94208 49,33494

60

35,5344

37,4848 40,48171 43,18797 46,45888 52,29381 59,33467

70 43,27531 45,4417 48,75754 51,73926 55,32894 61,69833 69,33448

80 51,17193 53,53998 57,15315 60,39146 64,27784 71,14451 79,33432

90 59,19633 61,75402 65,64659 69,12602 73,29108 80,62466 89,33422

100 67,32753

70,065

74,22188 77,92944 82,35813 90,13323 99,33413

0,250 0,100 0,050

0,025

0,010

0,005

0,001

1,323304 2,705541 3,841455 5,023903 6,634891

7,8794

10,82736

2,77259 4,605176 5,991476 7,377779 9,210351 10,59653

13,815

4,108342 6,251394 7,814725 9,348404 11,34488 12,83807 16,26596

5,385266 7,779434 9,487728 11,14326 13,2767 14,86017 18,46623

6,625678 9,236349 11,07048 12,83249 15,08632 16,74965 20,51465

7,840806 10,64464 12,59158 14,44935 16,81187 18,54751 22,45748

9,037146 12,01703 14,06713 16,01277 18,47532 20,27774 24,3213

10,21885 13,36156 15,50731 17,53454 20,09016 21,95486 26,12393

11,38875 14,68366 16,91896 19,02278 21,66605 23,58927 27,87673

10 12,54886 15,98717 18,30703 20,4832 23,20929 25,18805 29,58789

11 13,70069 17,27501 19,67515 21,92002 24,72502 26,75686 31,26351

12

14,8454 18,54934 21,02606 23,33666 26,21696 28,29966 32,90923

13 15,98391 19,81193 22,36203 24,73558 27,68818 29,81932 34,52737

14 17,11693 21,06414 23,68478 26,11893 29,14116 31,31943 36,12387

15 18,24508 22,30712 24,9958 27,48836 30,57795 32,80149 37,69777

16 19,36886 23,54182 26,29622 28,84532 31,99986 34,26705 39,25178

17 20,48868 24,76903 27,5871 30,19098 33,40872 35,71838 40,79111

18 21,60489 25,98942 28,86932 31,52641 34,80524 37,15639 42,31195

19 22,71781 27,20356 30,14351 32,85234 36,19077 38,58212 43,81936

20 23,82769 28,41197 31,41042 34,16958 37,56627 39,99686 45,31422

21 24,93478 29,61509 32,67056 35,47886 38,93223 41,40094 46,79627

22 26,03926 30,81329 33,92446 36,78068 40,28945 42,79566 48,26762

23 27,14133 32,00689 35,17246 38,07561 41,63833 44,18139 49,72764

24 28,24115 33,19624 36,41503 39,36406 42,97978 45,55836 51,17897

25 29,33885 34,38158 37,65249 40,6465 44,31401 46,92797 52,61874

26 30,43456 35,56316 38,88513 41,92314 45,64164 48,28978 54,05114

27 31,52841 36,74123 40,11327 43,19452 46,96284 49,64504 55,47508

28 32,62049 37,91591 41,33715 44,46079 48,27817 50,99356 56,89176

29 33,71091 39,08748 42,55695 45,72228 49,58783 52,3355 58,30064

30 34,79974 40,25602 43,77295 46,97922 50,89218 53,67187 59,70221

40 45,61601 51,80504 55,75849 59,34168 63,69077 66,76605 73,4029

50 56,33361 63,16711 67,50481 71,42019 76,1538 79,48984 86,66031

60 66,98147

74,397

79,08195 83,29771 88,37943 91,95181 99,60783

70 77,57665 85,52704 90,53126 95,02315 100,4251 104,2148 112,3167

80 88,13025 96,5782 101,8795 106,6285 112,3288 116,3209 124,8389

90 98,64992 107,565 113,1452 118,1359 124,1162 128,2987 137,2082

100 109,1412 118,498 124,3421 129,5613 135,8069 140,1697 149,4488

* Valeurs de 2 ayant la probabilit p dtre dpasses (S. Aivazian, op.cit., PP- 188-189).

Les tables du 2 permettent de donner , connaissant n, la probabilit (seuil habituel choisi 5%) de dpasser une valeur 21 ce qui permet de savoir si le modle est acceptable. Si les r variables sont lies par p relations, le nombre de degrs de libert est = r p et la loi du 2 est toujours valable. Ces rsultats permettent de mesurer la validit d'un modle. En effet, soit une exprience procurant des rsultats que lon peut regrouper en classes statistiques : ni : effectif observ de la classe i ; pi : probabilit ( a priori inconnue) de la classe i ; npi : effectif thorique On pose alors et

On notera que, pour utiliser ces rsultats, leffectif minimum d'une classe doit tre de 10 et que r = nombre de classes - nombre de relations entre les ni.

Hypothse dajustement pur Quand on connat a priori la rpartition thorique dune loi alatoire, on parle le test dhypothse dajustement pur. Donc, si lon connat la distribution de probabilit des r classes, le degr de libert est = r p = r 1 puisque p1+ p2+ ... + pr = 1 est une relation qui relie les r variables. Aprs

cela on fait le test 2 () sur le degr de libert = r 1. Exemple 6

Sur la loterie nationale hongroise o il faut choisir 5 chiffres sur 90 pendant 225 semaines, on a observ le tableau de frquences suivant :
chiffres 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

frquences 18 8 14 13 18 14 18 14 17 10 11 13 17 16 17 chiffres 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

frquences 9 10 12 15 14 10 11 16 15 12 17 13 11 17 7 chiffres 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 9 15 9 12 16

frquences 10 9 12 16 13 12 17 14 10 8 chiffres

46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

frquences 14 9 12 21 6 19 9 13 13 10 10 10 9 10 9 chiffres 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 8 11 12 10 17 8 12 12 20 6 15 15 19

frquences 11 8 chiffres

76 77 78 79 80 81 82 83 84 85 86 87 88 89 90

frquences 9 17 14 10 14 12 13 15 10 10 11 12 9 12 10

Vrifions lhypothse, que chaque nombre entre 1 et 90 est quiprobable cest--dire 1/90. Puisque chaque semaine on a tir 5 chiffres on a au total n = 1125 donnes ce qui savre satisfaisant pour faire le test car la frquence thorique pour chaque case :

La valeur du

Le degr de libert est = 90-1 = 89. Dans le tableau du 2 on trouve que pour p = 0,71 on a la valeur de 2 = 81,16. Cela veut dire que pour nimporte quel niveau traditionnel, par exemple pour p = 0,05 la valeur de 20,05(89) = 112 ne contredit pas notre hypothse selon laquelle notre tableau de frquences observes devient dun tirage au sort au hasard est que la frquence thorique .

Hypothse dajustement s paramtres estims Quand on connat a priori le type de la rpartition thorique, on parle le test dhypothse dajustement s paramtres estims. Lhypothse dajustement pur est bien rare dans la pratique car mme si lon connat le type de la loi alatoire thorique il faut souvent estimer quelques paramtres de lchantillon. Donc si lon connat la distribution de probabilit des r classes, le degr de libert de test du 2 a la forme de = r s 1 puisque on possde s relations sur les s paramtres estims de la loi alatoire plus la relation p1+ p2+ ... + pr = 1 dj discut. Aprs tout cela on fait le test 2() comme avant sur le degr de libert = r s 1. Exemple 7 On dnombre le nombre des -particules mis par un radiolment pendant dune priode t sur une certaine superficie. On fait au total n = 800 dnombrements, chaque fois pendant 7 secondes. Le tableau suivant montre la frquence des valeurs k et les probabilits thoriques dune loi Poisson frquence observe k 0 frquence thorique k*nk 0 n*pk 16,875
2

18

0,074934

1 2 3 4 5 6 7 8 9 10 Total :

65 121 160 162 118 82 45 16 8 5 800

65 242 480 648 590 492 315 128 72 55 3087

65,118 125,638 161,601 155,895 120,312 77,376 42,653 20,574 8,821 5,138 800

0,000215 0,171182 0,015867 0,239098 0,04442 0,276391 0,129117 1,016703 0,076395 0,00369 2,048012

On veut tester si les diffrences entre les frquences observes et les frquences thoriques de la loi Poisson peuvent tre considres comme purement alatoires, cest--dire si le nombre des -particules suit vraiment la loi Poisson. On emploie pour cela le test du 2,048
2

Puisque le nombre des classes est de 11 et on a estim un paramtre de lchantillon, il faut travailler avec 2(10). Sur la dixime ligne du tableau du 2 on peut constater que pour nimporte quel niveau traditionnel il ny a pas de contradiction avec lhypothse selon laquelle lmission des -particules suit la loi de Poisson. Par exemple pour p = 0,05 la valeur de 20,05(10) = 18,3 > 2,48.

Hypothse dhomognit Quand on veut tester sur deux ou plusieurs chantillons indpendants sils suivent la mme loi alatoire (en dautres termes sont de la mme population) ou pas on parle de hypothse dhomognit. On ne traite ici que le cas de deux chantillons indpendants. Il faut former les mmes classes de regroupements pour les valeurs de toutes les deux variables alatoires. Si lon dsigne par r le nombres de classes. Les tailles des deux chantillons peuvent se diffrer, soit m et n les deux tailles et m1, m2, ... mr et n1, n2, ... nr les frquences empiriques des deux chantillons, respectivement comme vous trouvez dans le tableau qui suit : m1 n m2 n 1 m1 + n m2 + n 1

2 ... ... ... ... ... ... mr nr mn

... ... ... mr + nr m+n

On peut dmontrer que tandis que m et n tendent vers l'infini. Exemple 8

suit la loi 2 de degr de libert = r 1

On veut tester si les deux distributions des femmes qui sont avec ou sans travail sont significativement diffrentes selon leur nombre denfants. Pour cela on choisit au hasard 220 mnages et on trouve que parmi eux 120 femmes sont avec et 100 sont sans travail. Les frquences selon les nombres denfants sont donnes dans le tableau suivant : Nombre Avec Sans Ensemble denfants travail

0 1 2 3 4 5 ou plus

36 41 28 11 3 1 120

28 36 22 8 4 2 100

64 77 50 19 7 3 220

Dans ce cas m = 120, n = 100, r = 6 et la valeur de

= 1,186 .

Cette valeur est comparer avec la valeur du 2 de degr de libert = r 1 = 5. De la cinquime ligne du tableau 2 on peut constater que pour nimporte quel niveau traditionnel il ny a pas de contradiction avec lhypothse selon laquelle les deux distributions sont identiques. Par exemple pour p = 0,05 la valeur de 0,05(5) = 11,07 > 1,186.
2

Hypothse dindpendance Puisque on peut parler non seulement de lindpendance des caractristiques quantitatives mais aussi de celle des caractristiques qualitatives on approche le problme de la manire suivante : Soit A1, A2, ... , Ar ; et B1, B2, ... , Bs ; deux systmes dvnements complets et on veut tester lhypothse que les deux systmes dvnement sont indpendants c.--d. P(AiBj) = P(Ai)P(Bj) i = 1, ... , r; j = 1, ... , s;

Dans le cas de vrification dindpendance des deux variables alatoires les vnements Ai et Bj marquent que les valeurs des variables appartiennent la classe correspondantes. Considrons un chantillon de taille n et introduisons les notations suivantes : la frquence de lvnement AiBj ;

la frquence de lvnement Ai ;

la frquence de lvnement Bj ;

Il est bien clair, que

On range les frquences

dans le tableau de contingence suivant : Variables 1 2 . . . r Total . . . . . . 1 2 ... ... ... . . . ... ... n . . . . . . s Total

Il y a deux cas possibles : 1. pi et pj sont connus ; 2. pi et pj ne sont pas connus. Dans le premier cas il ne sagit quune hypothse dajustement pur qui consiste tester si P(AiBj) = pipj donc il faut construire la formule pour i = 1, ... , r; j = 1, ... , s,

qui suit la loi 2 de degr de libert = rs 1 tandis que n tend vers l'infini. Il faut avouer que ce cas l est rare. Le cas 2. est beaucoup de plus frquent. On forme de manire similaire

qui suit la loi 2 de degr de libert = ( r 1)(s 1) tandis que n tend vers l'infini, car ce test l peut tre considr comme une hypothse dajustement (r+s 2) paramtres estims do = rs (r+s 2) 1 = ( r 1)(s 1) . On sappelle contingence carre de deux systmes dvnements la quantit :

dont lestimation empirique est la n-ime partie de 2 c.--d. 2 = 2/n . On peut facilement voir que o q = min (r,s).

Le quotient

est considr comme la mesure de dpendance entre deux systmes . Cette mesure de dpendance a la

dvnements dont lestimation empirique est proprit quelle est gale 0 si et seulement si P(AiBj) = P(Ai)P(Bj)

i = 1, ... , r;

j = 1, ... , s;

et est gale 1 si et seulement si les deux variables alatoires sont lies par une fonction.

Exemple 8 On veut tester les diamtres externes et internes des coussinets. Selon leur taille des deux diamtres ils sont classs en trois catgories : bien, passable, refus. Pour tester un lot on choisit au hasard 200 coussinets en les mesurant et on les range en 9 catgories possibles. On veut tester lhypothse que les tailles internes et externes sont indpendantes ou pas. Pour cette raison on fait le test du 2. Les frquences du tableau de contingence taient les suivantes : Diamtre externe Bien Diamtre interne Bien Passable Refus Total 169 9 1 179 Passable Refus Total 8 4 3 15 1 1 4 6 178 14 8 200

On calcule

= 90,15 .

Puisque r = s = 3, on a comme degr de libert du 2 : = ( r 1)(s 1) = 4. Confrontons la valeur ainsi obtenue avec la quatrime ligne du tableau 2 et on constate que pour nimporte quel niveau traditionnel il faut rejeter lhypothse selon laquelle les deux distributions sont indpendantes. Quand on veut caractriser la mesure de dpendance entre les deux tailles on calcule le quotient : = = = 0,2254 . Cela montre bien que les prcisions des deux

tailles sont en plus faible relation que la moyenne.

Exemple 9 Considrons le tableau de contingence r lignes et s colonnes obtenu en ventilant une population de n = 592 femmes suivant leurs couleurs des yeux et des cheveux Tableau de contingence, rpartition des 592 femmes suivant leurs couleurs des yeux et des cheveux. couleur des cheveux brun marron couleur des yeux noisette vert bleu Total 68 15 5 20 108 chtain 119 54 29 84 286 roux 26 14 14 17 71 blond 7 10 16 94 127 Total 220 93 64 215 592

En lignes est prsente la variable "couleur des yeux" r = 4 modalits (ou catgories) et en colonnes est donn la variable "couleur des cheveux" s = 4 modalits. Mme si lon a appris des tudes biologiques que entre les deux caractristiques doit avoir lieu quelque corrlation, il vaut la peine quand mme de tester lhypothse de lindpendance entre elles. Pour cela on calcule

= 138,29 .

Puisque r = s = 4, on a comme degr de libert du 2 : = ( r 1)(s 1) = 9. En confrontant la valeur ainsi obtenue avec la neuvime ligne du tableau 2 et on constate que pour nimporte quel niveau traditionnel il faut rejeter lhypothse selon laquelle les deux types de couleur sont indpendants. La mesure de dpendance entre les deux caractres : = = =

0,0779 . Cela montre que les deux types de couleur sont de beaucoup de plus faible relation que la moyenne.

Ch2 - Exercices

Exercice 1
Le tableau ci-dessous donne les rsultats obtenus partir de 10 essais de laboratoire concernant la charge de rupture y d'un acier en fonction de sa teneur x en carbone :
teneur en carbone x pour 10000
72 60 68 66 64 62 64 70 62 74

n essai
1 2 3 4 5 6 7 8 9 10

charge de rupture y en kg
90 70 72 70 75 75 80 85 70 100

1) Reprsenter graphiquement les donnes de ce tableau 2) Calculer la moyenne de x et la moyenne de y, la variance de x, la variance de y, la covariance de x et y. 3) Est-il possible d'envisager une relation linaire entre x et y ? 4) Dans l'affirmative, calculer, par la mthode des moindres carrs, l'quation des droites d'ajustement. 5) En utilisant le rsultat prcdent, quelle pourrait tre la charge de rupture d'un acier ayant une teneur en carbone de 65 pour 10000.

Exercice 2

Dans le dpartement franais du Marne-et-Garonne, on constate les faits reports dans le tableau ci-dessous : rcepteurs de tlvision en service (en milliers)
13 20 23 25 27 31 36 46 55 63 70 76 81 85

annes

nombre de maladies mentales pour 1000 habitants


8 8 9 10 11 11 12 16 18 19 20 21 22 23

nombre de vhicules automobiles dans le dpartement (en milliers)


8 9 10 10 11 11 13 13 13 15 15 17 18 19

1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998

Etudier ce tableau du point de vue de la corrlation et faites part de vos conclusions.

Exercice 3
Dans un pays fictif dont la monnaie est le jeton, le tableau suivant indique par tranche de revenus en jetons le nombre de contribuables en milliers : Nombre de Revenu en contribuables en milliers de jetons milliers
10-20 20-30 30-40 40-50 50-100 100-300 300-1000 1000 et plus 1286,0 824 329,0 135,9 167,2 53,4 6,2 0,5

1) Reprsenter graphiquement, en coordonnes doublement logarithmiques, le nombre N de contribuables ayant un revenu suprieur x. 2) En dduire entre x et N une relation de la forme N=A/(xp) qui est une loi de Pareto o A et p sont deux constantes que l'on dterminera par ajustement d'une droite aux points obtenus dans le reprsentation graphique prcdente. On ngligera le point pour lequel x = 10. 3) En utilisant cette loi, calculer le revenu moyen thorique dans l'intervalle (200-100).

Exercice 4
Le tableau suivant donne les cours de quelques valeurs allemandes la Bourse de Paris la fin de 1965 (colonne x) et le 13 juillet 1966 (colonne y).

Dterminer la droite d'ajustement y = f(x)

Exercice 5
On donne la srie statistique x y x y 1 20 19 35 2 26 20 20 3 32 21 27 4 27 22 33 5 20 23 30 6 30 24 33 7 31 25 35 8 15 26 34 9 22 27 43 10 28 28 40 11 29 29 39 12 27 30 43 13 28 31 41 14 25 32 22 15 30 33 31 16 31 34 41 17 32 35 37 18 31 36 40

1) Reprsenter graphiquement cette srie 2) Pratiquer un ajustement analytique linaire

Exercice 6
Le tourisme en Europe en 1959 est dcrit dans le tableau suivant : pays Nombre total de touristes arrivant (en millions) : x 4,9 4,1 5,5 8,6 4,6 Recette totale (millions de F) : y 450 70 400 500 250

Allemagne Espagne France Italie Suisse

1) Reprsenter graphiquement la recette y en fonction du nombre total x de touristes. Y a-t-il des possibilits dajustement linaire ? 2) 3) Calculer la moyenne de x et la moyenne de y Donner lquation de la droite dajustement y = ax + b

Exercice 7

La direction commerciale dune entreprise industrielle a augment rgulirement ses dpenses publicitaires pendant plusieurs annes et voudrait y comparer la progression de son chiffre daffaires. Elle dispose des donnes suivantes : anne Dpenses publicitaires en F : x 73200 74700 76200 77700 79200 80700 82200 Chiffre daffaires en milliers de F : y 35261 35771 36791 37301 37556 38066 38831

1960 1961 1962 1963 1964 1965 1966

1)

Reprsenter graphiquement y en fonction de x 2) 3) Calculer la moyenne de x et la moyenne de y Essayer un ajustement linaire y = ax + b

4) En se basant sur le modle linaire, quel sera le chiffre daffaires de 1967 si la dpense publicitaire correspondante est 85000 F ?

Exercice 8
On relve pour plusieurs annes successives le chiffre daffaires national de vente de parapluies et le nombre de jours de pluie dans lanne :

nb de jours de pluie : x 110 100 190 200 290 330 230

vente de parapluies : y 200000 150000 300000 350000 500000 550000 400000

1) 2) 3) 4)

Reprsenter graphiquement la srie statistique Dterminer les moyennes de x et de y Dterminer la droite dajustement y = ax + b Sil pleuvait tous les jours quelle serait la prdiction de vente de parapluies ?

Exercice 9
On relve par rgion franaise, pour lanne 1999 le chiffre daffaires de vente de caramels et le nombre de personnes stant fait soigner pour des maux de dents :

vente de caramels : x 100000 150000 160000 120000 80000 90000 200000

nombre de personnes tant soignes pour des maux de dents : y 94500 140000 150000 110000 70000 90000 210000

1) 2)

Reprsenter graphiquement la srie ; un ajustement linaire parat-il possible ? Dterminer la droite dajustement y = ax + b

3) Dans une rgion donne le chiffre daffaires annuel de vente de caramels est 300000 ; quelle est la prdiction relative aux personnes se faisant soigner pour des maux de dents ?

Exercice 10
On donne le tableau double entre relatif l'tude de la srie double suivante : voitures de petites cylindres circulant dans Paris classes sous les deux caractres suivants : puissance de la voiture et dure moyenne des pneumatiques. x dsigne la puissance en CV, y dsigne la dure des pneumatiques en milliers de kilomtres. y\x 20 25 30 2 0 3 4 total 38 32 30

8 30 7 2

5 20 25 3

total 30

31 39

100

1) Reprsenter graphiquement cette srie par un nuage de points 2) Calculer l'quation des deux droites de rgression et le coefficient de corrlation. 3) Construire les droites de rgression sur le graphique reprsentatif de la srie

Exercice 11
On donne le tableau double entre relatif l'tude de la srie double suivante : individus classs en pourcentage sous les deux caractres poids et taille. x dsigne le poids en kilogrammes et y dsigne la taille en centimtres. 40 45 20 45 50 9 50 55 1 55 60 0

y\x 150 155 155 160 160 165 165 170 On demande

18

12

14

1) de reprsenter graphiquement cette srie par un nuage de points. 2) de calculer l'quation des deux droites de rgression 3) de calculer le coefficient de corrlation

4) de construire les droites de rgression sur le graphique prcdent

Exercice 12
Dans les "Tableaux de l'conomie franaise", l'INSEE a publi, en 1968, la rpartition en pourcentages de la population active de quelques pays dans les secteurs primaire, secondaire et tertiaire : pays Allemagne de l'Ouest USA France Grande Bretagne Italie URSS primaire secondaire tertiaire 24 13 28 5 42 43 44 36 37 49 32 31 32 51 35 46 26 26

On tente de trouver un modle visant exprimer linairement le secteur tertiaire en fonction du secteur primaire et du secteur secondaire (en nombre d'actifs). Proposer un modle et donner vos conclusions.

Exercice 13
Une entreprise commerciale consacre une certaine somme des oprations publicitaires au dbut de chaque mois. Dans le tableau ci-dessous sont rcapituls pour l'anne 1956 les sommes consacres ces oprations, les montants des ventes.

mois

ventes (en milliers de francs) 3800 4200 4200 3900 4000 4500 3500 2400 3800 4000 4400 5300 48000

frais de publicit (en milliers de francs) 240 300 300 250 320 350 200 180 300 320 380 460 3600

janvier fvrier mars avril mai juin juillet aot septembre octobre novembre dcembre total

Etudier la corrlation entre la publicit et le montant des ventes

Exercice 14
Considrons, pour l'anne 1954 :
q q

d'une part, les variations de l'indice de production industrielle franaise d'autre part, la nombre de chmeurs secourus en France

mois

Nombre indices de de la chmeurs production secourus industrielle (en (base 100 milliers) : en 1938) : x y 144 143 151 155 159 157 147 122 72 78 76 73 69 61 56 54 48 49 53 57

janvier fvrier mars avril mai juin juillet aot

septembre 156 octobre novembre dcembre 159 162 166

Reprsenter graphiquement ces variations ; Calculer le coefficient de corrlation entre x et y ; Tracer les droites de rgression.

Solution de l'exercice 4

Solution de l'exercice 5
1) Reprsentation graphique

2) On peut utiliser tout d'abord la mthode des moyennes chelonnes qui permet un certain lissage du nuage des points :

puis un ajustement analytique linaire

Solution de l'exercice 6

La droite y = ax + b (en rouge sur la reprsentation graphique) a pour paramtres : a = 69,92 et b = 53,35

Solution de l'exercice 7

Les paramtres de la droite d'ajustement sont a = 0,38 et b = 7362,18. Pour la valeur x = 85000, on obtient avec le modle linaire : y = 39874,68.

Solution de l'exercice 8

Pour la valeur x = 365, on obtient avec le modle linaire y = 620 656,43.

Solution de l'exercice 9

Les paramtres de la droite d'ajustement sont a = 1,08 et b = -15 487,35. Pour la valeur x = 300 000, on obtient y = 308 816,46.

Solution de l'exercice 10
A partir des donnes de l'nonc, on peut dresser le tableau suivant. On prendra attention au fait que les moyennes calcules sont pondres.

On en tire les valeurs suivantes :

Le schma ci-dessous donne une reprsentation graphique (la grosseur des points est proportionnelle leur poids statistique) :

Solution de l'exercice 11

Solution de l'exercice 12

Le modle obtenu est pratiquement parfait : X(0) = 100 -X(1) - X(2)

Solution de l'exercice 13

Solution de l'exercice 14