Vous êtes sur la page 1sur 39

AJUSTEMENTS

STATISTIQUES
Ecole de maturité
Option spécifique, 3eannée

GYMNASE DE BURIER
Carmen Mermoud
Table des matières

1 Rappels de statistique 3
1.1 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Variance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Ajustements linéaires 7
2.1 Recherche d’une régression linéaire par voie graphique. . . . . . . . . . . . . . . . 8
2.2 Droite des moindres carrés et corrélation linéaire . . . . . . . . . . . . . . . . . . 9
2.2.1 Résolution analytique de la droite des moindres carrés. . . . . . . . . . . . 10
2.3 Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Coefficients de mesure de la corrélation . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.1 Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 Coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 Ajustements polynomiaux 19
3.1 Ajustement quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Ajustements polynomiaux avec Geogebra . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4 Ajustements non polynomiaux 27


4.1 Ajustement de type puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Autres ajustements non linéaires et non polynomiaux . . . . . . . . . . . . . . . . 29
4.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Solutions des exercices 33

avril 2018
Chapitre 1

Rappels de statistique

Soit X le caractère étudié dans une population. On note :


• n la taille de l’échantillon
• x1 , x2 , · · · , xn les valeurs prises par la variable statistique X dans l’échantillon

1.1 Moyenne

Si x1 , x2 , . . . , xn sont les n données d’une série statistique quantitative de la variable X, la


moyenne, notée µ (dans le cas où l’étude se fait sur toute la population) ou x̄ (dans le cas d’un
échantillon), est définie par :

n
x1 + x2 + . . . + xn 1 X
x̄ ou µ = = xi
n n
i=1

Remarque

Le calcul de la moyenne peut aussi se faire à partir du tableau de répartition :


a) Si la variable statistique quantitative discrète X prend les k valeurs a1 , . . . , ak avec des
effectifs n1 , . . . , nk ou des fréquences relatives f1 , . . . , fk , on a :
k k
1 X X
x̄ ou µ = ai · ni = ai · fi
n
i=1 i=1

b) Si les données sont répartis en classes, on prend comme valeurs a1 , . . . , ak les centres des
classes.

1.2 Variance et écart-type

On veut mesurer la dispersion des données x1 , x2 , . . . , xn autour de leur moyenne x̄.

Remarque
n
X
La somme des écarts à la moyenne est nulle (xi − x̄) = 0.
i=1
4 CHAPITRE 1. RAPPELS DE STATISTIQUE

La dispersion des données autour de leur moyenne est définie par :


• La variance des données x1 , x2 , . . . , xn est la moyenne des carrés des écarts xi − x̄ :
n
1 X
V ariance = (xi − x̄)2
n
i=1

• Afin d’avoir une mesure de dispersion de même unité que les données, on définit
l’écart-type, noté s pour un échantillon et σ pour une population, en prenant la racine carrée
de la variance.
v

u n
u1 X
s ou σ = V ariance = t (xi − x̄)2
n
i=1

Remarque

a) On note fréquemment la variance s2 pour un échantillon et σ 2 pour une population.


b) Le calcul de l’écart-type peut aussi se faire à partir du tableau de répartition. Si les diffé-
rentes valeurs observées sont a1 , . . . ak , avec des effectifs n1 , . . . nk et des fréquences relatives
f1 , . . . fk , l’écart-type est obtenu à l’aide de moyennes pondérées :
s s
1 P k k
(ai − x̄)2 ni = (ai − x̄)2 fi .
P
s ou σ =
n i=1 i=1

c) Si les données sont réparties en classes, les valeurs observées ai sont à remplacer par
les milieux de classes ci , ce qui donne les valeurs approchées
s s
1 P k k
(ci − x̄)2 ni = (ci − x̄)2 fi .
P
s ou σ '
n i=1 i=1

d) Pour faciliter le calcul de la variance, on utilise le résultat suivant, dû au mathématicien


allemand Johann Samuel König (1712-1757) :

 
n
x21 + x22 + · · · + x2n 1 X
s2 ou σ 2 = − x̄2 =  x2j  − x̄2
n n
j=1

Variance d’échantillon et écart-type corrigé

Dans le cadre d’une étude par sondage, l’écart-type de l’échantillon est retenu pour estimer celui
de la population. Toutefois, les statisticiens ont montré que l’estimation est meilleure si on divise
le numérateur de la formule de la variance ou de l’écart-type par n − 1 au lieu de n. On parle
alors de la variance d’échantillon corrigée, notée s0 2 , et de l’écart-type corrigé, noté s0 .

v
n u n
1 X 1 X
s0 2 = (xi − x̄)2 0
(xi − x̄)2
u
et s = t
n−1 n−1
i=1 i=1

Pour des échantillons de grande taille, la différence entre s2 et s0 2 est en général négligeable.
1.3. EXERCICES 5

1.3 Exercices

Exercice 1 Créer un programme Python qui calcule la moyenne, la variance et l’écart-type


d’une série de données statistiques entrées par l’utilisateur sous la forme x1 , x2 , · · · , xn .

Exercice 2 Au laboratoire de physique, une série de mesures de l’accélération de la pesanteur


terrestre a donné les résultats suivants : 9.95 9.85 10.13 9.69 9.47 9.98 9.87 9.46
10.00.
Calculer la moyenne et l’écart-type de ces résultats à l’aide du programme de l’exercie précédent.

Chapitre 2

Ajustements linéaires

Nous avons vu comment résumer statistiquement un ensemble de données x1 , ..., xn à l’aide


d’une mesure de position, la moyenne et de dispersion, la variance ou l’écart-type. Ces mesures
décrivent un unique caractère X. Cependant, on est très souvent confronté au problème
d’analyser l’interdépendance entre plusieurs caractères X, Y, Z... provenant d’une population.
C’est l’analyse des séries statistiques multiples qui s’en occupe. Elle consiste à étudier les relations
qu’il peut y avoir entre les caractères quantitatifs différents X, Y, Z... des individus d’une même
population.
Notre étude se limitera ici à la recherche d’une relation entre deux caractères seulement.

Exemples :
a) la taille et le poids d’une personne issue d’une population étudiée,
b) l’âge de l’homme et l’âge de la femme dans un groupe de couples mixtes,
c) la cylindrée et la puissance des voitures d’un parc d’automobiles,
d) le contenu en carbone et la résistance à la traction de boulons de longueur et diamètre
donnés.

Dans ces exemples, les variables ne sont pas forcément dans une relation directe de cause à effet,
tout en présentant vraisemblablement une certaine dépendance. On dit alors que les grandeurs
sont corrélées.
On attribue la lettre X à la variable indépendante et la lettre Y à la variable dépendante,
c’est à dire celle dont la valeur semble dépendre de celle de l’autre. Dans la pratique, l’attribution
des lettres X et Y est la plupart du temps évidente.
On se pose alors les questions suivantes :

— Problème de régression :
L’interdépendance entre X et Y peut-elle être représentée par une relation simple ?
— Problème de corrélation :
Si tel est le cas, peut-on estimer la force d’une telle relation ?

Dans ce premier chapitre, nous montrerons comment établir une relation affine

y = mx + h

entre deux caractères X et Y d’une série statistique double {(xi , yi )} où 1 ≤ i ≤ n. Une telle
relation est appelée ajustement ou régression linéaire.
8 CHAPITRE 2. AJUSTEMENTS LINÉAIRES

Pour établir cette relation, nous utiliserons la méthode des moindres carrés. Nous verrons
dans les chapitres suivants comment cette méthode est utilisée pour établir d’autres types de
relation entre X et Y .
On notera qu’en général les relations sont d’ordre mathématique, ne préjugeant pas d’une éven-
tuelle relation de cause à effet entre X et Y .
Historiquement, le premier texte paru, faisant mention de la méthode des moindres carrés, est
dû à Adrien-Marie Legendre (1752-1833), dans un article sur ses « nouvelles méthodes pour la
détermination des orbites des comètes » publié en 1805. Un an plus tard, Carl Friedrich Gauss
(1777-1855) fait aussi allusion à cette méthode.

2.1 Recherche d’une régression linéaire par voie graphique.

On considère un ensemble de n mesures statistiques doubles {(xi , yi )} où 1 ≤ i ≤ n.

mesure N o 1 ... i ... n


X x1 ... xi ... xn
Y y1 ... yi ... yn

On construit une représentation graphique en dessinant les points Pi (xi , yi ) dans un système
d’axe Oxy. Cette représentation graphique s’appelle un diagramme de dispersion ou encore
un nuage de points. Si la forme du nuage est suffisamment allongée et relativement symétrique
par rapport à une droite, on peut supposer l’existence d’une relation affine. Cette estimation est
évidemment subjective, mais peut servir de première approche.

Exemple 1 Dans le tableau ci-dessous, X désigne le taux en % d’alphabétisation des femmes et


Y le taux en % de mortalité infantile. On peut en effet supposer que le taux d’alphabétisation
des femmes a de l’impact sur le taux de mortalité infantile.

Pays Inde Koweït Mauritanie France Ghana Congo Venezuela Japon


X [%] 25.7 69.6 17 98.7 42.8 55.4 87.8 100
Y [ % ] 95 34 127 7.7 90 73 25.1 5

Voici la marche à suivre pour représenter graphiquement ces données sur Geogebra.

a) Afficher le Tableur, la page Graphique et le champ de saisie.

b) Introduire les abscisses xi dans la colonne A et les ordonnées yi dans la colonne B.

c) Créer les points dans la colonnes C en tapant dans C1 =(A1,B1) et tirer la formule dans
la colonne. Les points s’affichent au fur et à mesure de leur création.
La forme du nuage de points suggère que Y est liée à X par une relation affine. Pour
caractériser cette relation, il parait acceptable, à l’oeil, de prendre une ordonnée à l’origine
égale à 140 et une abscisse à l’origine égale à 100. D’où y = f 1(x) = −1.4x + 140.
2.2. DROITE DES MOINDRES CARRÉS ET CORRÉLATION LINÉAIRE 9

La méthode ci-dessus est subjective. Une autre personne pourrait juger que la relation affine a
pour équation y = −1.5x + 150. Aucun critère objectif ne permet de décider quel est le meilleur
choix. C’est pourquoi, nous allons développer une méthode rigoureuse permettant de déterminer
la meilleure relation affine entre deux variables au sens des moindres carrés.

2.2 Droite des moindres carrés et corrélation linéaire

Le but est de trouver la droite de régression linéaire de Y par rapport à X, notée DY /X ,


d’équation
DY /X : y = mx + h.
Les inconnues sont ici les paramètres m et h.
Notons ŷi l’ordonnée du point d’abscisse xi (i-ième valeur du caractère X) sur la droite DY /X et
posons
εi = yi − ŷi .
Ainsi, εi est la différence entre la mesure yi et l’ordonnée de la droite de régression au point xi ,
c’est-à-dire l’écart, mesuré verticalement, entre le point Mi (xi , yi ) et la droite DY /X .

La méthode des moindres carrés consiste à déterminer, pour un nuage de n points donnés, les
valeurs m et h qui minimisent la somme S des carrés des écarts εi
n
X
S= ε2i
i=1
10 CHAPITRE 2. AJUSTEMENTS LINÉAIRES

2.2.1 Résolution analytique de la droite des moindres carrés.

Les écarts sont donnés par

εi = yi − ŷi = yi − (mxi + h) (2.1)

d’où

ε2i = [yi − (mxi + h)]2 = [(yi − mxi ) − h]2 (2.2)

ε2i les inconnues sont m et h, les xi et yi étant connus.


P
Dans l’expression de

Développons S comme une fonction de h :


n n n
(2.2) X X X
S(h) = (yi − mxi )2 − 2 (yi − mxi )h + h2
i=1 i=1 i=1
" n # n
X X
= n · h2 − 2 (yi − mxi ) · h + (yi − mxi )2
i=1 i=1

S(h) est donc une fonction du second degré en h. Et comme le coefficient n devant h2 est positif,
la fonction S(h) atteint sa valeur minimale en son sommet, c’est-à-dire lorsque
n
 
P
− −2 (yi − mxi )
i=1
h = ⇐⇒
2n
n
X n
X
n·h = yi − m xi ⇐⇒
i=1 i=1
n
X n
X
m· xi + n · h = yi (2.3)
i=1 i=1

De même, S s’écrit en fonction de m comme suit :


n n
(2.2) X X
S(m) = [(yi − mxi ) − h]2 = [(yi − h) − mxi ]2
i=1 i=1
n
X n
X n
X
= (yi − h)2 − 2 (yi − h)mxi + m2 x2i
i=1 i=1 i=1
n n n
! " #
X X X
= x2i 2
·m −2 (yi − h)xi · m + (yi − h)2
i=1 i=1 i=1

n
x2i devant m2 est
P
S(m) est donc une fonction du second degré en m. Et comme le coefficient
i=1
positif, la fonction S(m) atteint sa valeur minimale en son sommet, c’est-à-dire lorsque
n
 
P
− −2 (yi − h)xi
i=1
m = n ⇐⇒
x2i
P
2
i=1
2.2. DROITE DES MOINDRES CARRÉS ET CORRÉLATION LINÉAIRE 11

n
X n
X n
X
m x2i = yi xi − hxi ⇐⇒
i=1 i=1 i=1
n
X n
X n
X
m· x2i + h · xi = x i yi (2.4)
i=1 i=1 i=1

Les valeurs xi et yi étant connues, les équations 2.3 et 2.4 forment un système de deux équations
linéaires à deux inconnues m et h.

n n

P P
 m· xi + h·n = yi


i=1 i=1
n n n
x2i + h ·
P P P
 m·

 xi = x i yi
i=1 i=1 i=1

En divisant la première de ces équations par n, il vient

m x̄ + h = ȳ ⇐⇒ ȳ = m x̄ + h ⇐⇒ h = ȳ − m x̄ (2.5)

où x̄ et ȳ sont les moyennes respectives des séries X et Y . Cette relation signifie que la droite de
régression cherchée passe par le centre de gravité ou barycentre G(x̄, ȳ) du nuage de points.
On substitue alors h par ȳ − m x̄ dans par la seconde équation et il vient :
n n n
! n n
X
2 1 X 1 X X X
m· xi + yi − m xi · xi = xi yi ⇐⇒
n n
i=1 i=1 i=1 i=1 i=1
 !2 
n n n n n
X 1 X X 1 X X
m·  x2i − xi  = x i yi − yi · xi ⇐⇒
n n
i=1 i=1 i=1 i=1 i=1

n
P 1 Pn Pn 1 Pn 1 P n 1 P n 1 Pn
x i yi −yi · xi xi yi − xi · yi xi yi − x̄ȳ
i=1 n i=1 i=1 n i=1 n i=1 n i=1 n i=1
m =  n 2 = n n n = n
n 1 P 1 P 2− 1 1 P 1 P
x2i − x̄2
P
P 2
xi − xi x i x i x i
i=1 n i=1 n i=1 n i=1 n i=1 n i=1

On constate que dans l’expression de m, le dénominateur correspond la formule de König per-


mettant de calculer la variance de la série statistique de X. La variance est notée V ar(X) ou
encore s2x (sx étant l’écart-type).
Le numérateur a une structure semblable à celle de la variance, mais fait intervenir les valeurs
xi et yi de manière symétrique. On l’appelle la covariance de X et Y , notée Cov(X, Y ) ou sxy .

1 Pn
notation
Cov(X, Y ) = (xi − x̄)(yi − ȳ) = sxy
n i=1

Remarque
Comme la variance, la covariance se calcule dans la pratique avec la formule du théorème de
König qui permet d’écrire :
n
1 X
sxy = xi yi − x̄ȳ
n
i=1

Ainsi, DY /X , la droite de régression linéaire de Y par rapport à X a pour équation


12 CHAPITRE 2. AJUSTEMENTS LINÉAIRES

sxy
y = mx + h avec m = et h = ȳ − mx̄
s2x
ou encore
sxy
DY /X : y − ȳ = (x − x̄).
s2x

Remarque
La droite de régression DY /X de Y par rapport à X accorde à chaque valeur x une valeur y,
la variable y étant considérée comme dépendante de la variable x. Mathématiquement, on peut
aussi calculer la droite DX/Y de régression de X par rapport à Y : il suffit d’échanger le rôle des
variables. Toutefois, DY /X et DX/Y ne donnent pas deux relations équivalentes car la somme des
carrés à minimiser n’est pas la même.

y δ5
r
6 "
"r
"
" δ7
"
"
"
" δ6 r
"
"
" r
r δ1 ""
"
δ4
" δ3 r
"
"
" r
" δ 2 x
-

Effectuer la régression de X par rapport à Y revient à considérer les écarts δi entre chaque point
du nuage et la droite, ces écarts étant mesurés horizontalement, c’est-à-dire parallèlement à Ox.
La droite DX/Y est celle qui minimise la somme des carrés des écarts δi .
Ainsi, il n’y a aucune raison que les droites DY /X et DX/Y soient réciproques l’une de l’autre.

2.3 Corrélation

On dit qu’il y a corrélation ou dépendance entre deux variables quantitatives X et Y si elles


ont tendance à varier toutes deux dans le même sens ou au contraire, lorsque la valeur de l’une
augmente lorsque la valeur de l’autre diminue. Une corrélation entre deux variables est caractérisé
par

— sa forme : la corrélation est linéaire si le diagramme de dispersion s’approche d’une droite


ou non linéaire s’il s’approche d’une courbe autre ;

— son sens : la corrélation est positive si les deux variables varient dans le même sens, ou
négative dans le cas contraire ;

— son intensité : la corrélation est parfaite si tous les points du nuage sont situés exacte-
ment sur la droite ou la courbe servant de modèle, forte si les points sont dans l’ensemble
"très proches" du modèle, moyenne si le nuage de points ne suit qu’approximativement
le modèle, faible voire nulle si aucune tendance ne se dégage. Dans ce dernier cas, on dit
que les variables sont indépendantes.
2.4. COEFFICIENTS DE MESURE DE LA CORRÉLATION 13

y y y
r r
r
6 6 6
Zr r
r r r
Z
Zr r
Z
Zr r r
Z r
r r r
Z
Zr r r r r
Z x x- x-
Z-
Corrélation linéaire Corrélation non linéaire Corrélation nulle
négative parfaite positive moyenne

2.4 Coefficients de mesure de la corrélation

À quelques cas improbables près, on peut toujours calculer les coefficients m et h, mais l’examen
des nuages de points suggère que la régression linéaire peut être plus ou moins vraisemblable.
Dans le cas de la méthode des moindres carrés, il convient de déterminer
P 2un critère mathématique
qui aidera à la décision. La moyenne des carrés des εi , à savoir n1 εi , est bien représentative
de ce critère. Si la valeur de cette moyenne est faible, la droite de régression est une bonne
approximation de notre nuage.
Pour la droite des moindres carrés, les écarts εi sont donnés par :

εi = yi − ŷi = yi − (mxi + h)
(2.5)
= yi − (mxi + ȳ − mx̄)
= yi − ȳ − m(xi − x̄)
sxy
= (yi − ȳ) − 2 (xi − x̄).
sx
Si on calcule la moyenne des carrés des εi , il vient :
n
( n n  2 Xn
)
1 X 2 1 X s xy
X sxy
εi = (yi − ȳ)2 − 2 2 (yi − ȳ) (xi − x̄) + (xi − x̄)2
n n sx s2x
i=1 i=1 i=1 i=1
(  2 )
1 sxy sxy
= (n s2y ) − 2 2 (n sxy ) + (n s2x )
n sx s2x
sxy 2 sxy 2 sxy 2
     
2 2
= sy − 2 + = sy −
sx sx sx
 2 !
sxy
= s2y 1 − .
sx · sy

En retenant le premier et le dernier terme de la suite d’égalités ci-dessus, il vient


n  !
sxy 2

1 X 2 2
εi = s y 1 − (2.6)
n sx · sy
i=1

2.4.1 Coefficient de détermination

Le coefficient de détermination r2 est défini comme suit :

2
Cov(X, Y )2

sxy
r2 = = .
sx · sy V ar(X) · V ar(Y )
14 CHAPITRE 2. AJUSTEMENTS LINÉAIRES

Avec cette définition de r2 , la relation (2.6) s’écrit


n
1 X 2
εi = s2y 1 − r2

n
i=1

1 P 2
εi ≥ 0 et s2y = V ar(Y ) ≥ 0 , alors 1 − r2 ≥ 0 c’est-à-dire 0 ≤ r2 ≤ 1.

Comme
n

De plus, on peut faire l’analyse suivante :


Si r2 = 1, alors
P 2
εi est réduite à 0, ce qui signifie que les points (xi , yi ) sont parfaitement
alignés et que la relation linéaire établie entre X et Y explique le 100% de la variance de Y .
Si r2 < 1, alors  ε2i > 0 et les points du nuage ne sont pas parfaitement alignés ; une proportion
P
égale à 1 − r2 de la variance de Y provient d’autres facteurs d’influence que X. Seule une
proportion égale à r2 de la variance de Y s’explique par la relation établie entre X et Y .
Pour une interprétation correcte du coefficient de détermination r2 , on peut utiliser la for-
mulation suivante :

(Nom de la variable X) explique r2 · 100 % de la variance de (nom de la variable Y )




et (1 − r2 ) · 100 % de cette variance est imputable à d’autres facteurs.




2.4.2 Coefficient de corrélation linéaire

Le coefficient de corrélation linéaire entre X et Y est défini comme suit :

Cov(X, Y ) sxy
rxy = p p =
V ar(X) V ar(Y ) sx · sy

Le coefficient de détermination r2 est donc égal au carré du coefficient de corrélation linéaire rxy .

Propriétés du coefficient de corrélation linéaire


1. Le coefficient de corrélation linéaire prend des des valeurs comprises entre −1 et 1.
2. On considère généralement que la corrélation linéaire est
— forte si |r| ≥ 0.9 ; la régression linéaire exprime parfaitement le lien entre les données ;
— moyenne si 0.6 ≤ |r| < 0.9 ; le modèle linéaire peut être considéré comme acceptable ;
— faible si 0.2 ≤ |r| < 0.6 ; le modèle linéaire doit être remis en cause ;
— nulle si |r| ≤ 0.2 ; dans ce cas le modèle linéaire doit être rejeté. On dit alors que les
variables X et Y sont non-corrélées linéairement.
3. Si r > 0, X et Y sont corrélées positivement ; la droite de régression a une pente positive.
Si r < 0, X et Y sont corrélées négativement ; la droite de régression a une pente négative.

L’interprétation de la corrélation est délicate. On trouve par exemple une forte corrélation
entre le poids X et l’habileté manuelle Y chez les enfants entre 6 et 10 ans. Or, ce n’est pas le
poids d’un enfant qui détermine son habileté manuelle. La corrélation entre ces deux variables
s’explique par le fait que le poids X et l’habileté manuelle Y augmentent tous deux avec l’âge Z
de l’enfant. Ainsi, la corrélation entre deux variables X et Y s’explique parfois par une corrélation
commune avec une troisième variable Z.
2.4. COEFFICIENTS DE MESURE DE LA CORRÉLATION 15

La prudence s’impose d’autant plus lorsque les données proviennent d’une série temporelle. Par
exemple, entre 1900 et 1970 les effectifs des nouveaux-nés et les effectifs des cigognes ont tous
deux diminué. Les effectifs des nouveaux-nés et des cigognes sont donc positivement corrélés ...
ce qui ne prouve pas que les cigognes apportent les bébés !

Exemple 1, suite Geogebra met à disposition un ensemble de commandes pour effectuer des
ajustements statistiques.
La commande AjustLin[ <Liste Points> ] trace dans la fenêtre graphique la droite des moindres
carrés de la liste de points passée en paramètre.
Le coefficient de correlation linéaire se calcule avec la commande CoeffCorrélation[<Liste Points>]
ou CoeffCorrélation[ <Liste Abscisses>, <Liste Ordonnées> ]
Par ailleurs, la barre d’outils de la fenêtre du tableur contient un outil Statistique à deux variables
qui ouvre une nouvelle fenêtre dédiée aux ajustements qui se présente comme suit.

La droite de régression linéaire est donnée par la relation y = −1.38 · x + 143.01.


Le coefficient de détermination vaut R2 = 0.9673, soit 97%. D’où l’interprétation :
Le taux d’analphabétisme des femmes explique 97% de la variance du taux de mortalité infan-
tile. En conséquence, 3% de cette variance s’explique par d’autres facteurs comme le taux de
vaccination par exemple.
La corrélation entre les deux variables est forte car |rxy | ' | − 0.9835| ≥ 0.9. Le modèle linéaire
exprime donc parfaitement le lien entre les données. Dès lors, il est possible d’estimer, avec ce
modèle, le taux de mortalité infantile d’un pays dont le taux d’alphabétisation des femmes est
donné. Par exemple, si le taux d’alphabétisation des femmes est de 40%, le taux de mortalité
infantile est vraisemblablement proche de y = −1.38·40+143.01 = 87.695%, soit environ 8.77%.
3
16 CHAPITRE 2. AJUSTEMENTS LINÉAIRES

Mise en garde relative à l’extrapolation


Même lorsque la corrélation est forte, il est risqué de faire des extrapolations avec un modèle
de régression, c’est-à-dire de calculer des estimations de la variable Y pour des valeurs de la
variable X éloignées de l’étendue des valeurs observées. Dans l’exemple ci-dessus, le plus faible
taux d’alphabétisation des femmes apparaissant dans les données est de 17%. Dès lors, il serait
peu prudent d’utiliser le modèle pour faire une estimation du taux de mortalité infantile dans
une région où le taux d’alphabétisation des femmes serait inférieur à 17%.

2.5 Exercices

Exercice 3 Dans chacun des cas suivants, déterminer la variable indépendante X, la variable
dépendante Y et préciser si la corrélation est a priori positive ou négative.

a) Le coût des dommages matériels causés par un séisme et l’intensité du séisme.


b) Le prix d’un produit et le nombre d’unités vendues.
c) La taille et le poids d’une personne.
d) L’âge de l’homme et l’âge de la femme dans un couple,
e) La puissance et la cylindrée d’une voiture.
f ) Le contenu en carbone et la résistance à la traction de boulons de longueur et diamètre
fixés.

Exercice 4 Quelle est la droite de régression si le nuage est constitué uniquement de deux points
P1 (x1 ; y1 ) et P2 (x2 ; y2 ) ? Justifier la réponse.

Exercice 5 En Suisse, l’Office fédéral de la statistique (OFS) réalise tous les cinq ans une
Enquête suisse sur la santé (ESS). Dans ce contexte, la proportion des consommateurs quotidiens
d’alcool dans la population suisse âgée de 15 ans et plus a été mesurée.

Année de l’enquête 1992 1997 2002 2007


% de consommateurs quotidiens d’alcool 20.3 17.2 15.9 14.3

a) Tracer le diagramme de dispersion (nuage de points) en utilisant pour X le nombre d’années


écoulées à partir de 1990.
b) Déterminer l’équation de la droite de régression et la tracer sur le graphique précédent.
c) Calculer le coefficient de corrélation linéaire et interpréter.
d) Calculer le coefficient de détermination et interpréter.
e) D’après la droite de régression, quelle proportion de consommateurs quotidiens d’alcool
peut-on attendre lors de l’ESS de 2012 ?
f ) D’après la droite de régression, en quelle année ne trouvera-t-on plus aucun consommateur
quotidien d’alcool en Suisse ? Une telle prédiction est-elle valable ?


2.5. EXERCICES 17

Exercice 6 Lors de l’Enquête suisse sur la santé de 2007, 18 760 personnes résidant en Suisse,
âgées de 15 ans et plus ont été interrogées sur les troubles physiques ressentis au cours des
quatre dernières semaines. Le tableau ci-dessous donne selon le groupe d’âge, la proportion des
personnes ayant ressentis des maux de tête, d’une part, et des douleurs aux articulations, d’autre
part.

Groupe d’âge X 15-34 ans 35-49 ans 50-64 ans 65 ans et plus
Maux de tête T 44.4 41.9 30.9 20.0
Douleurs aux articulations A 23.9 29.2 41.5 48.7

a) Quelle est la variable indépendante et quelles sont les variables dépendantes ?


b) Tracer sur un même graphique les diagrammes de dispersion relatifs à chaque variable dé-
pendante, en marquant les points de manière différenciée pour chaque variable dépendante.
N.B. Les valeurs de la variable X étant groupées en classes, il faut utiliser les centres des
classes pour définir les coordonnées des points, en se rappelant que, par exemple, la classe
"15-34 ans" couvre l’intervalle [15 ans ; 35 ans [.
c) Déterminer l’équation des droites de régression de chaque variable dépendante et les tracer
sur le graphique.
d) Calculer les coefficients de corrélation linéaire et interpréter.
e) Calculer les coefficients de détermination et interpréter.
f ) Calculer le coefficient de corrélation linéaire ainsi que le coefficient de détermination des
variables T et A.
Comment expliquer la forte corrélation entre ces deux variables ?
Une interprétation usuelle du coefficient de détermination fait-elle sens dans ce cas ?

Exercice 7 Le tableau ci-après donne le salaire Y (en milliers de dollars) de 8 femmes en fonction
du nombre d’années de scolarité X de chacune d’elles.

X 12 18 19 10 15 16 12 12
Y 15 25 30 12 20 27 14 11

a) Tracer le diagramme de dispersion (nuage de points).


b) Déterminer l’équation de la droite de régression et la tracer sur le graphique précédent.
c) Calculer le coefficient de corrélation linéaire et interpréter.
d) D’après la droite de régression, à quelle augmentation de salaire annuel peut-on s’attendre
pour chaque année de scolarité supplémentaire ? A quoi correspond cette valeur ?
e) Estimer le salaire annuel d’une femme ayant 17 ans de scolarité.
f ) A combien d’années de scolarité un salaire annuel de 21’000 dollars correspond-il ?


18 CHAPITRE 2. AJUSTEMENTS LINÉAIRES

Exercice 8 Une étude portant sur les dépenses en nourriture et le revenu hebdomadaire d’une
quinzaine de familles de 4 personnes a conduit aux résultats suivants.

Revenu 150 175 210 220 220 225 230 250


Dépenses 100 80 105 90 99 108 109 101
Revenu 260 275 290 320 370 380 500
Dépenses 106 106 108 110 109 112 115

a) Quelle est la variable indépendante (ou explicative) X la plus plausible pour cette série et
quelle est la variable dépendante (ou expliquée) Y ?
b) Tracer le diagramme de dispersion.
c) Déterminer l’équation de la droite de régression et tracer cette droite sur le graphique
précédent. A quoi correspond la pente de la droite dans ce contexte ?
d) Calculer le coefficient de corrélation linéaire et interpréter.
e) Estimer les dépenses en nourriture pour une famille de 4 personnes ayant un revenu heb-
domadaire net de 400.-

Exercice 9 Les relevés de l’intensité du travail fourni X [kJ/min] et de la fréquence cardiaque


d’une personne Y [battements/min] pendant un test à l’effort sont donnés par le tableau suivant.

X 9,6 12,8 18,4 31,2 36,8 47,2 49,6 56,8


Y 70 86 90 104 120 128 144 154

a) Calculer le coefficient de corrélation linéaire de cette série statistique et interpréter.


b) Déterminer l’équation de la droite de régression DY /X de Y par rapport à X.
c) Lorsque l’intensité du travail fourni est de 65 [kJ/min], estimer la fréquence cardiaque en
utilisant la droite de régression de Y par rapport à X.
d) Lorsque la fréquence cardiaque est de 100 battements par minute, estimer l’intensité du
travail fourni en utilisant la droite DX/Y de régression de X par rapport à Y.
e) Vérifier que DY /X n’est pas équivalente à DX/Y en calculant la réciproque de DX/Y .


Chapitre 3

Ajustements polynomiaux

Nous allons maintenant nous concentrer sur la situation où les points ont tendance à se répartir
selon une fonction polynomiale.

3.1 Ajustement quadratique

Soit M1 (x1 , y1 ), M2 (x2 , y2 ), . . ., Mn (xn , yn ) le nuage de points d’une distribution statistique


double (X, Y ). On souhaite déterminer la parabole qui modélise le « mieux possible » les résultats
obtenus. Pour cela, nous allons procéder comme pour la droite de régression. Parmi les paraboles
d’équation y = ax2 + bx + c, cherchons celle qui minimise S, la somme des carrés des écarts
(mesurés perpendiculairement à Ox) entre la parabole et chaque point de la série statistique.

n n
X
2
2 X 2
(yi − bxi − c) − ax2i
 
S = yi − (axi + bxi + c) =
i=1 i=1
n
X
(yi − bxi − c)2 − 2 a (yi − bxi − c) x2i + a2 x4i
 
=
i=1
n n n
" # " #
X X X
= x4i a2 − 2 (yi − bxi − c) x2i a + (yi − bxi − c)2
i=1 i=1 i=1

P 4
S peut donc s’écrire comme un polynôme du second degré enP a. Comme le coefficient xi
2 (y − bx − c) x 2
i
devant a2 est positif, S prend sa valeur minimale lorsque a = P i4 i
, c’est-à-dire
2 xi

n n
" # " #
X X
x4i a − (yi − bxi − c) x2i = 0 ⇔
i=1 i=1
n
X n
X n
X n
X
a· x4i + b · x3i + c · x2i = x2i yi .
i=1 i=1 i=1 i=1

De même, S s’écrit comme un polynôme du second degré en b comme suit :

n n n
" # " #
X X X
S= x2i 2
b − 2 2
(yi − axi − c) xi b + (yi − ax2i − c)2
i=1 i=1 i=1
20 CHAPITRE 3. AJUSTEMENTS POLYNOMIAUX

(yi − ax2i − c) xi
P
2
qui prend sa valeur minimale lorsque b = P 2 , c’est-à-dire
2 xi
n
" # " n #
X X
x2i b − (yi − ax2i − c) xi = 0 ⇔
i=1 i=1
n
X n
X n
X n
X
a· x3i +b· x2i +c· xi = xi yi .
i=1 i=1 i=1 i=1

Finalement, S s’écrit comme un polynôme du second degré en c comme suit :


" n # n
X X
2 2
S = nc − 2 (yi − axi − b xi ) c + (yi − ax2i − b xi )2
i=1 i=1

2 (yi − ax2i − b xi )
P
qui prend sa valeur minimale lorsque c = , c’est-à-dire
2n
" n #
X
nc − (yi − ax2i − b xi ) = 0 ⇔
i=1
Xn n
X n
X
a· x2i +b· xi + n c = yi .
i=1 i=1 i=1

Ainsi, la courbe quadratique des moindres carrés ou courbe de régression quadratique


ajustée sur un nuage de points Mi (xi , yi ) est la parabole γ d’équation y = ax2 + bx + c telle que
les coefficients a, b et c sont solutions du système linéaire

n n n n
4 + b· 3 + c· x2i = x2i yi
P P P P
·



 a x i x i
i=1 i=1 i=1 i=1



 n n n n
3 2
P P P P
a· xi + b · xi + c · xi = x i yi

 i=1 i=1 i=1 i=1
n n n


x2i + b ·
 P P P
 a· xi + c · n = yi


i=1 i=1 i=1

Remarques

(i) La méthode ci-dessus peut être généralisée à un polynôme de degré quelconque. Le choix
d’un polynôme de degré k entraîne la résolution d’un système linéaire d’ordre k + 1.
(ii) Soit M1 (x1 , y1 ), M2 (x2 , y2 ), . . ., Mn (xn , yn ) le nuage de points et k le degré du polynôme de
régression. Si k = n − 1 et si les xi sont tous distincts, la courbe de régression polynomiale
fournit l’unique polynôme de degré inférieur ou égal à n − 1 qui passe par les n points
donnés, appelé polynôme de Lagrange .

3.2 Ajustements polynomiaux avec Geogebra

Exemple 2 On a déterminé la masse volumique M de l’eau (en kg par m3) en fonction de sa


température T ( en ˚C). Les résultats pour T compris entre 0˚ et 9˚ sont les suivants :

T 0˚ 1˚ 2˚ 3˚ 4˚ 5˚ 6˚ 7˚ 8˚ 9˚

M 999.840 999.900 999.941 999.965 999.970 999.965 999.941 999.902 999.849 999.781
3.2. AJUSTEMENTS POLYNOMIAUX AVEC GEOGEBRA 21

Dans Geogebra, on affiche le nuage de point après les avoir définis dans les cases C1 à C10 du
tableur. Pour ajuster la fenêtre Graphique sur le nuage de point, on utilise la commande Recadrer
accessible avec un clic droit.
On constate que la forme du nuage de points ressemble à une parabole.
On calcule les paramètres a, b, c définissant le modèle quadratique y = ax2 + bx + c avec la
commande AjustPoly[C1 : C10, 2]. La courbe de régression s’affiche dans la fenêtre Graphique et
son équation apparait dans la fenêtre Algèbre.

On peut alors utiliser le modèle pour calculer la masse volumique de l’eau à une température
donnée. Par exemple, pour 10˚ C, f (10) vaut 999.69 kg par m3.
3

3.2.1 Coefficient de détermination

Pour traiter quantitativement le problème de la dispersion des données autour d’une droite ou
d’une courbe de régression, il est nécessaire de définir une mesure de corrélation. Dans le cas d’une
droite de régression, il s’agit du coefficient de corrélation linéaire. Pour étendre cette notion aux
courbes de régression, le coefficient de détermination doit être défini de manière plus générale.

Soit M1 (x1 , y1 ), M2 (x2 , y2 ), . . ., Mn (xn , yn ) le nuage de points d’une distribution statistique


double (X; Y ) et y = f (x) une courbe de régression (polynomiale ou autre). Le coefficient de
détermination, noté R2 est défini par

n
(f (xi ) − ȳ)2
P
i=1
R2 = n
(yi − ȳ)2
P
i=1

Remarques
(i) Le coefficient de détermination peut être vu comme le rapport entre la variance autour de
ȳ des valeurs f (xi ) calculées par le modèle y = f (x) et la variance des valeurs yi données :
Variance des f (xi ) autour de ȳ
R2 = .
Variance(Y )
22 CHAPITRE 3. AJUSTEMENTS POLYNOMIAUX

(ii) Dans le cas d’un ajustement polynomial y = f (x) obtenu à l’aide de la méthode des
moindres carrés, on peut montrer que 0 ≤ R2 ≤ 1. Plus le coefficient de détermination est
proche de 1, plus l’information apportée par le polynôme de régression peut être considérée
comme significative. Ainsi, R2 peut toujours être interprété comme la proportion de la
variance de Y qui est expliquée par le modèle.
(iii) Le coefficient de détermination augmente (i.e. se rapproche de 1) avec le degré du polynôme
de régression car la courbe de régression polynomiale de degré n obtenue à l’aide de la
méthode des moindres carrés est la solution optimale trouvée parmi les polynômes de degré
inférieur ou égal à n
(iv) Dans le cas d’une régression linéaire, le coefficient de détermination est égal au carré du
sxy
coefficient de corrélation. En effet, comme f (x) = mx + h avec m = 2 et h = ȳ − mx̄,
sx
on a
n n n
(f (xi ) − ȳ)2 (mxi + h − ȳ)2 (mxi + (ȳ − mx̄) − ȳ)2
P P P
i=1 i=1 h=ȳ−mx̄ i=1
R2 = n = n = n
2 2
(yi − ȳ)2
P P P
(yi − ȳ) (yi − ȳ)
i=1 i=1 i=1
n n sxy
P 2 P 2
(mxi − mx̄) (xi − x̄) m= 2 2
s2
 
i=1 i=1 s sxy sxy
= n = m2 · n =x · x2 = = r2 .
P 2 P 2 s2x sy sx · sy
(yi − ȳ) (yi − ȳ)
i=1 i=1

Exemple 2, suite
Dans Geogebra, on peut calculer les ajustement polynomiaux de degré 2 à 9 et le coefficient de
détermination associé très simplement dans la fenêtre dédiée à l’analyse des données.

En faisant varier le degré du polynôme de régression de 2 à 4, on obtient les coefficients de


détermination suivants :
2
Rquadratique = 0.9993
2
Rcubique = 0.9998
2
Rdegr4 = 0.9998

On constate que si le coefficient de détermination augmente avec le degré du polynôme de ré-


2
gression, Rquadratique est déjà très proche de 1 ce qui confirme l’excellente qualité de la régression
quadratique. Par contre, si on calcule le coefficient de corrélation linéaire, on obtient r = −0.3329
3.2. AJUSTEMENTS POLYNOMIAUX AVEC GEOGEBRA 23

et r2 = 0.1108 ce qui montre sans surprise que le modèle de régression linéaire est inadéquat
pour ce nuage de points.
Dans Geogebra, on peut également calculer et afficher dans la fenêtre Graphique les courbe de
régression polynomiale de degré n avec la commande AjustPoly[< ListePoints >, n].
La copie d’écran ci-dessous montre les courbes de régression quadratique, cubique et de degré 4
de l’exemple 2 pour des valeurs de x comprise entre -1 ˚C et 10˚C. On constate que ces trois
courbes de régression sont très proches sur cet intervalle et que les coefficients devant les terme de
degré 3 ou 4 sont quasi nuls. On en déduit que la courbe de régression quadratique est suffisante
pour modéliser le nuage de points.

La copie d’écran qui suit montre les mêmes courbes sur un intervalle plus large, soit pour des
valeurs de X comprises entre -10˚C et 100˚C, l’axe Oy étant visible sur l’intervalle [ 925; 1010 ].
Les points du nuage ont toujours des abscisses comprises entre 0 et 10. On constate que pour
des valeurs de X éloignées du nuage, les courbes de régression divergent. Sans autre information
supplémentaire sur la relation entre la température de l’eau et sa masse volumique, il est totale-
ment hasardeux de préjuger du meilleur modèle parmi ces trois pour des extrapolations éloignées
des données initiales.

3
24 CHAPITRE 3. AJUSTEMENTS POLYNOMIAUX

3.3 Exercices

Exercice 10 La résistance Y à l’avancement d’un poids lourd est une fonction de la vitesse X.
Le but de cet exercice est de déterminer la meilleure expression possible de cette fonction dans
un intervalle de vitesse compris entre 10 km/h et 100 km/h. Cette résistance est mesurée en kW.
Les résultats des mesures sont consignés dans le tableau ci-dessous

X [ km/h ] 10 20 30 40 50 60 70 80 90

Y [ kW ] 2.6 5.8 9.9 15.4 23.6 34.5 49 67.2 89.1

Cet exercice se réalise avec Geogebra.

a) Tracer le diagramme de dispersion (nuage de points) dans la fenêtre Graphique.


b) Déterminer la droite de régression linéaire (à stocker sous f (x)) et la tracer dans la fenêtre
Graphique.
c) Déterminer le coefficient de corrélation linéaire, ainsi que le coefficient de détermination.
d) Evaluer la valeur de la résistance pour une vitesse de 100 km/h en utilisant l’ajustement
linéaire.
e) Déterminer la courbe de régression quadratique (à stocker sous p(x)), ainsi que son coef-
ficient de détermination. Tracer la courbe de régression quadratique dans la fenêtre Gra-
phique.
f ) Donner une évaluation de la résistance pour une vitesse de 100 km/h en utilisant la courbe
de régression quadratique.
g) Déterminer la courbe de régression cubique (à stocker sous c(x)) ainsi que son coefficient
de détermination. Tracer la courbe de régression cubique dans la fenêtre Graphique.
h) Donner une évaluation de la résistance pour une vitesse de 100 km/h en utilisant la régres-
sion cubique.
n n n n n n n
x2i , x3i , x4i , x2i yi et déterminer l’équation de
P P P P P P P
i) Calculer xi , yi , xi yi ,
i=1 i=1 i=1 i=1 i=1 i=1 i=1
la courbe de régression quadratique en calculant ses coefficients par résolution du système
linéaire présenté à la page 20. Utiliser la commande Résoudre dans une fenêtre de Calcul
formel. Vérifier que la solution obtenue correspond à p(x) calculée sous e).

Exercice 11 On considère les mesures suivantes obtenues lors d’une expérience.

X -1 0 1 2 3
Y 30 25 20 100 360

a) Représenter le nuage de points.


b) Déterminer la droite de régression linéaire et la tracer dans la fenêtre Graphique.
c) Déterminer le coefficient de corrélation linéaire ainsi que le coefficient de détermination et
interpréter.
d) Déterminer et résoudre le système d’équations permettant de trouver la courbe de régression
cubique. Utiliser la commande Solutions dans une fenêtre de Calcul formel.
3.3. EXERCICES 25

e) Déterminer directement la courbe de régression cubique à l’aide de la commande adéquate,


ainsi que son coefficient de détermination et interpréter. Vérifier que la solution obtenue
correspond celle obtenue sous d). Tracer cette courbe dans la fenêtre Graphique.

Exercice 12 Déterminer, en utilisant la commande de régression polynomiale de Geogebra,


l’équation de la courbe du type proposé qui passe par les points donnés.

a) y = ax + b P1 (−1; −13), P2 (2; 2)


b) y = ax2 + bx + c P1 (1; 9), P2 (−1; −1), P3 (2; 5)
c) y = ax3 + bx2 + cx + d P1 (−1; 10), P2 (0; 17), P3 (1; 16), P4 (2; 19)
d) y = ax4 + bx3 + cx2 + dx + e P1 (−2; 25), P2 (−1; 2), P3 (0; 7), P4 (1; 16), P5 (2; 77)

Exercice 13 On se donne un nuage de points (x1 ; y1 ), (x2 ; y2 ), . . . , (xn ; yn ) formé de n points


avec les xi distincts deux à deux. Le polynôme de Lagrange (voir remarque (ii) de la page 20)
de ce nuage de points est le polynôme L(x) de degré minimal qui prend la valeur yi pour tout
x = xi .
On peut prouver que le polynôme suivant
 
n n
X Y x − xi 
L(x) = yj · 
xj − xi
j=1 i=1,I6=j

est l’unique polynôme de degré au plus n − 1 qui répond à la question.


Créer un programme Python qui calcule le polynôme de Lagrange d’un ensemble de points dont
toutes les abscisses sont distinctes.

Chapitre 4

Ajustements non polynomiaux

Nous allons maintenant nous concentrer sur la situation où les points ont tendance à se répartir
selon des fonctions autres que polynomiales.

4.1 Ajustement de type puissance

Exemple 3 Processus adiabatique


Lors d’une expérience, on a mesuré la pression P d’une masse donnée de gaz pour différentes
valeurs du volume V à une température constante. Les résultats ont été reporté dans le tableau
suivant.
 
V cm3 54.3 61.8 72.4 88.7 118.6 194
 
P kg/cm3 61.2 49.5 37.6 28.4 19.2 10.1

D’après le principe de thermodynamique relatif au processus adiabatique, on a la relation

P ·Vγ =C (4.1)
où γ et C sont des constantes liées à la nature du gaz.

Nous allons déterminer les constantes γ et C du modèle P · V γ = C pour le gaz utilisé dans
l’expérience puis nous estimerons la pression P lorsque le volume V = 100 cm3.

Représentons d’abord la série statistique double ( V , P ) sur Geogebra.


28 CHAPITRE 4. AJUSTEMENTS NON POLYNOMIAUX

On constate que la forme du nuage de points ne suit pas une courbe polynomiale puisqu’en vertu
de la relation (4.1), P s’exprime en fonction de V comme
C
P (V ) = = C · V −γ

Pour obtenir la valeur des constantes γ et C, on transforme la relation en un modèle linéaire en
utilisant la fonction logarithme naturel. En effet, puisque P · V γ = C, on a
ln(P · V γ ) = ln(C) ⇔ ln(P ) + γ · ln(V ) = ln(C) ⇔ ln(P ) = −γ · ln(V ) + ln(C)
Ainsi, en posant Y = ln(P ) et X = ln(V ), on obtient la relation linéaire
Y = −γ · X + ln(C)

La droite de régression nous permet alors de déterminer la valeur des paramètres γ et C.


On effectue cette démarche avec Geogebra par exemple comme suit : après avoir introduit les
données originales dans les colonnes A et B du Tableur et créé les points (Ai , Bi ) dans la colonne
C, on crée les points (ln(Ai), ln(Bi)) dans la colonne D. On établit alors la régression linéaire de
ces points avec la commande AjustLin.

On obtient la relation y = −1.4 x + 9.68 qui nous permet de poser que


−γ = −1.4 et ln(C) = 9.68, d’où γ = 1.4 et C = e9.68 ∼
= 15994.5

Ainsi, la relation entre P et V pour le gaz étudié dans l’expérience s’écrit


P · V 1.404204 = 15994.5
et la pression P s’exprime en fonction du volume comme P (V ) = 15994.5 · V −1.4 .
On représente le graphe de cette fonction en superposition avec le nuage de points.
4.2. AUTRES AJUSTEMENTS NON LINÉAIRES ET NON POLYNOMIAUX 29

On peut dès lors estimer que lorsque le volume vaut 100 cm3, la pression vaut

P (100) = 15994.5 · 100−1.4 soit 25.35 kg par cm2.

Remarque
Dans l’exemple ci-dessus, la relation (4.1) signifie que la pression P s’exprime comme une puis-
sance du volume V . Or, il est possible d’obtenir directement à partir des données initiales une
courbe de régression de type puissance sur Geogebra à l’aide du bouton Statistiques à deux va-
riables. On obtient la fenêtre suivante :

On constate que valeurs C et γ correspondent à celles calculées précédemment. La petite variation


observée sur C est vient de l’arrondi sur la valeur ln(C) du modèle linéaire associé.
3

4.2 Autres ajustements non linéaires et non polynomiaux

D’autres types d’ajustements peuvent être obtenus à l’aide d’un ajustement linéaire sur des
variables transformées, de façon similaire à ce qui a été fait dans l’exemple 3. Les principaux
types d’ajustements non linéaires et non polynomiaux sont présentés dans le tableau ci-dessous,
avec l’ajustement linéaire associé.
30 CHAPITRE 4. AJUSTEMENTS NON POLYNOMIAUX

Modèle Ajustement linéaire associé

Puissance y = a · xb , (a > 0) ln(y) en fonction de ln(x) : ln(y) = b · ln(x) + ln(a)

Exponentiel y = a · bx , (a, b > 0) ln(y) en fonction de x : ln(y) = ln(b) · x + ln(a)

Logarithmique y = a + b · ln(x) y en fonction de ln(x) : y = b · ln(x) + a

Exponentiel à y = M − b · ea·x ,
ln(M − y) en fonction de x : ln(M − y) = a · x + ln(b)
valeur max M
(M > 0, b > 0, a < 0)
M
Logistique à y= , M −y M −y
1 + b · ea·x ln( ) en fonction de x : ln( ) = a · x + ln(b)
valeur max M y y
(M > 0, b > 0, a < 0)

Tous ces ajustements peuvent évidemment être effectués avec Geogebra en utilisant l’ajustement
linéaire associé ou alors directement dans la fenêtre d’analyse des données. Le modèle d’ajuste-
ment peut être choisi dans le menu déroulant situé en bas à gauche de la fenêtre.

Remarques
(i) L’ajustement exponentiel à valeur maximale n’est pas disponible dans les commandes de
Geogebra.
(ii) L’ajustement logistique est de la forme
M
y=
1 + a · eb·x
où M, a et b sont les coefficients d’ajustement. La valeur maximale M ne peut donc pas
être spécifiée a priori. Il est déterminé par une méthode numérique itérative.
(iii) Geogebra met à disposition les commandes Ajustement[ <Liste Points>, < Fonction> ] et
Ajustement[ <Liste Points>, <Liste Fonctions> ] où l’utilisateur peut spécifier les fonctions
d’ajustement souhaitées. Par exemple, pour un ajustement de la forme a sin(x) + b ∗ ex , la
liste de fonctions sera {sin(x), exp(x)} et Geogebra calculera les valeurs a et b qui minimisent
les moindres carrées en utilisant une méthode numérique itérative.

4.3 Exercices

Exercice 14 De 1951 à 1960, l’indice p du produit intérieur brut (PIB) en France a pris les
valeurs suivantes.

1951 1952 1953 1954 1955 1956 1957 1958 1959 1960

80.7 82.6 85.1 89.8 95.1 100.0 106.4 109.2 112.5 121.5
4.3. EXERCICES 31

a) Calculer le coefficient de corrélation linéaire entre cet indice p et le temps t (t = 0 pour


1951). Déterminer l’équation de la droite de régression. Tracer cette droite et le nuage de
points. Estimer à l’aide de la droite de régression l’indice de production p pour 1965.
b) Déterminer la courbe de régression exponentielle p = a · bt en utilisant l’ajustement linéaire
associé (t = 0 pour 1951). Tracer la courbe de régression exponentielle et le nuage de points.
Estimer à l’aide de cette courbe l’indice de production p pour 1965.
c) Déterminer directement la courbe de régression exponentielle avec la commande AjustExp
et comparer avec la courbe obtenue sous b).

Exercice 15 On veut déterminer le lien entre le demi grand axe a de l’orbite des planètes du
système solaire et leur période sidérale T .
Rappels
Le grand axe de l’orbite d’une planète est le grand diamètre de l’orbite elliptique de cette planète
autour du soleil.
L’unité astronomique [U A] est la distance moyenne Terre-Soleil (1U A = 1.496 · 1011 m).
La période sidérale est la durée de révolution d’une planète autour du Soleil.

Planète Demi grand axe [ UA] Période sidérale [ jours ]

Mercure 0.387099 87.969

Venus 0.723332 224.701

Terre 1 365.256

Mars 1.523691 686.980

Jupiter 5.202803 4332.589

Saturne 9.53884 10759.22

Uranus 19.1819 30685.4

Neptune 30.0578 60189.0

Pluton 39.44 90465.0

a) Déterminer l’ajustement linéaire de y = ln(T ) par rapport à x = ln(a) . En déduire une


fonction permettant de donner la période sidérale T en fonction du demi grand axe a.
Quel est le type de l’ajustement choisi ?
b) Déterminer, en utilisant la fenêtre d’analyse des données de Geogebra, la courbe de régres-
sion correspondante. La représenter avec le nuage de points.
c) En déduire la troisième loi de Képler : les carrés des périodes sidérales des planètes sont
proportionnels aux cubes des demi grands axes de leurs orbites.
d) Déterminer dans la fenêtre d’analyse des données, la courbe de régression exponentielle.
La représenter avec le nuage de points. Que peut-on en déduire ?


32 CHAPITRE 4. AJUSTEMENTS NON POLYNOMIAUX

Exercice 16 Dans une papeterie, on a relevé le nombre de calculatrices vendues chaque année
de 1978 à 1985.

1978 1979 1980 1981 1982 1983 1984 1985


103 140 161 299 552 653 997 1482

Etablir une régression exponentielle et en déduire une prévision des ventes pour les 3 prochaines
années.

Exercice 17 On souhaite vérifier expérimentalement la formule donnant la concentration mo-


laire de l’air en fonction de l’altitude. Pour cela, on mesure cette concentration à diverses altitudes
au moyen de ballons-sondes. Les résultats obtenus sont consignés dans le tableau qui suit.

Altitude h [m] 0 1’000 2’000 5’000 10’000 15’000 20’000


Concentration c [mol/l] 420 370 330 230 120 65 35

a) Représenter le nuage de points. Quel type d’ajustement peut-on envisager ?


b) Déterminer l’équation de la courbe envisagée et en déduire une expression de la concentra-
tion molaire c de l’air en fonction de l’altitude h.
c) Estimer la concentration molaire de l’air à 1500 m d’altitude selon ce modèle.

Exercice 18 On étudie la croissance d’une plante à partir d’un instant considéré comme initial
(t = 0). En effectuant les mesures du diamètre de la tige principale à différents instants, on a
obtenu les résultats suivants.

Temps t 0 2 6 10 14
Diamètre d 0.4 1.2 5.4 6.4 7.8

a) Représenter le nuage de points.


b) Déterminer, en utilisant les ajustements linéaires associés, les modèles logistique et expo-
nentiel à valeur maximale M = 8.
c) Représenter graphiquement les deux modèles et le nuage de points.
Lequel des ces deux modèles semble le plus approprié ?
d) Déterminer la courbe de régression logistique calculée par Geogebra dans la fenêtre d’ana-
lyse des données et la représenter avec le nuage de points.


Solutions des exercices

Ex 1 :

from math import *


val=input("Entrez les valeurs séparées par des virgules : x1,x2,x3,x4,...,xn\n")
listeVal=val.split(",")
for k in range(len(listeVal)):
listeVal[k]=float(listeVal[k])
def moyenne(liste):
moy=0
for x in liste:
moy +=x
moy=moy/len(liste)
return moy
def variance(liste):
moy = moyenne(liste)
vari=0
for x in liste:
vari += (x-moy)**2
vari = vari/len(liste)
return vari
def ecartType(liste):
return sqrt(variance(liste))
print("Pour la liste de valeurs suivantes :")
print(val)
print("La moyenne vaut :",moyenne(listeVal))
print("la variance vaut : ",variance(listeVal))
print("L’écart-type vaut : ",ecartType(listeVal))

Ex 2 :
x̄ = 9.822 et s = 0.222.

Ex 3 :
a) X : l’intensité du séisme, Y : le coût des dommages matériels causés par le séisme, r > 0.
b) X : le prix du produit, Y : le nombre d’unités vendues, r < 0.
c) X : la taille, Y : le poids (on contrôle plus aisément son poids que sa taille), r > 0.
d) X et Y interchangeable (qui choisit qui dans un couple ?), r > 0.
e) X : la cylindrée, Y : la puissance, r > 0.
f) X : le contenu en carbone, Y : la résistance à la traction, r > 0.

Ex 4 :
DY /X est la droite P1 P2 pour laquelle la somme des carrés des écarts εi est nulle.
34 SOLUTIONS DES EXERCICES

Ex 5 :
b) y = −0.386 x + 20.592
c) r = −0.9796. La corrélation est forte et négative.
d) r2 = 96%. Le nombre d’années écoulées explique 96% de la variance de la part des consom-
mateurs quotidiens d’alcool ; 4% de cette variance est imputable à d’autres facteurs.
e) y = −0.386 · 22 + 20.592 = 12.1%
20.592
f ) −0.386 x + 20.592 = 0 ⇐⇒ x = ≈ 53, 1990 + 53 = 2043. En l’an 2043. Cette
0.386
prédiction est une extrapolation. Elle est peu vraisemblable, car il est difficile d’imaginer
qu’il n’y ait plus de consommateur quotidien d’alcool en Suisse.

Ex 6 :
a) T et A sont les variables dépendantes de X qui est la variable indépendante.
c) t = −0.5287 x + 60.4 et a = 0.5475 x + 8.79
d) rxt = −0.9612 ; la corrélation est forte et négative. rxa = 0.9846 ; la corrélation est forte et
positive.
2 = 0.9239 et r 2 = 0.9694. L’âge explique 92% de la variance de la proportion des
e) rxt xa
personnes souffrant de maux de tête et 97% de la variance de la proportion des personnes
souffrant de douleurs articulaires ; 8%, respectivement 3%, de ces variances sont imputables
à d’autres facteurs que l’âge.
f ) rta = −0.9849 et rta2 = 97% ; la corrélation est forte et négative. Vraisemblablement, il n’y

a pas de lien de cause à effet entre les ressentis de maux de tête et de douleurs articulaires.
C’est la forte corrélation de chacune de ces deux variables avec l’âge qui explique leur forte
corrélation mutuelle. Ainsi, une interprétation de la forme "La proportion des personnes
souffrant de douleurs articulaires explique 97% de la variance de la proportion des personnes
souffrant de maux de tête" ne fait pas sens ici.

Ex 7 :

b) y = 2.1429 x − 11.2857 c) r = 0.9481. La corrélation est forte


d) 2’143.- (i.e. valeur de la pente de la droite)
e) 25’143.- f) Environ 15 ans de scolarité.

Ex 8 :

a) Le revenu hebdomadaire X explique les dépenses en nourriture Y


c) y = 0.0668 x + 85.7291 et m ' 0.067. Pour chaque augmentation de 1.- du revenu hebdo-
madaire, les dépenses en nourriture augmentent d’environ 0,067 francs
d) r = 0.6696. La corrélation est moyenne.
f) 112.45 francs, sous réserve d’une corrélation moyenne.

Ex 9 :

a) r = 0.9851. La corrélation est forte.


b) DY /X : y = 1.6289 x + 58.5729
c) 164 battements par minute.
d) x = 0.5958 y − 33.9297 d’où une intensité de travail de 25.3 kJ/min pour 100 battements
par minute.
SOLUTIONS DES EXERCICES 35

x + 33.9297
e) La réciproque de DX/Y : x = 0.5958 y−33.9297 est y = = 1.67842 x+56.9481
0.5958
qui n’est pas équivalente à DY /X : y = 1.6289 x + 58.5729.

Ex 10 :
b) f (x) = 1.04583 x − 19.28056 c) r = 0.956651 et R2 = 0.915181(= r2 ) d) 85.3 kW
e) p(x) = 0.01393 x2 − 0.347132 x + 6.257143 et R2 = 0.998522
f) 110.8 kW
g) c(x) = 0.000085 x3 + 0.001177 x2 + 0.190174 x + 0.646032 et R2 = 0.999959
h) 116.5 kW
n n n n
x2i = 280 500 , x3i = 20 0250 000 , x4i = 1530 3300 000 ,
P P P P
i) xi = 450 ,
i=1 i=1 i=1 i=1
n n n
xi yi = 210 130 , x2i yi = 10 6110 220
P P P
yi = 297.1 , d’où le système
i=1 i=1 i=1

0 0 0 0 0 0 0

 153 330 000 a + 2 025 000 b + 28 500 c = 1 611 220


 20 0250 000 a + 280 500 b + 450 c = 210 130




280 500 a

 + 450 b + 9c = 297.1
et le modèle quadratique y = 0.01393 x2 − 0.347132 x + 6.257143

Ex 11 :
b) y = 73.5 x + 33.5 c) r = 0.800617 R2 = 0.640988(= r2 )
Le modèle linéaire explique 64% de la variance de Y par la variable X.
n n n n n n
x2i = 15 , x3i = 35 , x4i = 99 , x5i = 275 , x6i = 795 ,
P P P P P P
d) xi = 5 ,
i=1 i=1 i=1 i=1 i=1 i=1
n n n n
xi yi = 10 270 , x2i yi = 30 690 , x3i yi = 100 510 ,
P P P P
yi = 535 ,
i=1 i=1 i=1 i=1




 795 a + 275 b + 99 c + 35 d = 10510




275 a + 99 b + 35 c + 15 d = 3690 15 2 285 179
d’où y = 15 x3 − x − x+
 14 14 7


 99 a + 35 b + 15 c + 5 d = 1270



35 a + 15 b + 5c + 3d = 535

e) y = 15 x3 − 1.07 x2 − 20.36 x + 25.57 et R2 = 0.999983


Le modèle cubique explique la quasi totalité de la variance de Y par la variable X.

Ex 12 :
a) y = 5 x − 8
b) y = −3 x2 + 5 x + 7
c) y = 2 x3 − 4 x2 + x + 17
d) y = 3 x4 + 2 x3 − x2 + 5 x + 7
36 SOLUTIONS DES EXERCICES

Ex 13 :

import sys
#produit de polynômes sous forme de listes (degrés croissants)
def prodPol(liste1,liste2):
prod=[0]*(len(liste1)+len(liste2)-1)
for k in range(len(liste1)):
for j in range(len(liste2)):
prod[k+j] += liste1[k]*liste2[j]
return prod
#addition de polynômes sous forme de listes (degrés croissants)
def addPol(liste1, liste2):
add=[0]*(max(len(liste1),len(liste2)))
for k in range(len(liste1)):
add[k] += liste1[k]
for j in range(len(liste2)):
add[j] += liste2[j]
return add

absci=input("entrez la liste des abscisses sous la forme a1,a2, ...,ak:\n")

ordon=input("entrez la liste des ordonnées sous la forme b1,b2, ...,bk:\n")

#transformation des entrées en listes de nombres réels


listeAbs=absci.split(",")
mAbs=len(listeAbs)
for k in range(mAbs):
listeAbs[k]=float(listeAbs[k])

listeOrd=ordon.split(",")
mOrd=len(listeOrd)
for k in range(mOrd):
listeOrd[k]=float(listeOrd[k])
#si les longueurs des deux listes différent, arrêt du programme
if mAbs!=mOrd:
print("le nombre d’abscisses doit être égal au nombre d’ordonnées")
sys.exit()

#vérification que toutes les abscisses diffèrent;


#arrêt du programme si ce n’est pas le cas
listeCoeff=[]

for k in range(mAbs):
coeff=1
for m in range(mAbs):
if m!=k:
coeff=coeff*(listeAbs[k]-listeAbs[m])
listeCoeff.append(coeff)

if 0 in listeCoeff:
print("les abscisses doivent être toutes différentes")
sys.exit()
SOLUTIONS DES EXERCICES 37

#construction du polynôme de lagrange


polagr=[0]

for k in range(mAbs):
polyn=[1]
for m in range(mAbs):
if m!=k:
polyn = prodPol(polyn,[-listeAbs[m],1])
polyn = prodPol(polyn,[listeOrd[k]/listeCoeff[k]])
polagr = addPol(polagr,polyn)

print("Le polynôme de Lagrange vaut (degrés croissants)")


print(polagr)

Ex 14 :
a) r = 0.992 et p = 4.5558 · t + 77.7891. Estimation pour 1965 : p = 141.5697
b) Ajustement linéaire associé : ln(p) = ln(b) · t + ln(a) = 0.05 t + 4.37 d’où
p = 79.07 · 1.0475t = 79.07 · e0.0464t . Estimation pour 1965 : p = 151.3306.

Ex 15 :
a) ln(T ) = 1.5 · ln(a) + 5.9 d’où T = 365.04 · a1.5 , régression de type puissance.
b) T = 365.24 · a1.5
c) T 2 ∼
= 1330 400 · a3
d) T = 483.85 · 1.17a Cet ajustement exponentiel ne convient pas.

Ex 16 :
Prévision de vente pour les années 1986, 1987 et 1988 : 2’216 , 3’294 et 4’896.

Ex 17 :
a) Il semble judicieux d’envisager un ajustement exponentiel.
c) c = 421.72 · e−0.000125 h
d) 350 mol/l

Ex 18 :
b) Modèle exponentiel : ln(8 − d) = −0.25 t + 2.33 d’où d = 8 − 10.28 · e−0.25 t
8−d 8
Modèle logistique : ln = −0.45 t + 2.66 d’où d =
d 1 + 14.3 · e−0.45 t

c) Les coefficients de corrélation des ajustements linéaires associés valent rlogistique = −0.99 et
rexponentiel = −0.96 . Ainsi, le modèle logistique à valeur maximale semble le plus approprié.
7.29
d) y =
1 + 15.71 · e−0.61 x
On constate que l’ajustement logistique calculé numériquement par Geogebra donne une
valeur maximale inférieure au plus grand diamètre mesuré.

Vous aimerez peut-être aussi