Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUES
Ecole de maturité
Option spécifique, 3eannée
GYMNASE DE BURIER
Carmen Mermoud
Table des matières
1 Rappels de statistique 3
1.1 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Variance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Ajustements linéaires 7
2.1 Recherche d’une régression linéaire par voie graphique. . . . . . . . . . . . . . . . 8
2.2 Droite des moindres carrés et corrélation linéaire . . . . . . . . . . . . . . . . . . 9
2.2.1 Résolution analytique de la droite des moindres carrés. . . . . . . . . . . . 10
2.3 Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Coefficients de mesure de la corrélation . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.1 Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 Coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Ajustements polynomiaux 19
3.1 Ajustement quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Ajustements polynomiaux avec Geogebra . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
avril 2018
Chapitre 1
Rappels de statistique
1.1 Moyenne
n
x1 + x2 + . . . + xn 1 X
x̄ ou µ = = xi
n n
i=1
Remarque
b) Si les données sont répartis en classes, on prend comme valeurs a1 , . . . , ak les centres des
classes.
Remarque
n
X
La somme des écarts à la moyenne est nulle (xi − x̄) = 0.
i=1
4 CHAPITRE 1. RAPPELS DE STATISTIQUE
• Afin d’avoir une mesure de dispersion de même unité que les données, on définit
l’écart-type, noté s pour un échantillon et σ pour une population, en prenant la racine carrée
de la variance.
v
√
u n
u1 X
s ou σ = V ariance = t (xi − x̄)2
n
i=1
Remarque
c) Si les données sont réparties en classes, les valeurs observées ai sont à remplacer par
les milieux de classes ci , ce qui donne les valeurs approchées
s s
1 P k k
(ci − x̄)2 ni = (ci − x̄)2 fi .
P
s ou σ '
n i=1 i=1
n
x21 + x22 + · · · + x2n 1 X
s2 ou σ 2 = − x̄2 = x2j − x̄2
n n
j=1
Dans le cadre d’une étude par sondage, l’écart-type de l’échantillon est retenu pour estimer celui
de la population. Toutefois, les statisticiens ont montré que l’estimation est meilleure si on divise
le numérateur de la formule de la variance ou de l’écart-type par n − 1 au lieu de n. On parle
alors de la variance d’échantillon corrigée, notée s0 2 , et de l’écart-type corrigé, noté s0 .
v
n u n
1 X 1 X
s0 2 = (xi − x̄)2 0
(xi − x̄)2
u
et s = t
n−1 n−1
i=1 i=1
Pour des échantillons de grande taille, la différence entre s2 et s0 2 est en général négligeable.
1.3. EXERCICES 5
1.3 Exercices
Ajustements linéaires
Exemples :
a) la taille et le poids d’une personne issue d’une population étudiée,
b) l’âge de l’homme et l’âge de la femme dans un groupe de couples mixtes,
c) la cylindrée et la puissance des voitures d’un parc d’automobiles,
d) le contenu en carbone et la résistance à la traction de boulons de longueur et diamètre
donnés.
Dans ces exemples, les variables ne sont pas forcément dans une relation directe de cause à effet,
tout en présentant vraisemblablement une certaine dépendance. On dit alors que les grandeurs
sont corrélées.
On attribue la lettre X à la variable indépendante et la lettre Y à la variable dépendante,
c’est à dire celle dont la valeur semble dépendre de celle de l’autre. Dans la pratique, l’attribution
des lettres X et Y est la plupart du temps évidente.
On se pose alors les questions suivantes :
— Problème de régression :
L’interdépendance entre X et Y peut-elle être représentée par une relation simple ?
— Problème de corrélation :
Si tel est le cas, peut-on estimer la force d’une telle relation ?
Dans ce premier chapitre, nous montrerons comment établir une relation affine
y = mx + h
entre deux caractères X et Y d’une série statistique double {(xi , yi )} où 1 ≤ i ≤ n. Une telle
relation est appelée ajustement ou régression linéaire.
8 CHAPITRE 2. AJUSTEMENTS LINÉAIRES
Pour établir cette relation, nous utiliserons la méthode des moindres carrés. Nous verrons
dans les chapitres suivants comment cette méthode est utilisée pour établir d’autres types de
relation entre X et Y .
On notera qu’en général les relations sont d’ordre mathématique, ne préjugeant pas d’une éven-
tuelle relation de cause à effet entre X et Y .
Historiquement, le premier texte paru, faisant mention de la méthode des moindres carrés, est
dû à Adrien-Marie Legendre (1752-1833), dans un article sur ses « nouvelles méthodes pour la
détermination des orbites des comètes » publié en 1805. Un an plus tard, Carl Friedrich Gauss
(1777-1855) fait aussi allusion à cette méthode.
On construit une représentation graphique en dessinant les points Pi (xi , yi ) dans un système
d’axe Oxy. Cette représentation graphique s’appelle un diagramme de dispersion ou encore
un nuage de points. Si la forme du nuage est suffisamment allongée et relativement symétrique
par rapport à une droite, on peut supposer l’existence d’une relation affine. Cette estimation est
évidemment subjective, mais peut servir de première approche.
Voici la marche à suivre pour représenter graphiquement ces données sur Geogebra.
c) Créer les points dans la colonnes C en tapant dans C1 =(A1,B1) et tirer la formule dans
la colonne. Les points s’affichent au fur et à mesure de leur création.
La forme du nuage de points suggère que Y est liée à X par une relation affine. Pour
caractériser cette relation, il parait acceptable, à l’oeil, de prendre une ordonnée à l’origine
égale à 140 et une abscisse à l’origine égale à 100. D’où y = f 1(x) = −1.4x + 140.
2.2. DROITE DES MOINDRES CARRÉS ET CORRÉLATION LINÉAIRE 9
La méthode ci-dessus est subjective. Une autre personne pourrait juger que la relation affine a
pour équation y = −1.5x + 150. Aucun critère objectif ne permet de décider quel est le meilleur
choix. C’est pourquoi, nous allons développer une méthode rigoureuse permettant de déterminer
la meilleure relation affine entre deux variables au sens des moindres carrés.
La méthode des moindres carrés consiste à déterminer, pour un nuage de n points donnés, les
valeurs m et h qui minimisent la somme S des carrés des écarts εi
n
X
S= ε2i
i=1
10 CHAPITRE 2. AJUSTEMENTS LINÉAIRES
d’où
S(h) est donc une fonction du second degré en h. Et comme le coefficient n devant h2 est positif,
la fonction S(h) atteint sa valeur minimale en son sommet, c’est-à-dire lorsque
n
P
− −2 (yi − mxi )
i=1
h = ⇐⇒
2n
n
X n
X
n·h = yi − m xi ⇐⇒
i=1 i=1
n
X n
X
m· xi + n · h = yi (2.3)
i=1 i=1
n
x2i devant m2 est
P
S(m) est donc une fonction du second degré en m. Et comme le coefficient
i=1
positif, la fonction S(m) atteint sa valeur minimale en son sommet, c’est-à-dire lorsque
n
P
− −2 (yi − h)xi
i=1
m = n ⇐⇒
x2i
P
2
i=1
2.2. DROITE DES MOINDRES CARRÉS ET CORRÉLATION LINÉAIRE 11
n
X n
X n
X
m x2i = yi xi − hxi ⇐⇒
i=1 i=1 i=1
n
X n
X n
X
m· x2i + h · xi = x i yi (2.4)
i=1 i=1 i=1
Les valeurs xi et yi étant connues, les équations 2.3 et 2.4 forment un système de deux équations
linéaires à deux inconnues m et h.
n n
P P
m· xi + h·n = yi
i=1 i=1
n n n
x2i + h ·
P P P
m·
xi = x i yi
i=1 i=1 i=1
m x̄ + h = ȳ ⇐⇒ ȳ = m x̄ + h ⇐⇒ h = ȳ − m x̄ (2.5)
où x̄ et ȳ sont les moyennes respectives des séries X et Y . Cette relation signifie que la droite de
régression cherchée passe par le centre de gravité ou barycentre G(x̄, ȳ) du nuage de points.
On substitue alors h par ȳ − m x̄ dans par la seconde équation et il vient :
n n n
! n n
X
2 1 X 1 X X X
m· xi + yi − m xi · xi = xi yi ⇐⇒
n n
i=1 i=1 i=1 i=1 i=1
!2
n n n n n
X 1 X X 1 X X
m· x2i − xi = x i yi − yi · xi ⇐⇒
n n
i=1 i=1 i=1 i=1 i=1
n
P 1 Pn Pn 1 Pn 1 P n 1 P n 1 Pn
x i yi −yi · xi xi yi − xi · yi xi yi − x̄ȳ
i=1 n i=1 i=1 n i=1 n i=1 n i=1 n i=1
m = n 2 = n n n = n
n 1 P 1 P 2− 1 1 P 1 P
x2i − x̄2
P
P 2
xi − xi x i x i x i
i=1 n i=1 n i=1 n i=1 n i=1 n i=1
1 Pn
notation
Cov(X, Y ) = (xi − x̄)(yi − ȳ) = sxy
n i=1
Remarque
Comme la variance, la covariance se calcule dans la pratique avec la formule du théorème de
König qui permet d’écrire :
n
1 X
sxy = xi yi − x̄ȳ
n
i=1
sxy
y = mx + h avec m = et h = ȳ − mx̄
s2x
ou encore
sxy
DY /X : y − ȳ = (x − x̄).
s2x
Remarque
La droite de régression DY /X de Y par rapport à X accorde à chaque valeur x une valeur y,
la variable y étant considérée comme dépendante de la variable x. Mathématiquement, on peut
aussi calculer la droite DX/Y de régression de X par rapport à Y : il suffit d’échanger le rôle des
variables. Toutefois, DY /X et DX/Y ne donnent pas deux relations équivalentes car la somme des
carrés à minimiser n’est pas la même.
y δ5
r
6 "
"r
"
" δ7
"
"
"
" δ6 r
"
"
" r
r δ1 ""
"
δ4
" δ3 r
"
"
" r
" δ 2 x
-
Effectuer la régression de X par rapport à Y revient à considérer les écarts δi entre chaque point
du nuage et la droite, ces écarts étant mesurés horizontalement, c’est-à-dire parallèlement à Ox.
La droite DX/Y est celle qui minimise la somme des carrés des écarts δi .
Ainsi, il n’y a aucune raison que les droites DY /X et DX/Y soient réciproques l’une de l’autre.
2.3 Corrélation
— son sens : la corrélation est positive si les deux variables varient dans le même sens, ou
négative dans le cas contraire ;
— son intensité : la corrélation est parfaite si tous les points du nuage sont situés exacte-
ment sur la droite ou la courbe servant de modèle, forte si les points sont dans l’ensemble
"très proches" du modèle, moyenne si le nuage de points ne suit qu’approximativement
le modèle, faible voire nulle si aucune tendance ne se dégage. Dans ce dernier cas, on dit
que les variables sont indépendantes.
2.4. COEFFICIENTS DE MESURE DE LA CORRÉLATION 13
y y y
r r
r
6 6 6
Zr r
r r r
Z
Zr r
Z
Zr r r
Z r
r r r
Z
Zr r r r r
Z x x- x-
Z-
Corrélation linéaire Corrélation non linéaire Corrélation nulle
négative parfaite positive moyenne
À quelques cas improbables près, on peut toujours calculer les coefficients m et h, mais l’examen
des nuages de points suggère que la régression linéaire peut être plus ou moins vraisemblable.
Dans le cas de la méthode des moindres carrés, il convient de déterminer
P 2un critère mathématique
qui aidera à la décision. La moyenne des carrés des εi , à savoir n1 εi , est bien représentative
de ce critère. Si la valeur de cette moyenne est faible, la droite de régression est une bonne
approximation de notre nuage.
Pour la droite des moindres carrés, les écarts εi sont donnés par :
εi = yi − ŷi = yi − (mxi + h)
(2.5)
= yi − (mxi + ȳ − mx̄)
= yi − ȳ − m(xi − x̄)
sxy
= (yi − ȳ) − 2 (xi − x̄).
sx
Si on calcule la moyenne des carrés des εi , il vient :
n
( n n 2 Xn
)
1 X 2 1 X s xy
X sxy
εi = (yi − ȳ)2 − 2 2 (yi − ȳ) (xi − x̄) + (xi − x̄)2
n n sx s2x
i=1 i=1 i=1 i=1
( 2 )
1 sxy sxy
= (n s2y ) − 2 2 (n sxy ) + (n s2x )
n sx s2x
sxy 2 sxy 2 sxy 2
2 2
= sy − 2 + = sy −
sx sx sx
2 !
sxy
= s2y 1 − .
sx · sy
2
Cov(X, Y )2
sxy
r2 = = .
sx · sy V ar(X) · V ar(Y )
14 CHAPITRE 2. AJUSTEMENTS LINÉAIRES
1 P 2
εi ≥ 0 et s2y = V ar(Y ) ≥ 0 , alors 1 − r2 ≥ 0 c’est-à-dire 0 ≤ r2 ≤ 1.
Comme
n
Cov(X, Y ) sxy
rxy = p p =
V ar(X) V ar(Y ) sx · sy
Le coefficient de détermination r2 est donc égal au carré du coefficient de corrélation linéaire rxy .
L’interprétation de la corrélation est délicate. On trouve par exemple une forte corrélation
entre le poids X et l’habileté manuelle Y chez les enfants entre 6 et 10 ans. Or, ce n’est pas le
poids d’un enfant qui détermine son habileté manuelle. La corrélation entre ces deux variables
s’explique par le fait que le poids X et l’habileté manuelle Y augmentent tous deux avec l’âge Z
de l’enfant. Ainsi, la corrélation entre deux variables X et Y s’explique parfois par une corrélation
commune avec une troisième variable Z.
2.4. COEFFICIENTS DE MESURE DE LA CORRÉLATION 15
La prudence s’impose d’autant plus lorsque les données proviennent d’une série temporelle. Par
exemple, entre 1900 et 1970 les effectifs des nouveaux-nés et les effectifs des cigognes ont tous
deux diminué. Les effectifs des nouveaux-nés et des cigognes sont donc positivement corrélés ...
ce qui ne prouve pas que les cigognes apportent les bébés !
Exemple 1, suite Geogebra met à disposition un ensemble de commandes pour effectuer des
ajustements statistiques.
La commande AjustLin[ <Liste Points> ] trace dans la fenêtre graphique la droite des moindres
carrés de la liste de points passée en paramètre.
Le coefficient de correlation linéaire se calcule avec la commande CoeffCorrélation[<Liste Points>]
ou CoeffCorrélation[ <Liste Abscisses>, <Liste Ordonnées> ]
Par ailleurs, la barre d’outils de la fenêtre du tableur contient un outil Statistique à deux variables
qui ouvre une nouvelle fenêtre dédiée aux ajustements qui se présente comme suit.
2.5 Exercices
Exercice 3 Dans chacun des cas suivants, déterminer la variable indépendante X, la variable
dépendante Y et préciser si la corrélation est a priori positive ou négative.
Exercice 4 Quelle est la droite de régression si le nuage est constitué uniquement de deux points
P1 (x1 ; y1 ) et P2 (x2 ; y2 ) ? Justifier la réponse.
Exercice 5 En Suisse, l’Office fédéral de la statistique (OFS) réalise tous les cinq ans une
Enquête suisse sur la santé (ESS). Dans ce contexte, la proportion des consommateurs quotidiens
d’alcool dans la population suisse âgée de 15 ans et plus a été mesurée.
2.5. EXERCICES 17
Exercice 6 Lors de l’Enquête suisse sur la santé de 2007, 18 760 personnes résidant en Suisse,
âgées de 15 ans et plus ont été interrogées sur les troubles physiques ressentis au cours des
quatre dernières semaines. Le tableau ci-dessous donne selon le groupe d’âge, la proportion des
personnes ayant ressentis des maux de tête, d’une part, et des douleurs aux articulations, d’autre
part.
Groupe d’âge X 15-34 ans 35-49 ans 50-64 ans 65 ans et plus
Maux de tête T 44.4 41.9 30.9 20.0
Douleurs aux articulations A 23.9 29.2 41.5 48.7
Exercice 7 Le tableau ci-après donne le salaire Y (en milliers de dollars) de 8 femmes en fonction
du nombre d’années de scolarité X de chacune d’elles.
X 12 18 19 10 15 16 12 12
Y 15 25 30 12 20 27 14 11
18 CHAPITRE 2. AJUSTEMENTS LINÉAIRES
Exercice 8 Une étude portant sur les dépenses en nourriture et le revenu hebdomadaire d’une
quinzaine de familles de 4 personnes a conduit aux résultats suivants.
a) Quelle est la variable indépendante (ou explicative) X la plus plausible pour cette série et
quelle est la variable dépendante (ou expliquée) Y ?
b) Tracer le diagramme de dispersion.
c) Déterminer l’équation de la droite de régression et tracer cette droite sur le graphique
précédent. A quoi correspond la pente de la droite dans ce contexte ?
d) Calculer le coefficient de corrélation linéaire et interpréter.
e) Estimer les dépenses en nourriture pour une famille de 4 personnes ayant un revenu heb-
domadaire net de 400.-
Chapitre 3
Ajustements polynomiaux
Nous allons maintenant nous concentrer sur la situation où les points ont tendance à se répartir
selon une fonction polynomiale.
n n
X
2
2 X 2
(yi − bxi − c) − ax2i
S = yi − (axi + bxi + c) =
i=1 i=1
n
X
(yi − bxi − c)2 − 2 a (yi − bxi − c) x2i + a2 x4i
=
i=1
n n n
" # " #
X X X
= x4i a2 − 2 (yi − bxi − c) x2i a + (yi − bxi − c)2
i=1 i=1 i=1
P 4
S peut donc s’écrire comme un polynôme du second degré enP a. Comme le coefficient xi
2 (y − bx − c) x 2
i
devant a2 est positif, S prend sa valeur minimale lorsque a = P i4 i
, c’est-à-dire
2 xi
n n
" # " #
X X
x4i a − (yi − bxi − c) x2i = 0 ⇔
i=1 i=1
n
X n
X n
X n
X
a· x4i + b · x3i + c · x2i = x2i yi .
i=1 i=1 i=1 i=1
n n n
" # " #
X X X
S= x2i 2
b − 2 2
(yi − axi − c) xi b + (yi − ax2i − c)2
i=1 i=1 i=1
20 CHAPITRE 3. AJUSTEMENTS POLYNOMIAUX
(yi − ax2i − c) xi
P
2
qui prend sa valeur minimale lorsque b = P 2 , c’est-à-dire
2 xi
n
" # " n #
X X
x2i b − (yi − ax2i − c) xi = 0 ⇔
i=1 i=1
n
X n
X n
X n
X
a· x3i +b· x2i +c· xi = xi yi .
i=1 i=1 i=1 i=1
2 (yi − ax2i − b xi )
P
qui prend sa valeur minimale lorsque c = , c’est-à-dire
2n
" n #
X
nc − (yi − ax2i − b xi ) = 0 ⇔
i=1
Xn n
X n
X
a· x2i +b· xi + n c = yi .
i=1 i=1 i=1
Remarques
(i) La méthode ci-dessus peut être généralisée à un polynôme de degré quelconque. Le choix
d’un polynôme de degré k entraîne la résolution d’un système linéaire d’ordre k + 1.
(ii) Soit M1 (x1 , y1 ), M2 (x2 , y2 ), . . ., Mn (xn , yn ) le nuage de points et k le degré du polynôme de
régression. Si k = n − 1 et si les xi sont tous distincts, la courbe de régression polynomiale
fournit l’unique polynôme de degré inférieur ou égal à n − 1 qui passe par les n points
donnés, appelé polynôme de Lagrange .
T 0˚ 1˚ 2˚ 3˚ 4˚ 5˚ 6˚ 7˚ 8˚ 9˚
M 999.840 999.900 999.941 999.965 999.970 999.965 999.941 999.902 999.849 999.781
3.2. AJUSTEMENTS POLYNOMIAUX AVEC GEOGEBRA 21
Dans Geogebra, on affiche le nuage de point après les avoir définis dans les cases C1 à C10 du
tableur. Pour ajuster la fenêtre Graphique sur le nuage de point, on utilise la commande Recadrer
accessible avec un clic droit.
On constate que la forme du nuage de points ressemble à une parabole.
On calcule les paramètres a, b, c définissant le modèle quadratique y = ax2 + bx + c avec la
commande AjustPoly[C1 : C10, 2]. La courbe de régression s’affiche dans la fenêtre Graphique et
son équation apparait dans la fenêtre Algèbre.
On peut alors utiliser le modèle pour calculer la masse volumique de l’eau à une température
donnée. Par exemple, pour 10˚ C, f (10) vaut 999.69 kg par m3.
3
Pour traiter quantitativement le problème de la dispersion des données autour d’une droite ou
d’une courbe de régression, il est nécessaire de définir une mesure de corrélation. Dans le cas d’une
droite de régression, il s’agit du coefficient de corrélation linéaire. Pour étendre cette notion aux
courbes de régression, le coefficient de détermination doit être défini de manière plus générale.
n
(f (xi ) − ȳ)2
P
i=1
R2 = n
(yi − ȳ)2
P
i=1
Remarques
(i) Le coefficient de détermination peut être vu comme le rapport entre la variance autour de
ȳ des valeurs f (xi ) calculées par le modèle y = f (x) et la variance des valeurs yi données :
Variance des f (xi ) autour de ȳ
R2 = .
Variance(Y )
22 CHAPITRE 3. AJUSTEMENTS POLYNOMIAUX
(ii) Dans le cas d’un ajustement polynomial y = f (x) obtenu à l’aide de la méthode des
moindres carrés, on peut montrer que 0 ≤ R2 ≤ 1. Plus le coefficient de détermination est
proche de 1, plus l’information apportée par le polynôme de régression peut être considérée
comme significative. Ainsi, R2 peut toujours être interprété comme la proportion de la
variance de Y qui est expliquée par le modèle.
(iii) Le coefficient de détermination augmente (i.e. se rapproche de 1) avec le degré du polynôme
de régression car la courbe de régression polynomiale de degré n obtenue à l’aide de la
méthode des moindres carrés est la solution optimale trouvée parmi les polynômes de degré
inférieur ou égal à n
(iv) Dans le cas d’une régression linéaire, le coefficient de détermination est égal au carré du
sxy
coefficient de corrélation. En effet, comme f (x) = mx + h avec m = 2 et h = ȳ − mx̄,
sx
on a
n n n
(f (xi ) − ȳ)2 (mxi + h − ȳ)2 (mxi + (ȳ − mx̄) − ȳ)2
P P P
i=1 i=1 h=ȳ−mx̄ i=1
R2 = n = n = n
2 2
(yi − ȳ)2
P P P
(yi − ȳ) (yi − ȳ)
i=1 i=1 i=1
n n sxy
P 2 P 2
(mxi − mx̄) (xi − x̄) m= 2 2
s2
i=1 i=1 s sxy sxy
= n = m2 · n =x · x2 = = r2 .
P 2 P 2 s2x sy sx · sy
(yi − ȳ) (yi − ȳ)
i=1 i=1
Exemple 2, suite
Dans Geogebra, on peut calculer les ajustement polynomiaux de degré 2 à 9 et le coefficient de
détermination associé très simplement dans la fenêtre dédiée à l’analyse des données.
et r2 = 0.1108 ce qui montre sans surprise que le modèle de régression linéaire est inadéquat
pour ce nuage de points.
Dans Geogebra, on peut également calculer et afficher dans la fenêtre Graphique les courbe de
régression polynomiale de degré n avec la commande AjustPoly[< ListePoints >, n].
La copie d’écran ci-dessous montre les courbes de régression quadratique, cubique et de degré 4
de l’exemple 2 pour des valeurs de x comprise entre -1 ˚C et 10˚C. On constate que ces trois
courbes de régression sont très proches sur cet intervalle et que les coefficients devant les terme de
degré 3 ou 4 sont quasi nuls. On en déduit que la courbe de régression quadratique est suffisante
pour modéliser le nuage de points.
La copie d’écran qui suit montre les mêmes courbes sur un intervalle plus large, soit pour des
valeurs de X comprises entre -10˚C et 100˚C, l’axe Oy étant visible sur l’intervalle [ 925; 1010 ].
Les points du nuage ont toujours des abscisses comprises entre 0 et 10. On constate que pour
des valeurs de X éloignées du nuage, les courbes de régression divergent. Sans autre information
supplémentaire sur la relation entre la température de l’eau et sa masse volumique, il est totale-
ment hasardeux de préjuger du meilleur modèle parmi ces trois pour des extrapolations éloignées
des données initiales.
3
24 CHAPITRE 3. AJUSTEMENTS POLYNOMIAUX
3.3 Exercices
Exercice 10 La résistance Y à l’avancement d’un poids lourd est une fonction de la vitesse X.
Le but de cet exercice est de déterminer la meilleure expression possible de cette fonction dans
un intervalle de vitesse compris entre 10 km/h et 100 km/h. Cette résistance est mesurée en kW.
Les résultats des mesures sont consignés dans le tableau ci-dessous
X [ km/h ] 10 20 30 40 50 60 70 80 90
X -1 0 1 2 3
Y 30 25 20 100 360
Nous allons maintenant nous concentrer sur la situation où les points ont tendance à se répartir
selon des fonctions autres que polynomiales.
P ·Vγ =C (4.1)
où γ et C sont des constantes liées à la nature du gaz.
Nous allons déterminer les constantes γ et C du modèle P · V γ = C pour le gaz utilisé dans
l’expérience puis nous estimerons la pression P lorsque le volume V = 100 cm3.
On constate que la forme du nuage de points ne suit pas une courbe polynomiale puisqu’en vertu
de la relation (4.1), P s’exprime en fonction de V comme
C
P (V ) = = C · V −γ
Vγ
Pour obtenir la valeur des constantes γ et C, on transforme la relation en un modèle linéaire en
utilisant la fonction logarithme naturel. En effet, puisque P · V γ = C, on a
ln(P · V γ ) = ln(C) ⇔ ln(P ) + γ · ln(V ) = ln(C) ⇔ ln(P ) = −γ · ln(V ) + ln(C)
Ainsi, en posant Y = ln(P ) et X = ln(V ), on obtient la relation linéaire
Y = −γ · X + ln(C)
On peut dès lors estimer que lorsque le volume vaut 100 cm3, la pression vaut
Remarque
Dans l’exemple ci-dessus, la relation (4.1) signifie que la pression P s’exprime comme une puis-
sance du volume V . Or, il est possible d’obtenir directement à partir des données initiales une
courbe de régression de type puissance sur Geogebra à l’aide du bouton Statistiques à deux va-
riables. On obtient la fenêtre suivante :
D’autres types d’ajustements peuvent être obtenus à l’aide d’un ajustement linéaire sur des
variables transformées, de façon similaire à ce qui a été fait dans l’exemple 3. Les principaux
types d’ajustements non linéaires et non polynomiaux sont présentés dans le tableau ci-dessous,
avec l’ajustement linéaire associé.
30 CHAPITRE 4. AJUSTEMENTS NON POLYNOMIAUX
Exponentiel à y = M − b · ea·x ,
ln(M − y) en fonction de x : ln(M − y) = a · x + ln(b)
valeur max M
(M > 0, b > 0, a < 0)
M
Logistique à y= , M −y M −y
1 + b · ea·x ln( ) en fonction de x : ln( ) = a · x + ln(b)
valeur max M y y
(M > 0, b > 0, a < 0)
Tous ces ajustements peuvent évidemment être effectués avec Geogebra en utilisant l’ajustement
linéaire associé ou alors directement dans la fenêtre d’analyse des données. Le modèle d’ajuste-
ment peut être choisi dans le menu déroulant situé en bas à gauche de la fenêtre.
Remarques
(i) L’ajustement exponentiel à valeur maximale n’est pas disponible dans les commandes de
Geogebra.
(ii) L’ajustement logistique est de la forme
M
y=
1 + a · eb·x
où M, a et b sont les coefficients d’ajustement. La valeur maximale M ne peut donc pas
être spécifiée a priori. Il est déterminé par une méthode numérique itérative.
(iii) Geogebra met à disposition les commandes Ajustement[ <Liste Points>, < Fonction> ] et
Ajustement[ <Liste Points>, <Liste Fonctions> ] où l’utilisateur peut spécifier les fonctions
d’ajustement souhaitées. Par exemple, pour un ajustement de la forme a sin(x) + b ∗ ex , la
liste de fonctions sera {sin(x), exp(x)} et Geogebra calculera les valeurs a et b qui minimisent
les moindres carrées en utilisant une méthode numérique itérative.
4.3 Exercices
Exercice 14 De 1951 à 1960, l’indice p du produit intérieur brut (PIB) en France a pris les
valeurs suivantes.
1951 1952 1953 1954 1955 1956 1957 1958 1959 1960
80.7 82.6 85.1 89.8 95.1 100.0 106.4 109.2 112.5 121.5
4.3. EXERCICES 31
Exercice 15 On veut déterminer le lien entre le demi grand axe a de l’orbite des planètes du
système solaire et leur période sidérale T .
Rappels
Le grand axe de l’orbite d’une planète est le grand diamètre de l’orbite elliptique de cette planète
autour du soleil.
L’unité astronomique [U A] est la distance moyenne Terre-Soleil (1U A = 1.496 · 1011 m).
La période sidérale est la durée de révolution d’une planète autour du Soleil.
Terre 1 365.256
32 CHAPITRE 4. AJUSTEMENTS NON POLYNOMIAUX
Exercice 16 Dans une papeterie, on a relevé le nombre de calculatrices vendues chaque année
de 1978 à 1985.
Etablir une régression exponentielle et en déduire une prévision des ventes pour les 3 prochaines
années.
Exercice 18 On étudie la croissance d’une plante à partir d’un instant considéré comme initial
(t = 0). En effectuant les mesures du diamètre de la tige principale à différents instants, on a
obtenu les résultats suivants.
Temps t 0 2 6 10 14
Diamètre d 0.4 1.2 5.4 6.4 7.8
Solutions des exercices
Ex 1 :
Ex 2 :
x̄ = 9.822 et s = 0.222.
Ex 3 :
a) X : l’intensité du séisme, Y : le coût des dommages matériels causés par le séisme, r > 0.
b) X : le prix du produit, Y : le nombre d’unités vendues, r < 0.
c) X : la taille, Y : le poids (on contrôle plus aisément son poids que sa taille), r > 0.
d) X et Y interchangeable (qui choisit qui dans un couple ?), r > 0.
e) X : la cylindrée, Y : la puissance, r > 0.
f) X : le contenu en carbone, Y : la résistance à la traction, r > 0.
Ex 4 :
DY /X est la droite P1 P2 pour laquelle la somme des carrés des écarts εi est nulle.
34 SOLUTIONS DES EXERCICES
Ex 5 :
b) y = −0.386 x + 20.592
c) r = −0.9796. La corrélation est forte et négative.
d) r2 = 96%. Le nombre d’années écoulées explique 96% de la variance de la part des consom-
mateurs quotidiens d’alcool ; 4% de cette variance est imputable à d’autres facteurs.
e) y = −0.386 · 22 + 20.592 = 12.1%
20.592
f ) −0.386 x + 20.592 = 0 ⇐⇒ x = ≈ 53, 1990 + 53 = 2043. En l’an 2043. Cette
0.386
prédiction est une extrapolation. Elle est peu vraisemblable, car il est difficile d’imaginer
qu’il n’y ait plus de consommateur quotidien d’alcool en Suisse.
Ex 6 :
a) T et A sont les variables dépendantes de X qui est la variable indépendante.
c) t = −0.5287 x + 60.4 et a = 0.5475 x + 8.79
d) rxt = −0.9612 ; la corrélation est forte et négative. rxa = 0.9846 ; la corrélation est forte et
positive.
2 = 0.9239 et r 2 = 0.9694. L’âge explique 92% de la variance de la proportion des
e) rxt xa
personnes souffrant de maux de tête et 97% de la variance de la proportion des personnes
souffrant de douleurs articulaires ; 8%, respectivement 3%, de ces variances sont imputables
à d’autres facteurs que l’âge.
f ) rta = −0.9849 et rta2 = 97% ; la corrélation est forte et négative. Vraisemblablement, il n’y
a pas de lien de cause à effet entre les ressentis de maux de tête et de douleurs articulaires.
C’est la forte corrélation de chacune de ces deux variables avec l’âge qui explique leur forte
corrélation mutuelle. Ainsi, une interprétation de la forme "La proportion des personnes
souffrant de douleurs articulaires explique 97% de la variance de la proportion des personnes
souffrant de maux de tête" ne fait pas sens ici.
Ex 7 :
Ex 8 :
Ex 9 :
x + 33.9297
e) La réciproque de DX/Y : x = 0.5958 y−33.9297 est y = = 1.67842 x+56.9481
0.5958
qui n’est pas équivalente à DY /X : y = 1.6289 x + 58.5729.
Ex 10 :
b) f (x) = 1.04583 x − 19.28056 c) r = 0.956651 et R2 = 0.915181(= r2 ) d) 85.3 kW
e) p(x) = 0.01393 x2 − 0.347132 x + 6.257143 et R2 = 0.998522
f) 110.8 kW
g) c(x) = 0.000085 x3 + 0.001177 x2 + 0.190174 x + 0.646032 et R2 = 0.999959
h) 116.5 kW
n n n n
x2i = 280 500 , x3i = 20 0250 000 , x4i = 1530 3300 000 ,
P P P P
i) xi = 450 ,
i=1 i=1 i=1 i=1
n n n
xi yi = 210 130 , x2i yi = 10 6110 220
P P P
yi = 297.1 , d’où le système
i=1 i=1 i=1
0 0 0 0 0 0 0
153 330 000 a + 2 025 000 b + 28 500 c = 1 611 220
Ex 11 :
b) y = 73.5 x + 33.5 c) r = 0.800617 R2 = 0.640988(= r2 )
Le modèle linéaire explique 64% de la variance de Y par la variable X.
n n n n n n
x2i = 15 , x3i = 35 , x4i = 99 , x5i = 275 , x6i = 795 ,
P P P P P P
d) xi = 5 ,
i=1 i=1 i=1 i=1 i=1 i=1
n n n n
xi yi = 10 270 , x2i yi = 30 690 , x3i yi = 100 510 ,
P P P P
yi = 535 ,
i=1 i=1 i=1 i=1
795 a + 275 b + 99 c + 35 d = 10510
275 a + 99 b + 35 c + 15 d = 3690 15 2 285 179
d’où y = 15 x3 − x − x+
14 14 7
99 a + 35 b + 15 c + 5 d = 1270
35 a + 15 b + 5c + 3d = 535
Ex 12 :
a) y = 5 x − 8
b) y = −3 x2 + 5 x + 7
c) y = 2 x3 − 4 x2 + x + 17
d) y = 3 x4 + 2 x3 − x2 + 5 x + 7
36 SOLUTIONS DES EXERCICES
Ex 13 :
import sys
#produit de polynômes sous forme de listes (degrés croissants)
def prodPol(liste1,liste2):
prod=[0]*(len(liste1)+len(liste2)-1)
for k in range(len(liste1)):
for j in range(len(liste2)):
prod[k+j] += liste1[k]*liste2[j]
return prod
#addition de polynômes sous forme de listes (degrés croissants)
def addPol(liste1, liste2):
add=[0]*(max(len(liste1),len(liste2)))
for k in range(len(liste1)):
add[k] += liste1[k]
for j in range(len(liste2)):
add[j] += liste2[j]
return add
listeOrd=ordon.split(",")
mOrd=len(listeOrd)
for k in range(mOrd):
listeOrd[k]=float(listeOrd[k])
#si les longueurs des deux listes différent, arrêt du programme
if mAbs!=mOrd:
print("le nombre d’abscisses doit être égal au nombre d’ordonnées")
sys.exit()
for k in range(mAbs):
coeff=1
for m in range(mAbs):
if m!=k:
coeff=coeff*(listeAbs[k]-listeAbs[m])
listeCoeff.append(coeff)
if 0 in listeCoeff:
print("les abscisses doivent être toutes différentes")
sys.exit()
SOLUTIONS DES EXERCICES 37
for k in range(mAbs):
polyn=[1]
for m in range(mAbs):
if m!=k:
polyn = prodPol(polyn,[-listeAbs[m],1])
polyn = prodPol(polyn,[listeOrd[k]/listeCoeff[k]])
polagr = addPol(polagr,polyn)
Ex 14 :
a) r = 0.992 et p = 4.5558 · t + 77.7891. Estimation pour 1965 : p = 141.5697
b) Ajustement linéaire associé : ln(p) = ln(b) · t + ln(a) = 0.05 t + 4.37 d’où
p = 79.07 · 1.0475t = 79.07 · e0.0464t . Estimation pour 1965 : p = 151.3306.
Ex 15 :
a) ln(T ) = 1.5 · ln(a) + 5.9 d’où T = 365.04 · a1.5 , régression de type puissance.
b) T = 365.24 · a1.5
c) T 2 ∼
= 1330 400 · a3
d) T = 483.85 · 1.17a Cet ajustement exponentiel ne convient pas.
Ex 16 :
Prévision de vente pour les années 1986, 1987 et 1988 : 2’216 , 3’294 et 4’896.
Ex 17 :
a) Il semble judicieux d’envisager un ajustement exponentiel.
c) c = 421.72 · e−0.000125 h
d) 350 mol/l
Ex 18 :
b) Modèle exponentiel : ln(8 − d) = −0.25 t + 2.33 d’où d = 8 − 10.28 · e−0.25 t
8−d 8
Modèle logistique : ln = −0.45 t + 2.66 d’où d =
d 1 + 14.3 · e−0.45 t
c) Les coefficients de corrélation des ajustements linéaires associés valent rlogistique = −0.99 et
rexponentiel = −0.96 . Ainsi, le modèle logistique à valeur maximale semble le plus approprié.
7.29
d) y =
1 + 15.71 · e−0.61 x
On constate que l’ajustement logistique calculé numériquement par Geogebra donne une
valeur maximale inférieure au plus grand diamètre mesuré.