Académique Documents
Professionnel Documents
Culture Documents
1.1 Notions
Le chapitre précédent a été l’objet de l’étude des séries statistiques faisant intervenir les valeurs
d’un seul caractère. Or, de nombreux problèmes statistiques nécessitent l’étude simultanée de
plusieurs caractères, en particulier une liaison de deux variables, comme :
- Consommation et dépense nationale brute,
- Importat41ion et produit national brut,
- taux de croissance de la productivité et de la production,
- l’âge et le poids, la taille et le poids de chaque individu etc.
La série statistique est une suite de n couples pour les deux variables
(𝑥, 𝑦) = {(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑖 , 𝑦𝑖 ), … , (𝑥𝑛 , 𝑦𝑛 )}
Chacune des deux variables peut être, soit quantitative, soit qualitative
Si x et y sont deux variables quantitatives, alors chacune des deux variables prend comme
valeurs des modalités quantitatives.
x et y sont deux variables qualitatives, alors chacune des deux variables prend des modalités
qualitatives.
𝑦1 … 𝑦𝑗 … 𝑦𝐽 Total
𝑥1 𝑛11 … 𝑛1𝑗 … 𝑛1𝐽 𝒏𝟏.
⋮ ⋮ … ⋮ … ⋮ ⋮
𝑥𝑖 𝑛𝑖1 … 𝑛𝑖𝑗 … 𝑛𝑖𝐽 𝒏𝒊.
⋮ ⋮ … ⋮ … ⋮ ⋮
𝑥𝐼 𝑛𝐼1 … 𝑛𝐼𝑗 … 𝑛𝐼𝐽 𝒏𝑰.
Total 𝒏.𝟏 … 𝒏.𝒋 … 𝒏.𝑱 N
De même le tableau de fréquences conjointes peut s’obtenir en divisant tous les effectifs par la
taille de l’échantillon.
𝑛𝑖𝑗
𝑓𝑖𝑗 = 𝑗 = 1, … , 𝐽, 𝑖 = 1, … , 𝐼
𝑛
𝑛 𝑛.𝑗 𝐽
𝑓𝑖. = 𝑖. , ∑𝐼𝑖=1 𝑓𝑖. = 1 et 𝑓.𝑗 = , ∑𝑗=1 𝑓.𝑗 = 1
𝑛 𝑛
𝐼 𝐽 𝐼 𝐽
X Effectifs Y Effectifs
𝑥1 𝒏𝟏. 𝑦1 𝒏.𝟏
⋮ ⋮ ⋮ ⋮
𝑥𝑖 𝒏𝒊. 𝑦𝑗 𝒏.𝒋
⋮ ⋮ ⋮ ⋮
𝑥𝐼 𝒏𝑰. 𝑦𝐽 𝒏.𝑱
Total N Total N
Exemple:
On a observé sur une période de 100 jours le nombre de ventes quotidiennes de deux produits X
et Y. Les résultats sont donnés dans le tableau suivant
Y (j) 0 1 2 3 Total
X(i)
0 0 2 13 20 35
1 3 2 4 8 17
2 14 4 0 0 18
3 20 10 0 0 30
Total 37 18 17 28 100
Exercice (A domicile)
On dispose un tableau suivant qui fournit pour une année X, le chiffre d’affaires, exprimé en
milliers de francs, d’une entreprise Diarra et Frères, chiffre d’affaires ventilé par article et par
trimestre. Chacun des chiffres d’affaires trimestriels est facilement repéré par l’indice de la ligne
et l’indice de la colonne sur lesquelles il porte.
Ainsi 𝑥𝑖2 = 720 correspond aux ventes portant sur l’article D au cours du deuxième trimestre.
Déterminer
1) Chiffre d’affaires total du 2e trimestre c'est-à-dire ∑5𝑖=1 𝑥𝑖2
2) Chiffre d’affaires portant sur l’article D, pour toute l’année, c-à-dire ∑4𝑗=1 𝑥4𝑗
3) Chiffre d’affaires portant sur les articles B et C, pour l’année, c'est-à-dire ∑3𝑖=2 ∑4𝑗=1 𝑥𝑖𝑗
4) Chiffre d’affaires pour les articles D et E, pour 3 e et 4e trimestres, c'est-à-dire ∑5𝑖=4 ∑4𝑗=3 𝑥𝑖𝑗
5) Chiffre d’affaires total de l’année ∑5𝑖=1 ∑4𝑗=1 𝑥𝑖𝑗 𝑜𝑢 ∑4𝑗=1 ∑5𝑖=1 𝑥𝑖𝑗
1. 4 Distribution conditionnelle
Soit 𝑍 = {(𝑥𝑖 , 𝑦𝑗 , 𝐶𝑖𝑗 , 𝑛𝑖𝑗 }, 𝑖𝜖[1, 𝑝], 𝑗𝜖[1, 𝑞] une variable statistique à deux dimensions, de
variables marginales.
𝑥 = {(𝑥𝑖 , 𝐶𝑖 , 𝑛𝑖 )}, 𝑖𝜖 [1, 𝑝] 𝑒𝑡 𝑦 = {(𝑥𝑗 , 𝐶𝑗 , 𝑛𝑗 )}, 𝑗𝜖 [1, 𝑞 ],
∑𝑖=1 ∑𝑗=1 𝑛𝑖𝑗 = 𝑛 𝑛𝑖. = ∑𝑗 𝑛𝑖𝑗 𝑒𝑡 𝑛.𝑗 = ∑𝑝𝑖 𝑛𝑖𝑗
𝑝 𝑞 𝑞
x et y sont des variables statistiques qualitatives, quantitatives (discrètes ou continues). Pour une
variable continue, les valeurs sont celles des moyennes des classes (centre de classes sous
l'hypothèse de répartition uniforme des valeurs à l'intérieur d'une classe).
𝑍 ⁄𝑦 = 𝑦𝑗 = {(𝑥𝑖 , 𝐶𝑖 , 𝑛𝑖 )}, 𝑖𝜖[1, 𝑝] 𝑒𝑡
𝑍⁄𝑥 = 𝑥𝑖 = {(𝑥𝑗 , 𝐶𝑗 , 𝑛𝑗 )}, 𝑗𝜖 [1, 𝑞 ]
Elles sont respectivement des variables conditionnelles de x et de y.
Si x et y sont deux variables quantitatives et jouent des rôles symétriques, il est intéressant
d'étudier les variables conditionnelles des deux types.
Si l'une des variables est qualitative et l'autre quantitative, alors seul le conditionnement
par la variable qualitative présente un intérêt.
Exemple
Afin d’étudier les liens entre les résultats en statistiques et en mathématiques d’un groupe de TD
de 25 étudiants, on a classé ces étudiants en 3 catégories : Faible (-1) ; Moyen (0) et Fort (+1)
La variable X est la partie Statistiques et Y celle de Mathématiques. On obtient le tableau suivant
Y X -1 0 +1 Total
-1 6 2 0 8
0 2 5 5 12
+1 0 3 2 5
Total 8 10 7 25
On cherche souvent une interaction entre des lignes et des colonnes, un lien entre les variables.
Pour mettre en évidence ce lien,
On construit un tableau d’effectifs théoriques qui représente la situation où les variables ne sont
pas liées (indépendance statistique).
∗ 𝑛𝑖. 𝑛.𝑗
Ces effectifs théoriques sont construits de la manière suivante : 𝑛𝑖𝑗 = 𝑛
∗
Les effectifs observés 𝒏𝒊𝒋 ont les mêmes marges que les effectifs théoriques 𝑛𝑖𝑗 . Enfin, les écarts
à l’indépendance sont définis par
Le khi-carré peut être normalisé pour ne plus dépendre du nombre d’observations n par le phi-
2
𝜒𝑜𝑏𝑠
deux 𝜙 2 lequel est définit par : 𝜙 2 = 𝑛
2
Il est possible de montrer que 𝜙 ≤ min(𝐼 − 1, 𝐽 − 1)
Le V de cramer et le T de Tschuprow sont deux coefficients très utilisés, compris entre 0 et 1, sont
d'autant plus grands que la liaison entre les deux variables considérées est forte. Ce qui facilite leur
interprétation. Toutefois, on notera que T et C sont rarement supérieurs à 0,5 dans la pratique ;
sont donc difficiles à interpréter dans l'absolu. Ils sont plus utiles lorsqu'on recherche, dans une
liste de variables qualitatives, celle qui est la plus liée à une autre variable qualitative.
Le T de Tschuprow est une autre normalisation du χ2 à l'aide de l'effectif total n et des degrés de
liberté. On peut traduire ce coefficient comme un pourcentage d’information expliquée par la
liaison (équivalent au coefficient de détermination avec des variables quantitatives). Sa
formulation est la suivante :
𝑜𝑏𝑠 𝜒2
𝑇 = √𝑛√(I−1)( 𝐽−1)
L'intervalle de définition du Test 0 à
𝑛 min (𝐼−1,𝐽−1)
𝑇𝑚𝑎𝑥 = √max(𝐼−1,𝐽−1)
Exemple d’application
On s’intéresse à une éventuelle relation entre le sexe de 200 personnes et leur état matrimonial de
modalités (célibataire, marié(e) et divorcé(e)), comme le montre le tableau des effectifs de
contingence ci-dessous.
Les Tableaux ci-dessous représentent respectivement le tableau des profils lignes et le tableau des
profils colonnes.
𝒏𝒊. 𝒏.𝒋
Tableau des effectifs théoriques 𝒏∗𝒊𝒋 = 𝒏
Célibataire Marié (e) Divorcé (e) Total
Homme 24 44 12 80
Femme 36 66 18 120
Total 60 110 30 200
∗
Tableau des écarts à l’indépendance 𝑒𝑖𝑗 = 𝑛𝑖𝑗 − 𝑛𝑖𝑗
Célibataire Marié (e) Divorcé (e) Total
Homme -4 6 -2 0
Femme 4 -6 2 0
Total 0 0 0 0
2 ∗ 2
𝑒𝑖𝑗 (𝑛𝑖𝑗−𝑛𝑖𝑗 )
Tableau des ∗
𝑛𝑖𝑗
= ∗
𝑛𝑖𝑗
Célibataire Marié(e) Divorcé(e) Total
Bien que les variables qualitative et quantitative ne jouent pas un rôle symétrique, on peut étudier
l'influence d'une variable qualitative (par exemple le sexe) sur une variable quantitative (par
exemple le salaire).
Soit X une variable qualitative à 𝑟 modalités notées 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑙 , ⋯ 𝑥𝑟 et Y une variable
quantitative de moyenne 𝑦̅ et de variance𝑆𝑌2 .
Si on note 𝐶𝑙 l'ensemble des individus de l'échantillon ayant présenté la modalité 𝑥𝑙 de X,
𝑛1 , 𝑛2 , ⋯ , 𝑛𝑟 les effectifs des différentes classes avec 𝑛 = ∑𝑟1 𝑛𝑙 (nombre total d’individus
observés). Nous noterons alors 𝑦̅𝑙 comme moyenne partielle et 𝑆𝑙2 variance partielle.
1 1
𝑦̅𝑙 = ∑ 𝑦𝑖 𝑒𝑡 𝑆𝑙2 = ∑(𝑦𝑖 − 𝑦̅𝑙 )2
𝑛𝑙 𝑛𝑙
𝑖∈𝐶𝑙
Les caractéristiques globales en fonction de leurs valeurs partielles sont les suivantes :
𝑟
1
𝑦̅ = ∑ 𝑛𝑙 𝑦̅𝑙
𝑛
𝑙=1
𝑟 𝑟
1 1
𝑆𝑌2 = ∑ 𝑛𝑙 (𝑦̅𝑙 − 𝑦̅)2 + ∑ 𝑛𝑙 𝑆𝑙2 = 𝑆𝐸2 + 𝑆𝑅2
𝑛 𝑛
𝑙=1 𝑙=1
Le rapport de corrélation est la part de variations de Y expliquée par X dans la variation totale de
Y. Il s'agit d'un indice de liaison entre les deux variables X et Y
𝑆𝐸2
𝐶𝑌/𝑋 =√ 2
𝑆𝑌
X et Y n’étant pas de même nature, 𝐶𝑌/𝑋 n’est pas symétrique et vérifie 0 ≤ 𝐶𝑌/𝑋 ≤ 1
- Si 𝐶𝑌/𝑋 = 0, la connaissance de X ne donne aucune information sur Y. X n’a aucune
influence sur Y. Donc il n’y a de liaison entre les deux variables.
- Si 𝐶𝑌/𝑋 = 1, la connaissance de X est suffisante pour connaître, d’où liaison totale entre
X et Y. Y est liée fonctionnellement à X.
- Plus 𝐶𝑌/𝑋 est grand, plus la liaison entre X et Y est forte.
- Lorsque X et Y sont indépendants 𝑎𝑙𝑜𝑟𝑠 𝐶𝑌/𝑋 = 0.
Si, pour chacun des n individus de la population, on note xi et yi les valeurs prises par les deux
caractères 𝑥 𝑒𝑡 𝑦, c'est-à-dire (𝑥, 𝑦) = {(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑖 , 𝑦𝑖 ), … , (𝑥𝑛 , 𝑦𝑛 )}, on peut alors
présenter la série statistique sous la forme d’un tableau :
caractère 𝑥 𝑥1 𝑥2 𝑥3 ⋯ 𝑥𝑛
caractère 𝑦 𝑦1 𝑦2 𝑥3 ⋯ 𝑦𝑛
Dans un repère orthogonal, l’ensemble des points 𝑀𝑖 de coordonnées (𝑥𝑖 , 𝑦𝑖 ) constitue le nuage
de points associé à la série statistique à 𝑥 𝑒𝑡 𝑦 ; dont le point moyen d’un nuage de points est le
point G de coordonnées (𝑥̅ ; 𝑦̅).
Effectuer un ajustement d’un nuage de points consiste à trouver une fonction dont la courbe
représentative « approche » le nuage.
On peut utiliser trois méthodes dans ce chapitre telles que :
- L’ajustement affine, dont la courbe cherchée est une droite d’équation 𝑦 = 𝑎𝑥 + 𝑏
Pour que l’ajustement affine soit le meilleur possible, il faut que la droite d’ajustement passe par
le point moyen G du nuage de points.
- La méthode graphique, consiste à tracer la droite 𝑦 = 𝑎𝑥 + 𝑏 s'ajustant le mieux possible
sur le nuage de points.
Si 𝐴(𝑥𝐴 , 𝑦𝐴 ) 𝑒𝑡 𝐵(𝑥𝐵 , 𝑦𝐵 ) sont deux points de la droite, alors l’équation de la droite est
𝑦−𝑦 𝑦 −𝑦
donnée par : 𝑥−𝑥𝐵 = 𝑥𝐵 −𝑥𝐴
𝐵 𝐵 𝐴
Une relation linéaire est une tendance dans les données modélisables par une ligne droite de
forme 𝑦 = 𝑎𝑥 + 𝑏, de relation positive ou négative.
Exemple :
Une compagnie aérienne peut estimer l'impact du prix du carburant sur le coût des vols. Cette
tendance décrit une relation linéaire entre le coût du carburant et le coût du vol.
Dans certains cas, l'ajustement à une fonction linéaire n'est pas adéquat : un ajustement des données
à une fonction non linéaire doit être envisagé. Les cas que nous considérerons sont ceux où on peut
se ramener par une simple transformation à un ajustement affine. Par exemple
Dans cette distribution statistique, chaque couple est composé de deux valeurs numériques x et y,
on peut calculer respectivement :
tous les paramètres tels que les moyennes, les variances, écart-types
1 𝑝 1 𝑝
𝑥̅ = 𝑛 ∑𝑖=1 𝑛𝑖 𝑥𝑖 , 𝑆𝑥2 = 𝑛 ∑𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥̅ )2 𝑒𝑡 𝜎𝑥 = √𝑆𝑥2
1 𝑞 𝑞 1
𝑦̅ = 𝑛 ∑𝑗=1 𝑛𝑗 𝑦𝑗 𝑆𝑦2 = 𝑛 ∑𝑗=1 𝑛𝑗 (𝑦𝑗 − 𝑦̅)2 𝑒𝑡 𝜎𝑦 = √𝑆𝑦2
tous les paramètres marginaux tels que les moyennes, les variances, écart-types
Moyennes, variances, écart-types marginaux de x
1 𝑝 𝑝
𝑥̅ 𝑚 = 𝑛 ∑𝑖=1 𝑛𝑖. 𝑥𝑖 = ∑𝑖=1 𝑓𝑖. 𝑥𝑖 ,
𝑆𝑚2 (𝑥 ) = 1 ∑𝑝 𝑛 (𝑥 − 𝑥̅ )2 = ∑𝑝 𝑓 (𝑥 − 𝑥̅ )2
̅̅̅̅ 𝑒𝑡 𝜎𝑚 (𝑥) = √̅̅̅̅
𝑆𝑚2 (𝑥 )
𝑛 𝑖=1 𝑖. 𝑖 𝑚 𝑖=1 𝑖. 𝑖 𝑚
𝑝 𝑝
𝐴𝑣𝑒𝑐 𝑛 = ∑𝑖=1 𝑛𝑖. 𝑒𝑡 ∑𝑖=1 𝑓𝑖. = 1
Moyennes, variances, écart-types marginaux de y
1 𝑞 𝑞
𝑦̅𝑚 = 𝑛 ∑𝑗=1 𝑛.𝑗 𝑦𝑗 = ∑𝑗=1 𝑓.𝑗 𝑦𝑗 ,
2 2
𝑆𝑚2 (𝑦) = 1 ∑𝑞 𝑛 (𝑦 − 𝑦
̅̅̅̅ ̅ ) = ∑𝑞𝑗=1 𝑓.𝑗 (𝑦𝑗 − 𝑦̅𝑚 ) 𝑒𝑡 𝜎𝑚 (𝑦) = √̅̅̅̅
𝑆𝑚2 (𝑦 )
𝑛 𝑖=1 .𝑗 𝑗 𝑚
𝑞 𝑞
𝐴𝑣𝑒𝑐 𝑛 = ∑𝑗=1 𝑛.𝑗 𝑒𝑡 ∑𝑗=1 𝑓.𝑗 = 1
2.3.2.3.2 Caractéristiques conditionnelles
Soit 𝑍 = {(𝑥𝑖 , 𝑦𝑗 , 𝐶𝑖𝑗 , 𝑛𝑖𝑗 }, 𝑖𝜖[1, 𝑝], 𝑗𝜖[1, 𝑞] une variable statistique quantitative à deux
dimensions, de variables marginales.
x et y sont des variables statistiques quantitatives, discrètes ou continues. Pour une variable
continue, les valeurs sont celles des moyennes des classes (centre de classes sous l'hypothèse de
répartition uniforme des valeurs à l'intérieur d'une classe).
Elles sont respectivement des variables conditionnelles. Par conséquent les moyennes et variances
conditionnelles de Z sont respectivement les moyennes et variances de ses variables
conditionnelles :
̅̅̅̅̅̅̅̅̅̅̅̅ 1 𝑝
𝑍⁄𝑦 = 𝑦𝑗 = 𝑛 ∑𝑖=1 𝑛𝑖𝑗 𝑥𝑖 = 𝑥̅𝑗
.𝑗
𝑀𝑜𝑦𝑒𝑛𝑛𝑒𝑠 𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛𝑛𝑒𝑙𝑙𝑒𝑠 { 1 𝑞
̅̅̅̅̅̅̅̅̅̅̅̅
𝑍⁄𝑥 = 𝑥𝑖 = 𝑛 ∑𝑖=1 𝑛𝑖𝑗 𝑦𝑗 = 𝑦̅𝑖
𝑖.
𝑥̅𝑗 est la moyenne conditionnelle de x selon y si 𝑦 = 𝑦𝑗
𝑦̅𝑖 est la moyenne conditionnelle de y selon x si 𝑥 = 𝑥𝑖
1 𝑝
𝑆𝑗2 (𝑥 ) = ∑𝑖=1 𝑛𝑖𝑗 (𝑥𝑖 − 𝑥̅𝑗 )2
𝑛.𝑗
𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒𝑠 𝑐𝑜𝑛𝑑𝑖𝑡𝑖𝑜𝑛𝑛𝑒𝑙𝑙𝑒𝑠 { 1 𝑞
𝑆𝑖2 (𝑦) = 𝑛 ∑𝑗=1 𝑛𝑖𝑗 (𝑦𝑗 − 𝑦̅𝑖 )2
𝑖.
C'est-à-dire
1 𝑝 2 1 𝑝 1 𝑝 2
𝑆 2 (𝑍⁄𝑦 = 𝑦𝑗 ) = ∑𝑖=1 𝑛𝑖𝑗 (𝑥𝑖 − ̅̅̅̅̅̅̅̅̅̅̅̅
𝑍⁄𝑦 = 𝑦𝑗 ) = [∑𝑖=1 𝑛𝑖𝑗 𝑥𝑖2 − (∑𝑖=1 𝑛𝑖𝑗 𝑥𝑖 ) ] = 𝑆𝑗2 (𝑥)
𝑛.𝑗 𝑛.𝑗 𝑛.𝑗
{ 2
1 𝑞 1 𝑞 1 𝑞
𝑆 2 (𝑍⁄𝑥 = 𝑥𝑖 ) = 𝑛 ∑𝑗=1 𝑛𝑖𝑗 (𝑦𝑗 − ̅̅̅̅̅̅̅̅̅̅̅̅
𝑍⁄𝑥 = 𝑥𝑖 )2 = 𝑛 [∑𝑗=1 𝑛𝑖𝑗 𝑦𝑗2 − 𝑛 (∑𝑗=1 𝑛𝑖𝑗 𝑦𝑗 ) ] = 𝑆𝑖2 (𝑦)
𝑖. 𝑖. 𝑖.
Exercice (A domicile)
Distribution statistique de 29 salariés d’une entreprise selon leur âge (X) et leur salaire mensuel en
milliers de francs (Y), comme l’indique le tableau ci-dessous
4.1 Covariance
La covariance est définie comme suit lorsque 𝑖 = 𝑗:
𝐶𝑜𝑣(𝑥, 𝑥 ) = ̅̅̅
𝑥 2 − 𝑥̅ 2 𝑒𝑡 𝐶𝑜𝑣 (𝑦, 𝑦) = ̅̅̅
𝑦 2 − 𝑦̅ 2
Propriétés
𝑐𝑜𝑣(𝑥, 𝑦) = 𝑐𝑜𝑣(𝑦, 𝑥)
𝑝𝑜𝑢𝑟 𝑎, 𝑏, 𝑐, 𝑑 𝜖ℝ, 𝐶𝑜𝑣 (𝑎𝑥 + 𝑏, 𝑐𝑦 + 𝑑 ) = 𝑎𝑐𝐶𝑜𝑣(𝑥, 𝑦)
Si 𝑥 𝑒𝑡 𝑦 sont indépendants, alors 𝑐𝑜𝑣(𝑥, 𝑦) = 0, mais la réciproque est fausse, car la
covariance peut être nulle sans que les variables soient indépendantes. lorsque 𝑖 ≠ 𝑗
Les valeurs ajustées sont les ‘prédictions’ des 𝑦𝑖 réalisées au moyen de la variable 𝑥𝑖 et de la droite
de régression de y en x. Les valeurs ajustées sont obtenues au moyen de la droite de régression.
𝑦𝑖∗ = 𝑎 + 𝑏𝑥𝑖
1 1
Et 𝑦̅ ∗ = 𝑛 ∑𝑛𝑖=1(𝑎 + 𝑏𝑥𝑖 ) = 𝑎 + 𝑏 𝑛 ∑𝑛𝑖=1 𝑥𝑖 = 𝑎 + 𝑏𝑥̅ = 𝑦̅
𝑆𝑐
⏟ 𝑡𝑜𝑡𝑎𝑙𝑒 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛 ∗
⏟𝑖=1(𝑦𝑖 − 𝑦̅)2 + ∑𝑛 2
⏟𝑖=1 𝜀𝑖
𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑐𝑎𝑟𝑟𝑒𝑠 𝑆𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑐𝑎𝑟𝑟𝑒𝑠 𝑠𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑐𝑎𝑟𝑟𝑒𝑠
𝑡𝑜𝑡𝑎𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑑𝑒𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑠
1
b. Hyperbole de la forme 𝑦 = 𝑎𝑥+𝑏 c. Courbe de fonction puissance : 𝑦 = 𝑏𝑥 𝑎
6.1 Régression
La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des moindres
carrés. Si on considère que la variable X est explicative ou indépendante et que la variable Y est
dépendante. L’équation d’une droite est :
𝑦 = 𝑎 + 𝑏𝑥 ou encore 𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝜀𝑖
Si les coefficients a et b étaient connus, on pourrait calculer les résidus, définis par:
𝜀𝑖 = 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖
Le résidu 𝜀𝑖 est l’erreur que l’on commet en utilisant la droite de régression pour prédire 𝑦𝑖 à partir
de 𝑥𝑖 . Les résidus peuvent être positifs ou négatifs.
La courbe de régression de 𝑦 𝑒𝑛 𝑥 joint les points de coordonnées (𝑥𝑖 , 𝑦̅𝑖 )𝑝𝑜𝑢𝑟 𝑖 ∈ [1, 𝑝]. Pour
déterminer la valeur des coefficients a et b on utilise le principe des moindres carrés qui consiste
à chercher la droite qui minimise la somme des carrés des résidus:
𝑀(𝑎, 𝑏) = ∑𝑛𝑖=1 𝜀𝑖2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2
On utilise alors la dérivation partielle de la fonction M en (a, b) :
𝑛
𝜕𝑀(𝑎, 𝑏)
= − ∑ 2(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 ) = 0
𝜕𝑎
𝑖=1
𝑛
𝜕𝑀(𝑎, 𝑏)
= − ∑ 2(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )𝑥𝑖 = 0
{ 𝜕𝑏
𝑖=1
𝑛 𝑛 𝑛
1 1 𝑏
∑ 𝑦𝑖 − ∑ 𝑎 − ∑ 𝑥𝑖 = 0 𝑦̅ − 𝑎 − 𝑏𝑥̅ = 0
𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 → {1 𝑏
1 𝑎 𝑏 ∑ 𝑥𝑖 𝑦𝑖 − 𝑎𝑥̅ − ∑ 𝑥𝑖2 = 0
∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 − ∑ 𝑥𝑖2 = 0 𝑛 𝑛
𝑖=1 𝑖=1
{𝑛 𝑖=1 𝑛
𝑖=1
𝑛
𝑖=1
𝑎 = 𝑦̅ − 𝑏𝑥̅
𝑛 𝑛
{1 𝑏
∑ 𝑥𝑖 𝑦𝑖 − (𝑦̅ − 𝑏𝑥̅ )𝑥̅ − ∑ 𝑥𝑖2 = 0
𝑛 𝑛
𝑖=1 𝑖=1
𝑎 = 𝑦̅ − 𝑏𝑥̅
{1 𝑏
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ + 𝑏𝑥̅ 2 − ∑𝑛𝑖=1 𝑥𝑖2 = 0
𝑛 𝑛
𝑎 = 𝑦̅ − 𝑏𝑥̅
{1 1
∑𝑛 𝑥 𝑦 − 𝑥̅ 𝑦̅ − 𝑏( ∑𝑛𝑖=1 𝑥𝑖2 − 𝑥̅ 2 ) = 0
𝑛 𝑖=1 𝑖 𝑖 𝑛
𝑎 = 𝑦̅ − 𝑏𝑥̅ 𝑎 = 𝑦̅ − 𝑏𝑥̅
{ ↔ { 𝑆
𝑆𝑥𝑦 − 𝑏𝑆𝑥2 = 0 𝑏 = 𝑆𝑥𝑦2
𝑥
Remarque :
La droite de régression de 𝑦 en 𝑥 est différente la droite de régression de 𝑥 en 𝑦 .
𝑆𝑥𝑦
𝐷𝑌/𝑋 : 𝑦 = 𝑎 + 𝑏𝑥 𝑎𝑣𝑒𝑐 𝑏 = 2 𝑒𝑡 𝑎 = 𝑦̅ − 𝑏𝑥̅
𝑆𝑥
𝑆𝑥𝑦
𝐷𝑋/𝑌 : 𝑥 = 𝑎′ + 𝑏′ 𝑦 𝑎𝑣𝑒𝑐 𝑏′ = 2 𝑒𝑡 𝑎′ = 𝑥̅ − 𝑏′ 𝑦̅
{ 𝑆𝑦
Lorsque la covariance est non nulle, les deux droites de la régression sont confondues,
𝑐𝑜𝑣(𝑥, 𝑦) 𝜎𝑦2 𝑐𝑜𝑣 2 (𝑥, 𝑦)
= → =1
𝜎𝑥2 𝑐𝑜𝑣(𝑥, 𝑦) 𝜎𝑥2 𝜎𝑦2
2.3.2.7 Relation entre variance et coefficient de détermination
La variance marginale peut alors être définie par :
𝑛
𝑆𝑇 1
𝑆𝑦2 = = ∑(𝑦𝑖 − 𝑦̅)2
𝑛 𝑛
𝑖=1
La variance de la régression est la variance des valeurs ajustées
𝑛
1
𝑆𝑦2∗ = ∑(𝑦𝑖∗ − 𝑦̅)2
𝑛
𝑖=1
La variance résiduelle est la variance des résidus
𝑛
1
𝑆𝜖2 = ∑ 𝜀𝑖2
𝑛
𝑖=1
La variance de la régression peut s’écrire en fonction de coefficient de détermination
𝑛 𝑛 2 2 𝑛
2 2
1 1 𝑆𝑥𝑦 𝑆𝑥𝑦 1 𝑆𝑥𝑦 𝑆𝑥
𝑆𝑦2∗ ∗
= ∑(𝑦𝑖 − 𝑦̅) = ∑ {𝑦̅ + 2 (𝑥𝑖 − 𝑥̅ ) − 𝑦̅} = 4 ∑(𝑥𝑖 − 𝑥̅ )2 =
2
4
= 𝑆𝑦2 𝑟𝑥𝑦
2
𝑛 𝑛 𝑆𝑥 𝑆𝑥 𝑛 𝑆𝑥
𝑖=1 𝑖=1 𝑖=1
𝑆𝑦2∗ = 𝑆𝑦2 𝑟𝑥𝑦
2
Exercice (A domicile)
𝑥𝑖 2 14 16 8 13 20 24 7 5 11
𝑦𝑖 3 13 17 12 10 8 20 7 2 8