Académique Documents
Professionnel Documents
Culture Documents
Cours (1e Partie) PDF
Cours (1e Partie) PDF
LICENCE Scientifique
Cours Henri IMMEDIATO
Statistiques
1. Gnralits.
3.1. Dfinitions.
3.2. Reprsentation graphique.
3.3. Caractristiques marginales et conditionnelles.
3.4. Rgression et corrlation.
3.4.1 Rgression et corrlation.
3.4.2 Mthode des moindres carrs.
5. Rgression multiple.
6.1. Gnralits.
6.2. Divers types de sondages.
6.3. Estimation des paramtres.
6.4. Etude du sondage lmentaire.
Cours de Statistique - Chapitre 1 Page 1
LICENCE Scientifique
Cours Henri IMMEDIATO
STATISTIQUE
Chapitre I - GENERALITES.
I. 1. OBJET DE LA STATISTIQUE
Le but de la statistique est de dgager les significations de donnes, numriques ou non, obtenues au
cours de l'tude d'un phnomne.
Il faut distinguer les donnes statistiques qui sont les rsultats d'observations recueillies lors de
l'tude d'un phnomne, et la mthode statistique qui a pour objet l'tude rationnelle des donnes.
La mthode statistique comporte plusieurs tapes.
C'est l'ensemble des mthodes partir desquelles on recueille, ordonne, rduit, et condense les
donnes.
A cette fin, la statistique descriptive utilise des paramtres, ou synthtiseurs, des graphiques et des
mthodes dites d'analyse des donnes (l'ordinateur a facilit le dveloppement de ces mthodes).
C'est l'ensemble des mthodes qui permettent de faire des prvisions, des interpolations sur une
population partir des rsultats recueillis sur un chantillon.
Nous utilisons des raisonnements inductifs c'est--dire des raisonnements de passage du particulier
au gnral.
Cette statistique utilise des repres de rfrence qui sont les modles thoriques (lois de
probabilits).
Cette statistique ncessite la recherche d'chantillons qui reprsentent le mieux possible la diversit
de la population entire ; il est ncessaire qu'ils soient constitus au hasard ; on dit qu'ils rsultent
d'un tirage non exhaustif.
L'tude sur chantillon se justifie pour rduire le cot lev et limiter la destruction d'individus pour
obtenir la rponse statistique.
I. 2. VOCABULAIRE STATISTIQUE
I. 2. 1. Population
C'est l'ensemble des units ou individus sur lequel on effectue une analyse statistique.
? = {? 1, ... , ? N} avec card(? ) = N fini
Ce vocabulaire est hrit du 1er champ d'application de la statistique : la dmographie (Vauban
(1633-1707) effectua des recensements pour des tudes conomiques et militaires).
Cours de Statistique - Chapitre 1 Page 2
Exemples de populations.
I. 2. 2. Echantillon
Exemple d'chantillon.
I. 2. 3. Caractre
C'est un trait dtermin C prsent chez tous les individus d'une population sur laquelle on effectue
une tude statistique.
- Un caractre est dit qualitatif s'il est reprable sans tre mesurable.
I. 2. 4. Modalits
Les modalits d'un caractre doivent tre incompatibles et exhaustives ; tout individu
doit prsenter une et une seule modalit.
Les modalits d'un caractre qualitatif sont les diffrentes rubriques d'une
nomenclature ; celles d'un caractre quantitatif sont les mesures de ce caractre.
L'ensemble des modalits est not E.
Pour un caractre quantitatif, la mesure du caractre peut tre un nombre entier pris parmi un
ensemble limit ; nous dirons qu'il est discret.
Dans certains cas la mesure du caractre peut tre un nombre dcimal pris parmi un ensemble de
valeurs possibles trs important (plusieurs dizaines ou plusieurs centaines).
Pour permettre une tude et notamment une reprsentation graphique plus simple, nous sommes
conduits effectuer un regroupement en classes (5 20 classes) ; nous dirons alors que le caractre
est continu.
Dans ces deux situations, nous dirons que le caractre quantitatif est dfini par ses modalits (valeurs
discrtes ou classes).
n
Les modalits d'un caractre quantitatif peuvent tre prises dans ou .
L'ensemble des modalits d'un caractre peut tre tabli priori avant l'enqute (une liste, une
nomenclature, un code) ou aprs enqute.
On constitue l'ensemble des valeurs prises par le caractre.
L'ensemble des salaris d'une entreprise peut tre reprsent par un caractre mixte que
nous pourrons exploiter globalement ou plus efficacement en extrayant une partie des
donnes.
Le sexe, de modalits : H ou F (cod par 1 ou 2)
L'ge, de modalits : 18, 19, 20, ... ou [16, 20], [21, 25], ...
Le salaire mensuel, de modalits : 6000, 6500, 7000, ... ou [6000, 6500[, [6500, 7500[,
...
La situation matrimoniale, de modalits : mari, clibataire, veuf, divorc, vivant
maritalement.
Remarque.
a) Diagramme en btons.
b) Tuyaux d'orgue.
c) Secteurs.
d) Exemple.
En 1982, les recettes du budget de l'Etat se prsentaient de la faon suivante (en milliards de francs) :
Le caractre tudi, la nature des recettes du budget de l'Etat, est un caractre qualitatif.
Cours de Statistique - Chapitre 2 - Reprsentation graphique Page 6
Dans la reprsentation en tuyaux d'orgue, les diffrentes modalits du caractre (les diverses
sources de recettes du budget de l'Etat) sont reprsentes par des segments sur l'axe des ordonnes.
Pour chaque abscisse on porte un rectangle dont la longueur est proportionnelle au montant
correspondant de la recette (effectif).
Dans la reprsentation par diagramme en btons, les diffrentes modalits du caractre (les diverses
sources de recettes du budget de l'Etat) sont reprsentes par des points sur l'axe des ordonnes.
Pour chaque abscisse, on porte un segment vertical dont la longueur est proportionnelle au montant
correspondant de la recette (rectangle de largeur nulle).
e) Cartogrammes.
Un cartogramme est une carte gographique dont les secteurs gographiques sont coloris avec une
couleur diffrente suivant l'effectif ou suivant la frquence du caractre tudi.
Diagramme intgral : courbe en escaliers des effectifs cumuls ou des frquences cumules.
Cours de Statistique - Chapitre 2 - Reprsentation graphique Page 8
Exemple.
En vue d'tablir rationnellement le nombre de postes de travail ncessaires pour assurer sa clientle
un service satisfaisant, une agence de voyage a fait relever, minute par minute, le nombre d'appels
tlphoniques reus au cours d'une priode de 30 jours. Cette opration a fourni, pour la tranche
horaire de pointe qui se situe entre onze heures et midi, les rsultats suivants :
La population tudie est celle des 1 800 minutes composant la dure totale des appels dans la
tranche horaire de onze heures midi pendant 30 jours.
Le caractre observ est le nombre d'appels tlphoniques : c'est un caractre quantitatif et la
variable statistique correspondante, qui ne peut prendre que des valeurs entires, est discrte.
La reprsentation des effectifs est identique celle des frquences : seule change l'chelle verticale.
La reprsentation graphique intgrale correcte est la courbe en escalier : les frquences des diverses
valeurs de la variable statistique correspondent aux hauteurs des marches de la courbe en escalier.
Exemple.
Comme la variable statistique est continue, on tracera une courbe cumulative continue, et non une
courbe en escalier, de faon qu' une valeur de frquence cumule corresponde une et une seule
valeur de variable.
Entre deux points exprimentaux, on trace un segment de droite reprsentant l'interpolation linaire,
ou bien une courbe lisse, asymptotiquement tangente l'horizontale d'ordonne 100.
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 12
II. 2. 1. 1. Le mode
Le mode, not Mo, est la modalit qui admet la plus grande frquence :
Il est parfaitement dfini pour une variable qualitative ou une variable quantitative discrte.
Pour une variable quantitative continue nous parlons de classe modale : c'est la classe dont la densit
de frquence est maximum.
Si les classes ont mme amplitude la densit est remplace par l'effectif ou la frquence et nous
retrouvons la dfinition prcdente.
Nous dfinissons le mode, pour une variable quantitative continue, en tenant compte des densits de
frquence des 2 classes adjacentes par la mthode suivante.
Dans une proportion, on ne change pas la valeur du rapport en additionnant les numrateurs et en
additionnant les dnominateurs :
= =
Mo = xi + (xi + 1 xi).
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 13
Remarques.
Lorsque les classes adjacentes la classe modale ont des densits de frquences gales, le mode
concide avec le centre de la classe modale.
Le mode dpend beaucoup de la rpartition en classes.
Une variable statistique peut prsenter plusieurs modes locaux : on dit alors qu'elle est plurimodale.
Cette situation est intressante : elle met en vidence l'existence de plusieurs sous-populations, donc
l'htrognit de la population tudie.
II. 2. 1. 2. La mdiane
La mdiane Me est telle que l'effectif des observations dont les modalits sont infrieures Me est
gal l'effectif des observations dont les modalits sont suprieures Me.
Cette dfinition n'a de sens que si les modalits sont toutes ordonnes.
Dans le cas d'une variable qualitative il est parfois possible de choisir un ordre.
Exemple : niveau d'tudes scolaires : cole primaire < 1er cycle < CAP < BEP < Bac < BTS <
DEUG < ....
Une variable quantitative X doit tre dfinie dans .
Remarques
La mdiane ne dpend que de l'ordre des modalits , elle n'est donc pas influence par les
observations aberrantes.
La mdiane partage l'histogramme des frquences en 2 parties d'aires gales.
II. 2. 1. 3. La moyenne
Pour une variable statistique discrte {(xi, ni)}1 i p valeurs dans , la moyenne est la moyenne
arithmtique des modalits pondres par les effectifs :
q
Pour une variable statistique discrte {((xij)1 j q, ni)}1 i p valeurs dans , la moyenne est
q
encore la moyenne arithmtique des modalits dans , pondres par les effectifs :
= ni = = .
Exemple.
Nombre d'enfants xi 0 1 2 3 4 5
Nombre de familles ni 5 3 6 1 3 3
3 + 5 3) = = .
Naturellement, cette moyenne ne reprsente pas une "famille moyenne" mais donne une estimation
du nombre d'enfants dans une famille dont est extrait l'chantillon : nous pourrons dire que, dans
cette population, il faudra, en moyenne, 7 familles pour avoir 15 enfants, ou que 100 familles auront,
en moyenne, 214 enfants.
a) Proprits de la moyenne.
Somme.
= (X + Y) () = (X () + Y ()) = X () + Y () = +
= +
Le produit X d'une variable statistique X par un nombre rel est dfini par :
= ( X) () = X () = .
= .
= (X ) () = (X () )= X () =0
=0
b) Moyenne conditionne.
Soit * une sous-population de (exemple : nombre d'enfants d'une fratrie d'origine trangre dans
une population donne).
Soit X* la restriction *.d'une variable statistique X = {(xi, Ai, ni)}, i [ 1, p ], sur .
On pose : Ai* = Ai f *, ni* = Card (Ai*) = Card (Ai f *), n* = Card (*).
X* = {(xi, Ai*, ni*)}, i [ 1, p ].
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 16
On a ni = Card (Ai) = ni j, i [ 1, p ].
MC (X) = {( , j, n. j)}, j [ 1, s ].
= n. j = ni j x i = ni j x i = ni xi = .
= .
Exemple.
La variable est connue par ses classes et la frquence associe chaque classe.
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 17
[ ei, ei + 1 [, fi = .
= ni = fi .
Premire hypothse.
Dans chaque classe, toutes les observations sont concentres au centre de la classe : xi = (ei + ei +
1
).
= ni xi = xi
= fi = fi x i
Deuxime hypothse.
= fi = fi x i
Conclusion : dans le cas d'une variable statistique continue, pour effectuer le calcul du point moyen,
l'hypothse de rpartition uniforme dans chaque classe est quivalente l'hypothse d'une
concentration de toutes les modalits d'une classe au centre de la classe.
Soit X = {(xi, ni)}, i [ 1, p ], une variable statistique quantitative discrte valeurs dans R+*, N =
ni.
Exemples de -moyennes.
ni xi 2.
ni .
4. Si est dfinie par (x) = ln (x), nous obtenons la moyenne gomtrique g
de X, dfinie par
ln ( g
)= ni ln (xi), soit g
= xi
Pour une variable statistique X, les diffrentes moyennes, harmonique, gomtrique, arithmtique,
quadratique, sont lies par la relation :
h
g
q
.
II. 2. 2. 1. Etendue
= xmax xmin
Ce paramtre est souvent utilis dans les contrles de fabrication, pour lesquels on donne, a priori,
des marges de construction.
Son intrt est limit par le fait qu'il dpend uniquement des valeurs extrmes, qui peuvent tre des
valeurs aberrantes.
L'intervalle interquartile est la diffrence entre les valeurs du troisime et du premier quartiles : Q3
Q1.
L'intervalle [Q1, Q3] contient 50 % des valeurs de X.
c) Dciles et percentiles.
Les 9 dciles sont les nombres rels qui partagent l'tendue en dix intervalles de mme effectif.
Utilisation : en matire de salaires, le rapport est un paramtre de dispersion frquemment
utilis.
Les 99 percentiles sont les nombres rels qui partagent l'tendue en cent intervalles de mme effectif.
a) Dfinition.
e= ni | xi |
On pourrait aussi dfinir l'cart absolu moyen de X par rapport sa mdiane, ou par rapport un
nombre rel a quelconque.
e= ni | xi a |
On peut dmontrer que l'cart absolu moyen par rapport un nombre rel a est minimum lorsque a
est gal la moyenne de X.
b) Calcul pratique.
Lorsque les observations sont groupes par classe, on adopte gnralement pour valeur de variable
statistique le centre de chaque classe.
L'cart absolu moyen prsente un inconvnient majeur : il ne se prte pas facilement aux calculs
algbriques, cause de la valeur absolue.
a) Dfinition.
s 2 (X) = (X () )2 = ni ( xi )2
b) Formule de la variance.
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 21
s 2 (X) = ni xi 2 2
= 2
s 2 (X) = 2
Cette formule (la variance est gale la moyenne du carr moins le carr de la moyenne) est appele
formule de la variance, ou formule de Knig.
Elle peut s'crire sous la forme :
s 2 (X) = ni x i 2 ni xi
c) Gnralisation R q.
s 2 (X) = (d (X (), )) 2.
la formule
La variance d'une variable statistique valeurs dans R q, est alors dfinie par :
s 2 (X) = (d (X (), )) 2
= ( Xj () )2
= (d (Xj (), )) 2
= s 2 (Xj)
= ( ( ) 2)
Card () = ni :
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 22
s 2 (X) = ni ( xi j )2
= ni ( xi j )2
= ni ( xi j )2
s 2 (X) = s 2 (Xj) = ni ( xi j )2
d) Proprits de la variance.
2. La variance est nulle si, et seulement si, X possde une seule valeur.
En effet, une somme de carrs s 2 (X) = (d (X (), )) 2 est nulle si, et seulement si, chaque
carr est nul.
= = a2 + b2 +2ab
=a+b
( )2 = a2 + b2 ( )2 + 2 a b
2
s (a + b X) = ( ) 2 = b 2 ( ( ) 2) = b 2 s 2 (X).
s 2 (a + b X) = b 2 s 2 (X).
On appelle inertie d'une variable statistique X par rapport un point a, la moyenne du carr de la
distance de X au point a :
Proprit.
En effet, soit d = a .
x i j aj = x i j + aj
Il vient alors :
d2 = ( aj) 2
Il reste :
Ia (X) = s 2 (X) + d 2.
f) Variance conditionne.
s 2 (MC (X)) = n. j 2
n. j
= ni j xi ni j xi
= ni j xi ni x i
On peut dfinir une nouvelle variable statistique sur , qu'on appelle la variance conditionne de X
pour la partition {1, ... , s} :
On a alors :
N = n. j s 2 (Xj) = ni j xi 2 ni j xi
= n i j xi 2 ni j xi
= ni xi 2 ni j xi
= ni xi 2 ni j xi
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 25
La relation :
Note : Ce rsultat peut tre tendu une variable statistique discrte valeurs dans R q.
s 2 (X) = fi si 2 (X) + fi ( )2
la variance si 2 (X) de X dans chaque classe, est nulle, s 2 (X) = fi (xi ) 2. On retrouve la formule
du cas discret.
s 2 (X) = s 2 (U)
o xi = est le centre de la classe d'indice i et U est la variable statistique {(xi, ni)}, i {1, ... ,
p}.
2/ Dans l'hypothse o la rpartition des valeurs de X dans chaque classe est uniforme, au terme
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 26
Lemme.
La variance d'une variable statistique rpartie uniformment sur un intervalle de longeur a est .
Dmonstration du lemme.
= + ei 2 + ei a
Le carr de la moyenne est
2
= [ei + (ei + a)] = ei + = + ei 2 + ei a.
La variance de X dans l'intervalle [ei, ei + a] est donc :
si 2 (X) = + ei 2 + ei a + ei 2 + ei a = =
Dans le cas o toutes les classes ont la mme amplitude ei + 1 ei = a, le terme correctif est :
fi si 2 (X) = fi =
s 2 (X) = s 2 (U) +
o xi = est le centre de la classe d'indice i et U est la variable statistique {(xi, ni)}, i {1, ... ,
p}.
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 27
c=
Pour une variable statistique X valeurs dans R q, le coefficient de variation est dfini par :
c= .
Le coefficient de variation est un nombre sans dimension qui permet de comparer deux variables
statistiques de natures diffrentes.
On remarquera que, au signe prs, c'est l'cart-type de la variable statistique ou .
II.2.2.6. Moments.
mr = [X ()] r = ni xi r
Pour r = 0 : m0 = 1.
Pour r = 1 : m1 = . Le moment d'ordre 1 est la moyenne.
Pour r = 2 : m2 = .
r = [X () ]r = ni (xi )r
Pour r = 0 : 0 = 1.
Pour r = 1 : 1 = 0.
Pour r = 2 : 2 = s 2 (X) = m2 m1 2. Le moment centr d'ordre 2 est la variance.
II.2.2.7. Conclusion.
La variable X ' = a pour moyenne 0 (elle est centre) et pour cart-type 1 (elle est rduite).
sa moyenne est 0 et son cart-type est 1 : c'est une variable centre rduite et la courbe de densit de
frquence associe est appele la courbe en cloche, ou courbe de Gauss.
Un problme intressant sera de comparer la courbe de densit de frquence d'une variable
statistique quantitative cette courbe en cloche.
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 29
a) Dfinition.
Le coefficient d'asymtrie de Pearson fait intervenir le mode M o : quand il existe, il est dfinie par
P= .
Le coefficient d'asymtrie de Yule fait intervenir la mdiane et les quartiles, il est dfini par
Y= .
Le coefficient d'asymtrie de Fisher fait intervenir les moments centrs, il est dfini par
F= = .
Lorsque le coefficient d'asymtrie est positif, la distribution est plus tale droite : on dit qu'il y a
oblicit gauche.
Lorsque le coefficient d'asymtrie est ngatif, la distribution est plus tale gauche : on dit qu'il y a
oblicit droite.
Oblicit gauche :
Oblicit droite :
On utilise souvent un coefficient d'asymtrie de Pearson bas sur les moments centrs : 1 = .
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 30
b) Exemples.
xi 1 4
ni 4 1
Mo = 1 ; 3 = (4 ( 1) + 1 4 ) = 12 ; 2 = (4 ( 1) + 1 4 ) = 4.
1 = = .
xi 4 1
ni 1 4
Mo = 1 ; 3 = (1 ( 4) + 4 1 ) = 12 ; 2 = (1 ( 4) + 4 1 ) = 4.
1 = = .
Il est alors naturel, pour comparer l'applatissement d'une distribution statistique l'aplatissement
d'une variable de Gauss, d'introduire le coefficient F 2 = 2 3.
a) Courbe de Lorenz.
Considrons la distribution des salaires dans la populations des salaris d'une entreprise.
Les salaires sont diviss en n classes : la i e classe, [ e i, e i + 1 [ a, pour centre, x i et, pour effectif, n i.
On note p i la frquence cumule de e i + 1 : c'est la proportion de salaris dont le salaire est
strictement plus petit que e i + 1.
On note q i la proportion de masse salariale reprsente par les salaris dont le salaire est strictement
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 32
qi = = = fk xk = fk
La courbe de Lorenz est toujours inscrite dans le carr [0, 1] [0, 1].
Cette courbe se caractrise par les traits suivants.
1/ Les points extrmes sont les points (0, 0) et (1, 1) puisque 0 % de la population reoit 0 % de de
la masse salariale et 100 % de la population reoit 100 % de la masse salariale.
2/ La courbe est ncessairement convexe vers le bas.
Cela rsulte du fait que la pente du segment qui correspond, par exemple, aux points d'abscisses 0,
50 et 0,60, ne peut tre infrieure celle du segment correspondant aux abscisses 0,40 et 0,50
puisque, par dfinition, on considre des classes successives disposant chacune d'une part croissante
de la masse salariale totale.
3/ Enfin, et surtout, la courbure de la courbe de Lorenz peut tre interprte comme un indice
d'ingalit.
En effet, dans une situation hypothtique d'galit absolue, la courbe prendrait la forme d'un segment
de droite (diagonale du carr) tendue entre les points (0, 0) et (1, 1).
De mme, dans une situation d'ingalit extrme o la quasi-totalit de la masse salariale serait
dtenue par une infime minorit de la population, la courbe de Lorenz tendrait longer l'axe des p,
avant de remonter brutalement vers le point (1, 1).
b) Indice de Gini.
g=2S=1 (p i + 1 p i) (q i + 1 + q i) = 1 f i + 1 (q i + 1 + q i)
Cours de Statistique - Chapitre 2 - Paramtres caractristiques Page 33
Dire que g = 0, c'est dire que la courbe de Lorenz concide avec la diagonale du carr (galit
absolue).
Dire que g = 1, c'est dire que la courbe de Lorenz longe d'abord l'axe des p, puis la droite p = 1
(ingalit maximale).
De faon gnrale, l'indice de Gini peut tre interprt comme ayant une valeur d'autant plus grande
que l'ingalit est grande : il constitue donc une bonne mesure de l'ingalit.
Applications.
L'indice de Gini permet de mesurer les ingalits scolaires, les ingalits de statut, les ingalits de
salaires, etc.
c) Mdiale.
La mdiale d'une variable statistique X est la valeur de X qui partage la masse globale en deux
parties gales.
Sur la courbe de Lorenz, la moiti de la masse globale correspond l'ordonne .
Le point d'ordonne a une abscisse x qui correspond une frquence cumule x.
La valeur correspondante de X s'obtient en prenant l'abscisse du point d'ordonne x sur le diagramme
cumulatif des frquences.
Si la variable statistique X est dfinie par {(xi, ni)}, i [1, p], soit = ni xi, avec N = ni.
On pose ri = . On a : ri = 1.
Dans notre exemple, ri reprsente la fraction de la masse salariale globale gagne par les personnes
dont le salaire est xi.
La mdiale de X est la mdiane de la variable statistique {(xi, ri)}, i [1, p].
La mdiale n'est pas le salaire gagn par l'employ qui est "au milieu de la file", mais le salaire gagn
par le salari qui permet d'atteindre la moiti de la masse salariale totale.
La mdiale est toujours suprieure la mdiane, puisque 50 % des effectifs cumuls croissants ne
permettent jamais d'atteindre 50 % de la masse totale.
Cours de Statistique - Chapitre 3 - Dfinitions Page 35
III.1. DEFINITIONS.
III.1.1. Variable statistique deux dimensions.
Considrons une population finie (Card () = N) sur laquelle nous tudions deux caractres
(qualitatifs ou quantitatifs rels) A et B.
Dsignons par A i, i [1, p], les modalits observes du caractre A, par B j, j [1, q], les modalits
observes du caractre B.
Appelons C ij l'ensemble des prsentant, la fois, la modalit A i du caractre A et la modalit
B j du caractre B.
Appelons n ij le cardinal de C ij.
N= n ij.
On appelle variable statistique deux dimensions l'ensemble Z des triplets ((A i, B j), C ij, n ij), pour
i [1, p] et j [1, q], pour lesquels n ij n'est pas nul.
Une telle variable statistique deux dimensions peut se reprsenter par un tableau double entre
appel tableau de contingence.
Cours de Statistique - Chapitre 3 - Dfinitions Page 36
Soit Z = {((A i , B j), C ij , n ij )}, i [1, p], j [1, q], une variable statistique deux dimensions.
Les variables statistiques X et Y ainsi dfinies sont appeles les variables marginales de Z.
Leur distribution est reprsente par les marges du tableau de contingence.
Ce tableau reprsente une variable statistique dont les modalits sont les A i ,
i [1, p] pour lesquels les n ij ne sont pas nuls.
Remarque.
Si les deux variables X et Y sont quantitatives et jouent des rles symtriques, il est intressant
d'tudier les variables conditionnelles des deux types.
Si l'une des variables est qualitative et l'autre quantitative, alors seul le conditionnement par la
variable qualitative prsente un intrt.
Cours de Statistique - Chapitre 3 - Reprsentation graphique Page 38
Exemple.
Pour une variable quantitative, discrte ou continue, on peut utiliser une reprsentation par un nuage
de points dans un plan.
On peut remplacer chaque point par un cercle dlimitant une aire proportionnelle l'effectif ou la
frquence.
III.2.2.2. Strogramme.
Exemple : Mariages clbrs en 1962, suivant l'ge des poux (1e colonne : ge de l'poux, 1e ligne :
ge de l'pouse).
Cours de Statistique - Chapitre 3 - Reprsentation graphique Page 39
Dans le cas d'une variable mixte, ayant une composante qualitative et une composante quantitative,
on utilise une reprsentation dans R ou dans R en plaant de facon arbitraire les modalits de la
variable qualitative sur l'un des axes.
La reprsentation graphique triangulaire est utilise pour reprsenter une quantit constante,
fractionne en trois parties variables (de somme constante).
Le principe de cette reprsentation repose sur le fait qu'tant donn un point l'intrieur d'un triangle
quilatral, si l'on trace partir de ce point des parallles aux trois cts, la somme des longueurs des
segments dtermins par ces parallles du point choisi aux cts du triangle, est constante et gale
la longueur du ct du triangle quilatral.
En particulier, on utilisera cette reprsentation triangulaire si la grandeur reprsenter est somme de
trois grandeurs reprsentes par des pourcentages.
Cours de Statistique - Chapitre 3 - Reprsentation graphique Page 40
Dans cette reprsentation, les cts du triangle correspondent la valeur 0 de l'une des trois
composantes.
Les sommets du triangle correspondent la valeur 0 de deux des trois composantes.
Les milieux des cts correspondent la valeur 0 de l'une des trois composantes et la valeur 50 %
des deux deux autres composantes.
Le centre du triangle correspond l'galit des trois grandeurs reprsentes.
Les hauteurs du triangle correspondent l'galit de deux des trois facteurs, ce qui permet de diviser
l'aire du triangle en zones caractrises par un critre prcis.
Exemple.
A une date donne, on rpartit les diffrents secteurs d'activit selon le pourcentage d'entreprises
escomptant une augmentation, une diminution, ou une stabilit, de leur activit pour la priode
venir. La reprsentation du point dans un diagramme triangulaire, permet de suivre travers le temps
l'volution des pronostics pour une mme branche d'activit (analyse des rponses des chefs
d'entreprise l'enqute trimestrielle sur la conjoncture conomique).
Cours de Statistique - Chapitre 3 - Caractristiques marginales et conditionnelles Page 41
nij = N
X et Y sont des variables statistiques quantitatives, discrtes ou continues.
Pour une variable continue, les valeurs sont celles des moyennes des classes (centre de classes sous
l'hypothse de rpartition uniforme des valeurs l'intrieur d'une classe).
= ni. xi ; = n.j yj .
Z = {(xi , Cij , nij )}, i [1, p], et Z = {(yj , Cij , nij )}, j [1, q].
avec
nij = N
= nij yj =
III.3.3. Covariance.
Pour une variable statistique quantitative Z deux dimensions, de variables marginales X et Y, on
dfinit la covariance de X et Y par l'expression :
nij = N
nij xi = ni. xi = N
nij yj = n.j yj = N
Proprits de la covariance.
En effet :
= a + b,
= c + d,
=ac +ad +bc + b d.
Cov (a X + b, c Y + d) =
De mme :
= ni.
III.3.4.2. Variance.
et l'on a :
nij = n.j
nij ( )2 = n.j ( )2 = N
Cours de Statistique - Chapitre 3 - Caractristiques marginales et conditionnelles Page 44
= ( ) nij xi nij
= ( )(n.j n.j ) = 0.
ce qui traduit le rsultat annonc, qui peut s'crire aussi (Thorme de la variance conditionne,
II.2.2.4.f) :
s 2 (X) = + s2 ( )
s 2 (Y) = + s2 ( )
Remarque.
La dispersion des distributions conditionnes autour de leurs moyennes : c'est le premier terme,
ni. si 2 (Y) , qu'on appelle la variance intra-population, et qu'on note sw 2 (Y) (w pour within).
La dispersion des moyennes conditionnelles autour de la moyenne : c'est le deuxime terme,
ni. ( ) 2, qu'on appelle la variance inter-population, et qu'on note sb 2 (Y) (b pour between).
Dans d'autres cas, aucune des deux variables ne peut tre privilgie : la liaison stochastique entre X
et Y s'apprcie alors de faon symtrique par la mesure de la corrlation.
Exemple : X est la temprature moyenne mensuelle, Y est le volume des missions de gaz destin au
chauffage.
Dans cet exemple, X est la variable explicative et Y la variable explique.
Il est noter qu'une variable explicative X peut tre une variable qualitative.
Si X est une variable discrte, la courbe de rgression est une succession de points (xi , ).
Si X est une variable continue, la courbe de rgression sera forme de segments de droite joignant les
points (xi , ), o les xi reprsentent les centres des classes.
On peut dire que la courbe de rgression est la reprsentation graphique de la variable statistique
dfinie prcdemment.
III.4.1.2. Proprits.
En effet :
fi. xi = et fi. = fi. (xi , ) = ( fi. xi , fi. )=( , )= =
En effet :
Cours de Statistique - Chapitre 3 - Rgression et corrlation Page 46
= fi. xi yj
=
= Cov (X, Y)
c) s 2 ( ) = sb 2 (Y).
s2 ( ) = fi. ( ) 2 = sb 2 (Y)
Notons que sb 2 (Y), variance inter-population, n'est pas la variance marginale s 2 (Y) de Y.
o la variance intra-population sw 2 (Y) est donne par la formule sw 2 (Y) = fi. si 2 (Y) (moyenne des
variances conditionnelles)
et la variance inter-population sb 2 (Y) par la formule sb 2 (Y) = fi. ( ) 2 (variance de la moyenne
conditionnelle).
Imaginons une variable Z = (X, Y) pour laquelle = soit trs proche de , pour tout i [1, p].
Alors la variance inter-population sb 2 (Y) sera faible et la courbe de rgression de Y en X variera peu
autour de .
Inversement, si les sont trs disperss autour de , la variance inter-population sb 2 (Y) sera
grande, ce qui veut dire que la courbe de rgression de Y en X variera en grandes dents de scie autour
de .
Autrement dit, la valeur de la variance inter-population sb 2 (Y) influence directement la courbe de
rgression.
Nous dirons que sb 2 (Y) est la part de la variance marginale s 2 (Y) qui est explique par la
rgression de Y en X.
Nous parlerons simplement de variance explique.
Cours de Statistique - Chapitre 3 - Rgression et corrlation Page 47
Le terme sw 2 (Y), quant lui, est d'autant plus faible que les si 2 (Y) sont faibles, donc que les valeurs
de Y varient peu, pour chaque xi, autour de .
Ce terme n'a pas d'influence sur la courbe de rgression de Y en X (qui fait intervenir seulement les xi
et les ) : nous l'appelons la variance rsiduelle.
a) Dfinition.
Le rapport entre la variance explique sb 2 (Y) et la variance marginale totale s 2 (Y) est appel
rapport de corrlation.
On le note 2Y | X :
2Y | X =
2Y | X = 1 .
b) Proprits.
1. 0 2Y | X 1.
Dans un tel cas, chaque valeur xi de X correspond une valeur et une seule de Y : il y a une liaison
fonctionnelle Y = f (X) entre X et Y.
Si, de plus, on a aussi 2X | Y = 1, la liaison fonctionnelle entre X et Y est biunivoque.
Dans ce cas, plus 2Y | X est voisin de 1, plus la dpendance de Y par rapport X est forte et,
Cours de Statistique - Chapitre 3 - Rgression et corrlation Page 48
inversement, plus 2Y | X est voisin de 0, moins la dpendance de Y par rapport X est forte.
Le rapport de corrlation 2Y | X ne caractrise que l'intensit de la corrlation de Y par rapport X et
non le sens de la liaison entre les deux.
Il reste invariant si l'on effectue sur Y un changement d'origine ou d'chelle.
En effet : sb 2 (a Y + b) = a 2 sb 2 (Y) et s 2 (a Y + b) = a 2 s 2 (Y), de sorte que le rapport ne
change pas.
Comme ce rapport ne tient pas compte de la nature de la courbe de rgression, son emploi reste
valable quelle que soit la nature de cette courbe de rgression.
Etant donne une variable statistique quantitative relle deux dimensions Z = (X, Y), nous dirons
que la variable statistique X est indpendante de Y si les variables statistiques Y et Z ont la
mme distribution pour tout i [1, p], c'est--dire si, et seulement si, l'on a :
= ... = = ... = , i [1, p]
En effet :
X est indpendante de Y = , i [1, p], j [1, q]
Y est indpendante de X.
Au lieu de dire "X est indpendante de Y", on peut donc dire "X et Y sont indpendantes", la relation
est symtrique.
Proprits.
Si X et Y sont indpendantes, les variables statistiques Y et Z ont la mme distribution pour tout
i [1, p], elles ont donc la mme moyenne, = pour tout i [1, p].
Il en rsulte :
Cours de Statistique - Chapitre 3 - Rgression et corrlation Page 49
sb 2 (Y) = fi. ( )2 = 0
2Y | X = =0
sb 2 (X) = f.j ( )2 = 0
2X | Y = =0
Ainsi, dans le cas o X et Y sont indpendantes, la courbe de rgression de Y en X est une parallle
l'axe des x et la courbe de rgression de X en Y est une parallle l'axe des y.
On notera que si l'indpendance a pour consquence le paralllisme des courbes de rgression aux
axes de coordonnes, en revanche, les courbes de rgression peuvent tre parallles aux axes de
coordonnes sans que, pour autant, les variables soient indpendantes.
Il ne suffit pas que les moyennes conditionnelles soient identiques pour assurer l'indpendance, il
faut encore que les distributions conditionnelles soient identiques. Or plusieurs distributions peuvent
avoir la mme moyenne sans ncessairement tre identiques.
Les proprits du rapport de corrlation peuvent tre rsumes dans le tableau suivant, qui est un
tableau d'quivalence (il se lit dans les deux sens).
b) Critres d'indpendance.
La rciproque est fausse : la covariance peut tre nulle sans que les variables soient indpendantes.
Cours de Statistique - Chapitre 3 - Mthode des moindres carrs Page 51
Soit Z = {(xi , yj ), Cij , nij )}, i [1, p], j [1, q], une variable statistique quantitative deux
dimensions, de variables marginales
X = {(xi , Ci. , ni. )}, i [1, p], et Y = {(yj , C.j , n.j )}, j [1, q].
nij = N.
nij (y'i )( yj) = (y'i ) nij ( yj) = (y'i ) (ni. ni. )=0
S prendra donc une valeur minimum, lorsque ni. (y'i ) 2 est nul, c'est--dire lorsque y'i =
pour tout i [1, p].
Autrement dit :
La courbe de rgression est la ligne qui rend minimum la somme des carrs des carts.
Cours de Statistique - Chapitre 3 - Mthode des moindres carrs Page 52
C'est donc celle qui ajuste au mieux une courbe au nuage de points (xi, yj).
Pour cette courbe, le carr moyen (CM, en abrg), prend aussi sa valeur minimum, qui est donne
par :
CM = ni. si 2 (Y) = sw 2 (Y)
Le carr moyen correspondant la ligne de rgression est la variance rsiduelle.
Si la ligne de rgression de Y en X trace sur le nuage de points (xi, yj) se rapproche globalement
d'une droite, nous pouvons chercher directement, par la mthode des moindres carrs ordinaires,
en abrg MCO, la droite qui s'ajuste le mieux au nuage de points.
Soit y = a + b x l'quation d'une droite.
Pour tout i [1, p], considrons le point Ai = (xi, y'i = a + b xi) de la droite.
On peut associer la droite la somme des carrs des carts :
S= nij (y'i yj) 2 = nij (a + b xi yj) 2
Le carr moyen associ est :
CM = = fij (a + b xi yj) 2
C'est la moyenne du carr de (a + b X Y).
Or la variance de (a + b X Y) est gale la moyenne du carr, moins le carr de la moyenne,
s 2 (a + b X Y) = CM 2
On obtient donc :
2
CM = + s 2 (a + b X Y) = (a + b ) 2 + s 2 (a + b X Y)
On sait, par ailleurs, que la variance de a + b X Y est donne par :
s 2 (a + b X Y) = s 2 (b X Y) = b 2 s 2 (X) 2 b Cov (X, Y) + s 2 (Y)
On peut crire aussi :
b 2 s 2 (X) 2 b Cov (X, Y) + s 2 (Y) = s 2 (X) b 2 2 b + s 2 (Y)
= s 2 (X) b + s 2 (Y)
= s 2 (X) b + s 2 (Y) 1
Or, la variance b 2 s 2 (X) 2 b Cov (X, Y) + s 2 (Y) de b X Y est positive pour tout b , puisque
toute variance est positive.
Donc le discriminant rduit de ce polynme de degr 2 en b est ngatif : Cov 2 (X, Y) s 2 (X) s 2 (Y),
et, dans l'expression
s 2 (X) b + s 2 (Y) 1
b=
L'quation de la droite ajuste par la mthode des moindres carrs est donc :
(y ) = (x )
Nous noterons (X, Y | X) la variable statistique {((xi, a + b xi), fi.)}, i [1, p].
Cette variable statistique est appele la variable statistique de rgression linaire de Y en X.
La reprsentation graphique de cette variable est donne par la droite ajuste par la mthode des
moindres carrs ordinaires.
Cette droite est parfois appele la droite de rgression de Y en X.
Le coefficient b est alors appel le coefficient de rgression de Y en X.
Il vaut mieux rserver ces dnominations la droite de rgression du modle thorique probabiliste
associ la population et parler, ici, seulement de droite ajuste par la mthode des moindres carrs
ordinaires.
En effet :
Cov (X, Y | X) = fi. (xi )(a + b xi (a + b ))
=b fi. (xi )2
= b s 2 (X)
= Cov (X, Y)
puisque b = .
Y | X) = b 2 s 2 (X) s 2 (Y).
3. s 2 (
En gnral, b 2 s 2 (X) est diffrent de s 2 (Y), sinon on aurait s 2 (Y) = b 2 s 2 (X) = , donc :
et Y = a + b X, avec b = = > 0.
< 0.
s 2 ( X | Y) = s 2 (X)
r=
r2 = = =
Il dtermine la part de variance de Y qui est explique par la rgression linaire de Y en X (ou,
respectivement, la part de variance de X explique par la rgression linaire de X en Y).
Le coefficient de dtermination joue donc, pour la rgression linaire de Y en X, le mme rle que le
Cours de Statistique - Chapitre 3 - Mthode des moindres carrs Page 55
sw 2 (Y) = (1 2Y | X) s 2 (Y).
1 r 1.
2. Cas o r = 0.
3. Cas o r 2 = 1.
se rduit, avec b = , s 2 (a + b X Y) = 0, ce qui veut dire que tous les points sont sur la
droite ajuste par la mthode des moindres carrs : il existe une relation fonctionnelle linaire entre X
et Y, Y = a + b X, avec b > 0 si r = 1, et b < 0 si r = 1.
Plus r est proche de 1 ou de 1, plus la corrlation linaire est forte.
En l'absence d'information, l'estimation la meilleure que nous puissions donner d'une valeur
inconnue prise par Y est sa moyenne .
Si Y est en corrlation avec X, la connaissance de la valeur xi de X, permet d'amliorer l'estimation de
Y.
Nous dirons que et Y | X sont des prdicteurs de Y.
Cours de Statistique - Chapitre 3 - Mthode des moindres carrs Page 56
Nous avons :
m( ) = et m ( Y | X) =
s2 ( ) = sb 2 (Y) = 2Y | X s 2 (Y) et s 2 ( Y | X) = r 2 s 2 (Y)
= r 2 et = 2Y | X
Plus le rapport est proche de 1, plus la variance du prdicteur est proche de la variance de Y, donc
plus la variance rsiduelle est faible et moins le nuage de points est dispers autour du prdicteur,
donc meilleur est le prdicteur.
2Y | X ou r 2 mesure donc la prcision du prdicteur et nous pouvons dire que est un prdicteur
meilleur que Y | X, puisque 2Y | X est plus grand que r 2.
L'ajustement linaire peut, par des changements de variables, permettre l'ajustement d'autres modles
non linaires.
1. Modle exponentiel.
Si l'tude de la corrlation entre Y et X met en vidence que le taux de variation instantan de Y par
rapport X est constant (X pouvant tre la variable "temps", dans le cas d'une chronique, ou srie
chronologique), alors nous avons, thoriquement :
= k dx, soit y = y0 c x.
En posant z = ln y, a = ln y0, b = ln c, il vient z = a + b x.
On est ramen un modle linaire.
Dans la pratique, on vrifie si le taux de variation exprimental est sensiblement constant en
calculant, pour chaque intervalle x le rapport .
La mise en vidence de ce modle est obtenue en utilisant un papier semi-logarithmique, avec une
chelle logarithmique en ordonne et une chelle arithmtique en abscisse.
Un tel modle est trs utilis en matire conomique : tude des fonctions de production, de
consommation, tude du chiffre d'affaire, etc.
Si l'tude de la corrlation entre Y et X met en vidence que l'lasticit est constante, nous avons
thoriquement (l'lasticit est le rapport entre la variation relative de y et la variation relative de x) :
=k , soit y = y0 x b.
Si nous posons z = ln y, t = ln x, a = ln y0, nous avons z = a + b t.
On est ramen un modle linaire.
Dans la pratique, on vrifie que l'lasticit est constante en calculant, pour chaque intervalle x, le
rapport .
Cours de Statistique - Chapitre 3 - Mthode des moindres carrs Page 57
La mise en vidence de ce modle est obtenue en utilisant un papier log-log, avec une chelle
logarithmique en abscisses et une chelle logarithmique en ordonnes.
Un tel modle est, lui aussi, trs utilis en matire conomique : tude des dpenses pour un poste
particulier relativement aux dpenses totales du mnage.
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 58
(x1, ... , xn) + (x'1, ... , x'n) = (x1 + x'1, ... , xn + x'n)
(x1, ... , xn) = ( x1, ... , xn), R.
Notations.
Les oprations dans R n sont alors dfinies par des oprations sur les matrices :
Addition :
+ =
= .
x1 ... xn = x1 ... xn
Dans R n, les n lments ei, i {1, ... , n}, dont toutes les coordonnes sont nulles, sauf la ie qui vaut
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 59
Tout lment X = (x1, ... , xn) de R n s'crit de manire unique sous la forme
X= xi ei
4.1.2.1. Dfinition.
On appelle produit scalaire dans R n toute application de R n R n dans R qui possde les
proprits suivantes :
a) Bilinarit.
b) Symtrie.
<X||Y>=<Y||X>
c) Positivit.
(X, X) est un nombre rel suprieur ou gal 0, quel que soit X dans R n :
<X||X>0
d) Non dgnrescence.
(X, X) = 0 entrane X = 0 :
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 60
< X | | X > = 0 X = 0.
Autrement dit, le vecteur 0 = (0, ... , 0, ... , 0) de R n est l'unique solution de l'quation (X, X) = 0.
On dit aussi qu'un produit scalaire sur R n est une forme bilinaire symtrique positive non
dgnre.
Le mot "forme" fait simplement rfrence au fait que les valeurs sont des scalaires.
Lorsqu'il est muni d'un produit scalaire, R n est appel un espace vectoriel euclidien.
4.1.2.2. Exemples.
((x1, ... , xn), (y1, ... , yn)) < X | Y > = tX Y = x1 ... xj ... xn = xi yi
Considrons une matrice relle M n lignes et n colonnes dont tous les lments en dehors de la
diagonale principale sont nuls (mij = 0, quels que soient les entiers i et j dans {1, ... , n} avec i j)
(on dit alors que M est une matrice diagonale) et dont les lments de la diagonale principale sont
des nombres rels strictement positifs (mii > 0 quel que soit l'entier i dans {1, ... , n}).
Alors l'application :
est un produit scalaire sur R n. La matrice M est appele la matrice des poids (les "poids" sont les
lments de la diagonale).
Le produit scalaire canonique correspond au cas o la matrice M est la matrice unit In (tous
les lments de la diagonale sont gaux 1 et les lments en dehors de la diagonale sont 0) :
tous les poids sont gaux 1.
Autre exemple : M = D = In. Tous les poids sont gaux et la somme des poids vaut 1.
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 61
4.1.2.3. Proprits.
La matrice M = [ (ei, ej)] s'appelle la matrice du produit scalaire dans la base canonique.
Cette matrice est une matrice symtrique : (ei, ej) = (ej, ei).
Les lments de sa diagonale sont des nombres rels strictement positifs : (ei, ei) > 0.
Remarquons ces proprits ne sont pas suffisantes : une matrice symtrique dont les lments de la
diagonale sont des nombres rels strictement positifs ne dfinit pas forcment un produit scalaire.
Par exemple, la matrice a un dterminant qui vaut 3 < 0, donc elle possde deux valeurs
propres relles de signe oppos (3 et 1) et la forme bilinaire ((x1, x2),(y1, y2)) (x1, x2)
qu'elle dfinit n'est pas un produit scalaire car le "produit scalaire" du vecteur propre (1, 1) pour la
valeur propre ngative, par lui-mme, est un nombre rel strictement ngatif ((1 1) = 2).
La matrice n'est donc pas la matrice d'un produit scalaire sur R , bien qu'elle soit symtrique et
que les lments de sa diagonale soient strictement positifs.
En ralit, pour qu'une matrice carre symtrique relle soit la matrice d'un produit scalaire, il faut et
il suffit que toutes ses valeurs propres, qui sont toujours des nombres rels, soient strictement
positives. Ce rsultat sera dmontr, dans sa gnralit, en analyse.
Par exemple, dans R muni du produit scalaire canonique, la longueur de X = (x1, x2) est || X || =
et le vecteur (1, 0) est norm.
Etant donns deux vecteurs X et Y de R n et un produit scalaire sur R n, pour tout nombre rel , on
a:
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 62
(X + Y, X + Y) = || X + Y || 0
(Y, Y) + ( (Y, X) + (X, Y)) + (X, X) 0
(Y, Y) + 2 (X, Y) + (X, X) 0
|| Y || + 2 < X | Y > + || X || 0
Comme cette relation est vraie pour tout nombre rel , c'est que le discriminant de ce trinme du
deuxime degr est ngatif :
(< X | Y >) || X || || Y || 0
| < X | Y > | || X || || Y ||
cos = =
d) Orthogonalit.
Etant donns deux vecteurs X et Y de R n et un produit scalaire sur R n, on dit que X et Y sont -
orthogonaux (ou simplement "orthogonaux" s'il n'y a pas de confusion craindre) si, et seulement
si, leur produit scalaire est nul :
Exemples :
0 est -orthogonal tout vecteur de R n.
L'angle de deux vecteurs non nuls -orthogonaux est .
La base canonique de R n muni du produit scalaire canonique est forme de vecteurs norms
orthogonaux deux deux : on parle alors de base orthonorme.
e) Projet orthogonal.
Dmonstration.
Pour que X Z soit orthogonal Y., soit < X Z | Y > = 0, il faut et il suffit que l'on
prenne a = .
Dmonstration.
|| X Z || = || X Z0 + Z0 Z || .
|| X Z || = || X Z0 + Z0 Z || = || X Z0 || + || Z0 Z || || X Z0 ||.
Les n valeurs X () de X pour les n individus de la population peuvent tre considres comme les
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 64
Les n valeurs Y () de Y pour les n individus de la population peuvent tre considres comme les
coordonnes d'un vecteur de R n.
Dans cet espace des variables, la matrice D = In, o In est la matrice unit n lignes et n
colonnes, dfinit un produit scalaire :
X0 = = =X 1 n.
X = X0 + 1 n = X0 + < X | 1 n > 1n
s (X) = || X0 ||
4.2.5. Covariance.
La covariance de deux variables quantitatives relles X et Y dfinies sur est la moyenne du produit
des variables centres :
Y0*)
s (Y) = || Y0 || = || Y0 b X0 + b X0 || = || Y0 b X0 || + || b X0 ||
Nous retrouvons la variance rsiduelle S min et la variance explique par la rgression rXY s (Y).
De faon symtrique, si X est la variable explicative et Y la variable explicative, nous aurons une
expression :
avec la variance rsiduelle S' min et la variance explique par la rgression rXY s (X).
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 67
4.3.1. Introduction.
Nous cherchons alors dans R une droite (D) qui minimise la somme S des carrs des distances
des points du nuage de points la droite.
La solution est donne par la droite de rgression orthogonale.
+2 ( ab ) (yi b (xi )
|| Mi mi || = (yi b (xi )) + ( ab )
Quel que soit la valeur de b, cette somme sera la plus petite possible lorsque le deuxime terme est
nul : = a + b .
Ce rsultat signifie que le point moyen est sur la droite de rgression orthogonale et que, lorsque
b est connu, le terme constant a est donn par :
a= b
Puisque le point moyen G = ( , ) est sur la droite de rgression orthogonale, nous le prendrons
comme origine dans R .
La droite de rgression orthogonale a une quation de la forme
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 68
y0 = b x0,
avec y0 = y et x0 = x .
En fait, la forme de la relation prcdente fait disparatre la symtrie initiale entre les rles de X et Y :
ce n'est pas sous cette forme que nous exprimerons l'quation de la droite (D) de rgression
orthogonale.
2
Etant donne une droite (D) passant par l'origine G, on considre plutt le vecteur unitaire de
orthogonal la droite (D) :
u1 = , avec + = 1.
La droite (D) est l'ensemble des points M = (x, y) vrifiant < u1 | > = 0, soit x0 + y0 = 0.
Etant donn un point Mi du nuage de points et sa projection orthogonale mi sur la droite D, le vecteur
est le projet orthogonal de sur le vecteur u : =< | u > u = ( xi0 yi0)
La recherche de la droite de rgression orthogonale se ramne donc une question que l'on peut
envisager d'un double point de vue :
S = || Mi mi || = ( xi0 + yi0) ,
soit rechercher, dans l'espace des variables R n, un vecteur X0 + Y0, combinaison linaire
fictive des deux variables centres X0 et Y0, avec + = 1, qui minimise || X0 + Y0 || , c'est--
dire un vecteur de l'hyperplan dfini par X0 et Y0, de norme minimum pour le produit scalaire dfini
par la matrice diagonale D , sous la contrainte + = 1.
4.3.2. Dfinitions.
a) Inertie totale.
On appelle inertie totale du nuage de points de R par rapport l'origine G des axes, la quantit :
b) Inertie statistique.
On appelle inertie statistique du nuage de points de R par rapport une direction de R dfinie
par un vecteur unitaire u, la quantit :
IS (u) = || ||
Par exemple, l'inertie statistique du nuage de points par rapport l'axe des x est la variance de X et
l'inertie statistique du nuage de points par rapport l'axe des y est la variance de Y.
c) Inertie mcanique.
On appelle inertie mcanique du nuage de points de R par rapport une direction dfinie par un
vecteur unitaire u, la quantit :
IM (u) = || ||
Par exemple, l'inertie mcanique du nuage de points par rapport l'axe des x est la variance de Y et
l'inertie mcanique du nuage de points par rapport l'axe des y est la variance de X.
IM (u) = IT IS (u).
On appelle premier axe factoriel du nuage de points de R , l'axe dont la direction dfinie par un
vecteur unitaire u maximise l'inertie statistique IS (u).
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 70
La direction dfinie par le vecteur u est appele la direction principale, ou direction factorielle.
On remarquera que, comme le premier axe factoriel maximise IS (u), il minimise IM (u) : il donne
donc la solution de notre problme, c'est--dire la droite de rgression orthogonale.
Pour u = , l'inertie statistique IS (u) = || || s'crit, avec =< | u > u = ( xi0 yi0)
, sous la forme :
La matrice
A= =
t
A= = = Z Z = tZ D Z
et l'inertie totale est la trace de cette matrice, somme des lments diagonaux s (X) et s (Y) :
IT = Tr (A)
Dt (A I2) = 0
(s (X) + s (Y)) + s (X) s (Y) (Cov (X, Y)) = 0
(s (X) + s (Y)) 4 (s (X) s (Y) (Cov (X, Y)) ) = (s (X) s (Y)) + 4 (Cov (X, Y)) 0
La matrice A possde donc, ainsi qu'on l'avait dj dit pour toute matrice symtrique relle, deux
valeurs propres relles 1 et 2 :
la somme de ces valeurs propres est la trace de la matrice, somme des lments de la premire
diagonale :
1 + 2 = s (X) + s (Y) 0.
le produit de ces valeurs propres est le dterminant de la matrice :
1 2 = s (X) s (Y) (Cov (X, Y)) 0 (d'aprs l'ingalit de Schwarz).
Les deux valeurs propres de la matrice des variances-covariances sont donc des nombres rels
positifs : il est trs improbable que l'une soit nulle (il faudrait, pour cela, que le coefficient de
corrlation linaire soit rigoureusement gal 1, en valeur absolue, ce qui ne saurait se produire que
si X et Y sont dduits l'un de l'autre par une relation linaire, ou si X et Y sont constantes. Il est trs
improbable aussi que les deux valeurs propres soient gales : il faudrait pour cela que la covariance
de X et Y soit strictement gale 0 et que les variances de X et Y soient strictement gales, ce qui ne
se produit jamais en pratique.
Dans le cas gnral, on peut donc appeler 1 et 2 les valeurs propres de la matrice des variances-
covariances, ranges par ordre dcroissant :
1 > 2 > 0.
1 = s (X) + s (Y) +
2 = s (X) + s (Y)
On dmontre aussi, en algbre, que R possde une base propre orthonorme, c'est--dire une base
{ u1, u2 }, orthonorme pour le produit scalaire canonique, forme de vecteurs propres de la matrice
A:
A u1 = 1 u1 et A u2 = 2 u2,
avec
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 72
|| u1 || = 1, || u2 || = 1, < u1 | u2 > = 0.
= = = =0
Le carr de la norme de ce vecteur pour le produit scalaire canonique est donn par :
On peut donc prendre pour vecteur norm relatif la valeur propre , le vecteur
u=
Le produit scalaire des deux vecteurs propres ainsi obtenu est nul, parce que la relation 1 + 2 = s
(X) + s (Y) entrane :
Les deux vecteurs et forment une base de R parce que le dterminant de leurs
u1 =
u2 =
Remarquons que, au lieu de prendre pour vecteur propre pour la valeur propre , le vecteur
, on aurait pu prendre aussi le vecteur qui lui est proportionnel (le dterminant
V e1 = u1, V e2 = u2.
V donne, par produits, pour image d'une base orthonorme, une base orthonorme : c'est ce qu'on
appelle une matrice "orthogonale", ce qui veut dire que son inverse est gale sa transpose :
V 1 = tV
Pour le vrifier, remarquons que, puisque les bases { e1, e2 } et { u1, u2 } sont orthonormes, les
coordonnes des vecteurs s'obtiennent par produits scalaires :
de sorte que la matrice V, qui a, pour colonnes, les vecteurs u1 et u2 dans la base { e1, e2 }, est :
V=
V 1 =
V 1 = = tV
t
V u1 = V 1 u1 = e1 ; t V u2 = V 1 u2 = e2
vecteurs propres.
t
V = [ Id , { e1, e2 }, { u1, u2 }].
R , { e1, e2 } R , { e1, e2 }
R , { u1, u2 } R , { u1, u2 }
= V A tV,
A = tV V.
|| v || = tv v = tu tV V u = tu u = || u || = 1.
IS (u) = tu A u = tu tV V u = tv v.
IS (u) = 1 v1 + 2 v2 = 1 (1 v2) + 2 v2 = 1 (1 2) v2
IS (u1) = 1
La direction du premier axe factoriel est dfinie par le vecteur propre associ la plus grande
valeur propre de la matrice des variances-covariances.
Comme corollaire, la direction perpendiculaire au premier axe factoriel dfinit le deuxime axe
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 76
factoriel : elle est dfinie par le vecteur propre associ la plus petite valeur propre de la matrice des
variances-covariances.
Le deuxime axe factoriel minimise l'inertie statistique IS (u) : IS (u) = 2 lorsque | v2 | = 1, donc v1 =
0 et v = = u2 par exemple (on pourrait prendre aussi, bien sr, v = u2, la direction dfinie serait la
mme).
IS (u2) = 2
Le taux d'inertie totale explique par le premier axe factoriel est le rapport = =
Le taux d'inertie totale explique par le deuxime axe factoriel est le rapport = =
La relation 1 + 2 = s (X) + s (Y) (la somme des valeurs propres est la trace de la matrice des
variances-covariances) s'crit :
La somme des inerties statistiques par rapport aux deux axes factoriels est l'inertie totale du nuage de
points.
Chaque valeur propre de la matrice des variances-covariances correspond l'inertie explique par
l'axe factoriel correspondant.
Dans R rapport la base propre orthonorme { u1, u2 }, les coordonnes des vecteurs
s'appellent les coordonnes factorielles.
Comme la base { u1, u2 } est orthonorme, les coordonnes factorielles s'obtiennent par produit
scalaire :
d'o :
= = tV
= tV = tV
Les relations :
L=ZV
L=
est la matrice, n lignes et 2 colonnes, dont les lignes sont les coordonnes factorielles du nuage de
points dans R muni de la base { u1, u2 },
Z=
est la matrice, n lignes et 2 colonnes, dont les colonnes sont les variables centres X et Y ,
V=
est la matrice des coordonnes des vecteurs propres orthonorms { u1, u2 } de la matrice des
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 78
Les deux colonnes de la matrice L sont des lments de l'espace des variables R n : on les appelle les
composantes principales de la variable statistique (X, Y).
L1 = u1 =
L2 = u2 =
t
A= = Z Z = tZ D Z =
des variances-covariances :
1 = s (X) + s (Y) +
2 = s (X) + s (Y)
Z 1n =
t
= =
t
= u1 =0
De mme :
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 79
Comme les composantes principales sont centres, leur variance est le carr de leur norme pour le
produit scalaire dfini par D :
t t
s (L1) = || L1 || = < L1 | D | L1 > = L1 L1 = u1 tZ Z u1
t
ZZ=A
s (L1) = tu1 A u1 = tu1 1 u1 = 1 || u1 || = 1
De mme :
t t
s (L2) = < L2 | D | L2 > = L2 L2 = u2 tZ Z u2
= tu2 A u2 = tu2 2 u2 = 2 || u2 || = 2
t t
Cov (L1, L2) = < L1 | D | L2 > = L1 L2 = u1 tZ Z u2
t
= u1 A u2 = < u1 | u2 > = 0
Les projets orthogonaux de ces vecteurs sur l'axe principal dfini par u1 sont les vecteurs :
< | u2 > = 0
(x ) (s (Y) 2) = (y ) Cov (X, Y)
(x ) (1 s (X)) = (y ) Cov (X, Y)
Cours de Statistique - Chapitre 4 - Rgression orthogonale Page 80
Considrons trois variables statistiques relles centres X0, Y0, Z0, dfinies par n triplets (x0i, y0i, z0i), i
[1, n].
Nous considrons Z0 comme la variable expliquer et X0 et Y0 comme les variables explicatives.
Nous supposons que les observations laissent penser que le nuage de points dans R pourrait tre
modlis par un plan.
Le problme de la rgression linaire multiple de Z0 en X0 et Y0 consiste trouver un prdicteur
0
= a X0 + b Y0
= || Z0 0
|| soit minimum.
a) Dfinition.
Si nous connaissons une base orthonorme { u1, u2 } d'un sous-espace vectoriel de dimension 2,
dfini dans R n par les deux vecteurs X0 et Y0, nous savons calculer le projet orthogonal de Z0 sur u1,
c'est le vecteur u1 = < Z 0 | u 1 > u1 et nous savons calculer aussi le projet orthogonal < Z0 |
Dmonstration.
Notons 0
le vecteur < Z0 | u1 > u1 + < Z0 | u2 > u2, somme des projets orthogonaux de Z0 sur les
vecteurs u1 et u2.
< Z0 0
| u1 > = < Z0 | u1 > < 0
| u1 >
= < Z0 | u1 > < < Z0 | u1 > u1 + < Z0 | u2 > u2 | u1 >
< Z0 0
| u2 > = < Z0 | u2 > < 0
| u2 >
= < Z0 | u2 > < < Z0 | u1 > u1 + < Z0 | u2 > u2 | u2 >
= < Z0 | u2 > < Z0 | u1 > < u1 | u2 > + < Z0 | u2 > < u2 | u2 >
= < Z0 | u2 > < Z0 | u2 >
=0
Ainsi, Z0 0
est orthogonal u1 et u2, il est donc orthogonal toute combinaison linaire de u1 et
u2, c'est--dire tout lment de : on dit qu'il est orthogonal .
Le projet orthogonal de 0
sur u1 est
< 0
| u1 > u1 = < Z 0 | u1 > u1.
Le projet orthogonal de 0
sur u2 est
< 0
| u2 > u2 = < Z 0 | u2 > u2.
0
= < Z0 | u1 > u1 + < Z 0 | u 2 > u2 = < 0
| u1 > u1 + < 0
| u2 > u2.
Le vecteur :
Cours de Statistique - Chapitre 5 - Rgression multiple Page 83
0
= < Z0 | u1 > u1 + < Z0 | u2 > u2
La relation :
0
=< 0
| u1 > u1 + < 0
| u2 > u2
Dmonstration.
|| Z0 Z || = || Z0 0
+ 0
Z ||
|| Z0 0
+ 0
Z || = || Z0 0
|| + || 0
Z ||
|| Z0 Z || = || Z0 0
|| + || 0
Z ||
Le prdicteur 0
= a X0 + b Y0 de Z0 qui rend minimum la quantit S = || Z0 0
|| est le projet
orthogonal de Z0 dans le plan dfini par X0 et Y0.
La seule chose qu'il nous reste faire dans la suite, est d'expliciter ce projet orthogonal en fonction
des donnes (x0i, y0i, z0i), i [1, n].
Cours de Statistique - Chapitre 5 - Rgression multiple Page 84
Dans le plan dfini par X0 et Y0, nous pouvons dfinir un premier vecteur norm u1 par :
u1 = = .
On a, en effet : s (X) = || X0 || .
Y0 X0 = || Y0 || + || X0 || .2 < Y0 | X0 >
On peut donc prendre dans le plan , pour vecteur norm u2 orthogonal u1, le vecteur :
u2 = Y0 X0 = Y0 X0
Les vecteurs :
u1 =
u2 = Y0 X0
Soit
0
= < Z0 | u1 > u1 + < Z0 | u2 > u2
Y0 X0
= Y0 X0
0
= X0 + Y0 X0
Y0
= X0 + Y0
0
= X0 + Y0
A= =
Formellement, la relation 0
= X0 + Y0
peut se mmoriser comme un "dterminant" :
=0
Cours de Statistique - Chapitre 5 - Rgression multiple Page 86
Nous connaissons dj les formules donnant les coefficients de corrlation linaire entre deux
variables :
= =
et, en changeant X et Y :
0
= X0 + Y0
= +
n
Les vecteurs et sont norms pour le produit scalaire de : || X0 || = s (X) et || Y0 || =s
(Y).
= = + +2
= rXZ + rXY rYZ 2 rXY rXZ rYZ + rYZ + rXY rXZ 2 rXY rXZ rYZ + 2 rXY (rXZ rYZ rXY rXZ
= rXZ + rXY rYZ 2 rXY rXZ rYZ + rYZ + rXY rXZ 2 rXY rXZ rYZ + 2 rXY rXZ rYZ 2 rXY rXZ
= rXZ + rXY rXZ 2 rXY rXZ + rYZ + rXY rYZ 2 rXY rYZ 2 rXY rXZ rYZ 2 rXY rXZ rYZ +
= rXZ rXY rXZ + rYZ rXY rYZ 2 rXY rXZ rYZ + 2 rXY rXZ rYZ)
Le coefficient :
R Z | XY =
s ( ) = || 0
|| = R Z | XY s (Z)
5.2.2. Proprits.
a) Validit du prdicteur de Z.
La variance de Z s'crit :
s (Z) = s (Z0) = || Z0 || = || Z0 0
+ 0
|| = || Z0 0
|| + || 0
||
Or || Z0 0
|| est la valeur minimum de la quantit S = || Z0 || pour les : || Z0 0
|| =
S min, c'est la variance "rsiduelle", donc
Plus le coefficient R Z | XY est proche de 1, plus la part de variance de Z explique par la rgression
linaire multiple en X et Y est grande, donc meilleur est le prdicteur linaire 0.
La validit du prdicteur 0 est mesure par le coefficient R Z | XY .
suivante :
C XY = = = tVXY D VXY.
C =
= = tVXY D VZ.
formule que l'on peut crire directement en fonction des donnes centres rduites :
t t t
R Z | XY = VXY D VZ VXY D VXY VXY D VZ .
t
VXY D VXY = VXY 1 D 1 t
VXY 1
puisque la matrice VXY, n lignes et 2 colonnes, n'est pas inversible, alors que la matrice produit C =
t
VXY D VXY, 2 lignes et 2 colonnes, est inversible.
Pour connatre le rle de chacune des variables explicatives, on calcule les coefficients de
Cours de Statistique - Chapitre 5 - Rgression multiple Page 89
0
= c X0
0
= d Y0
0
= a X0 + b Y0.
La thorie de la rgression multiple que nous venons d'exposer dans le cas de deux variables
explicatives peut se gnraliser au cas de p variables explicatives, avec p > 2.
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 90
Les mthodes d'analise quantitative ont alors recours la thorie des sondages, qui consiste tudier
un sous-ensemble de la population qu'on appelle un chantillon.
Les deux problmes sont lis : la mthode d'chantillonnage utilise a une influence sur les
estimations obtenues.
En rsum, nous pouvons dire que la thorie des sondages est un outil mathmatique permettant,
partir d'observations exprimentales partielles, de tenter d'atteindre une ralit inaccessible.
Elle repose sur l'ide suivante : les diffrentes variables attaches un individu de la population
n'tant pas indpendantes, un individu qui se trouve dans la moyenne de la population pour un
certain nombre de caractres impportants, sera galement peu diffrent de la moyenne pour les autres
caractres.
La mthode consiste donc diviser la population en un certain nombre de sous-ensembles
relativement homognes et reprsenter chacun d'eux par une unit-type.
On choisit donc des units d'individus que l'on considre comme fortement reprsentatives de
certaines catgories de population : cantons-types, bureau de vote pilotes, dont les rsultats observs
sur de longues priodes figurent les rsultats dfinitifs d'une rgion ou d'une ville, etc.
Exemple.
L'INSEE dcomposa en 1942 la France en 600 rgions agricoles et, dans chaque rgion, dsigna un
canton-ype.
Comme il y a en France environ 3000 cantons, la dsignation de 600 cantons-types permettait de
rduire d'un facteur 5 l'ampleur d'une tude des cantons.
L'enquteur prlve librement son chantillon, condition de respecter une composition donne
l'avance (pourcentage fix d'agriculteurs, d'ouvriers, de cadres, etc., par exemple).
Cette mthode est facile, mais aucun intervalle de confiance ne peut tre donn.
Elle suppose implicitement que les catgories retenues pour la dtermination des quotas sont
pertinentes quant l'objet de l'tude, ce qui est bien difficile tablir.
Pour diminuer l'arbitraire du choix, on impose l'enquteur des normes de dplacement
gographique : c'est la mthode de Politz.
On utilise souvent des "panels", qui sont des chantillons permanents dont on tudie l'volution.
Exemples.
Ces panels sont utiliss en marketing (lancement d'un produit, transfert de marques, etc.).
Exemples.
Les bases de sondages sont en gnral tablies partir des rsultats d'un recensement et elles sont
corriges priodiquement entre deux recensements.
Le tirage de l'chantillon est effectu dans la base de sondage selon des critres spcifiques chaque
mthode (plan de sondage).
Cette mthode de travail ne laisse aucune initiative aux enquteurs : il est trs simple de contrler
leur travail.
Dans un chantillon alatoire simple, les lments constituant l'chantillon sont extraits au hasard
( l'aide d'une table de nombres au hasard, par exemple) d'une liste de la population.
On extrait ainsi n individus d'une population de taille N.
Le tirage peut s'effectuer avec ou sans remise, renvoyant ainsi gnralement un modle de loi
binomiale (avec remise), ou hypergomtrique (sans remise).
Si le tirage s'effectue avec remise, l'chantillon alatoire simple est dit indpendant (EASI =
Echantillon Alatoire Simple et Indpendant).
La mthode permet de calculer des intervalles de confiance, comme nous le verrons plus loin.
Le rapport f = s'appelle le taux de sondage.
Par exemple, l'INSEE utilise des taux de sondage de l'ordre de pour les enqutes sur les
conditions de vie des mnages.
Exemple.
Nous voulons extraire un chantillon de 8 individus dans une population forme de 437
individus.
Nous numrotons les individus de la population de 1 437.
Nous considrons trois colonnes conscutives d'une page de nombres au hasard : ils
forment des nombres au hasard trois chiffres.
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 93
Nous lisons ces nombres de trois chiffres en ne retenant que ceux qui sont compris entre
001 et 437.
Lorsque nous avons retenus 8 nombres, notre chantillon est constitu des 8 individus
dsigns dans la population par ces huit nombres.
Selon que nous effectuons un tirage avec ou sans remise, nous garderons ou carterons
un individu dj tir.
L'inconvnient majeur de la mthode lmentaire est son cot : les individus tirs peuvent tre trs
loigns gographiquement.
Exemple.
1. L'existence d'une stratification de fait, soit pour des raisons gographiques, soit pour des
raisons administratives.
2. Un caractre tudi dans la population peut varier sous l'influence d'un certain nombre de
facteurs.
Pour liminer au mieux les risques de biais, nous crons des strates homognes et, dans
chacune d'elles, nous extrayons un chantillon alatoire simple.
Exemple.
etc.
Femmes de moins de 20 ans,
Femmes de 20 30 ans,
etc.
De chaque strate, nous extrayons un chantillon alatoire simple.
Exemple.
Cette mthode est bien adapte la slection de cartes dans un fichier, ou au prlvement de pices
dans une fabrication pour un contrle de qualit.
Elle prsente une certaine analogie avec la mthode prcdente d'chantillonnage stratifi.
Exemple.
La mthode de tirage au hasard chaque niveau peut varier suivant le cas, par exemple tirage
proportionnel aux units qu'il contient, ou tirage quiprobable.
Nous disons alors que nous pouvons avoir des tirages avec probabilits ingales.
Nous choisissons des grappes pour lesquelles nous gardons tous les "grains", ou individus.
Une "grappe" est un groupe d'individus de mme nature.
6.2.2.5. Conclusion.
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 95
En pratique, les diverses mthodes alatoires peuvent tre mles pour amliorer le rendement.
Pour chacune d'elle, nous pourrons varier les critres de tirage au hasard de chaque individu : avec
remise, sans remise, avec des probabilits gales ou ingales.
Nous dirons que F (x) dfinit la loi de rfrence associe une population hypothtique infinie, dite
population de rfrence.
La connaissance de la loi de rfrence du caractre tudi est d'un grand intrt pour la dduction
statistique.
Elle constitue un modle mathmatique du phnomne tudi.
Cette distribution thorique peut dpendre d'un certain nombre de paramtres inconnus.
Lorsque nous extrayons de la population un chantillon alatoire simple E de taille n, nous pouvons
calculer, avec les valeurs {x1, ... , xn} prises par X dans l'chantillon, une estimation ponctuelle de y,
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 96
Exemple.
* = xi.
La valeur observe y* n'est que l'une des valeurs possibles que l'on peut obtenir avec les divers
chantillons possibles de taille n.
En ralit, avec une population de N individus, il y a un certain nombre, mettons k, d'chantillons
possibles Ej de taille n, j {1, ..., k} (k dpend de la mthode d'chantillonnage).
Chaque chantillon possible Ej de taille n possde une certaine probabilit pj d'tre tir.
A chaque chantillon possible Ej de taille n est associe une estimation ponctuelle yj* de y.
A chaque estimation ponctuelle yj* de y est donc associe la probabilit pj d'tre observe.
Nous pouvons alors dfinir une variable alatoire prenant, pour chaque chantillon possible Ej de
taille n, la valeur yj* avec la probabilit pj.
Il est logique de souhaiter que l'estimateur prenne des valeurs aussi voisines que possible de la
valeur inconnue y que nous voulons estimer.
Nous sommes conduits dfinir un certain nombre de qualits que doit prsenter un "bon"
estimateur.
Nous dirons que est un estimateur sans biais du paramtre y, si, et seulement si, son esprance
mathmatique est y.
sans biais E ( ) = y
Cette proprit traduit le fait qu'en moyenne, sur tous les chantillons possibles, nous retrouvons la
valeur du paramtre que nous voulons estimer.
b) Estimateur robuste.
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 97
L'estimateur d'un paramtre y possde une variance qui traduit la dispersion des valeurs de
autour de son esprance mathmatique.
Cette variance dpend de la taille n de l'chantillon.
Nous dirons que est un estimateur robuste, ou convergent, de y si la limite, lorsque n tend vers N
de est nulle.
robuste =0
Cette proprit traduit le fait suivant : si nous connaissons la valeur prise par le caractre pour tous
les individus de la population, la valeur de est la valeur exacte y du paramtre.
Nous dirons qu'un estimateur d'un paramtre y est asymptotiquement gaussien si, et seulement si,
il vrifie la proprit suivante :
En pratique, ds que n est suprieur ou gal 30, nous admettrons que la fonction de rpartition de
peut tre remplace par la fonction de rpartition de la variable normale centre rduite.
Lorsque n est suffisamment grand (en pratique n 30), pour tout [0, 1], le nombre rel positif u
donn par :
vrifie :
P u = 1 .
Ceci signifie simplement que l'on considre comme meilleur un estimateur dont les valeurs sont
moins disperses autour de la valeur de y.
Dans l'absolu, le meilleur estimateur d'un paramtre est celui dont pour lequel l'esprance de ( y)
est la plus petite possible.
Un estimateur sans biais dont la variance est minimale s'appelle un estimateur prcis.
Pour un estimateur prcis, l'esprance E ( ) est gale y et la variance est minimale.
Exemple 1.
variable alatoire indpendante "taille" Xi qui a la mme loi de probabilit que la variable parente X.
L'estimateur
= = Xi
de la taille moyenne dans la population, a, pour valeur dans l'chantillon, la moyenne arithmtique
des tailles des individus de l'chantillon.
Cet estimateur possde une loi de probabilit qui peut tre calcule en fonction de la loi de
probabilit de X.
Exemple 2.
= Xi Xi
Si est un estimateur correct et asymptotiquement gaussien (estimateur CAG) d'un paramtre y, avec
E ( ) = y, la relation
P u = 1
s'crit :
P ( u + u ) = 1 .
Or, pour un chantillon de taille n choisi au hasard, prend la valeur y* et une valeur s , de sorte
que u prend une valeur
y1 = y* u s
et + u prend la valeur
y2 = y* + u s
L'intervalle
[y1 ; y2] = [ y* u s ; y* + u s ]
Plus est grand, plus l'amplitude de l'intervalle de confiance est petite, puisque est une fonction
croissante.
Dans la pratique, en l'absence de prcision contraire, nous conviendrons de prendre = 5 %.
Plus n est grand, plus la valeur de a des chances d'tre proche de 0, donc plus la valeur de a des
chances d'tre proche de y.
Nous pourrons ainsi calculer la valeur de n qui permet d'avoir un intervalle de confiance d'amplitude
donne.
Les valeurs retenir de la fonction de rpartition de la variable alatoire normale centre rduite
sont, pour (u) = 1 :
(1,645) = 0,950, soit u0,10 = 1,645.
(1,960) = 0,975, soit u0,05 = 1,960.
(2,575) = 0,995, soit u0,01 = 2,575.
Ces valeurs donnent les intervalles de confiance aux niveaux de confiance 90 %, 95 %, 99 %.
La valeur utilise par dfaut est u0,05 = 1,960.
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 101
la variance = xi xi .
Si X est un caractre qualitatif deux modalits A et B, le paramtre qui caractrise X est la
proportion p d'individus prsentant la modalit A.
Les paramtres sont inconnus.
La thorie de l'chantillonnage a pour but de les estimer au mieux.
Le tirage avec remise, d'un individu de W, peut tre reprsent par une variable alatoire parente,
note encore X, dont la loi de probabilit est dfinie par :
Constituer un chantillon de taille n par des tirages non exhaustifs quiprobables dans , revient
dfinir n variables alatoires indpendantes X1, ... , Xn, qui suivent toutes la mme loi que X.
Soit {x1, ... , xn} la ralisation de l'chantillon E.
= Xi.
Par consquent, est un estimateur sans biais de (E ( ) = ) mais il n'est pas robuste ( =
0).
S= Xi Xi = (Xi )
E (S ) = E (Xi ) = E (Xi )
E (S ) = E (Xi + )
E (S ) = E (Xi ) + E ( ) + E (Xi ) ( )
Mais on a :
E ( ) = E ( E( )) = Var ( ) = .
E (Xi ) ( ) = E ( ) (Xi ) = E ( ) (n n ) =
2 E (( ) ) = 2 Var ( ) = 2 .
Au total :
E (S ) = = .
E S = E (S ) = ,
= Xi Xi = S
Choisir un chantillon de taille n, c'est choisir un n-uple de variables alatoires (X1, ... , Xn) de
Bernoulli, indpendantes, de mme paramtre p.
Soit (x1, ... , xn) une ralisation de l'chantillon E.
= Xi
est un estimateur sans biais de la proportion p des individus de la population prsentant la modalit
A du caractre tudi.
Pour les chantillons de grande taille (n 30), on peut dfinir l'intervalle de confiance de p
correspondant au risque , par :
[p1, p2] = p* u ; p* + u
avec (u) = 1 .
Un tirage au hasard sans remise induit que chaque chantillon de taille n a une probabilit =
d'tre tir.
a) Estimation de la moyenne.
Soit xij la ralisation du caractre X pour le je individu de l'chantillon Ei = (Xi1, ... , Xin).
La ralisation du ie chantillon est un n-uple (xi1, ... , xin).
La moyenne d'chantillonnage i
= xij est la ralisation d'une variable alatoire que nous
allons dfinir.
Nous pouvons dfinir chantillons diffrents Ei, i 1 ; , de taille n, chacun ayant une
Considrons la variable alatoire dont la loi de probabilit, uniforme, est dfinie par :
P( = i
) = pi, i 1 ; .
E( )= pi i
= xik = xik .
Pour un k pris entre 1 et n, notons que xik est la valeur xj du caractre X pour le ke individu de
l'chantillon, qui est le je individu de la population.
Cette valeur apparat une fois dans tous les chantillons de taille n contenant cet individu de la
population, mais pas forcment la mme place, c'est--dire pas forcment avec le mme indice k.
Or il y a chantillons de taille n contenant cet individu, de sorte que la valeur xj de X pour le je
E ( ) = pi
i
E ( ) = i
= (xik) = (xik)
Dans chacun des chantillons de taille n, on forme produits de la forme xij xik, avec j k.
Dans l'ensemble des chantillons de taille n, on forme donc produits de deux valeurs de X
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 106
diffrentes.
Comme il existe produits de deux valeurs de X diffrentes, chacun intervient fois
dans la somme tendue l'ensemble des chantillons de taille n.
On obtient donc :
xij xik = xj xk
xj xk = xj xk xj = xj xk xj
= xj xj = (N ) N ( + ) = N ((N 1) )
On obtient alors :
((N 1) )
E ( ) = N ( + ) + N ((N 1) )
E ( ) = + + (N 1)
= (N 1) (n 1) =
+ (N 1) = + (N 1)
= (1 + (n 1)) = 1
E ( ) = +
Var ( ) = E ( ) =
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 107
Var ( ) =
Moralit : lorsque n tend vers N, la variance de tend vers 0, l'estimateur de est robuste.
La moyenne d'chantillonnage = Xij est un estimateur sans biais et robuste, donc correct, de
.
c) Estimation de la variance.
alatoire :
E (S ) = E ((Xij ) ) = E ((Xij + ) )
= E ((Xij ) ) + E (( ) ) E ((Xij ) ( ))
Mais :
E ((Xij ) ) = n = .
E ((Xij ) ( )) = E ( ) (Xij ) = E ( ) n ( ) = n E ( ) =n
Var ( )
Il reste alors :
E (S ) = + n Var ( ) = = =
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 108
On voit donc que S est un estimateur biais de , mais que, par linarit de l'esprance
mathmatique :
= S= Xij Xij
= Xi.
Mais nous avons vu, prcdemment, que l'esprance mathmatique et la variance de Xi, taient
donnes par :
E (Xi) = p
Var (Xi) = p (1 p).
E( )=p
p1 = p* u
p2 = p* + u
Tout tirage avec remise peut tre schmatis par une variable alatoire dont la loi de probabilit est
dfinie par :
Notons :
et soit :
'= i
'
Nous avons :
E ( ') = E ( i') = pj = N= = n=
La relation E ( ') = montre que la variable alatoire ' est un estimateur sans biais de .
Sa ralisation m'* = dans l'chantillon est une estimation ponctuelle sans biais de .
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 110
Nous avons :
E ( ') = pj =N
E ( ' ) = pj =
Var ( ') = N
Var ( ') =
Cette variance s'exprime l'aide de l'ensemble des valeurs xj, inconnues, prises par le caractre X
dans la population .
Il serait intressant d'en avoir une estimation partir de la ralisation {x1, ... , xn} d'un chantillon.
Soit ' la variable alatoire dfinie, comme dans IV.4.2.1. par la loi de probabilit :
Nous avons vu que l'esprance mathmatique de cette variable alatoire tait gale N , qu'on peut
estimer par N '.
Considrons la variance d'chantillonnage de la variable alatoire ', c'est la variable alatoire :
1
= ( i' N ')
L'esprance mathmatique de 1
est :
E( 1
) = E ( i' N ')
Cours de Statistique - Chapitre 6 - Initiation la thorie des sondages Page 111
= E ( i' N ')
= E ( i' N + N N ')
(N N ')
La relation E ( 1
) = (n 1) N Var ( '), qui s'crit aussi :
E = Var ( ')
montre que
N m'* =
compte tenu de la relation N m'* = m'* = , est une estimation ponctuelle sans biais de la
variance de '.
* =
Cette estimation de la variance de ' permet de construire, pour les grands chantillons, un intervalle
de confiance de la moyenne :
m'* u *.
EXTRAITS D'UNE TABLE DE NOMBRES AU HASARD
(Kendall et Babington Smith, table tire de Christian Labrousse, Statistique, Tome2, Dunod, Paris,
1962)
02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08
85 76 34 51 40 44 62 93 65 99 72 64 09 34 01 13 09 74
00 88 96 79 38 24 77 00 70 91 47 43 43 82 71 67 49 90
64 29 81 85 50 47 36 50 91 19 09 15 98 75 60 58 33 15
94 03 80 04 21 49 54 91 77 85 00 45 68 23 12 94 23 44
42 28 52 73 06 41 37 47 47 31 52 99 89 82 22 81 86 55
09 27 52 72 49 11 30 93 33 29 54 17 54 48 47 42 04 79
54 68 64 07 85 32 05 96 54 79 57 43 96 97 30 72 12 19
25 04 92 29 71 11 64 10 42 23 23 67 01 19 20 58 35 93
28 58 32 91 95 28 42 36 98 59 66 32 15 51 46 63 57 10
64 35 04 62 24 87 44 85 45 68 41 66 19 17 13 09 63 37
61 05 55 88 25 01 15 77 12 90 69 34 36 93 52 39 36 23
98 93 18 93 86 98 99 04 75 28 30 05 12 09 57 35 90 15
61 89 35 47 16 32 20 16 78 52 82 37 26 33 67 42 11 93
94 40 82 18 06 61 54 67 03 66 76 82 90 31 71 90 39 27
54 38 58 65 27 70 93 57 59 00 63 56 18 79 85 52 21 03
63 70 89 23 76 46 97 70 00 62 15 35 97 42 47 54 60 60
61 58 65 62 81 29 69 71 95 53 53 69 20 95 66 60 50 70
51 68 98 15 05 64 43 32 74 07 44 63 52 38 67 59 56 69
59 25 41 48 64 79 62 26 87 86 94 30 43 54 26 98 61 38
85 00 02 24 67 85 88 10 34 01 54 53 23 77 33 11 19 68
01 46 87 56 19 19 19 43 70 25 24 29 48 22 44 81 35 40
42 41 25 10 87 27 77 28 05 90 73 03 95 46 88 82 25 02
03 57 14 03 17 80 47 85 94 49 89 55 10 37 19 50 20 37
18 95 93 40 45 43 04 56 17 03 34 54 83 91 69 02 90 72
Table de la fonction de rpartion de la variable normale centre rduite
u 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6143
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7290 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9270 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9779 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
u 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,8 4,0 4,5
(u) 0,998 65 0,999 04 0,999 31 0,999 52 0,999 66 0,999 76 0,999 841 0,999 928 0,999 968 0,999 997
La table donne les valeurs de (u) pour u positif. Lorsque u est ngatif,
il faut prendre le complment 1 de la valeur lue dans la table : ( u) = 1 (u)