Vous êtes sur la page 1sur 121

STATISTIQUE

Gilles Mauffrey Bureau 5-W2 Tel 7261

OBJECTIFS
L'objectif de ce cours est de permettre aux tudiants d'HEC en Formation Fondamentale de
comprendre les principes de base des mthodes statistiques utilises dans les entreprises et
den apprhender les limites.

La Statistique est une discipline regroupant des techniques et mthodes permettant de


 collecter des donnes
 les organiser pour dcrire et rsumer
 expliquer et modliser leur volution et leur variabilit

Les donnes utiles une entreprise tant de plus en plus nombreuses, il est ncessaire de les
recueillir par des mthodes "fiables", pour pouvoir en tirer des conclusions sur l'ensemble de
la population :
 Sondages
 Infrence statistique : Estimation et Tests

Les traitements statistiques interviennent sous deux formes :


 La structuration des donnes lorsqu'il s'agit de dcrire, en les visualisant ou en les
rsumant, une masse importante de donnes, ceci afin de mieux comprendre un
phnomne tudi; outils de premire approche d'un domaine ou outils de synthse,
ces mthodes sont frquemment utilises en marketing et en sciences humaines.
 La modlisation lorsqu'il s'agit de construire un modle mathmatique d'une ralit
observe; on rencontre frquemment une telle dmarche en Finance, en Production, en
Comptabilit ou en Economie.
L'analyse factorielle, l'analyse des proximits, des prfrences, la typologie correspondent
plus au premier type de mthodes. La rgression multiple, la rgression logistique, la
segmentation, l'analyse discriminante, l'analyse des sries chronologiques correspondent au
second type d'approche statistique. Ces diffrents thmes sont enseigns dans la formation
fondamentale et dans des lectifs plus spcialiss.

CONTENU DU COURS
Les thmes suivants seront traits lors de ce cours
Statistiques descriptive
Concepts de base : population, units statistiques, variables statistiques
Etude d'une variable : Rsums statistiques (tendance centrale, dispersion),
reprsentations graphiques (histogrammes, boites moustaches, courbe Q-Q)
Etude de deux variables : liaison( tude graphique), tableaux croiss, indicateurs de
liaison entre deux variables (covariance, corrlation)
Infrence statistique
Sondage, chantillon
Estimation d'un paramtre : estimation ponctuelle, prcision, estimation par intervalle,
taille d'un chantillon
Test statistiques : les hypothses et les erreurs, tests de comparaison bilatral et
unilatral.
La rgression linaire
Notion de modle statistique
Hypothses du modle de la rgression linaire
Estimation des coefficients
Tests du modle (Fisher global, Student et Fisher partiel)
Construction et validation d'un modle

METHODES PEDAGOGIQUES
La prsentation des diffrentes mthodes s'effectue deux niveaux :
Thorique
Il est important de connatre le modle mathmatique formant l'hypothse de travail. La
diversit des origines des tudiants HEC nous impose de limiter au minimum, et donc
l'essentiel, l'tude des bases mathmatiques des modles. Prcisons cependant que cette
restriction ne nous parat pas tre un handicap l'utilisation des mthodes quantitatives en
gestion. L'objectif du cours tant plus de permettre de futurs gestionnaires de dialoguer avec
des spcialistes que de former des experts.
Pratique
Chaque mthode est illustre par des exercices prpars par les tudiants, nous utiliserons le
logiciel SPSS (Statistical Package for Social Sciences), disponible sur le Campus. Deux
sances de travaux pratiques seront consacres la pratique de ce logiciel. Un cas final sera
remettre par groupe de 5 tudiants au maximum.
Il est recommand aux tudiants d'installer ce logiciel sur leur ordinateur (se renseigner
auprs des Moyens Informatiques du Campus).

CONTROLE DES CONNAISSANCES


Il est organis de la manire suivante :
 Un projet informatique SPSS prparer par groupe de 5 tudiants au plus (Easton
agency 30%)
 Un test final individuel (70%)
Il est ncessaire davoir une moyenne entre la note au projet et la note au test individuel au
moins gale 10/20 pour obtenir la validation du cours.

PROJET STATISTIQUE
Pour le projet SPSS remettre, il est impratif de rdiger un rapport professionnel, tant
au niveau de la forme que du fond. Votre travail doit tre soign et approfondi. Un des
objectifs du cours est lapprentissage du logiciel SPSS. Il est donc obligatoire de
travailler le cas avec ce logiciel.

Site WEB
Les documents du cours et les fichiers de donnes sont disponibles sur le site :
www.hec.fr/mauffrey
la rubrique Statistique.
Table des matires

1. STATISTIQUES DESCRIPTIVES.............................................................................................. 5

1.1. Vocabulaire de la statistique ...................................................................................................... 5


1.2. Collecte donnes Tableau statistique...................................................................................... 6
1.3. Statistiques descriptives d'une variable .................................................................................... 6
1.4. Statistiques descriptives d'un couple de variables ................................................................. 10

2. SONDAGE-ESTIMATION......................................................................................................... 15

2.1. Un exemple. ............................................................................................................................... 15


2.2. Constitution dun chantillon .................................................................................................. 17
2.3. Estimation Estimateur........................................................................................................... 19
2.4. Estimation par intervalle, prcision dun sondage................................................................. 23
2.5. Annexe 1 : La loi de Student .................................................................................................... 31
2.6. Annexe 2 : Intervalle de confiance de la variance.................................................................. 32

3. EXERCICES ESTIMATION ..................................................................................................... 33

3.1. : RadioLook ............................................................................................................................... 33


3.2. La socit ABC .......................................................................................................................... 33
3.3. Une foire au vin ......................................................................................................................... 33
3.4. Une socit dtudes ............................................................................................................. 34
3.5. La socit UVJM ....................................................................................................................... 34
3.6. La socit de contrle et de rgulation (daprs J. Obadia) .................................................. 35
3.7. La socit de contrle et de rgulation Deuxime partie .................................................... 37

4. TESTS D'HYPOTHESE .......................................................................................................... 39

4.1. Un exemple ................................................................................................................................ 39


4.2. Gnralits ................................................................................................................................. 39
4.3. Comparaison d'un pourcentage un standard ...................................................................... 40
4.4. Application notre exemple..................................................................................................... 46
4.5. Comparaison d'une moyenne un standard .......................................................................... 47
4.6. Comparaison de deux pourcentages........................................................................................ 51

5. EXERCICES SUR LES TESTS D'HYPOTHESE.................................................................... 57

5.1. Taux de phosphate .................................................................................................................... 57


5.2. AntiSmoke ................................................................................................................................. 57
5.3. Le groupe de presse AES.......................................................................................................... 58
5.4. Contrle de qualit.................................................................................................................... 58
5.5. Rola-Cola contre Moka-Cola ................................................................................................... 58
5.6. La socit SVC........................................................................................................................... 59
5.7. Tlmara .................................................................................................................................... 60
5.8. La socit Votre Sant .............................................................................................................. 61
5.9. La socit Bricoplus .................................................................................................................. 62
5.10. Une enqute de satisfaction .................................................................................................... 62
5.11. Exercice 11 : La Socit Sogec (d'aprs J. Obadia) ............................................................. 63
6. ANNEXE : TEST DU KHI-DEUX ............................................................................................. 65

6.1. Formalisation du problme ...................................................................................................... 65


6.2. Tableaux croiss ou de contingence (observ et thorique)................................................... 65
6.3. Distance du Chi2 Test ............................................................................................................ 66
6.4. Utilisation de SPSS.................................................................................................................... 68
6.5. Exercice : La socit LOCVIDEO (fichier Videos.sav) ......................................................... 69

7. LA REGRESSION LINEAIRE .................................................................................................. 70

7.1. Un exemple (fichier Pubradio.sav) .......................................................................................... 70


7.2. La notion de modle en statistique .......................................................................................... 70
7.3. Le modle de rgression linaire.............................................................................................. 73
7.4. Utilisation de SPSS pour la rgression.................................................................................... 83
7.5. Pratique de la rgression - Analyse d'un listing de rgression Choix d'un modle.......... 85
7.6. Les variables qualitatives dans le modle de rgression........................................................ 89
7.7. La rgression pas pas............................................................................................................. 94

8. EXERCICES DE REGRESSION LINEAIRE........................................................................ 100

8.1. Rgression simple : Prix des forfaits de ski (Forfait.sav) .................................................... 100
8.2. L'entreprise Elec (Elec.sav).................................................................................................... 103
8.3. Les stylos Runild (Runild.sav) ............................................................................................... 112
8.4. Produits frais (fichier pfrais.xls)............................................................................................ 120
Statistiques descriptives

1. STATISTIQUES DESCRIPTIVES

Nous prsenterons ici le vocabulaire de la statistique et les lments de base de la statistique


descriptive une et deux variables.

1.1.Vocabulaire de la statistique

Population
La population P est l'ensemble des lments (objets, personnes .) satisfaisant une
dfinition commune auxquels on s'intresse au cours d'une tude.
Chaque lment de la population est appel unit statistique ou individu.
On notera N la taille de cette population (cette taille n'est pas toujours connue avec
exactitude)
Exemples :
1 Ensemble des Franais se connectant au moins une heure par jour Internet.
2 Ensemble des comptes clients d'une entreprise
3 Ensemble des consommateurs achetant des produits frais en hypermarch.

Variables
Une variable statistique X est une application qui chaque individu ou unit statistique
associe une valeur prise dans un ensemble E . Cette valeur peut tre numrique ou non.
Suivant la nature de l'ensemble E , on distingue trois types de variables statistiques :
Les variables quantitatives associes une caractristique mesurable de la population,
dans ce cas l'ensemble E est un sous ensemble de l'ensemble des nombre rels, par
exemple l'ge, le montant d'une facture, le temps de connexion etc
Les variables qualitatives qui permettent d'organiser la population en classe, par
exemple la profession, le fait d'acheter sur internet, la marque du produit achet, la
satisfaction du consommateur, les tranches d'ge etc On fait parfois la distinction
entre les variables qualitatives nominales o les classes sont sans hirarchie (CSP,
dpartement,) et les variables qualitatives ordinales pour les quelles les classes
adjacentes peuvent tre regroupes (tranches d'ge, degr de satisfaction..).
La valeur prise par la variable X pour l'individu i sera note x i .

Paramtre
Un paramtre est une valeur numrique associe une population P et une variable X . La
valeur de ce paramtre est calcule partir des N valeurs prises par la variable X :
= f ( x1 , x 2 ,K , x N )
Pour connatre la valeur d'un paramtre, il faut donc connaitre chacune des valeurs prises par
la variable.
Exemples :
Temps moyen pass sur les sites de recherche

Page 5
Statistiques descriptives

Pourcentage d'internautes faisant des achats sur Internet


Moyenne et cart-type des comptes clients
Coefficients de corrlation entre deux variables
Coefficient d'une variable dans une quation de rgression.
Remarque : Dans ces deux derniers cas la variable X est en fait un couple ou un n-uple de
variables.

1.2.Collecte donnes Tableau statistique


Les donnes peuvent tre internes l'entreprise ou externes. Il est quelque fois possible
d'obtenir les informations sur l'ensemble de la population partir d'une base de donnes, par
exemple.
La plupart du temps, il ne sera pas possible, pour des raisons de cot si la population est trs
nombreuse ou simplement de connaissance parfaite de la population, de faire un recueil
exhaustif de l'ensemble des valeurs prises par les variables que l'on veut tudier. On
recueillera alors des donnes soit par sondage soit sur un panel. On traitera donc alors une
sous population appel chantillon.
Dans la suite nous considrerons la variable X restreinte la sous population.
Il faudra ensuite organiser et traiter ces donnes. Pour cela les donnes sont regroupes dans
un tableau statistique o les colonnes reprsentent les variables et les lignes les individus,
l'intersection d'une ligne i et d'une colonne j donnant la valeur de la variable j pour
l'individu i . Exemple de tableau utilis sous SPSS :

1.3.Statistiques descriptives d'une variable


Pour une variable, les statistiques descriptives se composent de rsums numriques et de
graphiques, nous ne donnerons ici que les lments essentiels.

Page 6
Statistiques descriptives

Variable qualitative
Une variable qualitative partageant la population (ou la sous population) en classes, le rsum
que l'on va obtenir est constitu de l'effectif ce ces classes et de leur pourcentage par rapport
la population (ou sous population) totale.
Dans le cas d'une variable qualitative ordinale, les pourcentages cumuls peuvent avoir un
sens si l'on regroupe des catgories voisines (par exemple tranches d'ges ou degr de
satisfaction).
Voici un exemple de rsum fourni par SPSS, pour la variable qualitative Marque du fichier
Pfrais.sav :

MARQUE

Pourcentage Pourcentage
Effectifs Pourcentage valide cumul

Valide Marque 1 9 18,4 18,4 18,4

Marque 2 18 36,7 36,7 55,1

Marque 3 10 20,4 20,4 75,5

Marque 4 12 24,5 24,5 100,0

Total 49 100,0 100,0


La colonne pourcentage valide est le pourcentage calcul sur les individus ayant renseign
cette variable.
La reprsentation associe est le diagramme en btons, qui se distingue de l'histogramme par
le fait que les rectangles reprsentant les effectifs ou les pourcentages sont disjoints :

Ici apparait dans chaque rectangle l'effectif de la classe.

Variable quantitative
Le rsum pour une variable qualitative est plus complet, car il doit ventuellement donner
des indications sur la loi de probabilit sous-jacente ces donnes, en statistique en effet de

Page 7
Statistiques descriptives

nombreuses mthodes supposent des hypothses sur cette loi. Nous ne verrons ici qu'une
partie de ces indicateurs. Nous noterons N la taille de la population ou sous population et X
la variable quantitative.

Indicateur de position centrale


Deux indicateurs sont particulirement utiliss :
1 N
La moyenne : = x i , cette valeur est celle qui est associe la mtrique
N i =1
euclidienne habituelle. La moyenne est la valeur la plus proche de toutes les
observations pour cette mtrique, c'est--dire que pour cette valeur la fonction :
N
d 2 ( y) = (xi y)
2
est minimum. Le principal dfaut de cet indicateur, comme il
i =1
est facile de le voir, est sa sensibilit aux valeurs extrmes, une erreur de saisie peut la
modifier profondment.
La mdiane m est la valeur qui partage l'ensemble des donnes en deux parties
gales : 50% des observations sont infrieures ou gales cette valeur m et 50% sont
suprieures m . Cette valeur est associ la mtrique dfinie par la valeur absolue,

c'est cette valeur m qui minimise la fonction ( y ) = x i y . Cette valeur est

beaucoup moins sensible aux valeurs extrmes.

Indicateurs de dispersion
L'indicateur de dispersion le plus simple est donn par la valeur la plus petite et la valeur la
plus grande. La diffrence entre ces deux valeurs s'appelle l'tendue :
etendue = max
min .
Les autres indicateurs de dispersion sont lis aux indicateurs de position centrale.
A la moyenne est associ l'cart-type qui est la racine carr de la distance moyenne au
carr, appele variance :
1 N
V = ( x i )2 et l' cart - type = V
N i =1
A la mdiane on pourrait associer de faon "naturelle" l'cart absolu moyen dfini par
1 N
e= xi m
N i =1
mais on prfre utiliser les quartiles, dciles ou centiles qui partagent respectivement
les donnes en quatre, dix ou cent parties ayant le mme nombre d'lments.
L'intervalle interquartile est la diffrence entre le premier et le troisime quartile.

Page 8
Statistiques descriptives

Voici un exemple (fichier Forfait.sav) de rsum fourni par SPSS (l'tendue tant nomme
plage ou intervalle) :
Statistiques
Km
N Valide 42
Manquante 0
Moyenne 128,10
Mdiane 120,00
Ecart-type 54,134
Variance 2930,479
Intervalle 233
Minimum 32
Maximum 265
Centiles 25 89,50
50 120,00
75 152,50
Les reprsentations associes aux variables qualitatives permettent de visualiser ces rsums
et de se faire une ide de la distribution thorique que l'on pourrait associer cette variable,
dans les cas les plus frquents on cherchera voir si cette distribution peut suivre une loi
normale. En dehors des histogrammes bien connus, nous prsenterons ici les boites
moustaches (Box Plot) et les diagrammes Q-Q (Q-Q Plot).
Boite moustaches
Une boite moustache est une reprsentation associe au rsum mdiane-quartiles, la boite
(rectangle) reprsente le premier et le troisime quartile avec un trait pour la mdiane, les
moustaches (traits verticaux) reprsentent (aux donnes exceptionnelles prs outliers) le
minimum et le maximum. Ces moustaches sont limites 1,5 fois la distance interquartile.

Page 9
Statistiques descriptives

Ici deux stations ont un domaine skiable "anormalement" tendu, mais pour le reste la boite
est assez symtrique et l'hypothse de normalit pour la lois sous jacente ne parat pas
absurde.
Diagramme Q-Q
L'ide d'un diagramme Q-Q est de comparer les percentiles des observations avec les
percentiles d'une loi thorique. Nous ne traiterons que le cas de la loi normale centre rduite,
le cas gnral tant facilement comprhensible.
Dans un premier temps les donnes sont rduites, c'est--dire que l'on soustrait la moyenne
aux observations et on divise par l'cart-type, la nouvelle variable est donc dfinie par :
X
X1 =

Les N donnes sont ensuite ordonnes par ordre croissant, la valeur de la premire
0 ,5
observation est alors compare au percentile de la loi normale centre rduite, la seconde
N
1,5 N 0 ,5
au percentile etc.. la dernire au percentile . On reprsente alors graphique cette
N N
comparaison en mettant en abscisse les valeurs observes et en ordonnes les valeurs
thoriques. Si l'ajustement la loi normale tait parfait les points seraient aligns sur la
diagonale.
Sur notre exemple on obtient le graphique suivant :

Figure 1 : Toutes les donnes Figure 2 : Sans Serre Chevalier et Samoens

L'ajustement est correct, bien que l'on retrouve les valeurs extrmes en queue de distribution
(Figure 1) mais bien meilleurs aprs limination des valeurs loignes (Figure 2)

1.4.Statistiques descriptives d'un couple de variables


L'objectif de l'tude descriptive d'un couple de variables statistiques est de mettre en vidence
une relation ventuelle entre ces deux variables.

Page 10
Statistiques descriptives

Variables quantitatives
L'indicateur de liaison entre deux variables quantitative est la corrlation. Cet indicateur est
calcul partir de la covariance :
N
cov ( X , Y ) = (x X )( y i Y )
1
i
N i =1

o X et Y dsignent respectivement les moyennes des variables X et Y . Pour se


dbarrasser des effets d'chelle, on divise par les cart-type des variables ( ce qui revient
prendre la covariance des variables centres rduites) :
N

(x i X )( y i Y )
(X ,Y ) =
1 i =1

N X Y
Cette corrlation est toujours comprise entre -1 et 1. La liaison entre les variables est d'autant
plus forte que la valeur absolue est proche de 1.
Une corrlation positive indique une variation moyenne dans le mme sens des deux
variables, une corrlation ngative une variation moyenne en sens inverse.
Remarque : cette corrlation n'est un indicateur que d'une liaison linaire entre les variables
(cf infra). Une corrlation nulle n'indique pas une absence de liaison entre les variables.
La reprsentation graphique associe est le diagramme cartsien :

Corrlation = 0,756 Corrlation = 0

Une variable qualitative et une variable quantitative


Ici on donnera pour chaque modalit de la variable qualitative, les indicateurs de tendance
centrale et de dispersion de la variable quantitative restreinte cette modalit.
Par exemple (fichier Pib.sav) pour les pays de l'Union Europenne, nous avons relever le PIB
en $, et la priode d'adhsion avec les modalits :
1 - adhsion avant 1980
2 adhsion entre 1980 et 2000
3 adhsion aprs 2000

Page 11
Statistiques descriptives

Le rsum donn par SPSS (aprs) simplification est le suivant :

Descriptives
Priode Statistique Erreur standard
PIB en $ 1 Moyenne 38133,33 4411,160
Mdiane 32100,00
Variance 1,751E8
Ecart-type 13233,480
Intervalle interquartile 9300
2 Moyenne 28600,00 2409,841
Mdiane 29800,00
Variance 3,484E7
Ecart-type 5902,881
Intervalle interquartile 10850
3 Moyenne 17600,00 1352,495
Mdiane 17850,00
Variance 2,195E7
Ecart-type 4685,180
Intervalle interquartile 7200

On constate que les moyennes et mdianes sont trs diffrentes pour la priode postrieure
2000, ce que l'on peut vrifier en demandant un graphique de bote moustaches :

Page 12
Statistiques descriptives

Variables qualitatives
On testera ici l'"indpendance" de deux variables qualitatives. Comme en probabilit, mais ici
les variables statistiques ne sont pas des variables alatoires, on dira que deux variables sont
indpendantes si les rpartitions de la variables X selon les modalit de la variable Y sont
les mmes quelque soit la modalit de X prise en compte (et bien sur rciproquement si les
rpartition de la variable Y selon les modalits de la variable X sont les mmes quelque soit
la modalit de Y prise en compte). Comme les effectifs de chaque modalit ne sont pas
identiques pour que cette dfinition est un sens il faut raisonner en frquence, on doit donc
avoir en cas d'indpendance (en notant f i , j la frquence dans la population de la prsence
simultane des modalits i et j :
Ni N j
f i , j = f i f j soit en effectifs N i , j =
N
Comme rsum numrique on donnera le tableau crois, en mettant en ligne les modalits de
X et en colonne les modalits de Y, chaque cellule du tableau contenant l'effectif rel
(constat) ainsi que l'effectif calcul en cas d'indpendance not effectif thorique.
Exemple (fichier pfrais.sav) relation entre marque et rgion :

Tableau crois MARQUE * REGION

REGION

Nord Est Centre Ouest Sud Total

MARQUE Marque 1 Effectif 3 0 2 1 3 9

Effectif thorique 1,7 1,5 1,7 2,4 1,8 9,0

Marque 2 Effectif 2 4 4 2 6 18

Effectif thorique 3,3 2,9 3,3 4,8 3,7 18,0

Marque 3 Effectif 2 2 1 4 1 10

Effectif thorique 1,8 1,6 1,8 2,7 2,0 10,0

Marque 4 Effectif 2 2 2 6 0 12

Effectif thorique 2,2 2,0 2,2 3,2 2,4 12,0

Total Effectif 9 8 9 13 10 49

Effectif thorique 9,0 8,0 9,0 13,0 10,0 49,0

Remarquons qu'un tel tableau est difficile interprter puisque les carts se rpercutent sur
plusieurs cellules (cf test du Khi-2).

Page 13
Statistiques descriptives

On peut associer un tel tableau un diagramme en btons en mettant les pourcentages en


ordonne, en cas d'indpendance stricte tous les blocs seront alors identiques. Avec l'exemple
prcdent on obtient le graphique suivant :

Page 14
Estimation

2. SONDAGE-ESTIMATION

2.1.Un exemple.
Monsieur Martin, chef de produit dune voiture de moyenne gamme, lance depuis trois ans,
veut savoir si la promotion quil a mis en place pour les rvisions annuelles a eu un impact sur
les clients.
Dordinaire 60% des clients font leurs rvisions annuelles chez les concessionnaires, il
aimerait avoir une ide de la proportion des utilisateurs du modle qui ont fait leur rvision
chez un garagiste du rseau ; malheureusement son budget ne lui permet de faire des
interviews de tous les clients ayant achet un vhicule depuis plus dun an (au nombre de
42 612 pour les deux annes) et il ne pourra demander un institut de marketing tlphonique
que dinterroger 500 personnes.
Monsieur Martin se demande comment va procder linstitut et quelle est la fiabilit du
rsultat obtenu, non pas sur les 500 personnes mais sur lensemble des clients. Il aimerait par
la mme occasion savoir quel kilomtrage parcourt environ un client type par an pour pouvoir
affiner son offre.
Posons le problme de Monsieur Martin en termes statistiques. Monsieur Martin sintresse
une population prcise, les personnes ayant achet une voiture du modle donn depuis plus
dun an, et layant gard ; en fait pour le kilomtrage la population nest pas la mme, cest
seulement les clients ayant cette voiture depuis plus dun an. Nous noterons P cette
population.
Sur cette population deux variables statistiques concernent Monsieur Martin, une variable
qualitative savoir le lieu o le client a fait sa dernire rvision variable que nous noterons X,
une variable quantitative le nombre de kilomtres parcourus en 1 an que nous noterons Y.

Prsentation mathmatique
Nous noterons N la taille de la population.
La variable qualitative X, tant deux modalits (rvision chez le concessionnaire ou non),
peut tre considre comme une variable valeurs dans {0 ;1}, 1 signifiant que la rvision est
faite chez le concessionnaire :
X {0;1}
P
Le paramtre qui nous intresse, le pourcentage de clients faisant leur rvision chez le
concessionnaire, peut sexprimer facilement en fonction de cette variable :
N

X (i )
1
p=
N i =1

cest en effet la moyenne de la variable X sur lensemble de la population, il suffit en effet de


compter les clients qui vont chez un concessionnaire, cest dire ceux pour lesquels X prend
la valeur 1, et de diviser par la taille de la population.
Pour la variable Y qui est numrique nous pouvons la considrer comme une application de la
population P dans lensemble des nombres rels R
P
Y R

Page 15
Estimation

Les paramtres qui peuvent tre intressants sur cette variable sont la moyenne et la variance
(ou sa racine carre lcart type) de cette variable :
N
= 1 Y (i )
N i =1

N
= 1 (Y (i ) )2
N i =1

Lcart type donne une indication sur la dispersion des valeurs prises par la variable Y, mais
jouera aussi un rle sur les moyennes prises sur les chantillons, comme nous le verrons plus
loin.

Paramtres de la population.
Dans le fichier Martin.sav, vous trouverez le tableau statistique relatif ces populations et
ces variables, nous connaissons ces donnes, mais malheureusement pour lui Monsieur Martin
ny a pas accs.
Ce fichier contient 42540 donnes, la premire colonne contient le nombre de kilomtre
parcouru dans lanne, la deuxime colonne le fait que le client aie fait sa rvision chez un
concessionnaire ou non.
Nous pouvons obtenir des rsultats exacts sur la population (analyse descriptive de SPSS)
pour les deux variables qui nous intressent (mais Monsieur Martin lui ne les aura pas) :

Statistiques descriptives

N Minimum Maximum Moyenne Ecart type

Kms 42540 8600 41600 25005,16 3978,211

Revision 42540 0 1 ,76 ,428

N valide (listwise) 42540

Remarquons tout dabord que Monsieur Martin fait une premire erreur, il croit connatre le
nombre des clients, mais en fait un certain nombre dentre eux ont revendu ou cass leur
voiture et le fichier client ne peut pas tre rellement jour ; cela peut le conduire sous
estimer le cot de son enqute car pour obtenir 500 rponses (mme en supposant que toute
personne interroge veut bien rpondre), il faudra contacter plus de 500 personnes. Cest pour
cela que le fichier de donnes fourni ne contient que 42540 clients (cellule nomme Taille).
Les donnes relatives au kilomtrage se trouvent dans la premire colonne, celles relatives
la rvision dans la deuxime, et pour les donnes concernant la rvision, nous avons not 1 le
fait de faire la rvision chez un concessionnaire, 0 sinon ; avec des tiquettes affichant
respectivement Oui ou Non.

Page 16
Estimation

2.2.Constitution dun chantillon


Pour quun chantillon puisse nous donner un rsultat fiable, il semble naturel quil soit
reprsentatif de la population, cest dire quil soit une image fidle de la diversit des
individus constituant la population.
Pour atteindre cet objectif il est possible de procder de diffrentes faons, nous ne parlerons
ici que de deux mthodes les plus frquemment utiliss, les sondages par quotas et les
sondages alatoires, nous illustrerons ce dernier concept avec le fichier de donnes.
La mthode de sondage par quotas, mthode utilise par exemple dans les enqutes dopinion,
repose sur une constitution raisonne de lchantillon. En partant du fait que les variables qui
vont tre analyses dpendent dautres caractres connus de la population (par exemple la
catgorie socioprofessionnelle) on tchera de respecter dans lchantillon les mmes
proportions de chacune des catgories dans la population entire. Ensuite on chargera chaque
enquteur dinterroger un nombre donn dindividu de chaque catgorie, lavantage de cette
mthode est quelle est moins coteuse que la mthode alatoire indique ci-dessous,
linconvnient est que lon ne connat pas exactement la prcision des rsultats obtenus. On
peut cependant utiliser les rsultats des sondages alatoires pour avoir une ide de la
prcision. Remarquons quil ne faut pas confondre cette mthode avec la mthode des
sondages alatoires stratifis, qui permet sous certaines conditions de diminuer de faon
significative la taille des chantillons pour une prcision donne ; cette dernire mthode est
une mthode alatoire et permet dvaluer la prcision des rsultats.
La mthode de sondage alatoire permet de constituer des chantillons qui ont une forte
probabilit de reconstituer la diversit de la population originelle. Pour cela on procde un
tirage alatoire uniforme dans la population initiale, cest dire que chaque individu de la
population a la mme probabilit dtre le kime lment de lchantillon, cest dire que
lon transforme la population statistique en un ensemble probabilis, les variables statistiques
devenant alors des variables alatoires ; nous renvoyons le lecteur intress lannexe pour la
suite de lillustration mathmatique du sondage alatoire simple. On peut alors procder soit
par tirage sans remise dans la population soit par tirage avec remise, nous supposerons
toujours que le tirage effectu est avec remise, ce qui nest pas trop contraignant si la taille de
lchantillon est faible par rapport la taille de la population, ce qui est gnralement le cas.
Remarquons ds maintenant quil est malheureusement possible de tomber sur des
chantillons aberrants et que donc la notion de prcision sera srement lie llimination de
ces chantillons, donc un pari sur le fait de ne pas avoir tir ce type dchantillon.
Pour pouvoir raliser ce type de sondage, il est ncessaire de connatre explicitement toute la
population, ce qui nest pas toujours le cas. On numrote les individus de la population de 1
N, et on effectue, grce des nombres alatoires, un tirage au hasard dans cet intervalle ; on
va ensuite interroger (dans certains cas consulter, factures, stocks) les individus tirs au
hasard. Quand les individus ont des localisations trs rparties gographiquement, il est
possible, pour diminuer les cots du sondage de procder un tirage hirarchis (choix dune
commune proportionnellement son nombre dhabitants, puis choix dun quartier etc..).
Lchantillon ainsi tir sappelle lchantillon individu, en lui-mme cet chantillon na que
peu dintrt, ce sont les valeurs prises par les variables tudies qui nous intresse, cest ce
que lon appelle lchantillon image.

Page 17
Estimation

Prsentation mathmatique
Le tirage alatoire simple consiste, tout dabord, munir la population P dune loi de
probabilit uniforme, cest dire que chaque individu a la mme probabilit 1 dtre tir.
N
Les deux variables statistiques deviennent alors des variables alatoires, prcisons les deux
cas que nous trouvons ici.
La variable qualitative X, ne prend que deux valeurs 0 et 1, la valeur 1 ne peut tre prise que
par les clients allant faire leur rvision chez le concessionnaire, cest dire que cette valeur
une probabilit p dtre tire, on a donc faire une variable de Bernouilli de paramtre p,
dont lesprance est p et lcart-type p(1 p ) .
La variable quantitative Y, prend un grand nombre de valeurs distinctes, on peut la considrer
comme une variable alatoire continue, trs frquemment on fera lhypothse que cette
variable quantitative peut tre considre comme une approximation dune variable suivant
une loi normale de paramtre et : N(, ) .
Dans le cas de tirage avec remise, un chantillon individu est un lment de Pn, un chantillon
image pour les valeurs de la rvision est un lment de {0;1}n , pour le kilomtrage un lment

de R n (on pourrait donc considrer lchantillon image comme un lment de {0;1}nR n ). En

appelant X1 (respectivement Y1 ) la valeur prise par X (respectivement Y) pour le premier


individu de lchantillon, et de mme pour les autres individus de lchantillon, on peut mettre
en vidence un n_uple de variables alatoires indpendantes qui permettent de passer de
lchantillon individu lchantillon image :
(X , X ,..., X )
P n 1
2
n
{0;1}n ou

Pn
(Y Y ,...,Y )

1, 2
R n
n

Illustration de cette procdure avec SPSS.


Nous conseillons au lecteur de refaire lui-mme le travail.
Avec SPSS nous allons construire de faon alatoire un chantillon image de taille 500.
Construction de lchantillon image
Dans le menu donnes, slectionner des observations, nous choisissons chantillonage
alatoire et une taille de 500 sur lensemble des donnes :

Page 18
Estimation

Il apparait une variable filter_$ qui indique si lobservation est choisie dans lchantillon
(valeur 1) ou non. Les observations cartes sont barres. On obtient ainsi 500
observations qui pourront tre utilises pour lanalyse.

2.3.Estimation Estimateur

Gnralits
Une fois que notre chantillon est obtenu, il nous faut prvoir les rsultats sur lensemble de la
population, cest dire extrapoler des valeurs calcules sur lchantillon comme valeurs des
paramtres sur la population. Bien videmment, cette valeur calcule sur lchantillon va
dpendre de lchantillon que nous aurons tir, nous appellerons estimation (ou estimation
ponctuelle) cette valeur. Cette estimation est donc le rsultat de lapplication dune formule,
dune fonction sur lchantillon, cette fonction sappelle lestimateur.

Aspects mathmatiques
Soit donc X une variable statistique dfinie sur une population P (ici soit la variable X
caractristique de la rvision, soit la variable Y lie au kilomtrage), soit un paramtre de
cette variable. On appelle estimateur du paramtre sur un chantillon de taille n, une
application note n :

P n
n R

Page 19
Estimation

et on appellera estimation la valeur prise par cette fonction sur un chantillon particulier. Dun
point de vue mathmatique, lestimation na en soi que peu dintrt, alors que pour
lutilisateur cest le plus important ; mais ce sont les proprits de lestimateur qui sont
intressantes et qui vont garantir la fiabilit de lestimation.
Les deux proprits intressantes pour un estimateur sont :
o Etre non biais, cest dire que les valeurs prises par lestimation se rpartissent
autour de la vraie valeur du paramtre, et ne sont pas systmatiquement trop
( )
grandes ou trop petites, mathmatiquement ceci sexprimera par E n = , pour
tout n.
o Etre consistant, ceci signifie que plus la taille de lchantillon est grande, meilleur
est lestimation, cest dire quelle a moins de chances dtre loigne de la
vraie valeur, ceci se traduit mathmatiquement par le fait que la variance de
lestimateur diminue quand la taille n de lchantillon augmente, de faon plus
prcise on dira que lestimateur est convergent (dans le cas dun estimateur non
biais) si lim Var(n)=0 .
n

Estimation de la moyenne ou dune proportion


Intuitivement, puisque lchantillon est reprsentatif de la population, pour estimer la
moyenne du kilomtrage ou le pourcentage de clients faisant leur rvision chez un
concessionnaire, il suffira de prendre les mmes caractristiques sur lchantillon. Cest dire
que nous prendrons comme estimation du kilomtrage moyen sur la population, la moyenne
du kilomtrage sur lchantillon et comme estimation de la proportion sur la population, la
proportion de clients faisant leur rvision chez un concessionnaire dans lchantillon.
Suivant les conventions statistiques habituelles, nous noterons p lestimation de la proportion
p sur lchantillon de taille n, et nous noterons yn lestimation de la moyenne du kilomtrage
sur ce mme chantillon. Remarquons quil serait plus cohrent de noter xn plutt que
p lestimation de la proportion puisque cest en fait lestimation de la moyenne de la variable
X.

Proprit mathmatique de lestimateur de la moyenne


Nous ne traiterons ici que le cas de la moyenne, puisque comme il vient dtre not la
proportion en est un cas particulier pour une variable indicatrice ( valeur {0 ;1}).
Lestimateur de la moyenne dune variable statistique X sur un chantillon de taille n sera not
( )
X n est dfini en fonction de lchantillon alatoire X1 , X 2,..., X n par :

X + X 2 +...+ X n 1 n
Xn= 1 = Xi
n n i =1

Puisque les variables Xi sont toutes de mme loi et que lesprance mathmatique est linaire,
il vient immdiatement :

( ) n
( )
E X n = 1 E X i = E( X )
n i =1

Page 20
Estimation

ce qui signifie que lestimateur de la moyenne est non biais.


Dautre part comme les variables Xi sont de plus indpendantes, nous avons :

( ) n
( )
Var X n = 12 Var X i =
n i =1
nVar(X) Var(X)
n2
=
n

ce qui montre que lestimateur de la moyenne est convergent, en augmentant la taille de


lchantillon, les estimations sont gnralement plus proches de la vraie valeur ; nous
prciserons plus loin cette notion de "gnralement plus proche".

Estimation de la variance
Il peut sembler naturel destimer la variance de la population par la variance de lchantillon ;
cependant comme dans ce cas on ne centrerait pas les observations par rapport la vraie
moyenne (celle de la population) mais par rapport la moyenne de lchantillon, on aura
certainement un biais, on aura mme certainement tendance sous estimer la valeur relle de
la variance de la population. Il est facile de dmontrer (voir ci-dessous) quun estimateur non
biais de la variance est donn par la formule :

( )
n 2

n1
Sn2 = 1 Xi Xn
i =1
cest dire quau lieu de diviser la somme des carrs par n, taille de lchantillon, il faut
diviser cette somme par n-1. Lestimation est alors :

( )
n 2

n1
o Pour une variable quantitative sn2 = 1 xi xn
i =1

o Pour une variable indicatrice, comme dans le cas de lestimation de la proportion


de clients faisant leur rvision chez un concessionnaire sn2 = n p (1 p )
n1
Et pour lcart type on prendra comme estimateur, la racine carr de lestimateur de la
variance ; il faut noter que cet estimateur est biais, mais contrairement la variance on ne
sait pas dterminer pas son biais et donc le "dbiaiser". Il est cependant asymptotiquement
sans biais, ce qui signifie que le biais tend vers 0, donc diminue quand la taille de
lchantillon augmente.

Proprits mathmatiques de lestimateur de la Variance


Partant de l"estimateur naturel" de la variance, cest dire la variance de lchantillon, nous
allons montrer que cest un estimateur biais, mais que lon peut calculer ce biais.

( )
n 2
Soit donc Vn = 1 X i X n la variable alatoire qui permet de calculer la variance de
n i =1
lchantillon.
Comme les variables X i et X n ont mme moyenne , nous pouvons crire que


( 2
) ( (2
) ( ) ( )
E X i X n = E X i X n =Var X i +Var X n 2Cov X i , X n

( )

Page 21
Estimation

( ) 1
En notant 2 la variance commune des X i nous avons vu que Var X n = 2 , il ne nous
n
reste plus qu calculer la covariance de X i et X n . Comme X i et X j sont indpendants pour
1
i j , cette covariance est en fait gale la covariance de X i et X i , cest dire 2 . On en
n n
dduit donc :

((
E Xi Xn ) )=
2 2 1
n
2
n
1
n
1 n 1 n 1 2
( )
+ 2 2 = 1 2 d' o E Vn = 1 2 =
n i =1 n n

Lestimateur Vn est donc biais, puisque son esprance nest pas gale au paramtre 2 , de
plus comme n1 est strictement infrieur 1, cet estimateur sous estime la vraie variance. En
n
revanche, il est facile dobtenir un estimateur non biais en prenant :

( )
n 2

n1
Sn2 = n Vn = 1 Xi X n
n1 i =1

On peut de plus monter que cet estimateur est convergent ( condition que les moments
dordre infrieur ou gal 4 existent), mais cette dmonstration beaucoup plus lourde est
laisse au lecteur.

Illustration du comportement de lestimateur de la moyenne.

Nous avons tir des chantillons de taille 100, 200, 300, 400 et 500. Pour chacun de ces
chantillons, vous trouverez dans le tableau ci-dessous : la moyenne estime, lcart-type
estim, lestimation de lcart-type de lestimateur de la moyenne :

Page 22
Estimation

Taille Statistiques descriptives


100
N Moyenne Ecart type

Statistique Statistique Erreur std Statistique

Kms 100 25162,00 435,648 4356,483

Revision 100 ,80 ,040 ,402

N valide (listwise) 100


200
N Moyenne Ecart type

Statistique Statistique Erreur std Statistique

Kms 200 24996,50 285,776 4041,486

Revision 200 ,79 ,029 ,408

N valide (listwise) 200


300
N Moyenne Ecart type

Statistique Statistique Erreur std Statistique

Kms 300 25063,67 209,248 3624,274

Revision 300 ,78 ,024 ,417

N valide (listwise) 300


400
N Moyenne Ecart type

Statistique Statistique Erreur std Statistique

Kms 400 25015,50 188,294 3765,875

Revision 400 ,79 ,020 ,406

N valide (listwise) 400


500
N Moyenne Ecart type

Statistique Statistique Erreur std Statistique

Kms 500 24964,60 178,842 3999,019

Revision 500 ,77 ,019 ,421

N valide (listwise) 500


A la lecture de ce tableau on constate que si les valeurs ponctuelles de la moyenne et de
lcart-type estims sur les chantillons ne "samliorent pas", en revanche l'cart-type de
l'estimateur de la moyenne diminue, c'est dire que sa prcision augmente.

2.4.Estimation par intervalle, prcision dun sondage


Les estimations obtenues pour un paramtre partir dun chantillon de mme taille sont trs
variables, il nous faut donc associer ces estimations une prcision qui nous permettra dans
un certain sens dencadrer la vraie valeur du paramtre. Cette notion de prcision est plus
dlicate que celle des mesures en physique, dire quun pain pse 400g 5g prs, cela signifie
que le poids du pain est compris de faon certaine entre 395 et 405g. Il nest pas possible en

Page 23
Estimation

statistique dobtenir cette mme notion, nous allons donc introduire une autre notion de
prcision, associe un degr de confiance.
Nous nous intresserons ici quau cas de la moyenne ou du pourcentage, mais ce que nous
dirons est gnralisable dautres paramtres.
Tout dabord, une mauvaise nouvelle : dans la mesure ou nous effectuons des tirages avec
remise, nous ne pouvons pas esprer diminuer ltendue des valeurs obtenues, en effet il est
toujours thoriquement possible de tirer un chantillon constitu n fois de lindividu
prsentant la plus petite (ou la plus grande valeur), il donc inutile desprer pouvoir majorer
de faon certaine lerreur commise lors dun sondage. En revanche dans la mesure, o lcart
type de lestimateur tend vers 0 quand la taille de lchantillon augmente, les valeurs extrmes
vont avoir des probabilits de plus en plus faibles dapparatre, et donc ne seront observes
que dans des chantillons de plus en plus exceptionnels. Cest cette notion que nous allons
formaliser en tudiant la loi de lestimateur du pourcentage et de la moyenne.

Gnralits : Prcision de lestimation au degr de confiance 1-


On appellera intervalle de lestimation au degr de confiance 1- ( tant un nombre plus
petit que 1), lintervalle dans lequel se trouvent les valeurs lestimation, quand on a dcid de
ngliger les chantillons les plus extrmes ayant la probabilit dapparatre.
Cest dire que lon fait un pari, on pense que lon aura la chance de ne pas tirer un de ces
chantillons extrmes, et 1- reprsente la probabilit que lon a de gagner ce pari ;
reprsente le risque derreur (ou la malchance). Notons bien que nous ne saurons jamais si oui
ou non ce pari a t gagn.
Formellement, nous pouvons crire : la prcision e au degr de confiance 1-a, est dfinie par :
( )
Pr X n =1

X n tant lestimateur du paramtre . On voit donc sur cette formule quil nous faut
connatre la loi de lestimateur X n pour pouvoir dterminer en fonction de et de n.
Quelques remarques gnrales :
 Pour n fix, quand augmente diminue, il faudra donc faire un arbitrage (pour un
cot donn) entre la prcision que lon dsire et le risque que lon a de perdre son pari.
 En se fixant et , on peut dterminer une taille dchantillon convenable permettant
datteindre une prcision voulue avec un risque donn, puisque la variance de X n tend
vers 0. Toutefois, il faudra dans ce cas arbitrer avec le budget disponible.
 Une fois la taille de lchantillon fixe, la formule ci-dessus peut tre inverse et nous
obtenons, un intervalle destimation qui est un intervalle alatoire [X n ; X n + ] , dans
le quel la vraie valeur du paramtre a une probabilit 1 de se trouver. En
remplaant la variable alatoire par sa valeur observe sur mchantillon rellement
tir, on dira souvent, par un raccourci un peu brutal, quil y a une probabilit 1 que
le paramtre soit dans lintervalle [xn ; xn + ] , ce qui na aucun sens puis que toutes
les valeurs sont certaines et que lon na plus alors de loi de probabilit.

Page 24
Estimation

Cas du pourcentage

Loi de probabilit de X n
La loi de X sur la population initiale est, comme nous lavons vu (0), une loi de Bernouilli de
paramtre p.
Il est possible dans ce cas de dterminer exactement la loi de lestimateur du pourcentage,
puisque nous avons faire la moyenne de n variables indpendantes de Bernouilli. La
variable nX n est donc la somme de n variables de Bernouilli indpendantes, et suit donc une
loi binomiale bien connue. Il est donc possible de dfinir la loi de X n en fonction du
paramtre p (pourcentage estimer).
Cependant comment faire pour donner la prcision dune estimation quand on ne connat pas
la vraie valeur ? Comme dans la pratique la taille des chantillons est gnralement beaucoup
plus grande que 10 (les sondages dopinion se font sur des chantillons dau moins 500
personnes, le plus souvent un millier), nous allons pouvoir rpondre cette question en
regardant lvolution de la loi de X n en fonction de n. On obtient les graphiques suivants :

n=10 n=50 n=100

0 0 0
0,30 0,50 0,70 0,90 0,50 0,70 0,90 0,50 0,70 0,90

On obtient rapidement une loi de probabilit caractristique : en forme de cloche, symtrique


autour de la valeur moyenne, on reconnat la loi de Gauss ou loi normale. Cest une simple
illustration du thorme de la limite centre, sur ce cas particulier la variable alatoire
X nE(X n )
(X n )
tend, quand n tend vers linfini, en loi vers la loi normale centre rduite. On peut
en pratique considrer que la limite est atteinte pour n>30, on pourra donc assimiler la loi de
X n une loi normale de moyenne E(X n )= E( X )= p , et dcart-type
Var( X )
(X n )= Var(X n )= .
n
Nous pouvons maintenant utiliser ce rsultat pour donner une estimation par intervalle un
degr de confiance donn.

Page 25
Estimation

Calcul de la prcision
Nous noterons z le fractile dordre de la loi normale centre rduite, cest dire le
nombre dfini par :

(
Pr Z < z = ) o Z N(0,1)
Comme X n suit une loi normale, en la centrant et
Xn p
rduisant, on en dduit que Z =
(X n )
suit une loi
normale centre rduite. La dfinition de la prcision et
/ 2 / 2
du degr de confiance peut donc se rcrire de la faon
suivante :

Pr Z < =1 soit encore Pr < Z < =1
0

( ) ( ) ( )
-3,5 0 3,5

Xn Xn Xn

Comme la loi normale centre rduite est symtrique, cette probabilit sexprime aussi :

Pr < Z < =12Pr Z donc Pr Z = ou Pr Z < =1
(X n ) (X n ) (X n ) (X n ) 2 (X n ) 2

on obtient alors lexpression de la prcision en fonction du fractile dordre 1 lu sur une


2
table de la loi normale inverse :
p(1 p)
= z1 * (X n )= z1 * .
2 2 n
Malheureusement (X n ) dpend du paramtre que lon veut estimer (le pourcentage), et
nest donc pas connu. Lusage veut que lon remplace cette valeur inconnue par son
estimation sur lchantillon avec la correction que nous avons signale :
p (1 p )
= z1 * (X n )= z1 * .
2 2 n1
Lestimation par intervalle au degr de confiance 1-, est alors le suivant :
p (1 p ) p (1 p )
p z1 2 * n1 ; p + z1 2 * n1

Le tableau suivant donne les valeurs des fractiles de la loi normale pour les degrs de
confiance les plus souvent utiliss :
Dgr de confiance(1-) 1-/2 Fractile (z1-/2)
90% 0,95 1,645
95% 0,975 1,960
99% 0,995 2,576

Page 26
Estimation

Sur notre chantillon de taille 500, nous obtenons alors les rsultats suivants pour les
intervalles de confiances :
)
Dgr de confiance(1-) Intervalle de confiance
90% [ 0.739 ; 0.801 ]
95% [ 0.733 ; 0.807 ]
99% [ 0.721 ; 0.819 ]
Remarque : Les intervalles de confiance ont des valeurs fixes, donc la valeur relle est dans
cet intervalle ou n'y est pas, la "confiance" indique simplement que si l'on rptait le calcul de
ces intervalles sur un nombre trs grand d'chantillons, 95% des intervalles ainsi calculs
contiendrait la "vraie valeur", donc 5% ne la contiendrait pas!

Dtermination dune taille dchantillon


La formule donnant la prcision peut tre utilise aussi, pour dterminer la taille dchantillon
ncessaire pour obtenir une prcision voulue un degr de confiance donn. Nous allons
distinguer deux cas, suivant que lon possde ou non une premire estimation du pourcentage.

Dtermination dune taille priori


Dans ce cas nous allons partir de la formule exacte de la prcision :
p(1 p)
= z1 * (X n )= z1 *
2 2 n
Pour un niveau donn du degr de confiance, il est facile de dterminer la taille dchantillon
(z ) p(1 p)
1
2
2

n permettant dobtenir une prcision donne : n , et ceci doit tre vrifi


2
pour toute valeur de p sur la population, puisque nous navons aucune connaissance priori
sur cette proportion. Or quand 0 p1 la quantit p(1 p) reste toujours infrieure ou gale
1/41. En conclusion la taille ncessaire pour obtenir une prcision donne e, un degr de
confiance a, sans information priori sur le pourcentage est donne par la formule :

( )
z1
2
2

n=EntierSup
4
2


EntierSup(x) dsignant le plus petit entier suprieur ou gal x.
Remarquons que cette formule peut tre toujours applique, elle seule assurera dobtenir la
prcision voulue, mais bien videmment elle conduira des tailles importantes dchantillons
pas toujours ncessaires mais toujours coteuses. Nous illustrerons ceci au paragraphe
suivant.

Dtermination de la taille aprs pr chantillonnage


Si nous disposons dune estimation du pourcentage nous pouvons esprer diminuer la taille de
lchantillon ncessaire, en prenant comme valeur probable de la proportion, la dernire
valeur estime. On utilisera alors la formule approche de la prcision un degr de confiance
donne. Avec les mmes notations quau paragraphe prcdent nous obtenons :

1
Comme il est facile de le voir par drivation, ou en remarquant que la surface maximale dun rectangle de
primtre donn (ici 2) correspond au carr.

Page 27
Estimation

( )
z1 2 p (1 p )
2
n=EntierSup +1
2

La seule diffrence avec le calcul thorique (cest dire utilisant la "vraie" valeur p, est le +1
final, qui est souvent ngligeable dans la pratique.
Dans les deux cas nous pouvons constater que la prcision cote cher en statistique, en effet la
taille de lchantillon varie comme linverse du carr de lestimation, donc pour diviser par 2
la prcision (donc limprcision), il faut multiplier par 4 la taille de lchantillon.

Calculs sur notre exemple


Nous allons calculer de deux faons la taille de l'chantillons ncessaire pour avoir une
prcision de 3% avec un degr de confiance de 95%.

a) Calcul priori (avant tout sondage)


Nous prendrons ici un pourcentage "pessimiste" de 0,5 :

(
n = entier sup 1,96 * ( ) )
2
0,5 * (1 0,5) / 0,03 = 1068
La taille priori ncessaire est donc de 1068 individus
b) Calcul a posteriori (aprs chantillonnage de taille 500)
Nous prendrons ici le pourcentage estim p = 0,77

(
n = entier sup 1,96 * ( ) )
2
0,77 * (1 0,77) / 0,03 + 1 = 757
La taille de l'chantillon est alors nettement plus petite, il suffirait d'ajouter 250
individus environ pour esprer atteindre la prcision voulue.
Remarquons enfin, que dans tous les cas il est ncessaire aprs avoir fait le sondage de
recalculer la prcision obtenue, qui ne peut qutre meilleure (infrieure) si lon utilise la
premire mthode de majoration, mais qui peut tre suprieure la valeur dsire dans le cas
de la seconde mthode, si la nouvelle valeur estime est plus proche de 50% que celle qui a
servi la dtermination de la taille de lchantillon.

Cas de la moyenne
Sur la population nous avons une variable alatoire numrique Y qui a une moyenne note
et un cart type not .
Lestimateur de la moyenne que nous avons utilis au paragraphe 0 not Yn (de moyenne m et
dcart type ) a la mme proprit asymptotique que lestimateur du pourcentage, cest
n
Yn
dire quil vrifie le thorme de la limite centre : Zn = tend en loi vers la loi normale

n
centre rduite N(0,1) . Cependant la vitesse de cette convergence peut dpendre de faon trs
significative de la forme de la loi initiale de Y, trs souvent il est fait lhypothse que cette loi
est proche dune loi normale, ce qui assure une convergence rapide. Dans le cas o la variable
Y suivrait exactement une loi normale, la variable Zn prcdemment dfinie suit toujours une
loi normale.

Page 28
Estimation

Cas o la variance est connue


Dans le cas o la variance est connue, ce qui est trs rare en pratique, on peut utiliser le
thorme central limite, pour des chantillons de taille suffisante (n>30, si la loi de Y ne
semble pas trop anormale ). La prcision, au degr de confiance , est alors donne par :

=z
1 n 2

z dsignant le fractile dordre 1 de la loi normale centre rduite.


1 2
2

Cas o la variance est inconnue


Dans ce cas, il nous faut ajouter une hypothse sur loi de Y. Lhypothse de normalit de Y
Yn
permet de connatre exactement la loi de la variable alatoire Tn = ( est remplac par
Sn2
n
2
lestimateur de lcart type), cette loi est la loi de Student n-1 degrs de libert. Cette loi est
une loi symtrique comme la loi normale centre rduite, cependant les queues de distribution
sont plus paisses que celles de la loi normale, ce qui veut dire quil y a une probabilit plus
forte dobtenir des chantillons dont la moyenne est loigne de la moyenne de la population ;
toutefois quand n augmente la loi de Student n degrs de liberts se rapproche de la loi
normale centre rduite qui en est la limite quand n . En pratique, quand n>500 , on
pourra sans problme utiliser la loi normale plutt que la loi de Student.

Loi Normale

Student(2)

Student(5)

0,
-3,0 -2,0 -1,0 0,0 1,0 2,0 3,0

On obtient alors comme intervalle destimation alatoire au degr de confiance, lintervalle


dont les bornes sont des variables alatoires :
n1 Sn2 ;Yn +t n1 Sn2

Yn t1 n 1 n
2 2

o t n1 dsigne le fractile dordre 1 de la loi de Student n-1 degrs de libert. Les


1 2
n
valeurs de ces fractiles sont lus dans les tables statistiques.

2
Voir lannexe pour quelques indications sur cette loi.

Page 29
Estimation

Si lon construit tous les intervalles de cette forme en remplaant les variables par leurs
valeurs prises sur les chantillons (ou du moins un trs grand nombre), il y en aura une
proportion qui contiendra la valeur du paramtre, et donc 1- qui ne contiendra pas la
valeur . On retrouve la notion de pari que nous avons expose au dbut de ce paragraphe.
En pratique, on remplacera les variables alatoires par leurs valeurs, et on dira que lon a une

probabilit de 1-, que la moyenne se trouve dans lintervalle yn t n1 ; yn +t n1 ,
1 n 1 n
2 2
tant lestimation de lcart type.
La prcision au degr de confiance est donc donne par la formule :

=t n1
1 n
2
Application au cas de notre exemple
Avec un degr de confiance de 0,95 et un nombre de degrs de libert de 500-1=499, nous
obtenons :

= 1,965 * 3999 351km


500
D'o l'intervalle de confiance pour le kilomtrage moyen parcouru :
[24965 351;24965 + 351] = [24614;25316]
Dtermination de la taille dun chantillon
Comme il a t vu pour le cas dune proportion, les formules que nous venons de voir
permettent aussi, une fois le degr de confiance fix et une valeur de la prcision donne, de
dterminer la taille ncessaire de lchantillon. Nous ne traiterons ici que le cas o lcart type
de la variable est inconnu, signalant au passage le cas de lcart type connu.
Remarquons tout dabord, quil est dans ce cas toujours ncessaire davoir procder un pr
sondage, de faon obtenir une premire estimation de lcart type. Ce pr sondage se fait
gnralement sur un chantillon dindividus dont le nombre est compris entre 20 et 50. Cest
partir de cette premire estimation de lcart type que sera value la taille de la population
ncessaire lobtention dune prcision donne.
Si nous voulons, comme pour le cas dune proportion, dterminer la taille partir de la
formule de la prcision nous obtenons, pour une prcision e donne et un degr de confiance
a, le rsultat suivant :
2

n= t n1

1 2
il apparat un problme, car le fractile de la loi de Student dpend du nombre de degr de
liberts, cest dire de la taille de lchantillon. Nous avons donc une quation implicite que
nous ne savons pas rsoudre analytiquement ; il est possible cependant de la rsoudre par
approximation de deux faons diffrentes.

Page 30
Estimation

Cas des grands chantillons


Daprs ce qui a t dit plus haut quand n est grand, la loi de Student n degrs de liberts
peut tre confondue avec la loi normale centre rduite. La formule tablie ci dessus est dans
ce cas exploitable et nous obtenons :
2

n= u

1 2

o u est le fractile dordre 1 de la loi normale centre rduite. Cette formule


1 2
2
sapplique pour toute taille dchantillon si on dispose de la valeur de lcart type sur la
population.
Application notre exemple :
En partant du sondage ralis sur 100 individus quelle taille d'chantillon est-elle ncessaire
pour atteindre une prcision de 200 km avec un degr de confiance de 0,95 ?
Seule la valeur de l'cart-type estim de ce premier sondage nous importe :
= 4357
D'o le calcul de n :
n = (1,96 * 4357 / 200 ) = 1823
2

Dans ce cas videmment, il faudra vrifier sur l'chantillon final que la prcision est bien
atteinte, d'autant plus que l'estimation de l'cart-type peut-tre trs volatile.

Cas gnral
Si lon ne veut pas utiliser lapproximation par une loi normale, il faut alors utiliser des
mthodes itratives pour dterminer la taille de l'chantillon, mais les rsultats trouvs
diffrent peu de l'approximation normale, dont on pourra se contenter en la majorant
ventuellement si la valeur trouve est faible.

2.5.Annexe 1 : La loi de Student


William Sealey Gosset (1876-1937) tait chimiste la brasserie Guiness Dublin, puis
ensuite Londres. Cest pour le contrle de qualit quil fut conduit sintresser
lchantillonnage et surtout aux petits chantillons. Il publia ses travaux sous le nom de
Student. Cest lui qui mit en vidence la loi qui porte son nom et qui permet de faire des tests
sur la moyenne dune variable quantitative.
Gosset tudia la fonction de rpartition de la variable (dite variable de Student n degrs de
libert) T = X , X tant une variable alatoire normale centre rduite et Z une variable
Z
n
alatoire suivant une loi du khi-deux3 n degrs de libert, X et Z tant de plus
indpendantes.

3
Une loi du khi-deux n degrs de libert est la loi suivie par la somme des carrs de n lois normales centres
rduites indpendantes

Page 31
Estimation

Y
Dans le cas de lestimation la variable X est lestimateur de la moyenne n qui est bien

n

une variable alatoire normale centre rduite, et la variable Z=


(n1)Sn2 qui suit une loi du
2
khi-deux n-1 degrs de liberts. Le nombre de degrs de liberts est n-1 car les n variables

Yi Yn sont lies par la relation


n n
Yi Yn =0 ; la forme quadratique (n1)Sn2 = Yi Yn ( )
2
est
i =1 i =1
donc de rang n-1, ce qui dtermine le nombre de degr de libert de la loi du khi-deux.
La distribution de la loi de Student degrs de libert est donne par la formule :

f (x )=
( ) 1+ x
+1
+1
2 2

( )
2

2

o la loi (t )= euut 1dt est la fonction Gamma. Remarquons que cette distribution peut tre
0
tendue aux valeurs non entires de .

2.6.Annexe 2 : Intervalle de confiance de la variance


Bien que moins utilis que pour la moyenne, il est possible de dterminer un intervalle de
confiance pour la variance dune variable quantitative, si lon fait lhypothse que cette
variable suit une loi normale. Dans ce cas Z =
(n1)Sn2 suit une loi du khi-deux n-1 degrs de
2

liberts, en notant 1 le fractile dordre /2 de cette loi, et 2 le fractile dordre 1- /2, on a :

( ) (n1)s 2 (n1)s 2
pr 1 < Z < 2 = , on en dduit lintervalle de confiance pour 2 :
2
n; n . Notons
1
que cet intervalle nest pas centr autour de lestimation sn2 , mais est centr en probabilit :
cest dire que lon limine autant dchantillons sous estimant la variance que
dchantillons surestimant cette variance. La notion de prcision na donc pas ici le sens
physique habituel comme pour la moyenne.
En prenant les racines carres des bornes on en dduira un intervalle de confiance pour lcart
type.

Page 32
Estimation

3. EXERCICES ESTIMATION

3.1.: RadioLook
RadioLook est une radio prive mettant sur Grenoble et sa rgion depuis deux ans. Aprs un
an de fonctionnement, une enqute faite auprs de 1200 grenoblois a donn les rsultats
suivants:
240 personnes ont dclar couter rgulirement la station
parmi ces 240 personnes, 30 ont un statut d'tudiant.
Prcisons que sur les 1200 personnes interroges, 100 taient des tudiants. Actuellement, la
direction commerciale veut mener une enqute auprs des tudiants. Elle dsire connatre de
faon prcise, la proportion d'tudiants coutant rgulirement RADIO-LOOK et envisage
donc un deuxime sondage.
1. Prciser la population, la variable de description et le paramtre faisant l'objet de l'tude.
2. Exploiter le sondage fait auprs de 1200 grenoblois pour obtenir une premire estimation
(ponctuelle et par intervalle) du paramtre dfini en 1.
3. Combien de personnes faut-il interroger au cours de la seconde enqute, si le degr de
confiance (ou seuil ) retenu est de 0.95 et la prcision (absolue) dsire 3%.
4. A l'issue du deuxime sondage, il a t constat 368 auditeurs. Donner une estimation et
un intervalle de confiance du paramtre faisant l'objet de l'tude (avec un degr de
confiance de 0.95).
5. Peut-on affirmer que l'audience du segment tudiant a augment d'une enqute l'autre?

3.2.La socit ABC


La socit ABC se propose de lancer un nouveau produit dans lensemble des 25000
magasins distribuant sa marque. Elle veut valuer la capacit de production hebdomadaire
ncessaire, pour cela elle a choisi un march test de 400 magasins. Les rsultats obtenus sur
cet chantillon sont les suivants :
Moyenne des ventes par magasin et par semaine : 800 units
Ecart-type estim des ventes : 360 units
1) Donner une estimation ponctuelle, puis un intervalle de confiance 0,95 du volume total
espr des ventes.
2) Quelle taille dchantillon aurait t ncessaire pour atteindre une prcision de 200000
units sur les ventes totales ?

3.3.Une foire au vin


Un magasin organise une foire au vin pour dynamiser ses ventes.
Avant la foire, la frquentation moyenne stablit 1500 clients jour, avec un panier moyen
de 23 articles (cart type 7) et un CA moyen par client de 175 (cart-type 46 ) mesurs sur
un chantillon de 200 clients.
Pendant la foire, la frquentation moyenne stablit 2500 clients jour, avec un panier moyen
de 18 articles (cart type 8) et un CA moyen par client de 130 (cart-type 34 ) mesurs sur
un chantillon de 200 clients.

Page 33
Estimation

Analysez ces rsultats dune part en terme de CA global jour, dautre part en terme de panier
moyen (nombre darticles et CA par client). On procdera laide dintervalles de confiance
de 95%.

3.4.Une socit dtudes


Une socit dtudes a propos un de ses clients une tude semi quantitative (mixte de
question fermes et ouvertes) pour investiguer limage de la marque auprs des quatre
principaux segments de clientle.

Sachant que les populations des segments sont respectivement :


S1 540 000
S2 310 000
S3 115 000
S4 430 000

La socit dtudes a propos dinterroger :


Dans le segment 1 un chantillon alatoire de 540 clients.
Dans le segment 2 un chantillon alatoire de 310 clients.
Dans le segment 3 un chantillon alatoire de 115 clients.
Dans le segment 4 un chantillon alatoire de 430 clients.
Madame Renard, directrice du marketing, senquiert auprs de la socit dtudes de la
pertinence de ce choix, et demande quelle prcision on peut attendre de la mesure dans
chacun des segments.

Pour permettre la socit dtudes de lui rpondre, elle lui fourni un ordre de grandeur du
taux moyen de clients ayant une bonne image de la marque (cest cette mesure qui
lintresse), environ 65% (taux constat lors de la prcdente tude dimage de marque).

Elle indique quelle souhaite disposer dune prcision semblable dans chacun des segments.

1. Calculez partir de ces informations la prcision des mesures par segment.


2. Ce rsultat correspond-il aux souhaits de madame Renard ?
3. Si ce nest pas le cas quelle stratgie aurait fallu adopter pour rpartir au mieux les
1400 questionnaires que madame Renard est prte financer pour cette tude. Quelle
prcision obtient-on alors dans chaque segment ?
4. Pouvez-vous expliquez la dmarche de la socit dtude ?. Savez vous comment
sappelle le type de sondage propos par cette socit ?

3.5.La socit UVJM


La socit UVJM a un compte clients compos de 7 000 clients. Lauditeur, charg de la
vrification du compte, dsire estimer le montant moyen d'une crance l'aide d'un sondage
alatoire. Le montant de la crance due par un client est le solde positif de son compte. Un
chantillon constitu de 25 comptes a t prlev parmi les 5 000 comptes ayant un solde
positif. Chaque compte a t vrifi et son solde rvalu. Cette opration de rvision
comptable est donne dans le tableau suivant :

Page 34
Estimation

N Moyenne Ecart type Variance

Solde 25 164,820 63,7349 4062,132

N valide (listwise) 25

1. Prciser la population, la variable de description et le paramtre faisant l'objet de l'tude.


2. Donner les estimations ponctuelles de la moyenne et de l'cart type du montant des
crances
3. Etablir un intervalle de confiance de la moyenne des soldes positifs avec un niveau de
confiance de 0.95.
4. Le niveau de confiance tant gal 0.95, quelle taille d'chantillon faut-il envisager pour
obtenir une prcision de 8 (la prcision est gale la demi-longueur de lintervalle de
confiance).
5. Un sondage complmentaire permettant d'obtenir un chantillon de taille gale celle
tablie en 2 a t men. Les rsultats sont les suivants :

N Moyenne Ecart type Variance

Solde 219 156,5958 70,14788 4920,726

N valide (listwise) 219

En fusionnant les deux chantillons, donnez une estimation du montant total des crances
et un intervalle de confiance avec un niveau de confiance de 0.95.

3.6.La socit de contrle et de rgulation (daprs J. Obadia)


La socit de contrle et rgulation est une entreprise fabriquant des matriels lectroniques en
moyennes sries : appareils de contrle, de rgulation et de mesure. Elle travaille essentiellement sur
catalogue et sur devis. L'auditeur responsable du contrle de la comptabilit de l'entreprise a dcid
d'effectuer un sondage pour dterminer la valeur relle du stock des pices dtaches (petites pices
mcaniques, composantes lectroniques, sous-ensembles achetes l'extrieur, etc... ).Ce stock fait
l'objet d'un inventaire permanent assur par l'ordinateur partir des bordereaux d'entre (livraison
fournisseurs) et des bons de sortie mis par la production.
La diversit des articles constitutifs du stock des pices dtaches a conduit distinguer :
les articles de faible valeur regroupant essentiellement les petites pices mcaniques
dont le cot unitaire est infrieur un euro.
les articles de valeur moyenne qui regroupent l'essentiel des composants lectroniques
dont les cots unitaires sont compris entre un et dix euros.
les articles considrs comme coteux et dont le cot unitaire dpasse dix euros et qui
sont suivis un un.
Ces trois catgories se trouvent dans des magasins diffrents et sont gres sparment.
L'ordinateur peut fournir tout moment, une liste des valeurs stockes. Pour chaque
rfrence, il est possible de disposer des informations suivantes:

Page 35
Estimation

le numro de la rfrence ou code - article : u


le nombre d'articles N(u) comptabiliss dans le stock sous cette rfrence
le cot unitaire auquel ces articles sont valoriss : C(u)
la valeur stocke correspondante dite valeur comptable: Y(u) = N(u)*C(u)
Au jour du contrle, les chiffres comptables relatifs aux trois catgories sont donns par
l'annexe 1. La catgorie des articles les plus coteux, a t contrle en totalit; la premire
catgorie a t contrle l'aide d'un sondage portant sur 100 rfrences.
L'annexe 3 donne les rsultats de ces deux contrles. Le contrle de la seconde catgorie doit
tre ralis. Il s'agit donc d'estimer, pour cette catgorie, la valeur relle du stock. Les erreurs
sur les quantits et les cots tant globalement prises en compte dans la valeur, on ne se
proccupera pas des quantits et des cots unitaires sparment mais du produit des deux. Si
l'estimation de la valeur constitue l'objectif principal du sondage, l'auditeur souhaite
galement dterminer la proportion des valeurs errones.
Vous tes charg par l'auditeur d'tablir un plan de sondage de la deuxime catgorie de
pices dtaches.
Un plan de sondage doit indiquer :
la population, les variables et les paramtres
le nombre de rfrences constituant l'chantillon
le mode de slection de ces units
comment, en utilisant les observations ou valeurs constates faites sur les units
prleves, tablir les estimations des paramtres
la prcision du sondage
Pour tablir ce plan de sondage vous disposez des informations fournies par un chantillon
prliminaire concernant la variable X = "valeur relle des rfrences". L'analyse de cette
information pourra se faire suivant les deux points ci-dessous.

Examen de l'information apporte par l'chantillon prliminaire sur la variable X =


"valeur relle des rfrences"
1) Dduire une estimation de la valeur totale relle du stock et la prcision de cette
estimation
2) On constatera que la prcision obtenue n'est pas suffisante. Quelle est la taille de
l'chantillon permettant d'obtenir une prcision satisfaisante gale 0,5% de la valeur
comptable du stock. Conclusion.

Examen de l'information apporte par l'chantillon prliminaire sur la variable D = X -


Y cart entre la valeur relle et valeur comptable du stock.
1) Donner une estimation de l'cart entre valeur totale relle et valeur totale comptable du
stock. Quelle est la prcision de cette estimation?
2) Utiliser les rsultats du point a) pour calculer une estimation de la valeur totale relle
du stock et sa prcision
3) Quelle est la taille de l'chantillon permettant d'obtenir la prcision fixe au point 1.

Page 36
Estimation

Annexe 1
Donnes comptables relatives aux trois catgories

Cots Unitaires Nombre de rfrences Valeur totale en stock


Moins de 1 2140 231843
De 1 10 1500 3366495
Plus de 10 180 625380
Total 3520 4223728

Annexe 2
Sondage prliminaire

Taille de l'chantillon : 50 rfrences


Variable Moyenne Variance Ecart-type
Val. Comptable 2315.83 604281 777.35
Val.Relle 2304.1 568128 753.74
Ecart -11.73 12170.1 110.32

Nombre de rfrences pour lesquelles l'cart D = X - Y n'est pas nul : 6

Annexe 3
Rsultats des contrles des catgories 1 et 3

Catgorie d'articles de valeur leve


Le contrle complet des 180 rfrences a montr que la valeur totale relle tait de 612
750 .

Catgorie d'articles de faibles valeurs


Un sondage portant sur 100 rfrences a donn les rsultats suivants:
Valeur totale : 228 660
Prcision du sondage :
- degr de confiance : 0.95
- seuil de prcision : 4540

3.7.La socit de contrle et de rgulation Deuxime partie


Un deuxime sondage a permis de constituer un chantillon de 321 rfrences. Ce deuxime
chantillon a t fusionn avec l'chantillon prliminaire de taille 50 (cf. partie I) pour
constituer un chantillon de 371 rfrences et vous est donn dans le classeur CasSCR.xls.
Les rsultats vous sont donns dans le tableau suivant :

Statistiques descriptives

N Moyenne Ecart type Variance

Valeur Comptable (Y) 371 2225,76 767,631 589256,992

Valeur relle (X) 371 2222,54 770,019 592928,536

Diffrence (D) 371 -3,23 74,734 5585,100

N valide (listwise) 371

Page 37
Estimation

Le pourcentage d'erreurs est de 14%.

1. Utiliser les rsultats de ce deuxime sondage pour obtenir une estimation de la valeur
relle des rfrences de la deuxime catgorie. En dduire une estimation de la valeur
relle de tout le stock et la prcision obtenue.
2. Pensez-vous que l'approximation normale soit justifie pour la variable D=X-Y ? Justifiez
conomiquement ce fait.
3. Donner une estimation par intervalle du pourcentage d'erreur dans la seconde catgorie.

Page 38
Tests d'hypothse

4. TESTS D'HYPOTHESE

4.1.Un exemple
Monsieur Dupond, directeur commercial d'une chane de magasins de distribution, veut tester
un nouveau type de promotion sur les produits forte frquence d'achat, le client reoit des
coupons en fonction des achats effectus et du montant de la facture. D'ordinaire dans la
chane de magasin le taux de retour des coupons est de 40% (c'est dire que 40% des coupons
distribus sont utiliss), le nouveau type sera considr comme plus efficace si le taux de
retour est suprieur ce taux. Dans un magasin considr comme reprsentatif de la chane,
Monsieur Dupond installe son nouveau systme, au terme de trois semaines d'essais sur 1000
coupons distribus 452 ont t rutiliss. Monsieur Dupond se demande si ce pourcentage
(45,2%) est significatif d'une augmentation du taux de retour ou si la diffrence observe n'est
imputable qu'aux incertitudes d'chantillonnage.

4.2.Gnralits
Soit une variable X statistique dfinie sur une population P, et un paramtre li cette
variable, nous appellerons hypothse sur ce paramtre le fait de limiter les valeurs prises par
ce paramtre une partie non vide et non totale de l'ensemble des valeurs possibles not A0 ,
le complmentaire de cet ensemble not A1 sera associe l'hypothse alternative. La
premire hypothse est appele hypothse nulle.
Sur l'exemple prcdent, la population est l'ensemble des coupons distribus pour les produits
forte frquence d'achat, la variable X est la variable indicatrice de l'utilisation du coupon, le
paramtre est le pourcentage de coupons utiliss. L'ensemble des valeurs possibles est
l'intervalle [40%, 100%], puisque le directeur commercial n'envisage pas que sa mthode de
distribution puisse tre moins efficace que les autres mthodes. Une hypothse ici serait par
exemple que la nouvelle mthode ne soit pas plus efficace, c'est dire que = 0 = 40%

(ensemble not A0 = {40%} ), une autre hypothse serait par exemple que la promotion
personnalise soit rellement plus efficace, c'est dire que > 0 =40% (ensemble not

A1 =]40%;100%] ).
Il arrive souvent que les ensembles associs aux hypothses soient plus complexes que ceux
prsents en exemple, nous le verrons plus loin lors des tests portant sur deux chantillons,
ou lors de la rgression par exemple.
L'objectif des tests d'hypothse est de dterminer une rgle de dcision permettant de rejeter
une hypothse partir de l'examen d'un chantillon. Comme nous l'avons vu au chapitre sur
l'estimation, on ne peut pas prtendre prendre une telle dcision sans risque d'erreur, ce risque
est li la probabilit d'apparition d'chantillons exceptionnels (statistiquement aberrants).
Nous allons donc formaliser cette dmarche. Nous noterons H 0 l'hypothse A0 , cette
hypothse est appele hypothse nulle, et H 1 l'hypothse A1 , appele hypothse
alternative (nous reviendrons plus loin sur le choix de l'hypothse nulle).
Lapplication dune rgle de dcision peut conduire lun des quatre cas suivants :

Page 39
Tests d'hypothse

Etat Rel (Valeur de )


A0 A1
Choix (A partir H0 Pas derreur Erreur de type II
de lchantillon) H1 Erreur de type I Pas derreur
A chaque erreur peut tre associe une probabilit appele risque :
Le risque de premire espce not est la probabilit de lerreur de type I cest
dire le fait de choisir lhypothse H1, alors que le "vrai" paramtre appartient au
sous-ensemble A0 ; on dira plus simplement la probabilit du choix de H 1 alors
que H 0 est vraie.

Le risque de seconde espce not est la probabilit de l'erreur de type II, c'est
dire le choix de H 0 alors que H 1 est vraie.

La dfinition d'une rgle de dcision se fait par la dfinition d'un ensemble R A1 , appel
zone de rejet, tel que pour toute estimation du paramtre se trouvant dans cet ensemble on est
conduit rejeter l'hypothse H 0 , c'est dire accepter l'hypothse H 1 . La dtermination de
la zone de rejet se fait en fixant le risque de premire espce : le risque de premire espce est
en effet dfini partir de cette rgion par : prob(estimateur( paramtre)R / paramtreA0 ).
Une autre faon de procder est de dterminer la probabilit (appele niveau de signification
ou significativit du test) d'obtenir un chantillon conduisant au rsultat observ (appele
niveau de signification du test), sous l'hypothse H 0 , si cette probabilit est infrieure au
risque de premire espce, on rejettera alors l'hypothse H 0 . Ces deux procdures sont
quivalentes, toutefois il est possible dans certains cas de dfinir la rgion de rejet avant
mme d'avoir procder au sondage, ce qui bien sr n'est pas possible pour le niveau de
signification.
Remarquons que les hypothses ne sont pas traites de faon symtrique, on veut tre assur
que l'hypothse H 0 n'a qu'une probabilit trs faible d'tre vrifie, donc, en fait, on cherche
se convaincre de l'hypothse H 1 . En gnral quand on rejettera H 0 , on sera assur d'avoir
une faible probabilit de se tromper, en revanche, si on est conduit par le test ne pas rejeter
l'hypothse nulle, il est possible que la probabilit de se tromper soit trs grande, comme nous
le verrons dans les cas traits dans ce chapitre.

4.3.Comparaison d'un pourcentage un standard


Dans ce cas la variable est une variable indicatrice d'une caractristique de la population, c'est
dire, en termes probabilistes, une variable de Bernouilli, le paramtre estimer est
l'esprance de cette variable, c'est dire le pourcentage d'individus prsentant la
caractristique dans la population. Dans tous les cas l'ensemble A0 est rduit un seul
lment {p0}, l'ensemble A1 tant l'un des trois ensembles suivants

A1 = ]p0;1] c'est dire le test H 0 : p= p0 contre H1 : p> p0 , ce test est dit


unilatral droite, la rgion de rejet est de la forme R=[c;1] avec c> p0 : il faut que
la valeur observe sur l'chantillon soit significativement suprieure p0 pour que

Page 40
Tests d'hypothse

l'on soit convaincu de l'hypothse H1 . C'est le cas de notre exemple avec


p0 =40% .

A1 = [0; p0 [ c'est dire le test H 0 : p = p0 contre H1 : p< p0 , ce test est dit unilatral
gauche, la rgion de rejet est de la forme R=[0;c] avec c< p0 : il faut que la
valeur observe sur l'chantillon soit significativement infrieure p0 pour que
l'on soit convaincu de l'hypothse H1 .

A1 = [0; p0 []p0;1] c'est dire le test H 0 : p = p0 contre H1 : p p0 , ce test est dit


bilatral, la rgion de rejet est de la forme R =[0; p0 c[]p0 +c] avec c>0 : il faut
que la valeur observe sur l'chantillon soit significativement diffrente de p0
pour que l'on soit convaincu de l'hypothse H1 . Dans ce cas il est d'usage de
choisir la zone de rejet symtrique par rapport p0 , comme l'est l'ensemble A1 ,
toutefois comme nous le verrons plus loin, un autre choix pourrait tre fait.
Nous allons maintenant voir comment sont dtermines les valeurs critiques bornes ouvertes
de la zone de rejet, pour cela revenons sur l'hypothse H 0 , et analysons les consquences de
cette hypothse sur la loi de l'estimateur du pourcentage.

Loi de l'estimateur X n sous l'hypothse H0


Sous l'hypothse H 0 la loi de la variable X dfinie sur la population est parfaitement
connue, c'est une loi de Bernouilli de paramtre p0 , valeur de p sous l'hypothse retenue. Pour
un chantillon de taille n, la loi de X n peut donc en tre dduite soit de faon exacte, pour les
petites valeurs de n, soit de faon asymptotique pour les grandes valeurs de n.
De faon exacte, la variable nX n somme de n variables de Bernouilli indpendantes suit une
loi binomiale de paramtres n et p0 , on peut donc en dduire la loi de X n .
Pour les grandes valeurs de n, on pourra se contenter de l'approximation normale:
( )
N p0, p0(1 p0 ) n (voir chapitre sur l'estimation).
Xn

Pour dterminer les rgions de rejet de l'hypothse, on liminera les chantillons les plus
improbables correspondant des valeurs d'estimation dans le sous-ensemble, c'est dire des
chantillons donnant des valeurs exceptionnellement grandes dans le cas de test unilatral
droite, exceptionnellement petites dans le cas de test unilatral gauche ou exceptionnel-
lement loignes de p0 dans le cas de test bilatral.
Remarquons que cette loi ne fait pas intervenir des rsultats obtenus par sondage, il est donc
possible ici de dfinir la zone de rejet avant mme de procder au sondage. C'est ce que nous
allons faire pour les trois cas dcrits plus hauts.

Tests unilatraux
Nous traiterons simultanment les deux cas gauche et droite :

Page 41
Tests d'hypothse

H 0 : p = p0 H 0 : p = p0

H1 : p< p0 H1 : p > p0


1-

Cas des grands chantillons, approximation normale


Nous allons ici utiliser, la convergence de la loi de X n vers la loi normale Comme la
X n p0
variable Z = suit une loi normale standard (centre rduite), il est facile de
p0 (1 p0 ) n
dterminer dans les deux cas la valeur critique c. Cette variable Z est appele statistique
associe au test.
Nous avons ici : Nous avons ici :
c p0 c p0
= z (<0) donc = z1 (>0)
p0(1 p0 ) n p0(1 p0 ) n

c= p0 + z * p0(1 p0 ) n qui est bien c= p0 + z1 * p0(1 p0 ) n qui est bien


strictement infrieur p0. strictement suprieur p0.
On en dduit la rgle suivante: si la valeur On en dduit la rgle suivante: si la valeur
observe sur l'chantillon est infrieure c, observe sur l'chantillon est suprieure c,
on rejettera l'hypothse H1 avec un risque on rejettera l'hypothse H1 avec un risque
d'erreur de , on dira que la valeur observe d'erreur de , on dira que la valeur observe
est significativement infrieure p0 avec un est significativement suprieure p0 avec un
risque infrieur . risque infrieur .

Page 42
Tests d'hypothse

Niveau de signification du test


Comme nous l'avons signal, une autre mthode consiste dterminer le niveau de
signification du test, c'est dire la probabilit d'obtenir un chantillon conduisant une
valeur plus intrieure l'ensemble A1 que celle obtenue par sondage; cette valeur sera note
p . Nous noterons ns ce niveau de signification, il reprsente le risque maximum que l'on
prend en rejetant l'hypothse H0.
Pour le test unilatral gauche, le niveau de Pour le test unilatral gauche, le niveau de
signification est dfini par : signification est dfini par :
ns = prob(X n < p , sous H 0) ns = prob(X n > p , sous H 0)

ou encore en centrant et rduisant, et en ou encore en centrant et rduisant, et en


prenant le complmentaire : prenant le complmentaire :
p p 0 p p0
ns = prob N (0,1) < 1ns = prob N (0,1)<
p 0 (1 p 0 ) / n p ( 1 p ) / n
0 0

La rgle de dcision est, dans tous les cas, la suivante : si le niveau de signification est
infrieur a, on rejette l'hypothse H 0 .

Courbe de puissance du test


Pour terminer nous allons nous intresser au risque de seconde espce , ce risque dpend
bien sr de la valeur prise par le paramtre dans le sous-ensemble A1, on a donc en fait une
fonction de la valeur du paramtre p, plus le paramtre est loin de la valeur p0, plus faible est
le risque de seconde espce, en revanche si la valeur de p est trs proche de p0, le risque de
seconde espce sera proche de 1-, la vitesse de dcroissance de la fonction en s'cartant de
p0 est donc un indicateur du pouvoir discriminant du test. (Les courbes prsentes ci-dessous
sont dans le fichier PropPuissance.xls)
Ici l'ensemble A1=[0; p0 [ , traons la courbe de Ici l'ensemble A1=]p0;1] , traons la courbe de
puissance du test pour p0 =40% et n=100 . puissance du test pour p0 =40% et n=100 .
Pour une valeur donne du risque de premire
Pour une valeur donne du risque de premire
espce , la valeur critique c est calcule.
espce , la valeur critique c est calcule.
Pour une valeur donne de p<p0 , le risque de
Pour une valeur donne de p>p0 , le risque de
seconde espce reprsente la probabilit de
seconde espce reprsente la probabilit de
choisir tort l'hypothse H0, c'est dire que
choisir tort l'hypothse H0, c'est dire que
la valeur estime de la proportion est
la valeur estime de la proportion est
suprieure c. Si la proportion dans la
infrieure c. Si la proportion dans la
population est p, X n suit approximativement
population est p, X n suit approximativement
( )
une loi normale N p, p(1 p) n , le risque (
une loi normale N p, p(1 p) n , le risque )
de seconde espce est alors donn par :
de seconde espce est alors donn par :
c p
= prob(X n >c )= prob N (0,1)>


= prob(X n >c )= prob N (0,1)<
c p

p (1 p ) n
p (1 p ) n

Page 43
Tests d'hypothse

Remarque : le test De mme le test


H 0 : p p0 H 0 : p p0

contre H1 : p< p0 contre H1 : p > p0


se ramne ce test unilatral se ramne ce test unilatral

Test bilatral
Faire le test
H 0 : p = p0

contre H1 : p p0

au risque de premire espce , revient faire deux tests unilatraux :


H 0 : p = p0 H 0 : p = p0
et
H1 : p< p0 H1 : p > p0

au risque 1 au risque 2

Avec 1+ 2 = , l'usage est de prendre 1= 2 = 2 .

La dtermination des valeurs critiques c1 et c2 se fait comme nous l'avons vu prcdemment,


ces deux valeurs sont, avec la convention 1= 2 = 2 , symtriques par rapport p0 . La rgle
de dcision est alors la suivante :
Si sur l'chantillon la valeur du pourcentage observe est extrieure l'intervalle [c1;c2 ], on
rejettera l'hypothse H 0 avec un risque d'erreur infrieur , sinon on conservera
l'hypothse H 0 mais sans connatre le risque d'erreur.

Dtermination du niveau de signification


La dtermination du niveau de signification est particulire dans ce cas, elle ne peut se faire
qu'avec la convention signale, c'est dire 1= 2 = 2 .

Soit p la valeur du pourcentage observ sur l'chantillon, dans le cas de test bilatral, le
niveau de signification est par dfinition :
(
si H 0 est vraie prob X n p0 > p p0 , )

Page 44
Tests d'hypothse

c'est dire la probabilit pour un chantillon tir sous l'hypothse H 0 de donner un cart
(absolu) par rapport la vraie valeur p0 suprieur l'cart (absolu) constat lors du sondage.

Compte tenu de la symtrie de la loi normale, approximation de la loi de X n , le niveau de


signification est donn par l'quation :
(
ns =2* prob X n p0 > p p0 )
soit aprs centrage et rduction :
p p0 p p0
ns =2* prob N (0,1)> =2*1 prob N (0,1)<
p ( 1 p ) / n p ( 1 p ) / n
0 0 0 0
La rgle de dcision dans ce cas est toujours la mme : si le niveau de signification du test est
infrieur , on rejette l'hypothse H 0 .

Courbe de puissance du test


La courbe de puissance du test est symtrique par rapport p0 , elle n'est pas exactement
obtenue comme "recollement" des deux courbes dfinies prcdemment pour les tests
unilatraux. Indiquons rapidement comment on peut construire cette courbe. Ici l'ensemble
A1=[0; p0 []p0;1] , pour une valeur donne du risque de premire espce , les valeurs critique
c1 et c2 sont calcules.
Pour une valeur donne de p p0 , le risque de seconde espce reprsente la probabilit de
choisir tort l'hypothse H0, c'est dire que la valeur estime de la proportion est intrieure
l'intervalle [c1;c2 ]. Si la proportion dans la population est p, X n suit approximativement une
( )
loi normale N p, p(1 p) n , le risque de seconde espce est alors donn par :

c1 p c2 p
= prob(c1 X n c2 )= prob N (0,1) ou encore
p(1 p) n p(1 p) n

c2 p c1 p
= prob N (0,1) prob N (0,1)
p(1 p) n
p (1 p ) n

En utilisant cette dfinition, on obtient alors la courbe suivante avec p0 =40% et n=100 :

Page 45
Tests d'hypothse

4.4.Application notre exemple.


La population est l'ensemble des clients achetant le produit en promotion, la variable X est la
variable boolenne indicatrice du renvoi du coupon. Le paramtre p est le pourcentage de
coupons renvoys, l'estimateur sur un chantillon de taille n est la moyenne c'est--dire la
variable X n .
Ici l'hypothse nulle est H0:p0=40%. La taille de l'chantillon est n=1000. L'hypothse
alternative sera :
H1 : p>p0

Analyse des erreurs.


L'erreur de premire espce consiste penser que le pourcentage de coupons retourns a
augment alors que ce n'est pas le cas, la dcision associ sera de continuer tort le nouveau
systme de coupons qui est sans doute plus onreux..
L'erreur de seconde espce sera de penser que le pourcentage n'a pas augmenter alors qu'en
fait c'est le cas, donc de continuer l'ancien systme, ce qui entrainera un manque gagner
ventuel (qui ne sera pas dcelable toutefois).
C'est donc bien l'erreur de premire espce qu'il nous faut contrler. Le pourcentage de retour
doit tre suffisamment suprieur 40% pour que l'on accepte l'hypothse H1. C'est le risque
de premire espce qui va nous aider prciser ce "suffisamment", ou le degr de
significativit qui va nous assurer d'avoir atteint un pourcentage suffisant.

Dtermination a priori de la rgion critique.


Dans ce cas, il faut se fixer un risque de premire espce, par exemple 5%.
En appliquant la formule du paragraphe 3.2.1, nous obtenons :
c = p 0 + z1 * p 0 (1 p 0 ) n = 0,4 + 1,65 * 0,4 * 0,6 / 1000 = 0,425 = 42,5%

D'o la rgle de dcision suivante (avant tout sonadage) :


Rgle : Si dans un chantillon de taille 1000, on observe plus de 42,5% de retour de coupons,
on conclura que la proportion de retour augment et ce avec un risque infrieur 5%.
Comme le pourcentage observ est de 45,2%, on conclura que le pourcentage a augment.

Calcul de degr de significativit (aprs chantillonnage)


Aprs avoir ralis le sondage, il est possible de dterminer la probabilit d'oberver un tel
pourcentage pour un chantillon de taille 1000 sous l'hypothse H0, c'est le degr de
significativit ou signifiance.
En utilisant la formule du paragraphe 3.2.2 :
p p 0 0,452 0,4
1 ns = prob N (0,1) < = prob N (0,1) < = prob(( N (0,1) < 3,36 )
p 0 (1 p 0 ) / n 0,4 * 0,6 / 1000

En utilisant la table de la loi normale nous obtenons :
1 ns = 0,9996 soit ns=0,0004 qui reprsente la probabilit de recueillir un tel chantillon
sous l'hypothse H0. On conclura donc que le pourcentage a rellement augment.

Page 46
Tests d'hypothse

4.5.Comparaison d'une moyenne un standard

Un exemple
Monsieur Durlan, nouveau chef de produit chez Nesnone, envisage le lancement (dans les
supermarchs) dun nouveau petit djeuner biologique. Daprs le service conomique le
produit ne sera rentable que si les ventes moyennes hebdomadaires par magasin dpassent 320
units. Monsieur Durlan a obtenu de 332 magasins quils prsentent ce nouveau produit, au
bout de quatre semaines, il vient de recevoir les rsultats. Quelle dcision doit-il prendre ?
Avant de consulter les rsultats de lchantillon, formalisons sous forme de test dhypothse
le problme de dcision de Monsieur Durlan :
La population que lon tudie est lensemble des supermarchs, la variable statistique est une
variable numrique qui chaque magasin associe les ventes hebdomadaires du produit. Le
paramtre est la moyenne de ces ventes sur lensemble de la population.
Ce paramtre peut prendre des valeurs sur l'intervalle [0,+[ , ce qui intresse M. Durlan cest
de placer le paramtre par rapport la valeur (seuil de rentabilit) 320. Nous allons montrer
sur cet exemple comment dfinir les hypothses en fonction du contexte conomique.
Nous avons deux hypothses candidate au rle de lhypothse H1, hypothse que lon cherche
valider par le test puisque la rgion de rejet de H0 est dtermine par le risque de premire
espce a. Notons les HA et HB :
H A : > 320
H B : < 320
Analysons dans chacun des cas lerreur de type I correspondant au choix de cette hypothse
comme hypothse H1 :
Cas A : Dans ce cas lhypothse H 0 : 320 , lerreur de type I (choix de H1, alors que H0
est "vraie") revient croire que le produit va tre rentable alors quen ralit il ne le sera pas,
cette erreur conduira une perte qui sera tangible, et facilement constate par le suprieur
hirarchique de M. Durlan. En revanche lerreur de type II conduirait ne pas saisir
lopportunit de lancer un nouveau produit rentable, ce qui en fait ne pourra jamais tre
directement constat. Poser le test ainsi revient dire que l'on veut vraiment tre convaincu de
la rentabilit du produit (observer sur l'chantillon une valeur significativement plus grande
que 320) pour se dcider le lancer.
Cas B : Dans ce cas lhypothse H 0 : 320 , lerreur de type I (choix de H1, alors que H0
est "vraie") revient croire que le produit va n'est pas rentable alors quen ralit il le sera,
cette erreur conduira ne pas lancer le produit, ne sera pas constate par le suprieur
hirarchique de M. Durlan, mais pourrait long terme tre catastrophique pour l'entreprise si
ce type de produit prend une importance trs grande sur le march des petits djeuners. En
revanche lerreur de type II conduirait lancer un produit non rentable et le risque associ ne
sera pas matris. Poser le test ainsi revient dire que l'on veut vraiment tre convaincu de la
non-rentabilit du produit (observer sur l'chantillon une valeur significativement plus petite
que 320) pour se dcider ne pas le lancer.
Suivant l'importance stratgique du produit et la fragilit de la position de M. Durlan on sera
conduit privilgier l'une des deux approches. Comme ici M. Durlan est un jeune chef de
produit, il ne veut pas commencer sa carrire par un lancement rat, il privilgiera le cas A, il
voudra contrler le risque associ l'erreur constatable par son suprieur. La valeur du risque
de premire espce dpend des consquences conomiques ou sociales de l'erreur, c'est un

Page 47
Tests d'hypothse

arbitrage entre l'erreur de premire espce contrle et l'erreur de seconde espce non
contrle. Gnralement il prend une des trois valeurs 10%, 5% ou 1%, plus sa valeur est
faible, plus on laisse de "place" l'erreur de seconde espce.
Enfin comme dans le cas des proportions on peut toujours se ramener pour l'hypothse nulle
une hypothse simple du type :
H 0 : = 0
Notons enfin qu'il est d'usage en statistique de supposer que la variable quantitative tudie
est distribue sur la population (munie d'une loi de probabilit quiprobable) suivant une loi
normale.
Comme dans le cas d'une proportion nous traiterons les trois cas de tests possibles, mais plus
succinctement dans la mesure ou seule les lois changent.

Statistique utilise sous l'hypothse H0


Sous l'hypothse H 0 la loi de la variable X dfinie sur la population est suppose normale de
moyenne =0 et d'cart type , nous supposerons cet cart type inconnu, le cas o il est
connu est peu diffrent il suffit se supposer la taille de l'chantillon suffisante pour que la loi
de Student se confonde avec la loi normale, ou que l'hypothse de normalit puisse tre
abandonne.
Comme pour l'estimation nous utiliserons la statistique, dont la loi est connue sous H0:
Yn 0
Tn = suit
LoiStudent n - 1 degrs de libert
2
S n
n
Pour dterminer les rgions de rejet de l'hypothse, on liminera les chantillons les plus
improbables correspondant des valeurs d'estimation dans le sous-ensemble A1 , c'est dire
des chantillons donnant des valeurs exceptionnellement grandes dans le cas de test unilatral
droite, exceptionnellement petites dans le cas de test unilatral gauche ou exceptionnel-
lement loignes de 0 dans le cas de test bilatral.
Remarquons qu'ici cette loi fait intervenir des rsultats obtenus par sondage, il est donc
impossible ici de dfinir la zone de rejet avant mme de procder au sondage. Il nous est
ncessaire d'avoir une estimation de l'cart type de la variable, en revanche l'estimation de la
moyenne n'est ncessaire que pour l'application de la rgle de dcision.
Les rsultats obtenus sur le sondage command par M. Durlan sont les suivants :
Taille de l'chantillon : 332
Moyenne des ventes par magasin : 326
Ecart type des ventes : 51,82
Sont notes en gras les valeurs qui nous serviront construire la rgion de rejet.

Page 48
Tests d'hypothse

Tests unilatraux
Nous traiterons simultanment les deux cas gauche et droite :
H 0 : = 0 H 0 : = 0

H1 : < 0 H1 : > 0

Cas de la loi normale, dtermination exacte avec la loi de Student


En utilisant la variable Tn , dfinie plus haut, il est facile de dterminer la valeur de c l'aide
de la fonction LOI.STUDENT.INVERSE(probabilit; degrs de libert) qui donne la plus
valeur pour laquelle la variable suivant la loi de Student est suprieure en valeur absolue
cette valeur a une probabilit donne, c'est dire :
( )
prob Tn > t qn = q , Tn dsignant une variable suivant une loi de Student n degrs de libert.

Attention la fonction est toujours bilatrale, donc pour les tests unilatraux il faudra
mettre comme valeur de la probabilit le double du risque de premire espce.

Nous avons ici : Nous avons ici :


c 0 c 0
= t 2n1 o est l'estimation de = t 2n1 , avec les mmes notations
n n
l'cart type de X donc
c = 0 + t 2n1 * n qui est bien strictement
c = 0 t 2n1 * n qui est bien strictement suprieur 0.
infrieur 0. On en dduit la rgle suivante: si la valeur
On en dduit la rgle suivante: si la valeur observe sur l'chantillon est suprieure c,
observe sur l'chantillon est infrieure c, on rejettera l'hypothse H1 avec un risque
on rejettera l'hypothse H1 avec un risque d'erreur de au maximum, on dira que la
d'erreur de au maximum, on dira que la valeur observe est significativement
valeur observe est significativement suprieure 0 avec un risque infrieur .
infrieure 0 avec un risque infrieur .

Niveau de signification du test


Comme nous l'avons signal, une autre mthode consiste dterminer le niveau de
signification du test, c'est dire la probabilit d'obtenir un chantillon conduisant une
valeur plus intrieure l'ensemble A1 que celle obtenue par sondage; valeur qui sera note x n .
Nous noterons ns ce niveau de signification, il reprsente le risque maximum que l'on prend
en rejetant l'hypothse H0.
Pour le test unilatral gauche, le niveau de Pour le test unilatral gauche, le niveau de
signification est dfini par : signification est dfini par :
X x 0 X x 0
ns = prob n 0
< n , sousH 0 ns = prob n 0
> n , sousH 0
S2 n n S2 n n
n n
Cest dire la valeur de la fonction de Cest dire 1 - la valeur de la fonction de

Page 49
Tests d'hypothse

rpartition de la loi de Student (n-1) degrs rpartition de la loi de Student (n-1) degrs
de libert, pour la valeur (standardise) : de libert, pour la valeur (standardise) :
xn 0 xn 0
n n
La rgle de dcision est, dans tous les cas, la suivante : si le niveau de signification est
infrieur , on rejette l'hypothse H 0 .

Test bilatral
Faire le test
H 0 : = 0

contre H 1 : 0
au risque de premire espce , revient faire deux tests unilatraux :
H 0 : = 0 H 0 : = 0
H 1 : < 0 et H 1 : > 0
au risque 1 au risque 2

Avec 1+ 2 = , l'usage est de prendre 1= 2 = 2 . Remarquons que dans le cas du test sur la
moyenne cette convention et sans doute lorigine des fonctions de Student gnralement
tabules.
La dtermination des valeurs critiques c1 et c2 se fait comme nous l'avons vu prcdemment,
ces deux valeurs sont, avec la convention 1= 2 = 2 , symtriques par rapport 0 . La
rgle de dcision est alors la suivante :
Si sur l'chantillon la valeur du pourcentage observe est extrieure l'intervalle [c1;c2 ], on
rejettera l'hypothse H 0 avec un risque d'erreur infrieur , sinon on conservera
l'hypothse H 0 mais sans connatre le risque d'erreur.

Dtermination du niveau de signification


La dtermination du niveau de signification est particulire dans ce cas, elle ne peut se faire
qu'avec la convention signale, c'est dire 1= 2 = 2 .

Soit x n la valeur de la moyenne observe sur l'chantillon, dans le cas de test bilatral, le
niveau de signification est par dfinition :
X x 0
Sous lhypothse H 0 ns = prob n 0
< n ,
S2 n n
n
c'est dire la probabilit pour un chantillon tir sous l'hypothse H 0 de donner un cart
(standardis absolu) par rapport la vraie valeur x n suprieur l'cart (standardis absolu)
constat lors du sondage.

Page 50
Tests d'hypothse

La rgle de dcision dans ce cas est toujours la mme : si le niveau de signification du test est
infrieur , on rejette l'hypothse H 0 .

Application notre exemple


Le test a t pos au paragraphe 5.1.
Remarquons que nous ne pouvons pas, comme dans le cas de pourcentage, mettre en place
notre rgle de dcision (numriquement) sans avoirs les rsultats de l'chantillon.

Seuil de rejet de l'hypothse H0


En utilisant la formule du paragraphe 5.3.1, avec n=332 et un risque de premire espce de
0,10=10%
c = 0 + t 2n1 * n = 320 + 1,649 * / 18,22 = 320 + 0,09 *
D'o la rgle de dcision :
Rgle : si sur un chantillon de taille 332, on observe une valeur de la moyenne des ventes
suprieure 320+0,09*l'cart-type de l'chantillon, on pourra conclure que les ventes sont
suprieures en moyenne 320, avec une erreur de premire espce infrieure 0,05.
Ici l'cart-type observ sur l'chantillon est = 51,82 , le seuil critique est donc
c = 320 + 0,09 * 51,82 324,7 . Comme la moyenne observe est suprieure cette valeur, on
peut en conclure que les ventes moyennes sont bien suprieures 320 et qu'il convient de
lancer le nouveau produit.

Degr de significativit
Ce degr nous donne, rappelons le, la probabilit de tirer un chantillon ayant les
caractristiques observes, sous l'hypothse H0. Pour le calculer il nous suffit d'appliquer la
formule du paragraphe 5.3.2 :
326 320
ns = prob Sudent (331) > = prob(Student (331) > 2,11) = 0,018
51,82 332
Il y a donc moins de "2 chances sur 100" d'observer un tel chantillon sous l'hypothse H0. On
dcidera donc de lancer le nouveau produit.

4.6.Comparaison de deux pourcentages


Reprenons lexemple de Monsieur Dupond, il a conclu que sa nouvelle politique de
distribution de coupons tait plus efficace que l'ancienne. Il serait intress par savoir si le
comportement des clients est diffrent suivant date d'achat : semaine ou week-end. Le dtail
de l'enqute est le suivant :
Semaine Week-End
Taille chantillon 600 Taille chantillon 400
Nbre de retours 264 Nbre de retours 188
Pourcentage 44% Pourcentage 47%

Les pourcentages constats sur l'chantillon sont videmment diffrents (44% pour la semaine
et 47% pour le week-end), mais cela peut tre du aux alas de l'chantillonnage et non pas

Page 51
Tests d'hypothse

un comportement diffrent entre la clientle de semaine et la clientle de week-end, ce que


voudrait dtecter M Martin.

Formalisation du problme
Nous pouvons ici prsenter la formalisation de deux faons diffrentes, soit comme la
comparaison de pourcentages sur deux populations, soit comme l'tude d'une liaison entre
deux variables indicatrices dfinies sur une mme population (cas particulier de la liaison de
deux variables qualitatives prsente en annexe).

Formalisation sous forme de deux populations


La premire population est l'ensemble des coupons distribus en semaine que nous noterons
P1, la seconde est l'ensemble des coupons distribus en week-end note P2. Sur chacune de
ces populations nous dfinissons une variable indicatrice boolenne, notes respectivement X1
et X2, qui correspond au retour du coupon.
Pi
Xi
{0,1} pour i = 1,2
en dsignant par p1 et p2 les pourcentages respectifs, c'est dire les moyennes sur l'ensemble
des variables X1 et X2 sur chacune des populations l'hypothse nulle s'exprime alors sous la
forme :
H 0 p1 = p 2
l'hypothse alternative dans le cas de M Dupond est simplement la diffrence entre les deux
valeurs (test bilatral), mais pourrait tre un pourcentage suprieur l'autre (test unilatral) :
H 1 p1 p 2 ou p1 < p 2

Formalisation l'aide de deux variables


Dans ce cas la population P unique est l'ensemble des coupons distribus, quelque soit le jour
de la semaine, la variable X est toujours la variable indicatrice du retour ou non du coupon, et
nous allons introduire une nouvelle variable indicatrice Y de la date de distribution du
coupon : cette variable vaut 1 si le coupon est distribu en semaine et 0 s'il l'est le week-end.
Le problme de M Dupond se rsume savoir si ces deux variables sont indpendantes, une
fois la population munie d'une loi de probabilit uniforme.
En effet, le pourcentage p1 reprsente la probabilit conditionnelle, pour que le coupon soit
retourn sachant qu'il a t distribu en semaine, de mme p2 est la probabilit conditionnelle
pour que le coupon soit retourn sachant qu'il a t distribu le week-end.
L'hypothse H0 revient alors crire :
p1 = prob( X = 0 Y = 0) = prob( X = 0 Y = 1) = p 2
et comme X est une variable de Bernouilli (donc ne prenant que deux valeurs 0 et 1) on a
aussi :
1 p1 = prob( X = 1 Y = 0) = prob( X = 1 Y = 1) = 1 p 2
Ce qui est bien la dfinition de l'indpendance des deux variables.
L'hypothse alternative dans le cas bilatral est simplement la supposition d'une liaison entre
les deux variables sans en indiquer le sens, le cas unilatral tant l'existence d'une corrlation
de signe donn.

Page 52
Tests d'hypothse

Remarque : On retrouve aussi l'interprtation des deux hypothses (nulle et alternative) sous
la forme de moyenne, c'est dire d'esprance en remarquant que p1 et p2 sont aussi les
esprances conditionnelles de X sachant Y=0 ou Y=1; on peut aussi retrouver l'interprtation
en terme de population en prenant respectivement les images rciproques Y 1 (0 ) = P1 et
Y 1 (1) = P2 .
Dans la suite nous utiliserons la formalisation en termes de deux populations, la deuxime
formalisation sera gnralise aux variables qualitatives (du moins pour le test bilatral) lors
du test du Khi2 de contingence.

Statistique associe au test


L'hypothse nulle peut aussi s'crire
H0 p1 p 2 = 0
Sur un chantillon de taille n1 tir de la population P1, le paramtre p1 aura pour estimateur
X n11 , de mme pour un chantillon de taille n2 tir de la population P2, l'estimateur du
paramtre p2 sera X n22 ; la statistique utilise sera donc la variable alatoire Z = X n11 X n22 .
Pour n1 et n2 suffisamment grands, nous connaissons une approximation normale des lois
estimateurs, comme les chantillons sont tirs de faon indpendante dans chacune des
populations nous connaissons la loi (approche) de la variable Z :
p1 (1 p1 ) p 2 (1 p 2 )
N ( , )
Z avec = p1 p 2 et 2 = +
n1 n2
sous l'hypothse H0, en dsignant par p la valeur commune de p1 et p2, nous aurons donc :
1 1
= 0 et 2 = p(1 p ) +
n1 n2
Mme si l'hypothse H0 est vrifie dans les populations, les estimations obtenues pour p1 et
p2 seront diffrentes, quelle estimation devons nous considrer comme estimation commune?
Dans la mesure ou l'estimateur du pourcentage est un estimateur convergent, plus la taille de
l'chantillon est grande meilleure est la prcision de l'estimation, la meilleure estimation sera
donc obtenue en "regroupant" les deux chantillons en un seul chantillon de taille n=n1+n2 et
n p + n2 p 2
cette estimation sera p = 1 1 . C'est cette valeur que nous utiliserons comme pour
n1 + n2
calculer une approximation de l'cart type de la loi de la statistique Z.

Test bilatral
Dans ce cas l'hypothse alternative est H 1 p1 p 2 , comme pour le test contre un standard,
nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette hypothse) un
cart en valeur absolue entre les moyennes des chantillons trop improbable, c'est dire dont
la probabilit est infrieure au risque de premire espce fix.

Dtermination de la valeur critique


La valeur critique au-del de laquelle on rejettera l'hypothse H0 est donc dfinie par la valeur
c telle que :

Page 53
Tests d'hypothse

prob( Z > c / H 0 ) = soit encore en tenant compte de la symtrie de la loi normale


prob(Z < c / H 0 ) = 1 2 . La valeur critique c correspond donc au fractile d'ordre 1 2
de la loi normale de moyenne 0 et d'cart type dfini au paragraphe prcdent. On peut bien
videmment se ramener au cas de la loi normale centre rduite, en notant z1 2 le fractile de
la loi normale centre rduite, on a alors :

1 1
c = z1 2 p(1 p) + o p dsigne la valeur commune de p1 et p2
n1 n2
Dans les applications la valeur p est bien sure inconnue, il n'est donc pas possible de
dterminer la valeur critique avant de connatre les rsultats du sondage ; on remplacera alors
cette valeur par l'estimation p obtenue en "regroupant" les deux chantillons.
La rgle de dcision est alors la suivante, si sur les chantillons lcart absolu observ est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
Application :
En supposant que M. Martin veut simplement constater une diffrence entre la
semaine et le week-end, nous allons faire un test bilatral. Nous avons dans notre
exemple :
n1 = 600, n2 = 400
p 1 = 0,44 , p 2 = 0,47 donc p = (0,44 * 600 + 0,47 * 400) / 1000 = 0,452
D'o la valeur critique au risque de premire espce de 0,05=5%:

1 1
c = 1,96 * 0,452 * 0,548 + = 0,0630 .
600 400
Comme cette valeur est suprieure la diffrence observe, nous ne pouvons pas
rejeter l'hypothse nulle, et nous en concluons que la diffrence observe est due aux
alas de l'chantillonnage.

Calcul du niveau de signification


Le niveau de signification est dans ce cas la probabilit, sous lhypothse H0, dobserver un
cart entre les deux estimateurs qui soit en valeur absolu au moins gal lcart absolu
observ sur les chantillons :
ns = prob( Z >= p 1 p 2 ) = (1 prob(Z < p 1 p 2 )) * 2

Page 54
Tests d'hypothse

Puisque la loi normale suivie par Z est de moyenne nulle sous l'hypothse H0. En normalisant
cette loi (c'est--dire en divisant par son cart-type), nous pouvons crire :
1 1
ns = 1 prob N (0,1) < p 1 p 2 / p (1 p ) + * 2

n1 n 2

Si ce niveau de signification est infrieur au risque de premire espce , lhypothse H0 est


alors rejete.
Application :
En supposant que M. Martin veut simplement constater une diffrence entre la
semaine et le week-end, nous allons faire un test bilatral. Nous avons dans notre
exemple :
n1 = 600, n2 = 400
p 1 = 0,44 , p 2 = 0,47 donc p = (0,44 * 600 + 0,47 * 400) / 1000 = 0,452
D'o le degr de significativit :
ns = (1 prob( N (0,1) < 0,03 / 0,0321)) * 2 = (1 prob( N (0,1) < 0,934)) * 2 = 0,35 .
Ce qui signifie que dans 35% d'chantillons ainsi constitus, on pourrait observer une
diffrence suprieure 3% sous l'hypothse nulle. Notre chantillon n'est pas assez
"exceptionnel" pour que l'on puisse rejeter cette hypothse. Nous considrerons donc
qu'il n'y a pas de diffrence entre la semaine et le week-end.

Test unilatral
Dans ce cas l'hypothse alternative est H 1 p1 > p 2 , il est inutile de distinguer ici le test droit
du test gauche puisque cela revient simplement changer les indices, comme pour le test
contre un standard, nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette
hypothse) un cart entre les moyennes des chantillons trop improbable, c'est dire dont la
probabilit est infrieure au risque de premire espce fix.

Dtermination de la valeur critique


La valeur critique au-del de laquelle on rejettera l'hypothse H0 est donc dfinie par la valeur
c telle que :
prob(Z > c / H 0 ) = soit encore en prenant le complmentaire prob(Z < c / H 0 ) = 1 . La
valeur critique c correspond donc au fractile d'ordre 1 de la loi normale de moyenne 0 et
d'cart type dfini au paragraphe prcdent. On peut bien videmment se ramener au cas de
la loi normale centre rduite, en notant z1 le fractile de la loi normale centre rduite, on a
alors :

1 1
c = z1 p(1 p) + o p dsigne la valeur commune de p1 et p2.
n1 n2
Dans les applications la valeur p est bien sure inconnue, il n'est donc pas possible de
dterminer la valeur critique avant de connatre les rsultats du sondage ; on remplacera alors
cette valeur par l'estimation p obtenue en "regroupant" les deux chantillons (voir plus haut).

Page 55
Tests d'hypothse

La rgle de dcision est alors la suivante, si sur les chantillons lcart observ ( p 1 p 2 ) est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.

Calcul du niveau de signification


Le niveau de signification est dans ce cas la probabilit, sous lhypothse H0, dobserver un
cart entre les deux estimateurs qui soit en valeur absolu au moins gal lcart absolu
observ sur les chantillons :
ns = prob(Z >= p 1 p 2 ) = (1 prob(Z < p 1 p 2 ))
Ou encore en utilisant la loi normale centre rduite, ici il suffit simplement de rduire,
puisque sous l'hypothse H0, la loi de Z est dj centre :

p p 2 1 1
ns = 1 prob N (0,1) < 1 avec = p(1 p) +
n1 n2
p tant la valeur commune de p1 et p2, sous l'hypothse H0 ; cette valeur est inconnue est sera
bien entendu remplace par son estimation dans les applications numriques.
Si ce niveau de signification est infrieur au risque de premire espce , lhypothse H0 est
alors rejete.

Page 56
Tests d'hypothse

5. EXERCICES SUR LES TESTS D'HYPOTHESE

Sauf indication contraire, on prendra pour tous les exercices pour risque de premire espce
les deux valeurs 5% et 1%.

5.1.Taux de phosphate
Un fabricant de lessive affirme que le taux de phosphates contenu dans les lessives de sa
marque est infrieur 6% du poids total. Un institut de consommation a fait analyser un
chantillon de 150 paquets dont les rsultats sont donns dans le fichier "phosphates.sav",
dont l'analyse vous est donne dans le tableau suivant :

N Moyenne Ecart type

Taux 150 5,89% 1,03%

N valide (listwise) 150

Questions
1. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
2. Formulez sous forme de test le problme de l'institut de consommation.
3. Quelle conclusion tirez-vous de l'analyse de l'chantillon?

5.2.AntiSmoke
Un laboratoire pharmaceutique envisage de lancer sur le march un nouveau "patch" anti-
tabac "Antismoke", que s'il assure au moins 25% de russite, c'est dire qu'au moins 25% des
utilisateurs ne doivent pas recommencer fumer aprs un mois de traitement.
Des essais ont t faits sur un panel de 100 fumeurs et les rsultats sont donns dans le fichier
"tabac.sav", la reprise=1 indique que le fumeur a rechut avant la fin du mois sinon il est
indiqu 0.

Reprise

Sexe Moyenne N Ecart-type

F 66% 41 48%

H 71% 59 45,7%

Total 69% 100 46,5%

Questions
1. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
2. Formulez le test du laboratoire
3. Le laboratoire doit-il lancer son produit?
4. Peut-on faire une diffrence sur l'efficacit du mdicament selon le sexe de la personne?

Page 57
Tests d'hypothse

5.3.Le groupe de presse AES


Le groupe de presse AES (Avenir et Socit) est spcialis dans l'dition de livres et de revues
scientifiques. L'une de ces revues Sciences du Futur, est diffuse exclusivement par
abonnement. La direction commerciale dsire prospecter le segment de clientle des
professions mdicales par des offres d'abonnement des tarifs prfrentiels. Pour cela elle
envisage d'acqurir le fichier des abonns de la revue mdicale CADUCOR.
CADUCOR annonce que l'exprience passe montre quentre 8 12 % environ des mdecins
du fichier rpondent positivement aux offres qui leur sont faites par correspondance
(abonnements, livres, objets etc...). Aprs un calcul de rentabilit, AES estime que le fichier
peut se rvler intressant sil prsente un taux de rponse suprieur 10%.
Questions
1. Prciser la population, la variable de description et le paramtre faisant l'objet de l'tude.
2. Formuler le problme sous forme d'un test. Donner la forme gnrale de la rgion de rejet
de l'hypothse H0. Donner une interprtation des deux types d'erreur.
3. AES dsire contrler l'erreur de type I en fixant le risque associ a = 0.05. Prciser la
rgion de rejet du test si la taille de l'chantillon retenue est de 400.
4. Une proposition d'abonnement a t envoye 400 mdecins; 58 d'entre eux ont rpondu
favorablement.
D'aprs ce rsultat AES doit-il acheter le fichier CADUCOR ?

5.4.Contrle de qualit
Un fabricant de coque de tlphones portables veut tester la solidit de sa fabrication,
effectue sur deux machines. Il prlve 50 lments au hasard sur la chane de fabrication et
les soumet un essai de chocs. Une machine frappe sur la coque jusqu' rupture de celle ci ;
un bon modle doit rsister plus de 260 chocs.
Les donnes rsultant du test vous sont fournies dans le fichier "quali.sav" :

N Moyenne Ecart type Variance

Nombre de chocs 50 267,16 24,408 595,770

N valide (listwise) 50

Questions
1. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
2. Formulez le test du fabricant
3. Le produit vous parat satisfaisant au point de vue rsistance?

5.5.Rola-Cola contre Moka-Cola


Monsieur Poulain responsable des tudes du service Marketing de Rola-Cola vient de recevoir
les rsultats d'un test de got dont l'objectif est de dterminer laquelle des deux marques -
Rola-Cola ou Moka-Cola - tait prfre des consommateurs de boisson base de cola .
Rappelons que Moka-Cola est le principal concurrent de Rola-Cola.

Page 58
Tests d'hypothse

Pour cela 200 consommateurs de boisson base de cola furent slectionns pour participer
un test de got dit "en aveugle". Chaque participant fut invit goter les deux boissons
servies dans des verres "anonymes" marqus respectivement des seules lettres A et B. Les
marques d'origine des deux boissons taient donc caches au participant mais connues des
organisateurs.
Questions
1. Sachant que sur 200 participants, 112 ont dclar prfrer Rola-Cola faire un test
statistique permettant de rejeter ou d'accepter l'hypothse que la boisson Rola-Cola est
prfre Moka-Cola. Aprs avoir formul les deux hypothses du test en, on
prcisera la rgion de rejet et la procdure permettant de conclure. On prendra un
risque de type I de 0.05.
2. Pour viter que l'ordre dans lequel les deux boissons furent prsentes n'affecte les
prfrences mises, les participants furent partags en deux groupes gaux; le premier
gota Rola-Cola avant Moka-Cola et le second opra en sens inverse. Les rsultats
obtenus furent les suivants :

Groupe1 Groupe2
Rola Cola avant Moka-Cola Avant
Moka-Cola Rola-Cola
Nombre de participants 100 100
Nombre de participants 54 58
prfrant Rola-Cola

Ces rsultats permettent-ils de retenir l'hypothse que l'ordre de prsentation des deux
boissons n'a effectivement aucune influence sur les prfrences dclares pour Rola-
Cola ?

5.6.La socit SVC


La socit SVC vend par correspondance des CD-Audio. Pour cela elle procde par
publipostage dans lequel on trouve une description du CD propos, accompagne dune offre
promotionnelle (remise ou cadeau en cas dachat). Le publipostage est envoy aux 120000
personnes figurant dans le fichier clients de la socit.
En 1996, la cinquime symphonie de Beethoven ft propose avec une remise de 10 % en cas
dachat sous huitaine une fois reu le publipostage. Elle ft vendue 18 000 exemplaires.
La direction Marketing dsire renouveler lopration avec la neuvime symphonie de
Beethoven. Elle hsite entre deux formules :
La formule F1 dj utilise pour promouvoir la cinquime symphonie.
La formule F2 offrant un mini dictionnaire de termes musicaux en cas dachat.
Il a t dcid de tester ces deux formules en recourant deux sondages dans le fichier des
120 000 clients : la formule F1 tant propose un premier chantillon et la formule F2 un
second diffrent du premier. Lobjectif des ces deux sondages est destimer la proportion
dacheteurs suivant chacune des deux formules avec un seuil de prcision de 1% 4. La taille
retenue pour chaque chantillon est de 4 900.

4
Le seuil de prcision est la demi-longueur de lintervalle de confiance. Il sagit dun seuil de prcision absolue.

Page 59
Tests d'hypothse

Les deux sondages ont donn les rsultats suivants :


Formule F1 Formule F2
Nombre dacheteurs 801 914

Questions
1. Vrifier que la taille de lchantillon retenue correspond bien lobjectif de prcision de
1%.
2. La direction marketing en se fondant sur les rsultats du tableau 1 pense que la neuvime
symphonie pourrait se vendre un nombre dexemplaires suprieur celui de la
cinquime. Confirmer ou infirmer cette hypothse.
3. Des deux formules F1 ou F2 laquelle faut-il retenir ?
4. Donner les nombres minimum et maximum de CD de la neuvime susceptibles dtre
vendus.
Remarque : pour traiter ces questions on utilisera
un degr de confiance de 0.95
un risque de type I gal 0.05

5.7.Tlmara
Lhebdomadaire Tlmara souhaite effectuer une opration de recrutement sur fichier externe.
A cet effet, madame Beller, responsable des abonnements, dcide de contacter plusieurs
fournisseurs et de raliser des tests sur les fichiers proposs avant de choisir ceux quelle va
acheter.

Les trois fournisseurs contacts sont :


 Un oprateur de cble : 670 000 abonns.
 Une mga base de consommation, sous segment de foyers regardant la tlvision au
moins deux heures par jour : 450 000 foyers.
 Un fichier client de Vpciste sous segment des clients ayant achet dans les 18
derniers mois une tlvision ou un magntoscope 320 000 clients.

Le cot denvoi du message est de 1 , le prix de location de ladresse de 0,4 , la marge sur
abonnement peut tre estime 28 . Malgr le bnfice secondaire apport par
laugmentation daudience (impact sur le revenu publicitaire) et un taux de renouvellement
dabonnement denviron 50%, madame Beller estime quil lui faut financer ses cots de
recrutement sur la premire anne, et conserver une marge nette dau moins 4 .

Madame Beller propose chacun des fournisseurs un test sur 5 000 adresses.
Les rsultats obtenus sont les suivants :
 Cble : 350 abonnements
 Mga base : 330 abonnements
 VPC : 260 abonnements
Questions
1. Compte tenu de ces informations quel est le taux dabonnement minimum qui doit tre
observ sur les fichiers achets ?

Page 60
Tests d'hypothse

2. Quels fichiers, madame Beller peut-elle acheter, en pouvant affirmer, avec un risque de
5%, que le taux dabonnement dpassera le minimum fix.
3. Madame Beller peut-elle dire, au risque 5%, que le fichier du cble est meilleur que celui
de la mga base ?
4. Pour les fichiers slectionns, pouvez vous donner un intervalle de confiance 95% de la
marge globale attendue lors de la gnralisation.

5.8.La socit Votre Sant


La socit Votre Sant est une entreprise de vente par correspondance de produits de beaut
dits naturels . Elle gre un fichier de 350 000 clients et propose chaque mois une offre
promotionnelle accompagne dun cadeau. Le taux de rponse cette offre est gnralement
de 15%, la marge moyenne par rponse de 68 . Mlle C. Claire, nouvellement en charge de ce
fichier, a retenu comme cadeau un abonnement gratuit de six mois, au mensuel Votre beaut
Madame . Elle pense que cela pourrait augmenter le taux de rponse la prochaine offre ;
toutefois cette proposition ne serait rentable que si le taux de rponse dpassait les 17,5%
(avec la mme marge moyenne videmment). Elle envisage de tester la ralit de ces
hypothses sur un chantillon de clientes. La prcision voulue pour son estimation est de
lordre de 2%.
Questions
1. Quelle taille dchantillon doit-elle choisir afin d'atteindre la prcision voulue (avec un
degr de confiance de 0,95) ?
2. Les rsultats dun sondage sur un chantillon de 1225 clientes vous sont donns en
annexe 1.
3. Donner une estimation par intervalle au degr de confiance 0,95 du pourcentage de
rponses positives attendu loffre.
4. Mlle C. Claire se propose de procder au test dhypothse suivant :
H0 <=17,5%
H1 >17,5%
Expliquer pourquoi elle envisage ce test. Indiquer et dterminer la rgion de rejet associ
ce test (risque de type I gal 0,05). Que concluez-vous ?
5. Mlle C. Claire pense que les nouveaux clients (inscrits depuis moins de 6 mois) ont un
taux de rponse suprieur aux anciens. Confirmer ou infirmer cette hypothse.
6. Il sagit dans cette question de dterminer un intervalle de confiance au degr de
confiance 0,95 de la marge de la campagne promotionnelle.
Peut-on considrer que la marge moyenne attendue de cette campagne sera la mme que
pour les campagnes prcdentes. On posera cette alternative sous forme de test et on
prendra un risque de premire espce de 0,05
En dduire une estimation par intervalle de la marge totale attendue.

Page 61
Tests d'hypothse

Annexe 1 Rsultats du sondage


Taille de lchantillon : 1225 individus
Total Anciens Clients
Nombre dindividus 1225 850
Nombre de rponses 258 193
Rsultats sur la marge
Marge totale Marge Moyenne Ecart-type de la marge
17028 66 33

5.9.La socit Bricoplus


La socit Bricoplus a lanc pendant un mois une campagne publicitaire avec bons de
rduction dans la presse rgionale. Le montant moyen d'une commande avant la campagne
tait de 60 . Le cot de la campagne a t de 200 K. A la fin du mois elle a reu 20000
commandes (avec ou sans bon de rduction). Avant de traiter lensemble des commandes, la
socit voudrait avoir une estimation du succs de cette campagne. Pour cela elle tudie un
chantillon de 900 commandes prises au hasard. Les rsultats de cet chantillon sont donns
dans le tableau suivant :
Origine Avec Bon Sans Bon Total
Nombre 473 427 900
Valeur moyenne 64
Ecart-type(Valeur) 40
Questions
1) Peut-on considrer quil y a autant de commandes provenant de la campagne publicitaire
(avec bon de rduction) que de commandes ordinaires (sans bon de rduction) ? (On
prendra un risque de premire espce de 0,05)
2) Le montant moyen des commandes a-t-il augment avec la campagne ? (On prendra un
risque de premire espce de 0,05)
3) Donner une estimation ponctuelle et un intervalle de confiance 0,95 du chiffre daffaires
du mois.
4) Le directeur financier doute de la performance de cette campagne en termes de
rentabilit, il envisage mme une diminution de profit. Sachant que le Chiffre daffaires
mensuel avant la campagne tait denviron 900000 et que le taux de marge par produit
est de 50%, poser sous forme de test la conjecture du directeur financier. Quen concluez-
vous ?

5.10. Une enqute de satisfaction


Une enqute de satisfaction sur les utilisateurs dune voiture urbaine a montr que sur 1000
personnes interroges 640 se dclarait satisfaits du service aprs vente du constructeur.
Donner un intervalle de confiance au degr de confiance 0,95 du pourcentage de personnes
satisfaites
Peut-on considrer que plus de 60% des utilisateurs de ce service aprs vente sont satisfaits.

Page 62
Tests d'hypothse

La rpartition des personnes satisfaites par tranche dge est la suivante :


Tranche dge 18-35 ans Plus de 35 ans
Nombre de personnes interroges 600 400
Satisfaits 350 290
Question
Peut-on conclure que chez les moins de 35 ans le taux de satisfaction est significativement
plus lev que chez les plus de 35 ans(on prendra un risque de premire espce de 0,05) ?

5.11. Exercice 11 : La Socit Sogec (d'aprs J. Obadia)


La Socit SOGEC, filiale de la banque HERVA est spcialise dans le crdit la consommation.
En 1998, le montant des crdits accords ses clients tait de 2 4120 000 F et la provision
pour crances douteuses estime 1 206 000 F. Jusqu'en 1997, cette provision tait calcule
aprs un examen exhaustif de tous les comptes clients, permettant de mettre en vidence les
crances douteuses (une crance tant dclare douteuse lorsqu'il est constat deux chances
non payes sur les quatre dernires dues).
En 1998, le chef comptable abandonne cette procdure, prsentant l'argument suivant :
Lorsque l'on examine les donnes des dix dernires annes, on constate que la proportion
de crances douteuses varie, suivant les annes entre 3% et 6%. Aussi afin d'viter un travail
long et fastidieux mon service (3 employs mobiliss pendant 45 jours), il est prfrable
d'estimer la proportion de crances douteuses 5% et dappliquer ce taux au montant global
des crdits accords pendant l'anne. Cela suppose bien sr que la valeur moyenne des
crances douteuses soit gale la valeur moyenne de l'ensemble des crances. Ce qui a t le
cas ces dernires annes .
M. Allais, charg par la maison mre du contrle des donnes comptables de la Socit
SOGEC, demande M. Salmain de raliser un sondage. Ce sondage devrait permettre, aprs
examen d'un chantillon de comptes clients, de vrifier les deux hypothses sur lesquelles
repose la procdure adopte par le chef comptable. M. Salmain considra que l'estimation du
pourcentage des crances douteuses tablie partir de ce sondage n'tait pas suffisamment
prcise (avec un degr de confiance de 0.95). Il procda un autre sondage, permettant
d'obtenir une prcision de l'ordre de 4% (toujours avec un degr de confiance de 0.95). Les
rsultats de ce deuxime sondage sont donns en annexe. M. Salmain avait en main tous les
lments pour estimer la valeur des crances douteuses.
1 Lorsqu'il prsente la nouvelle procdure qu'il a adopte, le chef comptable prcise : Cela
suppose bien sr que la valeur moyenne des crances douteuses soit gale la valeur
moyenne de l'ensemble des crances . Expliquez pourquoi ?
2 Examen des rsultats du premier sondage
2.1 Le premier sondage permet d'tablir une estimation de proportion des crances
douteuses. Donner cette estimation. Quelle est la prcision obtenue si l'on adopte
un degr de confiance gal 0.95 ?
2.2 En dduire un intervalle de confiance. M. Salmain considre l'estimation des
pourcentages des crances douteuses peu prcise. Pourquoi ?
3 Examen des rsultats du second sondage
3.1 La taille de l'chantillon retenue est de 323. Justifier ce choix.

Page 63
Tests d'hypothse

3.2 Donner la rgion de rejet de l'hypothse du chef comptable concernant la


proportion de crances douteuses :
H 0 : 0.05
H 1 : > 0.05
Le risque de type I , , est fix 0.05.
3.3 Quelle conclusion concernant la valeur de retenue par le chef comptable faut-il
adopter ?
3.4 Etablir un intervalle de confiance du paramtre d, moyenne des crances
douteuses.
3.5 Tester l'hypothse du chef comptable concernant la valeur moyenne d des
crances douteuses pour l'anne 1992 :
H0 : d = 402
Justifier la formulation de l'hypothse H0. Prciser l'hypothse H1. Conclusion ? (le
risque de premier type I fix 0.05).
3.6 Etablir un intervalle de confiance du paramtre (degr de confiance gal
0.95).
3.7 Dduire des questions 5 et 6, une estimation de la valeur totale des crances
douteuses. Quelle est la prcision obtenue ? En dduire un intervalle de confiance.
(degr de confiance gal 0.95).
Annexe
Rsultats du premier sondage
Taille de la population sonde ................................................................. 60 000
Nombre de crances examines...................................................................... 50
Nombre de crances douteuses dans l'chantillon............................................ 8
Rsultats du deuxime sondage
Taille de la population sonde ................................................................ 60 000
Nombre de crances examines................................................................... 323
Nombre de crances douteuses dans l'chantillon......................................... 43
Valeur moyenne des crances douteuses dans l'chantillon........................ 408
Estimation de l'cart-type de la valeur des crances douteuses..................... 92
NB : Pour raliser le second sondage, il a t tenu compte des cinquante crances
examines au cours du premier sondage.

Page 64
Tests d'hypothse

6. ANNEXE : TEST DU KHI-DEUX

Nous allons prsenter ici le test du Khi-deux tant donn son importance en marketing, bien
qu'il ne soit pas au programme du cours.
Le test de contingence du Khi deux a pour objectif de mettre en vidence un lien ventuel
entre deux variables qualitatives. Nous allons l'illustrer sur un exemple : le fabricant de
shampoing DIP, veut dterminer quels sont les critres de choix d'un shampoing suivant les
catgories d'ges, de faon plus prcise il veut savoir si ces critres diffrent suivant les
tranches d'ges. Aprs une enqute auprs d'un chantillon de 535 consommateurs, il a t
constitu un fichier de donnes o sont relevs le principal critre de choix, l'ge et le lieu
d'achat habituel du consommateur.

6.1.Formalisation du problme
La population E est constitue de l'ensemble des consommateurs de shampoing, sur cette
population sont dfinies plusieurs variables qualitatives, dont les deux variables qui nous
intressent notes X et Y concernant le choix et la tranche d'ge.
La variable "choix" est une variable qualitative m = 4 modalits notes a i pour 1 i m :

E
X
{ distribution, marque, odeur, texture} .
La variable "ge" est une variable qualitative p = 3 modalits notes b j pour 1 j p :

E

Y
{ < 25, 25 - 45, > 45}
L'hypothse nulle, que l'on cherche rejeter est l'indpendance des deux variables,
l'hypothse alternative est la liaison entre les deux variables sans toutefois prciser de quel
type est cette liaison.
L'hypothse nulle peut se formuler de la faon suivante :
H 0 i [1, m] j [1, p ] prob(X = a i , Y = b j ) = prob( X = a i ) * prob(Y = b j )
Les probabilits correspondent aux frquences observes sur la population toute entire,
puisque la loi mise pour l'chantillonnage quiprobable est la loi uniforme.

6.2.Tableaux croiss ou de contingence (observ et thorique)


Sur un chantillon de taille n, nous utiliserons les notations suivantes :
nij dsigne le nombre d'individus de l'chantillon possdant la modalit ai pour la variable X

est donc l'estimation de prob(X = ai , Y = b j ) .


nij
et la modalit bj pour la variable Y.
n
m
n j = nij dsigne le nombre d'individus de l'chantillon la modalit bj pour la variable Y.
i =1

est donc l'estimation de prob(Y = b j ) .


n j
n

Page 65
Tests d'hypothse

p
ni = nij dsigne le nombre d'individus de l'chantillon la modalit ai pour la variable X
j =1

ni
est donc l'estimation de prob( X = a i ) .
n
On regroupe ces lments dans un tableau, appel tableau crois ou tableau de contingence
des deux variables, les lments n j et ni s'appellent les marges du tableau. On a donc la
prsentation suivante :
Y
X bj Total
.. ..
ai .. nij .. ni

.. ..
Total n j n

Sous l'hypothse H 0 , on peut construire le tableau thorique que l'on devrait obtenir si
l'indpendance tait parfaitement respecte sur l'chantillon ; on suppose que l'chantillon
parfait a les mmes marges que l'chantillon observ. Nous noterons eij les effectifs thoriques
correspondant l'indpendance. Nous aurons alors les relations suivantes :
eij ni n j ni n j
i [1, m] j [1, p ] = * soit eij =
n n n n
On pourra donc construire le tableau thorique correspondant l'hypothse H 0 :
Y
X bj Total
.. ..
ai .. eij .. ni

.. ..
Total n j n

Seules les cellules grises diffrent du tableau de contingence observ sur l'chantillon, si ces
deux tableaux sont suffisamment diffrents nous rejetterons l'hypothse H 0 . Il nous faut donc
dfinir une distance entre tableau et connatre la loi de cette distance sous l'hypothse nulle,
pour appliquer la mme dmarche que dans les tests prcdents.

6.3.Distance du Chi2 Test


Pour mesurer la distance entre deux tableaux A et B m lignes et p colonnes, l'ide naturelle
est de prendre la distance euclidienne dans Rmp, c'est dire :

Page 66
Tests d'hypothse

(a bij )
m, p
d ( A, B ) =
2 2
ij
i , j =1,1

cependant dans notre dmarche, cette distance ne correspond pas exactement ce que nous
recherchons. En effet, les deux tableaux (observ et thorique) ne jouent pas des rles
symtriques, nous voulons calculer la distance du tableau observ au tableau thorique
puisque nous nous plaons sous l'hypothse H0. Il est donc naturel d'accepter un cart plus
grand pour une case du tableau thorique prsentant un effectif plus grand, on va donc tenir
compte dans la distance des effectifs thoriques attendus, et nous utiliserons comme distance,
m , p (n e )2
la distance, dite distance du Chi2, dfinie par d =
2 ij ij
o nij dsigne, comme au
i , j =1 eij
paragraphe prcdent, l'effectif observ et eij l'effectif thorique.
Une fois les marges fixes, les valeurs eij sont des constantes et sous l'hypothse H0, pour les
chantillons prsentant les marges donnes, seuls l'effectif nij change suivant la loi d'une
variable alatoire Nij, nous pouvons donc considrer la distance D comme une variable
m , p (N e )2
alatoire (statistique) dfinie par D =
2 ij ij
, les variables alatoires Nij ne sont pas
i , j =1 eij
indpendantes, car elles doivent respecter les contraintes :
m m
pour tout j N ij = eij = n j
i =1 i =1

p p
pour tout i N ij = eij = ni
j =1 j =1

ce qui revient dire que seules (m-1)*(p-1) d'entre elles sont indpendantes, comme on peut
le voir quand on veut remplir "au hasard" un tableau m lignes et p colonnes en respectant
des marges donnes l'avance.
On peut alors dmontrer le rsultat suivant : quand n tend vers l'infini (et si aucun eij n'est
born), la variable D2 tend en loi vers une loi du Chi2 (m-1)*(p-1) degrs de libert.
Remarque : la condition impose sur les eij est rapprocher du cas de convergence d'une loi
binomiale vers une loi de Poisson.
L'hypothse H0 est rejete si la distance entre le tableau thorique et le tableau observ est
trop grande, c'est dire si la probabilit d'observer sous l'hypothse H0 une telle distance est
infrieure au risque de premire espce donn.
La valeur critique c de rejet de l'hypothse H0 est donc dtermine en fonction du risque
assume par la formule prob 2 > c = . On voit que la valeur critique peut
( )(
m 1 p 1 )
tre fixe avant tirage de l'chantillon. La rgle de dcision est alors la suivante : si la valeur
de la statistique d 2 observe sur l'chantillon est suprieure c, l'hypothse H0 est rejete et
on conclut une liaison entre les deux variables, ceci avec un risque d'erreur infrieur .
On peut aussi raisonner en terme de niveau de significativit, en calculant la valeur de la
statistique d 2 sur l'chantillon, le degr de significativit (ou niveau de signification ou
significience) est alors dfini par

Page 67
Tests d'hypothse

prob 2 > d 2 = ns , la rgle de dcision consiste rejeter l'hypothse H0 si le


(m 1)( p 1)
niveau de significativit est infrieur , dans ce cas le risque d'erreur est infrieur ou gal
ns.

6.4.Utilisation de SPSS
Nous allons illustrer ce test avec le fichier "DIP.sav". Le lecteur intress pourra refaire les
calculs " la main", nous utiliserons ici le logiciel SPSS, menu "analyse descriptive : tableau
crois".
Nous avons choisis dans l'option cellules de faire figurer les effectifs rels et thoriques et
dans l'option test le test du chi2.
Les rsultats sont les suivants :

Tableau crois Age * Choix

Choix

Distribution Marque Odeur Texture Total

Age <25 Effectif 63 28 76 12 179

Effectif thorique 68,3 34,1 51,2 25,4 179,0

>65 Effectif 50 66 25 33 174

Effectif thorique 66,3 33,2 49,8 24,7 174,0

25-45 Effectif 91 8 52 31 182

Effectif thorique 69,4 34,7 52,0 25,9 182,0

Total Effectif 204 102 153 76 535

Effectif thorique 204,0 102,0 153,0 76,0 535,0

La ligne Effectif contient l'effectif rel, l'effectif thoriques est calcul avec les formules du
paragraphe 2 ; par exemple :
179 * 204
68,3 =
535
La valeur du Khi-deux est calcule suivant la formule du paragraphe 3, nous n'interprterons
la rapport de vraisemblance qui sort du domaine de ce poly.

Page 68
Tests d'hypothse

Tests du Khi-deux

Signification
asymptotique
Valeur ddl (bilatrale)
a
Khi-deux de Pearson 100,517 6 ,000

Rapport de vraisemblance 105,040 6 ,000

Nombre d'observations 535


valides

a. 0 cellules (.0%) ont un effectif thorique infrieur 5. L'effectif


thorique minimum est de 24.72.

La signification asymptotique correspond ce que nous avons nomm degr de significativit,


nous pouvons conclure ici (presque certainement) que les critres de choix dpendent
effectivement de l'ge de l'acheteur.

6.5.Exercice : La socit LOCVIDEO (fichier Videos.sav)


La socit LOCVIDEO est une entreprise de location de vidos du Sud-Est de la France, il est
principalement implant dans la rgion Lyonnaise, Grenobloise et Marseillaise. Jusqu'
prsent l'approvisionnement des points de ventes se faisait de la mme faon quelle que soit la
ville, au bout d'un an d'existence la direction se demande si elle ne devrait modifier sa
politique. Vous disposez d'un chantillon de la consommation de 1192 clients sur un mois
pour faire vos recommandations.
1. Y a t-il une relation entre le premier ou le second choix de location et la ville?
2. Y a t il une relation entre le sexe et le choix des vidos?
3. Pouvez-vous classer les trois rgions en fonction de leur consommation : quelle est la ville
qui consomme le plus de vidos?

Page 69
La rgression linaire

7. LA REGRESSION LINEAIRE

7.1.Un exemple (fichier Pubradio.sav)


Une entreprise de produits de grande consommation dsire mesurer l'efficacit des campagnes
de publicit et promotion pour diffrents mdias. Spcialement trois types de mdias sont
utiliss rgionalement, la presse, la radio et la distribution d'extraits de catalogue gratuits. Un
chantillon de 22 villes de mme grandeur a t choisi, villes pour lesquelles diffrents
budgets de publicit ont t attribus aux trois. Aprs une priode d'un mois, les ventes du
produit (en milliers d'euros) ont t enregistres ainsi que les dpenses publicitaires.
Ville Vente Radio Journau Gratuit Ville Vente Radio Journau Gratuit
s ( 000) x s s ( 000) x s
( ( 000) (00) ( ( 000) (00)
000) 000)
1 894 0 19 9 12 1452 19 19 17
2 1032 0 19 3 13 960 23 0 16
3 804 9 9 7 14 840 23 0 15
4 576 9 9 11 15 1224 26 9 10
5 840 13 13 12 16 1224 26 9 12
6 894 13 13 8 17 1296 29 13 14
7 858 16 16 11 18 1320 29 13 12
8 1086 16 16 17 19 1404 33 16 21
9 810 19 9 15 20 1602 33 16 19
10 906 19 9 10 21 1722 33 19 20
11 1500 19 19 15 22 1584 33 19 15
La direction commerciale peut-elle utiliser ces donnes pour prvoir les ventes en fonction
des budgets dpenss?

7.2.La notion de modle en statistique


Un modle statistique met en relation une variable dite variable dpendante ou variable
expliquer et des variables dites indpendantes ou variables explicatives. Le vocabulaire
dpendant, indpendant est plutt anglo-saxon, la terminologie franaise correspond la
notion de variables explicatives et expliquer ; les deux terminologies sont sujettes caution,
dans la mesure o les variables explicatives ne sont pas forcment indpendantes au sens
probabiliste (sur la population munie de la loi uniforme), mais ne sont pas non plus cause des
variations de la variable expliquer. Dans la suite nous conserverons la terminologie
franaise, variable expliquer, variables explicatives. Les variations des variables explicatives
sont simplement supposes influencer les variations de la variable expliquer, le fait d'en tre
la cause ne peut tre prouv statistiquement, mais rsultera d'un raisonnement conomique ou
autre, tranger la statistique.
Un tel modle statistique doit permettre :
D'tablir une relation analytique ou structurelle entre la variable expliquer et les
variables explicatives (gnralement partir d'un chantillon).
D'analyser l'influence simultane et/ou individuelle des variables explicatives sur
la variable expliquer. Dans certains cas d'liminer des variables qui ne

Page 70
La rgression linaire

s'avreraient pas influentes ou de prciser les liens de causalit supposs par


ailleurs.
De prvoir la valeur espre de la variable expliquer si les valeurs des variables
explicatives sont connues, et de prciser un intervalle de confiance pour cette
prvision.
Dans la suite nous noterons toujours Y la variable expliquer et ( X k )k =1, p les variables
explicatives (au nombre de p) ; si la variable explicative est unique nous la noterons X sans
indice. Toutes ces variables sont dfinies sur une mme population P.
Exemples :
Dans notre exemple P : population des villes o sont distribus les produits
pendant une priode donne
Y = ventes mensuelles des produits en milliers d'euros
X1 = budget mensuel publicitaire radios locales en milliers d'euros
X2 = budget mensuel publicitaire presse locale en milliers d'euros
X 3 = budget mensuel publicitaire pour les gratuits en milliers d'euros
L'objectif est alors de prvoir les ventes mensuelles en fonction des budgets
attribus aux deux mdias.
P : population des mnages en France pendant une priode donne
Y = consommation d'un mnage pendant cette priode
X = revenu du mnage pendant cette priode
Ou encore
Y = consommation d'un mnage pendant cette priode
X = revenu du mnage pendant cette priode
L'objectif pourrait alors tre de prvoir l'impact d'une politique de revenus sur la
consommation ou l'pargne.
P : population des appartements d'un quartier de Paris une priode donne
Y = prix d'un appartement
X1 = surface de l'appartement
X2 = l'existence d'un parking
Etc..
P : population des zones gographiques de reprsentation mdicale pendant une
priode donne
Y = nombre trimestriel de prescriptions d'un mdicament
X1 = dure moyenne de la visite
X2 = nombre d'chantillons distribus
X3 = nombre de visites par mdecins
Etc..

Page 71
La rgression linaire

Relation dterministe/statistique
Une variable Y est dite en relation dterministe avec des variables ( X k )k =1, p s'il existe une
fonction f bien dfinie telle que : Y = f (X 1 , X 2 , K , X p ) . Ce type de relation associe une et
seule valeur y Y pour des valeurs x = ( x k )1k p des variables X = ( X k )k =1, p . Un tel modle
appliqu au deuxime exemple du prix d'un appartement signifierait par exemple que tous les
appartements de 100m2 avec un parking ont le mme prix de vente. Ceci n'est videmment
pas raliste, dans un mme quartier des appartements de mme surface sont des prix
diffrents, ceci est du des lments tangibles tels que l'orientation, l'tage, la prsence d'un
gardien, ou des lments plus subjectifs regroups souvent sous le terme de charme.
L'exemple prcdent montre que pour une valeur donne des variables explicatives ne
correspond pas une seule valeur de Y, mais tout un ensemble de valeur de Y, qui bien sur
s'appliqueront diffrents individus de la population pour lesquels les variables explicatives
ont les mmes valeurs : un appartement donn aura toujours un prix et un seul, mais le fait de
connatre sa surface et la prsence ou non d'un parking ne suffiront pour que l'on connaisse de
faon dterministe son prix.
On exprimera cette notion en disant que les variables explicatives dterminent une loi de
probabilit de la variable expliquer Y, cette loi sera note Yx. Les paramtres de la loi de Yx
seront des fonctions dterministes de la variable X = ( X k )k =1, p , en particulier la moyenne sera
note x et sera l'esprance de Y conditionne par la valeur prise par les variables
explicatives :
x = E (Y / X = x )
on peut alors crire sans perdre de gnralit que
Yx = ( x ) + x

o x est une variable alatoire de moyenne nulle (obtenue aprs centrage de la variable Yx )
et dont les autres paramtres dpendent thoriquement de la valeur x prise par les variables
explicatives.
Ainsi sur le prix d'un appartement on aurait pour un appartement de 100 m2 avec parking
(cette dernire variable valant 1 pour l'existence d'un parking 0 sinon) :
Y100,1 = (100,1) + 100,1
se dcompose en deux parties, une partie dterministe qui donnera le prix moyen d'un tel
appartement et une partie alatoire cart entre le prix moyen et le prix de l'appartement, qui
prend en compte les autres lments pouvant intervenir dans la fixation du prix. On crira
souvent de manire abusive, le modle sous la forme :
Y = f (X ) + E X
La modlisation statistique consiste spcifier la nature de la fonction dterministe de la
moyenne, et les relations dfinissant les paramtres de la variable alatoire ex en fonction des
valeurs de x. C'est dire de se fixer priori une certaine famille de fonction dpendant de
paramtres qu'il faudra estimer partir de donnes d'un chantillon, il faudra aussi l'aide de
tests valider la forme prdfinie des diffrentes fonctions.
Exemple sur le prix d'un appartement
Il est possible pour ce problme d'envisager trois modlisations :

Page 72
La rgression linaire

1. La prsence d'un parking n'influence pas le prix de l'appartement dans ce cas seule la
surface est un lment dterminant du prix, la fonction dterministe dfinissant la
moyenne est une fonction d'une seule variable :
f ( X 1 , X 2 ) = a + bX 1 d'o Y = a + bX 1 + X
pour une valeur donne de la surface x1, nous aurons alors
Yx1 , x2 = a + bx1 + x1
b reprsente le prix du mtre carr dans le quartier (a serait en quelque sorte le cot
d'entre dans le quartier)
2. La prsence d'un parking est un cot fixe donc augmente de faon constante le prix de
l'appartement dans ce cas la fonction dterministe dfinissant la moyenne est une fonction
de deux variables :
f ( X 1 , X 2 ) = a + bX 1 + cX 2 d'o Y = a + bX 1 + cX 2 + X
pour des valeurs donnes x1 et x2, nous aurons alors
Yx1 , x2 = a + bx1 + cx2 + x1 , x2
b reprsente le prix du mtre carr dans le quartier et c reprsente le prix d'un parking
dans le quartier (a serait en quelque sorte le cot d'entre dans le quartier).
3. On peut aussi envisager que la prsence d'un parking influe aussi sur le prix du mtre
carr, auquel cas nous aurions la fonction dterministe suivante :
f ( X 1 ,0) = a + bX 1 en l'absence de parking
f ( X 1 ,1) = a'+b' X 1 en prsence d'un parking
en notant a'=a+c et b'=b+d nous pouvons rcrire ces deux quations sous la forme
unique suivante :
f ( X 1, X 2) = a + bX 1 + cX 2 + dX 1 X 2
ou encore en notant X3 la variable dfinie par X3=X1X2, nous avons un modle linaire
trois variables explicatives :
Y = a + bX 1 + cX 2 + dX 3 + X
pour des valeurs donnes x1 et x2 (x3=x1x2), nous aurons alors
Yx1 , x2 = a + bx1 + cx 2 + dx3 + x1 , x2
A partir d'un chantillon d'appartement, la modlisation statistique nous permettra d'estimer
les coefficients et de tester la validit de chacun des modles sur l'ensemble de la population.
La modlisation fait donc appel aux deux techniques que nous avons prsentes
prcdemment l'estimation et les tests d'hypothse.

7.3.Le modle de rgression linaire


Nous allons ici faire des hypothses tant sur la partie dterministe, fonctionnelle de la
moyenne conditionne, que sur la partie alatoire ; ces conditions vont nous permettre d'avoir
des outils pour estimer les lments du modle appel modle de rgression linaire.

Page 73
La rgression linaire

Hypothse dterministe du modle de rgression linaire


La premire hypothse du modle de rgression linaire consiste modliser l'esprance
mathmatique conditionnelle par une fonction linaire (ou plus exactement une fonction
affine) :
(x1 , x 2 ,K , x p ) = 0 + 1 x1 + 2 x 2 + K + p x p
Remarque : si l'on ajoute la variable "artificielle" X0 gale 1 sur toute la population (donc x0
vaut toujours 1), la formule peut alors s'crire :
k= p
(x0 , x1 , x 2 ,K, x p ) = 0 x0 + 1 x1 + 2 x 2 + K + p x p = k x k
k =0

ce qui justifie le nom de linaire.


Dans le cas d'une seule variable explicative, la rgression est dite simple dans tous les autres
cas la rgression est dite multiple.
Les coefficients ( k )1 k p sont appels coefficients de la rgression et sont videmment
inconnus, ce sont des coefficients valables sur toute la population, si l'un d'entre eux j est
nul cela veut dire que la variable associe X j n'a pas d'influence marginale linaire sur les
variations de la variable Y, mais cela ne veut pas dire que la variable X j n'a pas d'influence
sur les variations de Y, cette influence peut tre d'autre nature (logarithmique, exponentielle
etc) ou peut tre cache par des corrlations entre variables explicatives, la part explicative
de la variable X j tant dj prise en compte par d'autres variables. La variable alatoire
conditionne par les valeurs (x1 , K , x p ) s'crit alors :
k=p
Yx1 ,K, x p = k x k + x1 ,K, x p
k =0

ce qui peut s'crire de manire abusive, sans rappeler les valeurs spcifiques des variables
explicatives :
k= p
Y = k X k + X
k =0

X dsignant une famille de variables alatoires dont les paramtres dpendent des valeurs
prises par les variables explicatives ( X k )1 k p . C'est sur cette dernire famille de loi que vont
porter les autres hypothses du modle de rgression linaire.
Hypothses probabilistes du modle de rgression linaire.
Trois hypothses sont formules sur la famille de variables alatoires X , ces hypothses sont
ncessaires soit pour l'estimation des paramtres soit pour les tests du modle.
Homoscdasticit : La premire hypothse porte sur la variance des lois de la famille X ,
on suppose que cette variance est constante, indpendante de la valeur prise par les
diffrentes variables explicatives. L'cart type associ sera not . Il est important dans la
pratique de comprendre ce que cela signifie, par exemple pour le prix d'un appartement,
cela voudrait dire que la dispersion des prix est la mme pour les appartements de 20m2
ou pour les appartements de 150m2. Cette condition peut conduire parfois limiter la

Page 74
La rgression linaire

population pour qu'elle soit ralise, on pourrait par exemple se limiter aux appartements
dont la surface est comprise entre 60 et 120m2.
Indpendance : on suppose que les variables x1 ,K, x k et x ' ,K, x ' sont indpendantes, quelles
( )
que soient les valeurs (x1 ,K, x p ), x ,K, x ; cette hypothse est particulirement
1 k

' '
1 p

importante lorsque l'on traite des donnes indexes par le temps. Par exemple cela signifie
qu'un mois de surconsommation n'a pas plus de "chances" d'tre suivie d'un mois de sous
consommation qu'un autre (pas d'effet de stockage).
Normalit : on suppose enfin (et ceci pour les tests particulirement) que toutes les
variables alatoires de la famille X sont normales, donc suivent une loi normale de
moyenne nulle et d'cart type .
Compte tenu de ces trois hypothses, on pourra alors par abus de langage utiliser une notation
gnrique unique en confondant toutes les lois de la famille X en une seule, et le modle
sera alors not :
k= p
Y = k X k + o N (0, )
k =0

En dfinitive un modle de rgression linaire comporte p + 2 paramtres estimer, les p + 1


coefficients de rgression ( 0 , 1 , K , p ) et l'cart type de la partie alatoire.

Estimation des paramtres du modle


Nous prsenterons sous forme gomtrique la mthode d'estimation des coefficients, le lecteur
peu amateur de mathmatiques peut ignorer cette section, puisque les valeurs des estimations
seront donnes par SPSS et l'utilisateur n'aura pas les retrouver, ces formules ne seront
d'ailleurs donnes qu'en annexe, nous nous limiterons ici une interprtation gomtrique,
permettant de mieux comprendre les notions de degrs de libert attachs au modle.
Les paramtres du modle sont estims partir d'un chantillon de taille n, sur lequel sont
releves les valeurs des variables explicatives et de la variable expliquer. On obtient ainsi un
tableau de donnes :
y1 x11 x12 L x1k L x1 p
y2 x 21 x 22 L x2k L x2 p
M M M M M M M
yi xi1 xi 2 L xik L xip
M M M M M M M
yn x n1 x n 2 L x nk L x np

Si le modle de rgression linaire est valide, nous devons avoir les n relations suivantes entre
les valeurs prises par la variable expliquer Y et les variables explicatives ( X k )1 k p :

yi = 0 + 1 xi1 + 2 xi 2 + K + p xip + ei

o ei , appele valeur rsiduelle, correspond la ralisation de la variable alatoire pour la


ime observation.

Page 75
La rgression linaire

Critre des moindres carrs


Les valeurs rsiduelles dpendent des valeurs des paramtres du modle ( 0 , 1 , K , p ) , plus
l'amplitude de cette valeur est grande, moins bien l'observation est reprsente par le modle,
il est donc naturel de penser que si le modle de rgression est bien adapt aux donnes sur
l'ensemble des observations les valeurs rsiduelles ne sont pas, en valeur absolue, trop
leves, cette dmarche est rapprocher, bien que diffrente mais lie (voir plus loin), de la
mthode du maximum de vraisemblance en estimation.
On cherchera donc des valeurs des coefficients de rgression telles que l'ensemble des
amplitudes des valeurs rsiduelles soit le plus faible possible, pour des raisons historiques de
commodit de calcul analytiques on utilisera la somme des carrs pour mesurer cet ensemble.
Le critre des moindres consiste donc dterminer les valeurs des coefficients qui
minimisent :

h( 0 , 1 , K , p ) = ei2
n

i =1

Ces valeurs seront notes (b , b ,L, b ), nous aurons alors :


0 1 p

h(b0 , b1 , K , b p ) = min h( 0 , 1 , K , p )
Ce minimum peut tre dtermin en rsolvant le systme de p+1 quations p+1 inconnues
obtenu en, drivant la fonction h chacun des p+1 coefficients (on suppose que ce systme
d'quations une solution unique, ce que nous interprterons gomtriquement au paragraphe
suivant).
Nous noterons dans la suite y i l'estimation de la moyenne correspondant la variable
alatoire de la ime observation :
y i = b0 + b1 xi1 + b2 xi 2 + K + b p xip

et ei l'estimation de la ime valeur rsiduelle : ei = yi y i

Interprtation gomtrique du critre des moindres carrs


Nous allons interprter gomtriquement la mthode des moindres carrs, ce qui nous
permettra d'expliciter certaines proprits des estimations et estimateurs associs. Pour cela
nous allons nous placer dans l'espace des individus, c'est dire que nous allons considrer un
espace vectoriel n dimensions, chaque dimension tant associe un individu de
l'chantillon. Par exemple pour un chantillon de taille 3 nous aurons un espace de dimension
3, c'est ce que nous utiliserons pour les reprsentations graphiques.
Dans cet espace nous pouvons associer chaque variable (plus exactement chaque
chantillon image de chaque variable) un vecteur, que nous noterons avec des lettres
majuscules :
y1 x11 x1 p 1 e1

Y = M X 1 = M K X p = M plus les deux autres vecteurs X 0 = M
E = M
y n x n1 x np 1 en

les n relations crites au paragraphe prcdent donnent une seule relation vectorielle :

Page 76
La rgression linaire

Y = 0 X 0 + 1 X 1 + 2 X 2 + K + p X p + E

Le vecteur 0 X 0 + 1 X 1 + 2 X 2 + K + p X p appartient au plan engendr par les vecteurs


(X , X 1 , K , X p ) que nous supposerons indpendants (ce qui revient considrer que le
0

systme d'quations voqu au paragraphe prcdent a une solution unique), quelles que
soient les valeurs des k, d'autre part le critre des moindres carrs s'interprte comme la
norme (au carr) du vecteur E. Pour satisfaire le minimum de la norme de ce vecteur, il faut
donc projeter Y sur le plan . Les estimations des coefficients de la rgression sont donc les
coordonnes du vecteur Y projection de Y sur le plan . Le vecteur E est alors orthogonal
ce plan (donc tous les vecteurs de ce plan).

Proprits des estimations des moindres carrs


1. La somme des rsidus est gale 0. En effet le vecteur E correspond au minimum de la
norme, critre des moindres carrs, est perpendiculaire au vecteur X0, dont toutes les
coordonnes sont gales 1, donc le produit scalaire de ces deux vecteurs est nul :
n n
E , X 0 = 0 = ei 1 = ei
i =1 i =1

2. Les estimations des moyennes y i ont mme moyenne que les observations yi. En effet :
n n n n
1 n 1 n
ei = 0 = ( yi y i ) = yi y i
i =1 i =1 i =1 i =1
donc y= i n
n i =1
y =
i =1
y i

3. Le centre de gravit du nuage de points est dans le plan (sur la droite) de rgression, c'est
dire que l'on a la relation suivante :
y = b0 + b1 x1 + K + b p x p

o y , x1 , K , x p dsignent les moyennes des variables sur l'chantillon. Ceci rsulte


immdiatement de la somme nulle des rsidus.
4. Le vecteur Y des estimations est dans le plan , donc orthogonal au vecteur E on a
donc la relation suivante :

Page 77
La rgression linaire

n n n n
Y , E = y i ei = 0 ou encore
i =1
( y i y )ei = y i ei y ei
i =1 i =1 i =1
= 0 car la somme des

rsidus est nulle.


5. On a la dcomposition suivante, appele dcomposition des carrs :
n n n

(y y ) = ( y i y ) + ( y i y i )
2 2 2
i
i =1 i =1 i =1

ce qui rsulte de la proprit 4 et du fait que ( y i y ) = ( y i y i ) + ( y i y ) . Cette


dcomposition peut s'interprter de la faon suivante :
La somme du ct gauche est indicatrice de la dispersion totale initiale, elle est
appele Somme des Carrs Totale :
n
SCT = ( y i y )
2

i =1

La premire somme du ct gauche, reprsente la dispersion due aux variables


explicative, ce que le modle permet d'expliquer, elle est appele somme des carrs
reconstitue par le modle de rgression, ou plus simplement Somme des Carrs
Explique :
n
SCE = ( y i y )
2

i =1

La dernire somme donne une indication de la dispersion autour du plan de


rgression, c'est dire de la dispersion non explique par le modle, elle est
appele Somme des Carrs Rsiduelle :
n n
SCR = ( y i y i ) = ei2
2

i =1 i =1

En consquence la dcomposition des carrs s'exprime de la faon suivante :


SCT = SCE + SCR
Cette dcomposition exprime que la variabilit des valeurs observes ( y i )1i n mesure
par SCT est la somme des variabilits des valeurs ( y i )1i n reconstitues par le modle de
rgression mesure par SCE, et de la variabilit des rsidus mesure par SCR. En
consquence comme SCT est constant, on peut tre tent de dire qu'il faut rendre SCE le
plus grand possible ; il faut toutefois faire attention que seul l'chantillon est reconstitu
et que nous sommes concerns par l'ensemble de la population, et que cette
"optimisation" ne doit pas tre obtenue n'importe quel prix.
6. L'estimation de la variance commune des variables alatoires , est donne par :
n

e 2
i
s2 = i =1

n p 1
Dans la mesure o l'estimation se fait partir d'un chantillon de taille n, il ne peut y
avoir plus de n-1 variables explicatives, ceci rsulte de la dimension de l'espace des
individus. Mais de faon plus prcise, quelles que soient les n-1 variables choisies

Page 78
La rgression linaire

(qu'elles soient conomiquement explicatives ou pas) on arrivera toujours une somme


des carrs rsiduelle nulle.
La somme des carrs totale est donc prise dans un espace n-1 degrs de liberts.
La somme des carrs explique se trouve dans l'espace des variables explicatives,
dans un espace de dimension p, car il ne faut pas prendre en compte le vecteur
constant X0.
La somme des carrs rsiduelle est dans un espace orthogonal l'espace des
variables explicatives et X0, donc dans un espace de dimension n-p-1. Pour avoir
la moyenne sur un axe de la somme des carrs, qui reprsentera une estimation de
la dispersion moyenne inexplique donc de la variance de , il faut donc diviser la
norme carre de E par la dimension de l'espace dans lequel il se trouve.
4. On peut enfin dmontrer les rsultats suivants sur les estimateurs obtenus par la mthode
des moindres carrs :
Les estimateurs des coefficients de rgression sont des combinaisons linaires des
observations de la variable expliquer. Ils suivent donc une loi normale.
Les estimateurs des coefficients de rgression et de la variance de , sont sans biais
et convergents.
Les estimateurs des coefficients de rgression sont les meilleurs estimateurs non
biaiss, linaires, c'est dire que ce sont parmi les estimateurs linaires non biaiss
ceux qui ont la variance minimum.
Les estimateurs des coefficients de rgressions par la mthode des moindres carrs
sont les mme que ceux obtenus par la mthode du maximum de vraisemblance.
Ce n'est pas le cas pour l'estimation de .
Certains de ces rsultats seront dmontrs en annexe, sinon on pourra consulter
Indices de qualit d'un modle de rgression
Dans la mesure o nous travaillons sur un chantillon et non sur la population toute entire, il
nous faut disposer d'indicateur, permettant de savoir avec quelle confiance on peut tendre les
rsultats la population entire, et avec quelle fiabilit on peut faire des prvisions, partir de
valeurs connues des variables explicatives. Comme nous l'avons vu au paragraphe prcdent
il est toujours possible de rduire l'incertitude zro, sur l'chantillon mais cela n'a aucun
intrt pour la population, c'est un simple effet de saturation mathmatique.
Les logiciels statistiques donnent toujours la mme structure un listing de rgression
linaire. Cette prsentation est faite sous trois chapitres : indicateurs rsums, validit globale,
validit marginale.

Rsums de la rgression
Cette rubrique contient trois lments : le coefficient de dtermination, le coefficient de
corrlation multiple, l'cart type des rsidus.

Le coefficient de dtermination R2
Le coefficient de dtermination est le pourcentage de la somme des carrs totale expliqu par
le modle. Il est dfini par le rapport :
SCE
R2 =
SCT

Page 79
La rgression linaire

trs souvent, mais par excs de langage on dit que R2 reprsente le pourcentage de variance
expliqu par le modle. L'excs est double, en effet les sommes des carrs (totale et
explique) ne sont pas des variances, ensuite le rapport ne porte que sur l'chantillon. Plus ce
rapport est proche de 1, meilleure est la reconstitution de la variabilit de la variable
expliquer sur l'chantillon. Comme nous l'avons vu au paragraphe prcdent, en prenant n-1
variables explicatives quelconques on reconstituera toujours 100% la variabilit de
l'chantillon.
Cet indicateur est donc un indicateur biais, il augmentera de faon systmatique avec le
nombre de variables explicatives. Sans qu'il y ait de rgle rationnelle donnant le nombre de
variables explicatives maximum pour un nombre donn d'observations, en pratique il est
recommand de prendre au moins 5 6 observations par variable explicative.
Enfin plus que la valeur du R2, ce qui est intressant, c'est la variation de cette valeur par ajout
de variable, si cette variation est trop faible la variable (ou les variables) ajoute(s) sont sans
intrt pour le modle, comme nous le verrons plus loin.
Le coefficient de dtermination est un indicateur intrinsque d'adquation linaire, un mauvais
R2 n'est pas le signe d'une non influence des variables explicatives choisies, mais le signe
d'une absence de liaison linaire. Si des raisons conomiques poussent croire une
influence des variables explicatives choisies, il faudra alors peut-tre utiliser des
transformations non linaires.
Enfin pour terminer, coefficient de dtermination, ne peut en aucun cas servir choisir une
rgression parmi plusieurs rgressions n'ayant pas le mme nombre de variables.
Remarque : certains logiciels utilisent, pour diminuer le biais du au nombre de variables
explicatives, un coefficient de dtermination corrig (ou ajust):
(
R 2 C = 1 (n 1) 1 R 2 ) (n p 1)
Le coefficient de corrlation multiple R
Ce coefficient est simplement la racine du coefficient de dtermination, mais il s'interprte
comme la corrlation entre la srie des valeurs observe ( y i )1i n et la srie des valeurs
calcules par le modle ( y i )1i n . Plus ce coefficient est proche de 1, meilleure est la
reconstitution des donnes par le modle.

Estimation de l'cart type des rsidus


Aussi appele Erreur type de la rgression, cet indicateur donne une ide de la dispersion des
valeurs autour de la valeur moyenne estime par la partie dterministe du modle. Plus cette
estimation est faible meilleure est la prvision que l'on pourra faire partir du modle.
Comme nous l'avons plus haut cette valeur est donne par la formule :
n

e 2
i
SCR
s2 = i =1
=
n p 1 n p 1
Bien que lie au coefficient de dtermination, cette valeur n'en a pas les dfauts, en effet le
dnominateur corrige l'effet de l'augmentation des variables, cette quantit n'est d'ailleurs pas
dfinie dans le cas de modle satur pour l'chantillon, c'est dire p=n-1 variables.
Entre deux modles on aura tendance choisir celui dont l'erreur type est la plus petite.

Page 80
La rgression linaire

Validit globale du modle


La question pose ici est la suivante : les donnes observes permettent-elles d'infrer (sur la
population) qu'aucune des variables explicatives ( X k )1 k p n'a d'influence sur les variations de
la variable Y. Ou en prenant la contrapose de cette proposition, peut penser qu'au moins unes
des variables ( X k )1 k p a une influence significative (au niveau de la population) sur les
variations de Y. Comme d'habitude, quand nous parlons d'influence, nous sous-entendons le
terme linaire.
Si aucune des variables ( X k )1 k p n'avait d'influence sur les variations de Y, ceci signifierait
que seul resterait le terme alatoire autour de la moyenne de la population, le modle serait
alors :
Y = 0 + o 0 = moyenne de Y sur la population
Nous pouvons donc poser notre problme sous forme de test d'hypothse, l'hypothse nulle
correspondant la non influence des variables ( X k )1 k p .

H 0 : 1 = 2 = K = p = 0
H 1 : il existe au moins un indice k tel que k 0
La rgion du rejet de l'hypothse H0 est base sur la statistique dite du "Fisher global". L'ide
du test est de comparer l'apport explicatif moyen des variables choisies par l'analyste avec le
pouvoir explicatif moyen de variables complmentaires totalement arbitraires (correspondant
aux rsidus). Pour cela on va donc faire le rapport entre la diminution de la somme des carrs
due en moyenne chaque variable explicative et la diminution moyenne rsiduelle, c'est
dire l'estimation de l'cart type des rsidus. Si ce rapport n'est pas suffisamment grand
(significativement plus grand que 1), ceci signifiera que les variables explicatives n'ont pas de
pouvoir explicatif plus important que les variables rsiduelles et n'ont donc pas en tre
distingues. On utilisera donc la statistique :
SCE
p CME
Fc = =
SCR CMR
n p 1
CME dsigne le carr moyen expliqu, c'est dire la somme des carrs explique par le
modle, divise par la dimension de l'espace explicatif (p = le nombre de variables
explicatives), CMR dsigne le carr moyen rsiduel, c'est dire la somme des carrs
rsiduelle divise par la dimension de l'espace rsiduel (n-p-1). La rgion critique de rejet de
l'hypothse H0, sera de la forme [ f ,+[ , f tant dtermin en fonction du risque de premire
espce par prob(Fc f ) = .
Pour pouvoir poursuivre la procdure de test, il nous faut connatre la loi de Fc sous
l'hypothse nulle, c'est ici qu'intervient l'hypothse de normalit de la variable . Sous
l'hypothse H0, la statistique Fc suit une loi dite de Fisher-Snedecor (p,n-p-1) degr de
liberts. On peut alors dterminer f soit l'aide de tables. En pratique, on calcule la valeur fc
de la statistique Fc sur l'chantillon, puis on dtermine le niveau de signification
ns = prob(FS ( p, n p 1) > f c ) du test correspondant cette valeur, si ce niveau est infrieur
on rejette l'hypothse. Le test est prsent de faon classique, dans un tableau nomm
Analyse de la Variance :

Page 81
La rgression linaire

Source de Degrs de Somme des Carr Moyen fc Niveau de


variation libert carrs signification
Rgression p SCE SCE CME ns
CME = fc =
p CMR
Rsiduelle n-p-1 SCR SCR
CMR =
n p 1
Totale n-1 SCT

Validit marginale de chaque variable du modle


L'objectif est ici de savoir si le modle n'est pas surdfini, c'est dire qu'aucune des variables
explicatives du modle n'a un l'apport marginal dans l'explication des variations de Y nul. Ceci
revient dire qu'il faut vrifier que pour chacune des variables individuellement (les autres
tant supposes rester dans la rgression) le coefficient n'est pas nul. Le test se pose de la
faon suivante, pour une variable explicative X k et une seule, les autres variables tant
supposes dans le modle :
H0 : k = 0
H1 : k 0
Evidemment l'estimation bk du coefficient n'est pas nul, mais est la valeur prise par un
estimateur sans biais Bk , sur l'chantillon de taille n. Cet estimateur suit une loi normale (si
les rsidus suivent une loi normale), dont l'cart type est inconnu, mais peut tre estim par un
estimateur S (Bk ) , la statistique utilise pour le test sera alors :
Bk
Tc =
S ( Bk )
qui sous l'hypothse H0 suit une loi de Student (n-p-1) degrs de libert.
L'hypothse nulle sera rejete si la valeur observe de la statistique est significativement
diffrente de 0, c'est dire si l'estimation du coefficient est assez loigne de 0, compte tenu
de l'incertitude de cette estimation (incertitude exprime par l'cart type). La rgion critique
de rejet de l'hypothse H0.est de la forme ] ,t ]U [t ,+[ , la valeur de t est dtermine en
fonction du risque de premire espce , de faon prcise t est le fractile d'ordre 1 2 de la
loi de Student n-p-1 degrs de libert.
Tous les logiciels statistiques prfrent donner le niveau ns de signification, c'est dire en
notant t c la valeur de la statistique Tc observe sur l'chantillon :

ns = prob( Student (n p 1) > t c ) = 2 prob(Student (n p 1) > t c )


si ce niveau de signification est infrieur , on rejette l'hypothse H0.
Les lments ncessaires cette validation marginale sont toujours prsents, dans les
logiciels statistiques, dans un tableau donnant les coefficients du modle. Ce tableau la
forme suivante :
Variable Coefficient Ecart type (du tc Niveau de
coefficient) signification

Page 82
La rgression linaire

X1 b1 s (B1 ) b1 ns1
s (B1 )

M M M M M
Xp bp s (B p ) bp ns p
s (B p )

Constante b0 s (B0 ) b0 ns 0
s ( B0 )

Remarques :
1. Si plusieurs variables explicatives ne conduisent pas au rejet de l'hypothse nulle,
ceci ne permet pas de penser que tous leurs coefficients sont nuls, c'est dire
qu'aucune d'entre elles n'est influente sur les variations de Y. En effet, la non
influence d'une variable peut rsulter de corrlation entre les variables explicatives,
ter alors unes de variables non influentes significativement peut rendre les autres
significativement influentes. Ne jamais oublier que ce test porte sur une variable
vis vis de toutes les autres.
2. Si la constante n'est pas significative (et elle seule), il est possible d'essayer un
modle sans constante, en forant 0 sa valeur. Dans ce cas il faut modifier en
consquence les degrs de libert des rsidus qui ne sont plus n-p-1 mais n-p.

7.4.Utilisation de SPSS pour la rgression


Le listing produit par SPSS contient les lments suivants :
Le premier tableau indique quelles ont t les variables entres dans la rgression,
gnralement celles indiques par lutilisateur sauf en cas de multicolinarit, rendant
impossible le calcul.

Variables introduites/supprimes

Variables Variables
Modle introduites supprimes Mthode

1 Gratuits, . Entre
a
Journaux, Radio

a. Toutes variables requises saisies.

Vient ensuite un tableau donnant lcart-type de la rgression et le coefficient de corrlation


multiple. Lcart-type de la rgression est nomm "Erreur standard de lestimation".

Comme la valeur du R2 augmente structurellement avec le nombre de variable, SPPS fournit


un R2 ajust comme indiqu plus haut.
Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation

Page 83
La rgression linaire

a
1 ,916 ,839 ,813 138,034

a. Valeurs prdites : (constantes), Gratuits, Journaux, Radio

Le troisime tableau correspond la validation globale du modle, avec la dcomposition de


la somme totale des carrs entre somme des carrs "expliqus" ici sur la ligne intitule
"Rgression" et la somme des carrs rsiduels. La colonne suivante contient les degrs de
libert associs cette dcomposition, puis vient le F calcul et enfin la significativit de ce F,
c'est--dire la probabilit (en respectant les hypothses de la rgression) dobserver une telle
valeur du F si les variables navaient aucune influence linaire, c'est--dire si tous les
coefficients taient nuls.
b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 1793129,948 3 597709,983 31,370 ,000

Rsidu 342959,506 18 19053,306

Total 2136089,455 21

a. Valeurs prdites : (constantes), Gratuits, Journaux, Radio

b. Variable dpendante : Ventes

Le dernier tableau donne les coefficients des diffrentes variables explicatives ainsi que le
terme constant. Lerreur standard est lestimation de lcart de lestimateur des coefficients.
Les coefficients standardiss sont les coefficients dans le cas o toutes les variables (
expliquer et explicatives) seraient centres rduites.
Comme pour le F, ici vous est donne la significativit du t calcul, c'est--dire la probabilit
dobserver une telle valeur du t sous lhypothse H0 c'est--dire si lapport marginal de la
variable tait nulle (cf Gratuits).
a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 238,458 112,242 2,124 ,048

Radio 23,850 4,524 ,749 5,272 ,000

Journaux 32,629 5,369 ,585 6,078 ,000

Gratuits -,619 10,228 -,009 -,060 ,952

a. Variable dpendante : Ventes

Nous remarquons sur ce listing que la variable Gratuits, n'est marginalement pas significative,
ceci est peut-tre du une corrlation entre les variables explicatives, nous reviendrons plus
loin sur cette question. Il est d'ailleurs rassurant de constater que cette variable n'est

Page 84
La rgression linaire

statistiquement pas significative, car son coefficient ngatif, signifiait qu'une fois les budgets
publicitaires Radio et Journaux fixs, le fait de distribuer des extraits de catalogue gratuit
faisait diminuer les ventes!
Il faudrait donc faire une autre rgression en supprimant cette variable.

7.5.Pratique de la rgression - Analyse d'un listing de rgression Choix d'un modle


Avant de tester un modle de rgression, il est utile de vrifier graphiquement que les
hypothses du modle de rgression linaire, ne sont pas violes de faon vidente. Une fois
cette vrification faite et les changements de variables ventuels effectus, on peut procder
l'laboration de plusieurs modles, et obtenir diffrents listings de rgression.
L'analyse d'un listing de rgression consiste dterminer si un modle est acceptable
statistiquement et conomiquement. Le problme ne se pose que si la rgression est faite sur
un chantillon, et si on envisage d'tendre les rsultats l'ensemble de la population.
Analyse pralable des donnes Changement de variables
Gnralement on se contente d'une reprsentation graphique des donnes, en mettant en
abscisse les diffrentes variables explicatives et en ordonnes la variable expliquer. On
pourra obtenir diffrents types de graphiques :

figure 1 figure 2 figure 3 figure 4


Les figures 2, 3, 4 montrent des distributions de donnes qui ne satisfont les hypothses du
modle de rgression linaire. Sur la figure 1, en revanche, rien ne semble priori contrarier
ces hypothses (sauf ventuellement la normalit, mais il faut d'abord estimer le modle) : les
donnes semblent bien tre rparties autour d'une droite (hypothse de linarit) et l'paisseur
du nuage de point parat peu prs constante, sans tre systmatiquement d'un ct ou de
l'autre de la tendance linaire.
Les figures 2 et 3 indique clairement une allure non linaire de la moyenne des y pour une
abscisse x donne, on pourra dans les deux cas essayer une transformation puissance
d'exposant suprieur 1 pour la figure 2(par exemple x 2 ) et infrieure 1 pour la figure 3
(par exemple x ). Les cas les plus accentus (les plus loin du linaire) tant reprsents par
la fonction exponentielle pour la figure 2 et la fonction logarithmique pour la figure 3.
La figure 4 ne met en cause fondamentalement, la linarit de la moyenne, mais elle montre
clairement que la dispersion autour de cette moyenne n'est pas constante, les donnes ne
respectent pas l'hypothse d' homoscdasticit des rsidus, on peut penser ici que la dispersion
est proportionnelle une puissance (ou au logarithme) de la variable explicative X k
reprsente en abscisse. On pourra alors utiliser le changement de variable pour la variable
expliquer Y a ou Y
ln( X )
.
X

Page 85
La rgression linaire

Toutes ces transformations, simples raliser avec SPSS, doivent tre valides par un
nouveau graphique (faisant intervenir ou non la droite de rgression) et aussi par le calcul des
corrlations simples ventuellement.
Application notre exemple, les trois graphiques sont les suivants :

Radio/Ventes Journaux/Ventes Gratuits/Ventes

Les graphiques n'infirment pas les hypothses du modle de rgression, ce qui est confirm en
calculant les corrlations simples entre la variable expliquer et les variables explicatives :

Corrlations

Ventes Radio Journaux Gratuits


** ** **
Ventes Corrlation de Pearson 1 ,707 ,539 ,589

Sig. (bilatrale) ,000 ,010 ,004

N 22 22 22 22

**. La corrlation est significative au niveau 0.01 (bilatral).

Validation d'un modle


La partie rsum ne fournit que des indications gnrales sur le modle sans permettre de
valider ou non statistiquement le modle, elle est surtout utile quand on veut choisir parmi
plusieurs modles.

Validation statistique
La validation statistique se fait en fonction d'un risque de premire espce fix, gnralement
5% ou 1%.
La premire validation est la validation globale, cette validation se fait l'aide du tableau
d'analyse de la variance. Il suffit de vrifier que le niveau de signification de la statistique de
Fisher est infrieur au risque de premire espce. Si ce n'est pas le cas, l'ensemble des
variables explicatives est rejeter, au moins sans transformation nouvelle, l'analyse s'arrte l.
Si le modle est globalement accept, il faut ensuite passer la validation marginale. Sur
notre exemple le niveau de signification est quasi nul, trs infrieur 1%, donc nous validons
globalement notre modle.
La validation marginale se fait l'aide du tableau du modle, pour que le modle soit
statistiquement acceptable, il faut que le niveau de signification de chacun des tc soit infrieur
au risque de premire espce. Si ce n'est pas le cas, il est ncessaire d'ter au moins une des

Page 86
La rgression linaire

variables explicatives prises en compte, gnralement on enlvera une et une seule des
variables dont l'apport marginal est non significatif.
Sur notre exemple, seule la variable Gratuits n'est pas marginalement significative nous
pouvons alors tester un modle sans cette variable. Le tableau du modle est alors le suivant :

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 235,168 95,577 2,461 ,024

Radio 23,646 2,935 ,742 8,058 ,000

Journaux 32,571 5,140 ,584 6,337 ,000

a. Variable dpendante : Ventes

Cette fois toutes les variables sont marginalement significatives et le modle est donc
acceptable statistiquement.

Validation conomique
Une fois le modle accept statistiquement, il est bon de vrifier que les signes des
coefficients sont cohrents avec ce que l'analyste attendait ; sinon des raisons de cette
incohrence sont rechercher conomiquement et non pas statistiquement.
Sur notre exemple, le modle valide statistiquement est cohrent d'un point de vue
conomique, les deux coefficients sont positifs, comme il est naturel de le supposer : la
publicit fait augmenter les ventes. Le modle nous permet d'ailleurs de quantifier cet effet,
budget Radio fix, 1000 de publicit dans les journaux font augmenter les ventes de 32 500
environ, et budget Journaux fix 1000 de publicit la Radio fait augmenter les ventes de
23 600 environ.
Remarque : en comparant les deux listings de rgression, on obtient les rsums suivants :
Modle R2 Erreur Standard
3 variables 0,83945 138,034
2 variables 0,83941 134,37
Comme nous l'avions dit le coefficient de dtermination est plus grand dans le modle trois
variables que dans le modle deux, ce qui est purement mathmatique, mais ne garantit en
rien une meilleure adquation du modle aux donnes; En revanche l'erreur type, estimation
de l'cart type des rsidus est nettement plus faible pour le modle 2 variables que pour le
modle 3 variables, ce qui confirme bien l'inutilit de l'une des variables.
Analyse des rsidus
Quand un modle est satisfaisant statistiquement et conomiquement, il nous reste vrifier
que les hypothses faites sur les rsidus, la normalit, l'indpendance et l' homoscdasticit.

Page 87
La rgression linaire

L'indpendance n'est facilement vrifiable que lorsque les variables sont temporelles, dans ce
cas le plus simple est de reprsenter sur un graphique cartsien le rsidu en t en fonction du
rsidu en t-1 (on peut aussi utiliser la statistique de Durbin-Watson).
On appelle rsidu standardiss, les rsidus diviss par l'erreur standard. L'option "enregistrer"
du menu rgression linaire de SPSS permet de crer des variables associes aux rsidus
standardiss ou non, ainsi que les valeurs prdites (moyennes) par le modle et l'intervalle de
confiance de cette moyenne.

Normalit et homoscdasticit des rsidus


Pour vrifier l'indpendance, on pourra utiliser le graphique normal ou un histogramme, pour
l'homoscdasticit, plutt que de faire un graphique avec chacune des variables explicatives, il
est plus simple de faire un graphique des rsidus (ou rsidus standardiss) en fonction des
estimations ( y i )1i n ce qui rsume l'ensemble des graphiques. Sur le modle retenu pour
l'exemple, les deux graphiques sont les suivants :

Su le graphique de gauche, les points sont bien aligns sur la diagonale, il n'y a pas lieu de
remettre en cause la normalit des rsidus, sur le graphique de gauche on ne remarque aucune
forme particulire du nuage, qui est bien "quilibr" autour de l'axe des abscisses,
l'homoscdasticit ne semble pas non plus remettre en cause.
Choix d'un modle de rgression
En pratique, il est frquent de se trouver face plusieurs modles satisfaisant tant
statistiquement qu'conomiquement, se pose alors le problme du choix du modle. Nous
avons vu que le coefficient n'tait pas un bon indicateur pour choisir entre diffrents modles,
quand le nombre de variables explicatives n'est pas le mme pour tous les modles.
L'indicateur qui nous semble le plus appropri pour choisir un modle est l'erreur type de
rgression, elle donne une indication non biaise sur la dispersion autour de la valeur
moyenne calcule par la partie dterministe du modle. Il est toutefois important de distinguer
entre un modle descriptif et un modle prdictif, si le modle est uniquement descriptif (pour
valider une thorie par exemple), le modle de moindre erreur type s'impose, c'est celui qui
fournira le plus d'indications sur les variations de la variable expliquer. En revanche, si le
modle est usage prdictif, il sera important alors de prendre aussi en compte la facilit
qu'aura le dcideur prvoir la valeur des variables explicatives, on aura alors tendance
privilgier un modle ne faisant intervenir que des variables explicatives sous le contrle du
dcideur.

Page 88
La rgression linaire

7.6.Les variables qualitatives dans le modle de rgression


Trs souvent l'tude des variations d'une variable expliquer peut se faire l'aide de variables
quantitatives, par exemple les ventes d'un produit de grande consommation dans une
population de points de points de ventes peuvent s'expliquer par la rgion, le type de magasin;
le type de promotion du produit etc.. Nous prendrons l'exemple dont les donnes sont dans le
classeur Enseignes.xls : un fabricant distribue des produits de jardinage sous trois enseignes
de magasin (codes de 1 3) et dans quatre rgions diffrentes (codes de 1 4). Il a recueilli
les rsultats de 25 magasins et voudrait dterminer si l'enseigne et/ou la rgion ont une
influence significative sur les ventes :
Ventes Enseigne Rgion Ventes Enseigne Rgion
(100) (100)
266 2 3 103 1 1
179 3 4 261 3 3
178 3 2 360 2 2
112 1 1 324 2 2
117 1 1 463 2 4
107 1 1 260 1 1
265 3 4 215 3 3
146 1 1 384 2 2
279 2 4 121 1 1
171 1 1 125 3 1
233 1 1 214 1 4
365 3 3 144 1 2
Il est donc ncessaire de coder convenablement ces variables pour pouvoir les utiliser dans
notre modle de rgression. Il nous faudra ensuite pourvoir dcider si une variable qualitative
a une relle influence sur les variations de la variable expliquer.
Le codage d'une variable qualitative Les indicatrices.
Une variable qualitative organise les units statistiques en catgories identifies par une
modalit, qu'il est d'usage de coder numriquement de 1 m, m tant le nombre de modalits.
Il n'est pas possible d'utiliser directement ce codage, supposons en effet que ce soit le cas,
nous aurions alors le modle thorique suivant (en ne faisant intervenir que cette variable) :
Yx = 0 + 1 x + o x prend les valeurs 1,2, K , m .

Ce qui impliquerait donc, en notant i la moyenne de la variable Y restreinte la sous


population prsentant la modalit i, :
1 = 0 + 1 , 2 = 0 + 2 1 ,K, i = 0 + i 1 ,K, m = 0 + m 1
ce qui signifie que les modalits sont ordonnes de telle faon que ces moyennes soient
croissantes (si 1 est positif) ou dcroissantes (si 1 est ngatif), et que de plus la diffrence
entre deux moyennes pour de modalits conscutives est constante (=1). Clairement ces
hypothses ont peu de chances de se raliser dans la pratique, il nous faut donc coder
diffremment les variables explicatives qualitatives. Nous devons isoler les influences de
chaque modalit sur les variations de la variable expliquer, il est alors naturel d'introduire
des variables indicatrices de chacune des modalits, c'est dire pour chaque modalit une
variable prenant la valeur 1 si l'individu statistique prsente cette modalit, 0 sinon.

Page 89
La rgression linaire

Donc si X1 est une variable qualitative prsentant m modalits on introduira m variables


indicatrices :
pour 1 j m X 1 j = 1 si X 1 = m , X 1 j = 0 sinon
Toutefois ce codage n'est pas encore parfait dans la mesure o les variables ainsi cres ne
sont pas indpendantes, mais sont lies par la relation :
m

X
j =1
1j =1

ce qui signifie qu'un individu statistique prsente une modalit et une seule. Un modle de
rgression incluant les m variables ne peut donc tre dtermin, puisqu'il suffirait de
remplacer l'une des variables par l'oppos de la somme des autres pour avoir un modle
quivalent. Il nous faudra donc liminer l'une quelconque de ces variables pour obtenir un
modle dterminable. Si toutes les variables incluses dans le modle prennent la valeur 0, ceci
signifie que l'individu pris en compte prsente la modalit associe la variable absente de la
rgression.
Cration des indicatrices sous SPSS
La cration des indicatrices se fait sous SPSS en utilisant le menu Transformer/Crer de
nouvelles variables. Il nest bien sur utile de crer que m-1 indicatrices. Nous avons crer ici
les variables Enseigne1, Enseigne2, Rgion1, Rgion2, Rgion3.
Interprtation des coefficients du modle
Nous allons nous placer par le cas d'une seule variable explicative qualitative m modalits
X, reprsentes par m-1 variables indicatrices (X j )1 j m1 dans la rgression, le modle est
alors le suivant :
Y = 0 + 1 X 1 + 2 X 2 + K + m 1 X m 1 +

Les seules valeurs possibles pour X j sont 1 ou 0, mais une seule des variables au plus est non
nulle, si toutes les variables sont nulles, ce qui correspond l'appartenance la modalit
absente m par exemple, la moyenne m = 0 , si seule la variable indicatrice X 1 est non nulle
la moyenne correspondante est 1 = 0 + 1 , de manire gnrale si seule la variable X j est
non nulle la moyenne correspondant cette modalit est j = 0 + j . Aux coefficients de la
rgression on peut donc associer :
Pour le coefficient constant : la moyenne de la variable Y restreinte la sous
population prsentant la modalit absente. Cette modalit sera la modalit de
rfrence.
Pour les autres coefficients : la diffrence des moyennes entre variable Y restreinte
la sous population prsentant la modalit j et la variable Y restreinte la sous
population prsentant la modalit absente.
Le test partiel de Student revient donc vrifier que les moyennes entre une modalit et la
modalit absente sont diffrentes. On a donc une gnralisation du test de comparaison de
deux moyennes, vu dans le chapitre prcdent. Notons cependant que l'hypothse
d'homoscdasticit des rsidus revient ne faire le test qu'en supposant les variances gales
sur chacune des sous populations.

Page 90
La rgression linaire

L'estimation b0 est simplement la moyenne des valeurs de Y pour les individus de


l'chantillon prsentant la modalit absente, de mme l'estimation b0 + b j est la moyenne des
valeurs de Y pour les individus de l'chantillon prsentant la modalit j.
Sur notre exemple nous obtenons le tableau du modle suivant :

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 226,857 25,295 8,968 ,000

Enseigne1 -69,766 32,357 -,353 -2,156 ,043

Enseigne2 119,143 37,233 ,524 3,200 ,004

a. Variable dpendante : Ventes

La modalit de rfrence est la modalit 3, les estimations des moyennes des ventes dans les
magasins par enseigne sont les suivantes
Enseigne 3 (constante de la rgression b0 ) : 226,86*100=22 686.
Enseigne 1 (b0 + b1 ) : (226,86-69,77)*100 = 157,09*100=15 709
Enseigne 1 (b0 + b2 ) : (226,86+119,14)*100 = 346,10*100=34 610
Comme tous les tc sont significatifs au risque de premire espce de 5%, on peut donc
considrer qu'il y a une diffrence significative entre les enseignes, qui seront classes dans
l'ordre croissant des ventes : Enseigne 1, Enseigne 3, Enseigne 2.
Test de l'influence d'une variable qualitative
Si nous introduisons dans le modle prcdent les variables indicatrices de la rgion (des trois
premires rgions) nous obtenons le tableau du modle suivant :

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 235,559 37,096 6,350 ,000

Enseigne1 -21,465 45,861 -,109 -,468 ,645

Enseigne2 121,836 40,856 ,536 2,982 ,008

Rgion1 -66,740 47,968 -,334 -1,391 ,181

Rgion2 -26,367 43,623 -,109 -,604 ,553

Rgion3 10,732 47,196 ,041 ,227 ,823

a. Variable dpendante : Ventes

Page 91
La rgression linaire

Il y a dans le modle, plusieurs variables indicatrices non significatives marginalement. Nous


pourrions liminer les unes aprs les autres les variables non significatives marginalement,
mais en faisant cela nous ne tiendrions pas compte du fait que les variables ont une
signification "par bloc".

Principe du test
Comme nous l'avons fait pour une variable quantitative il serait en fait plus intressant de
pouvoir tester l'influence marginale d'une variable qualitative quand d'autres variables sont
dans la rgression. Le problme est ici diffrent dans la mesure o nous serons conduits
tester l'influence marginale d'un groupe de variables (les variables indicatrices associes la
variable qualitative) et non plus d'une seule variable. Nous nous intresserons ici au test de
l'influence d'un groupe de m variables explicatives parmi p, que ces variables correspondent
une variable qualitative ou non.
Pour simplifier les notations, et sans rien perdre de la gnralit du propos, nous supposons
que le groupe de m variables dont nous voulons tester l'influence marginale sont les m
dernires X p m+1 , X p m+ 2 , K , X p . Le test se posera alors de la faon suivante :

H 0 : p m +1 = p m+ 2 = K = p
H 1 : j [1, m] p j 0
Nous serons donc conduits comparer deux modles :
Le modle dit complet, comprenant les p variables explicatives. Nous noterons
respectivement SCEC et SCRC la somme des carrs explique et la somme des
carrs rsiduel de ce modle et RC2 son coefficient de dtermination. SCT
dsignera la somme des carrs totale qui est la mme pour tous les modles.
Le modle dit partiel ne comprenant que les p-m premires variables explicatives.
Nous noterons SCEP la somme des carrs explique de ce modle, R P2 son
coefficient de dtermination.
Le principe du test sera identique celui du test global : si les m variables explicatives
supplmentaires ne sont pas plus intressantes que les variables associes la partie rsiduelle
du modle complet, autant les laisser dans cette partie. Pour juger de l'apport des m variables
explicatives supplmentaires, il suffit de prendre comme indicateur la diminution de la somme
des carrs due leur introduction dans le modle ; pour pouvoir le comparer aux rsidus on
utilisera en fait la diminution moyenne par variable introduite dans le modle. La statistique
que nous utiliserons, appele statistique de Fisher Partiel, sera alors :
(SCEC SCEP )
FP = m en divisant numrateur et dnominateur par SCT on obtient une
SCRC
(n p 1)
(R 2
C RP2 )
dfinition quivalente souvent utilise dans la littrature statistique FP = m
(1 R )
2
.
(n p 1)
C

Sous l'hypothse nulle cette statistique suit une loi de Fisher-Snedecor (m,n-p-1) degrs de
libert, comme pour la statistique F globale, on rejette l'hypothse H0 si la valeur observe est

Page 92
La rgression linaire

suffisamment grande, la valeur critique F est dtermine en fonction du risque de premire


espce par la formule prob(FS (m, n p 1) > F ) = . Nous utiliserons le niveau de
signification dfinie en fonction de la valeur observe pour la statistique sur l'chantillon FPc :
ns = prob(FS (m, n p 1) > FPc ) . Si ce niveau est infrieur , l'hypothse H0 est rejete.
Remarques :
Dans le cas particulier m = p , on retrouve le test global de la rgression.
Dans le cas m = 1 , on retrouve le test marginal sous une autre forme, on peut en
effet dmontrer les deux rsultats suivant : t c2 = FPc et la loi de Fisher-Snedecor
(1,n-p-1) degrs de libert est gale au carr de la loi de Student n-p-1 degrs
de libert.

Tableau d'analyse de la variance


Il est d'usage de prsenter le rsultat du test par un tableau, permettant l'analyse marginale de
deux groupes de variables. Supposons que les p variables explicatives soient divises en deux
groupes Gm et Gp-m de variables contenant respectivement m et p-m variables. Nous noterons
SCEm la somme des carrs explique par le groupe de m variables et SCEp-m celle du groupe
de p-m variables. Le tableau dit d'analyse de la variance se prsente sous la forme suivante :
Source Somme des DL Carr Moyen F ns =Prob >F
Carrs
Complet SCEC p SCEC SME prob(F p ,n p 1 > f g )
= SME fg =
p SCRM
Gm SCEC-SCEp-m m S m
= SM f mp =
SM m (
prob Fm, n p 1 > f mp )
= Sm m
m
SCRM

Gp-m SCEC-SCEm pm S pm
= SM p m f pm =
p
SM p m (
prob F p m ,n p 1 > f pp m )
= Sp-m pm SCRM
Rsidus SCRC n p 1 SCRC
= SCRM
n p 1
Totale SCT n 1
La premire ligne du tableau correspond l'analyse de la variance du modle complet, elle
permet de tester l'influence globale des variables explicatives, les deux lignes suivantes
permettent de tester l'influence marginale de chacun des groupes de variables Gm et Gp-m. Si
l'un des deux niveaux de signification est suprieur a, ce groupe de variables peut tre t de
la rgression.

Mise en uvre sous SPSS


Sous SPSS, on utilisera dans le menu Analyse, le sous menu Modle Linaire
Gnral/univari. La variable dpendante est la variable expliquer, les facteurs fixes sont les
variables qualitatives non recodes, les cofacteurs sont les variables quantitatives explicatives
(ici aucune). Dans loption modle on ne demandera pas dinteraction :

Page 93
La rgression linaire

Ce qui donne les valeurs (modle corrig prenant en compte enseigne et rgion) :

Tests des effets inter-sujets

Variable dpendante:Ventes

Somme des Moyenne des


Source carrs de type III ddl carrs D Sig.
a
Modle corrig 150023,457 5 30004,691 6,536 ,001

Enseigne 53141,374 2 26570,687 5,788 ,011

Rgion 11427,890 3 3809,297 ,830 ,495

Erreur 82627,876 18 4590,438

Total corrig 232651,333 23

a. R deux = ,645 (R deux ajust = ,546)

On constate sur ce tableau que la variable Rgion n'a aucun apport marginal significatif,
puisque son niveau de signification est de 50% environ, trs largement suprieur au risque
habituel de 5%.
Comme nous avons vu plus haut que le modle Ventes/Enseigne tait valable statistiquement
nous ne garderons que la variable qualitative Enseigne.

7.7.La rgression pas pas


Pour un nombre donn p de variables explicatives candidates pour un modle de rgression
linaire, le nombre de modle possible est gal au nombre de parties non vides d'un ensemble
p lments soit 2p-1, pour p=5 cela fait dj 31 modles possibles, parmi lesquels il faudra
choisir un ou plusieurs modles statistiquement et conomiquement valable. Il serait donc
utile d'avoir une mthode systmatique permettant d'obtenir un bon modle.
Principe de la mthode
Dans la mesure o il n'existe pas de critre rationnel permettant de dire si un modle est
meilleur qu'un autre, il n'est pas ici question d'optimisation, mais simplement d'obtenir un
modle valable statistiquement. Les mthodes pour atteindre ces rsultats sont des mthodes
pas pas reposant sur la statistique t de Student, chaque tape on introduit la variable la plus

Page 94
La rgression linaire

marginalement significative ou on retire la variable la moins significative. Nous n'exposerons


ici que la mthode la plus "naturelle", la procdure descendante ou "backward".
La mthode retire chaque tape une variable du modle construit l'tape prcdente. Au
dbut de l'algorithme les p variables sont prsentes dans le modle. Un seuil de sortie est
fix qui correspond la valeur maximale du niveau de signification d'une variable pour qu'elle
soit conserve dans la rgression ( ou ce qui revient au mme une valeur minimale de tc).
A l'tape k, si toutes les variables du modle ont un niveau de signification suprieur , la
mthode s'arrte et le modle est conserv ; sinon parmi les variables qui ont un niveau de
signification infrieur , on limine la variable ayant le plus grand niveau de signification et
on itre la procdure.
La procdure s'arrtera donc lorsque l'une des deux conditions suivante sera vrifie :
Toutes les variables sont retires du modle
Les variables prsentes dans le modle ont toutes un niveau de signification
suprieur .
Bien videmment, le modle final dpend de la valeur du seuil retenu, plus ce seuil est faible,
moins il restera de variables dans le modle final.
Cette procdure n'est en rien optimale, elle ne remet jamais en cause l'limination d'une
variable. Or il est possible qu'une variable qui a t sortie du modle au cours des premires
tapes, du fait de sa corrlation d'autres variables du modle, se trouve finalement avoir un
apport marginal significatif par rapport au modle final, dans la mesure o certaines des
variables corrles ont t limines aprs elle.
Un exemple
Nous avons dj vu une illustration de cette mthode au paragraphe 0 pour le premier
exemple, il tait possible de pratiquer cette procdure car les donnes taient bien disposes
pour l'limination de la variable non significative, qui ne sparait l'ensemble des variables
explicatives. Nous allons illustrer cette mthode sur le deuxime exemple, les ventes en
fonction des enseignes et des rgions, en prenant un risque de premire espce =5%. Dans la
bote de dialogue rgression de SPSS, nous choisissons dans le bloc de variables explicatives
(ou indpendantes) la mthode descendante.
Le listing produit est compos des lments suivants :

Page 95
La rgression linaire

La liste de la variable limine chaque tape :


b
Variables introduites/supprimes

Variables Variables
Modle introduites supprimes Mthode

1 Rgion3, . Entre
Enseigne2,
Rgion2,
Enseigne1,
a
Rgion1

2 . Rgion3 Elimination descendante (critre : Probabilit de F


pour liminer >= ,100).

3 . Enseigne1 Elimination descendante (critre : Probabilit de F


pour liminer >= ,100).

4 . Rgion2 Elimination descendante (critre : Probabilit de F


pour liminer >= ,100).

a. Toutes variables requises saisies.

b. Variable dpendante : Ventes

Les caractristiques de chaque modle (on peut remarquer que le R2 diminue, mais ni le R2
ajust, ni lerreur standard) :

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,803 ,645 ,546 67,753
b
2 ,802 ,644 ,569 66,040
c
3 ,799 ,638 ,584 64,883
d
4 ,789 ,623 ,587 64,642

a. Valeurs prdites : (constantes), Rgion3, Enseigne2, Rgion2,


Enseigne1, Rgion1

b. Valeurs prdites : (constantes), Enseigne2, Rgion2, Enseigne1,


Rgion1

c. Valeurs prdites : (constantes), Enseigne2, Rgion2, Rgion1

d. Valeurs prdites : (constantes), Enseigne2, Rgion1

Page 96
La rgression linaire

Les diffrents tableaux danalyse de la variance :

e
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 150023,457 5 30004,691 6,536 ,001

Rsidu 82627,876 18 4590,438

Total 232651,333 23
b
2 Rgression 149786,081 4 37446,520 8,586 ,000

Rsidu 82865,253 19 4361,329

Total 232651,333 23
c
3 Rgression 148454,479 3 49484,826 11,755 ,000

Rsidu 84196,854 20 4209,843

Total 232651,333 23
d
4 Rgression 144900,958 2 72450,479 17,339 ,000

Rsidu 87750,375 21 4178,589

Total 232651,333 23

a. Valeurs prdites : (constantes), Rgion3, Enseigne2, Rgion2, Enseigne1, Rgion1

b. Valeurs prdites : (constantes), Enseigne2, Rgion2, Enseigne1, Rgion1

c. Valeurs prdites : (constantes), Enseigne2, Rgion2, Rgion1

d. Valeurs prdites : (constantes), Enseigne2, Rgion1

e. Variable dpendante : Ventes

Enfin les diffrents modles, o il est possible de retrouver la dmarche "backward" :

Page 97
La rgression linaire

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 235,559 37,096 6,350 ,000

Enseigne1 -21,465 45,861 -,109 -,468 ,645

Enseigne2 121,836 40,856 ,536 2,982 ,008

Rgion1 -66,740 47,968 -,334 -1,391 ,181

Rgion2 -26,367 43,623 -,109 -,604 ,553

Rgion3 10,732 47,196 ,041 ,227 ,823

2 (Constante) 241,224 26,791 9,004 ,000

Enseigne1 -23,975 43,389 -,121 -,553 ,587

Enseigne2 119,987 39,026 ,528 3,074 ,006

Rgion1 -70,147 44,416 -,351 -1,579 ,131

Rgion2 -30,421 38,808 -,125 -,784 ,443

3 (Constante) 236,229 24,778 9,534 ,000

Enseigne2 126,979 36,271 ,558 3,501 ,002

Rgion1 -86,729 32,170 -,434 -2,696 ,014

Rgion2 -34,417 37,460 -,142 -,919 ,369

4 (Constante) 227,625 22,854 9,960 ,000

Enseigne2 118,375 34,911 ,521 3,391 ,003

Rgion1 -78,125 30,662 -,391 -2,548 ,019

a. Variable dpendante : Ventes

Le dernier modle est la fois valide globalement et marginalement, il est donc acceptable
statistiquement.
Remarques :
Le modle obtenu par rgression pas pas backward n'est pas le mme que celui
obtenu par analyse du F partiel.
La variable explicative Rgion1 n'tait pas significative dans les deux premires
tapes du processus, ceci tait du une forte corrlation entre cette variable et la
variable Enseigne1, c'est ce qui explique le rsultat final : les enseignes sont en fait
un facteur explicatif des variations des ventes. Si la rgion apparat ici c'est
uniquement du un biais qui est la sur reprsentation de l'enseigne 1 dans la
rgion1.

Page 98
La rgression linaire

Un dernier tableau donne pour chaque rgression, la validit ventuelle de chacune des
variables qui ont t exclues, si elle tait introduit dans le modle de cette tape. La tolrance
est une indication de colinarit entre la variable hors rgression et lensemble des variables
dans la rgression :

d
Variables exclues

Statistiques de
Corrlation colinarit
Modle Bta dans t Sig. partielle Tolrance
a
2 Rgion3 ,041 ,227 ,823 ,054 ,618
b
3 Rgion3 ,061 ,358 ,724 ,082 ,656
b
Enseigne1 -,121 -,553 ,587 -,126 ,389
c
4 Rgion3 ,109 ,726 ,476 ,160 ,813
c
Enseigne1 -,153 -,718 ,481 -,159 ,403
c
Rgion2 -,142 -,919 ,369 -,201 ,758

a. Valeurs prdites dans le modle : (constantes), Enseigne2, Rgion2, Enseigne1, Rgion1

b. Valeurs prdites dans le modle : (constantes), Enseigne2, Rgion2, Rgion1

c. Valeurs prdites dans le modle : (constantes), Enseigne2, Rgion1

d. Variable dpendante : Ventes

Page 99
La rgression linaire

8. Exercices de regression linaire


8.1. Rgression simple : Prix des forfaits de ski (Forfait.sav)
On veut tudier le prix des forfaits en fonction de l'tendue en kms du domaine skiable. On a
relev un chantillon de 42 stations :
Station Kms Prix Station Kms Prix
Auron 135 km 125 Morillon 145 km 154
Ax les thermes 75 km 140 Morzine 107 km 141
Chatel 83 km 140 Orcires Merlette 100 km 126
Isola 2000 120 km 125 Pra loup 180 km 136
La Clusaz 128 km 150 Praz sur arly 120 km 115
La Joue du Loup 100 km 143 Risoul 180 km 149
La Mongie 100 km 150 Saint Jean d'Arves 90 km 129
La Norma 65 km 115 Saint Lary soulan 100 km 166
La Plagne 225 km 192 Saint Sorlin 120 km 132
La Rosire 150 km 161 Samoens 265 km 187
La Tania 150 km 174 Serre Chevalier 250 km 281
Le Corbier 90 km 125.5 Superdvoluy 100 km 143
Le grand bornand 82 km 121 Val cenis 80 km 126
Les 2 Alpes 220 km 172 Val d'Allos 180 km 141
les Arcs 200 km 198 Val thorens 140 km 169
les Menuires 160 km 169 Valfrjus 65 km 110
Les Orres 88 km 122 Valloire/Valmeinier 150 km 140
les saisies 62 km 142 Valmorel 150 km 175
Mribel 150 km 178 Vars 180 km 149
Molines 38 km 107 Vaujany 32 km 116
Montgenevre 100 km 144 Villard de Lans 125 km 134
Analyse de l'ensemble du fichier
En utilisant les annexes 1, 2, 3 :
1) Lhypothse dune liaison linaire vous semble-t-elle raliste ?
2) Analyser les rsultats de la rgression simple, et interprter les coefficients.
3) Analyser les rsidus standards.
Analyse sans Serre Chevalier
Un statisticien propose de faire lanalyse sans la station Serre Chevalier (pourquoi ?)
Les rsultats vous sont donns en annexe 4.
1) Analyser les rsultats et interprter les rsultats. Quels serait la prvision ponctuelle
pour Serre Chevalier ?
2) Donner un intervalle de confiance des coefficients (au degr de confiance de 0,95).
Quen concluez-vous ?

Page 100
La rgression linaire

Annexe 1 Graphique et corrlation

Corrlations
Prix Km
Prix 1 ,756
Km ,756 1

Annexe 2 Rsultats de la rgression

Rcapitulatif du modle

Erreur standard
Modle R R-deux R-deux ajust de l'estimation

1 ,756 ,571 ,560 20,594

ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.

1 Rgression 22596,541 1 22596,541 53,280 ,000

Rsidu 16964,418 40 424,110

Total 39560,958 41

Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 92,366 8,247 11,200 ,000

Km ,434 ,059 ,756 7,299 ,000

Annexe 3 - Rsidus
Station Rsidus Standards Station Rsidus Standards

Page 101
La rgression linaire

Auron -25,91106 -1,25819 Morillon -1,24776 -0,06059


Ax les thermes 15,10917 0,73367 Morzine 2,23171 0,10837
Chatel 11,6398 0,56521 Orcires Merlette -9,73259 -0,47259
Isola 2000 -19,406 -0,94232 Pra loup -34,42623 -1,67167
La Clusaz 2,12464 0,10317 Praz sur arly -29,406 -1,4279
La Joue du Loup 7,26741 0,35289 Risoul -21,42623 -1,04041
La Mongie 14,26741 0,6928 Saint Jean d'Arves -2,39589 -0,11634
La Norma -5,55413 -0,2697 Saint Lary soulan 30,26741 1,46972
La Plagne 2,05861 0,09996 Saint Sorlin -12,406 -0,60241
La Rosire 3,58389 0,17403 Samoens -20,28821 -0,98515
La Tania 16,58389 0,80528 Serre Chevalier 80,21685 3,89517
Le Corbier -5,89589 -0,28629 Superdvoluy 7,26741 0,35289
Le grand bornand -6,92653 -0,33634 Val cenis -1,05919 -0,05143
Les 2 Alpes -15,77304 -0,76591 Val d'Allos -29,42623 -1,42888
les Arcs 18,90037 0,91776 Val thorens 15,92059 0,77307
les Menuires 7,24718 0,35191 Valfrjus -10,55413 -0,51249
Les Orres -8,52855 -0,41413 Valloire/Valmeinier -17,41611 -0,84569
les saisies 22,74688 1,10454 Valmorel 17,58389 0,85384
Mribel 20,58389 0,99951 Vars -21,42623 -1,04041
Molines -1,84503 -0,08959 Vaujany 9,75699 0,47378
Montgenevre 8,26741 0,40145 Villard de Lans -12,57435 -0,61059

Diagramme gaussien des rsidus standardiss

Annexe 4 Rgressions sans Serre Chevalier

Rcapitulatif des modles

Page 102
La rgression linaire

Erreur standard
Modle R R-deux R-deux ajust de l'estimation

1 ,749 ,560 ,549 15,539

ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.

1 Rgression 12001,429 1 12001,429 49,707 ,000

Rsidu 9416,376 39 241,446

Total 21417,805 40

Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 102,354 6,474 15,810 ,000

Km ,338 ,048 ,749 7,050 ,000

8.2. L'entreprise Elec (Elec.sav)


L'entreprise Elec vend du matriel lectrique et souhaite valuer l'importance relative de
l'influence de ses vendeurs et des prix sur ses ventes. Pour faire cette valuation, l'entreprise a
rparti ses clients en un certain nombre de zones gographiques. Pour chacune de ces zones,
les variables suivantes ont t mesures :
Les ventes
Le nombre de vendeurs pour la zone
La moyenne des prix facturs par l'entreprise dans cette zone
La moyenne des prix facturs par la concurrence dans cette zone
L'indice des prix dans cette zone; l'indice 100 tant l'inde de la France
mtropolitaine.
Les donnes ont t recueillies sur 18 zones. On prendra pour toutes les questions =0,01
comme risque de premire espce.
1) Analyser la matrice de corrlations donnes en annexe.
2) Quelle est la meilleure variable explicative, prise isolment? Quel est le meilleur couple
de variables explicatives?
3) Que pensez vous des rsultats de la rgression complte (avec les quatre variables
explicatives)? En particulier, le modle est-il valide? Quelles sont les variables dont la
significativit peut tre affirme ?

Page 103
La rgression linaire

4) Comment expliquez-vous que certaines variables significatives dans un modle deux


variables ne le soient plus dans le modle quatre variables?
5)
a) Comment est choisie la premire variable explicative de la mthode "Stepwise"?
b) Et la seconde?
c) Pourquoi le modle "Stepwise" ne comporte-t-il que deux variables?
6) Quel est le meilleur modle possible, en fonction des variables explicativesdisponibles?
Annexe 1 Tableau des corrlations et graphiques

Ventes Vendeurs Pri_ent Pri_conc ind_prix


** ** ** **
Ventes 1 ,969 ,954 ,966 ,962
** ** ** **
Vendeurs ,969 1 ,889 ,906 ,906
** ** ** **
Pri_ent ,954 ,889 1 ,998 ,998
** ** ** **
Pri_conc ,966 ,906 ,998 1 ,998
** ** ** **
ind_prix ,962 ,906 ,998 ,998 1

Page 104
La rgression linaire

Rgressions une seule variable

Variable explicative : Vendeurs


Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,969 ,939 ,935 39,670

a. Valeurs prdites : (constantes), Vendeurs


b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 384514,013 1 384514,013 244,332 ,000

Rsidu 25179,765 16 1573,735

Total 409693,778 17

a. Valeurs prdites : (constantes), Vendeurs

b. Variable dpendante : Ventes


a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) -21,634 23,544 -,919 ,372

Vendeurs 13,018 ,833 ,969 15,631 ,000

a. Variable dpendante : Ventes

Variable explicative : prix de l'entreprise


Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,954 ,910 ,905 47,904

a. Valeurs prdites : (constantes), Pri_ent

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 372976,916 1 372976,916 162,531 ,000

Rsidu 36716,861 16 2294,804

Page 105
La rgression linaire

Total 409693,778 17

a. Valeurs prdites : (constantes), Pri_ent

b. Variable dpendante : Ventes


a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) -35,263 29,785 -1,184 ,254

Pri_ent 6,195 ,486 ,954 12,749 ,000

a. Variable dpendante : Ventes

Variable explicative : Prix de la concurrence


Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,966 ,933 ,929 41,501

a. Valeurs prdites : (constantes), Pri_conc


b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 382135,883 1 382135,883 221,867 ,000

Rsidu 27557,895 16 1722,368

Total 409693,778 17

a. Valeurs prdites : (constantes), Pri_conc

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) -6,783 23,783 -,285 ,779

Pri_conc 5,835 ,392 ,966 14,895 ,000

a. Variable dpendante : Ventes

Variable explicative : indice des prix


Rcapitulatif des modles

Page 106
La rgression linaire

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,962 ,926 ,921 43,525

a. Valeurs prdites : (constantes), ind_prix


b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 379382,724 1 379382,724 200,261 ,000

Rsidu 30311,053 16 1894,441

Total 409693,778 17

a. Valeurs prdites : (constantes), ind_prix

b. Variable dpendante : Ventes


a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) -49,024 27,767 -1,766 ,097

ind_prix 1,922 ,136 ,962 14,151 ,000

a. Variable dpendante : Ventes

Page 107
La rgression linaire

Annexe 3 : Rgressions 2 variables explicatives

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,990 ,980 ,977 23,545

a. Valeurs prdites : (constantes), Pri_ent, Vendeurs

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 401378,056 2 200689,028 362,005 ,000

Rsidu 8315,721 15 554,381

Total 409693,778 17

a. Valeurs prdites : (constantes), Pri_ent, Vendeurs

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) -47,480 14,739 -3,222 ,006

Vendeurs 7,726 1,079 ,575 7,158 ,000

Pri_ent 2,876 ,522 ,443 5,515 ,000

a. Variable dpendante : Ventes

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,991 ,982 ,979 22,258

a. Valeurs prdites : (constantes), Pri_conc, Vendeurs

Page 108
La rgression linaire

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 402262,635 2 201131,317 405,990 ,000

Rsidu 7431,143 15 495,410

Total 409693,778 17

a. Valeurs prdites : (constantes), Pri_conc, Vendeurs

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) -30,728 13,297 -2,311 ,035

Vendeurs 7,034 1,104 ,523 6,374 ,000

Pri_conc 2,970 ,496 ,492 5,985 ,000

a. Variable dpendante : Ventes

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,989 ,978 ,976 24,245

a. Valeurs prdites : (constantes), ind_prix, Vendeurs

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 400876,703 2 200438,351 340,995 ,000

Rsidu 8817,075 15 587,805

Total 409693,778 17

a. Valeurs prdites : (constantes), ind_prix, Vendeurs

b. Variable dpendante : Ventes

Page 109
La rgression linaire

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) -51,655 15,473 -3,338 ,004

Vendeurs 7,271 1,202 ,541 6,047 ,000

ind_prix ,943 ,179 ,472 5,276 ,000

a. Variable dpendante : Ventes

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,979 ,958 ,952 34,056

a. Valeurs prdites : (constantes), Pri_conc, Pri_ent

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 392296,763 2 196148,382 169,122 ,000

Rsidu 17397,015 15 1159,801

Total 409693,778 17

a. Valeurs prdites : (constantes), Pri_conc, Pri_ent

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 80,894 35,473 2,280 ,038

Pri_ent -16,464 5,562 -2,536 -2,960 ,010

Pri_conc 21,128 5,177 3,497 4,081 ,001

a. Variable dpendante : Ventes

Page 110
La rgression linaire

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,968 ,937 ,929 41,440

a. Valeurs prdites : (constantes), ind_prix, Pri_ent

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 383934,960 2 191967,480 111,787 ,000

Rsidu 25758,818 15 1717,255

Total 409693,778 17

a. Valeurs prdites : (constantes), ind_prix, Pri_ent

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) -67,250 28,709 -2,342 ,033

Pri_ent -11,291 6,935 -1,739 -1,628 ,124

ind_prix 5,390 2,134 2,698 2,526 ,023

a. Variable dpendante : Ventes

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,966 ,933 ,924 42,743

a. Valeurs prdites : (constantes), ind_prix, Pri_conc

Page 111
La rgression linaire

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 382288,695 2 191144,348 104,622 ,000

Rsidu 27405,082 15 1827,005

Total 409693,778 17

a. Valeurs prdites : (constantes), ind_prix, Pri_conc

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 6,387 51,710 ,124 ,903

Pri_conc 7,567 6,000 1,252 1,261 ,227

ind_prix -,574 1,983 -,287 -,289 ,776

a. Variable dpendante : Ventes

8.3.Les stylos Runild (Runild.sav)


Dans le cadre d'une tude sur l'efficacit commerciale de l'entreprise Le responsable des
tudes a recueilli les informations suivantes :
La distribution des produits est organise en 40 zones gographiques
Chaque zone est attribue en exclusivit un grossiste assist par une quipe de
reprsentants commerciaux. Le nombre de ces reprsentants est dcid par le
grossiste et peut varier d'une zone l'autre.
Chaque trimestre les grossistes sont valus sur une chelle de 1 4. La valeur 4 indiquant
que le grossiste est jug trs bon, la valeur 1 un grossiste jug trs mauvais. Dans chaque zone
la publicit est faite essentiellement par la presse locale et la distribution domicile. Le
classeur Runild.xls donne pour les 40 zones gographiques :
Le volume des ventes mensuelles
Le nombre mensuel de page de publicit
Le nombre de reprsentants de l'quipe commerciale
La note de qualit attribue au grossiste

Page 112
La rgression linaire

1) Etude des ventes en fonction des deux variables publicit et nombre de reprsentant.
a) Le modle de rgression linaire vous semble-t-il adapt?
b) Quelle est l'influence de chacune des variables prise sparment sur les variations des
ventes?
c) Le modle deux variables est-il valide statistiquement et conomiquement?
d) Sachant que le cot mensuel moyen d'un reprsentant est de 2000 et le cot moyen
d'une page de publicit de 650, pour quelle marge unitaire sur le produit est-il plus
intressant d'embaucher un reprsentant ou de faire une page de publicit
supplmentaire.
2) Etude des ventes en fonction de la qualit du grossiste
a) Le charg d'tude considre que la note de qualit est une variable quantitative et
procde une rgression simple sur cette variable. Analyser les rsultats obtenus.
b) Le directeur commercial n'est pas d'accord, il pense que l'on doit considrer cette
variable comme qualitative quatre modalits. Il demande de procder une tude en
prenant la modalit 4 comme modalit de rfrence. Analyser les rsultats. En prenant
un risque a de 0,05 peut considrer que les modalits 3 et 4 sont diffrentes? Qu'en
conclure?
c) Quel modle explicatif des variations des ventes en fonction de la qualit du grossiste
vous parat le mieux adapt?
3) Analyser le modle construit avec les trois variables.
Reprsentations graphiques

Page 113
La rgression linaire

Rgression 1 variable quantitative

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,744 ,554 ,542 207,907

a. Valeurs prdites : (constantes), Pages de Publicit

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 2040677,624 1 2040677,624 47,210 ,000

Rsidu 1642561,876 38 43225,313

Total 3683239,500 39

a. Valeurs prdites : (constantes), Pages de Publicit

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 172,902 90,432 1,912 ,063

Pages de Publicit 53,105 7,729 ,744 6,871 ,000

a. Variable dpendante : Ventes

Page 114
La rgression linaire

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,801 ,642 ,633 186,182

a. Valeurs prdites : (constantes), Nombre Repr.

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 2366018,184 1 2366018,184 68,256 ,000

Rsidu 1317221,316 38 34663,719

Total 3683239,500 39

a. Valeurs prdites : (constantes), Nombre Repr.

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) -17,775 97,684 -,182 ,857

Nombre Repr. 155,460 18,817 ,801 8,262 ,000

a. Variable dpendante : Ventes

Page 115
La rgression linaire

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,872 ,761 ,755 152,220

a. Valeurs prdites : (constantes), Qualit Grossiste

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 2802742,540 1 2802742,540 120,959 ,000

Rsidu 880496,960 38 23170,973

Total 3683239,500 39

a. Valeurs prdites : (constantes), Qualit Grossiste

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 58,305 67,489 ,864 ,393

Qualit Grossiste 271,939 24,726 ,872 10,998 ,000

a. Variable dpendante : Ventes

Regression 2 variables (Publicit, Reprsentants)

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,828 ,685 ,668 177,091

a. Valeurs prdites : (constantes), Nombre Repr., Pages de Publicit

Page 116
La rgression linaire

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 2522878,407 2 1261439,204 40,223 ,000

Rsidu 1160361,093 37 31361,111

Total 3683239,500 39

a. Valeurs prdites : (constantes), Nombre Repr., Pages de Publicit

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) -32,463 93,146 -,349 ,729

Pages de Publicit 22,734 10,165 ,319 2,236 ,031

Nombre Repr. 108,366 27,636 ,559 3,921 ,000

a. Variable dpendante : Ventes

Rgression qualit du grossiste (qualitatif, toutes lesmodalits )

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,928 ,862 ,850 118,876

a. Valeurs prdites : (constantes), Bon, Trs Mauvais, Mauvais

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 3174504,930 3 1058168,310 74,880 ,000

Rsidu 508734,570 36 14131,516

Total 3683239,500 39

a. Valeurs prdites : (constantes), Bon, Trs Mauvais, Mauvais

b. Variable dpendante : Ventes

Page 117
La rgression linaire

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 1028,000 44,931 22,880 ,000

Trs Mauvais -690,000 63,542 -,864 -10,859 ,000

Mauvais -510,818 57,476 -,752 -8,888 ,000

Bon -40,067 54,414 -,064 -,736 ,466

a. Variable dpendante : Ventes

Rgression qualit du grossiste (3 modalits)

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,927 ,860 ,852 118,138

a. Valeurs prdites : (constantes), Mauvais, Trs Mauvais

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 3166843,091 2 1583421,545 113,453 ,000

Rsidu 516396,409 37 13956,660

Total 3683239,500 39

a. Valeurs prdites : (constantes), Mauvais, Trs Mauvais

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 1000,682 25,187 39,730 ,000

Trs Mauvais -662,682 51,266 -,830 -12,926 ,000

Mauvais -483,500 43,625 -,711 -11,083 ,000

a. Variable dpendante : Ventes

Page 118
La rgression linaire

Rgression avec 3 variables (qualit grossiste qualitative)

Rcapitulatif des modles

Erreur standard
Modle R R-deux R-deux ajust de l'estimation
a
1 ,994 ,989 ,987 34,761

a. Valeurs prdites : (constantes), Mauvais, Pages de Publicit, Trs


Mauvais, Nombre Repr.

b
ANOVA

Somme des Moyenne des


Modle carrs ddl carrs D Sig.
a
1 Rgression 3640948,817 4 910237,204 753,317 ,000

Rsidu 42290,683 35 1208,305

Total 3683239,500 39

a. Valeurs prdites : (constantes), Mauvais, Pages de Publicit, Trs Mauvais, Nombre Repr.

b. Variable dpendante : Ventes

a
Coefficients

Coefficients
Coefficients non standardiss standardiss
Modle A Erreur standard Bta t Sig.

1 (Constante) 568,102 27,004 21,038 ,000

Pages de Publicit 22,880 2,053 ,321 11,146 ,000

Nombre Repr. 24,835 6,215 ,128 3,996 ,000

Trs Mauvais -489,047 17,856 -,612 -27,388 ,000

Mauvais -374,904 15,340 -,552 -24,440 ,000

a. Variable dpendante : Ventes

Page 119
La rgression linaire

8.4.Produits frais (fichier pfrais.xls)


On a mis votre disposition les donnes concernant 49 points de ventes (constituant un
chantillon reprsentatif) pour faire une tude sur les ventes de yaourt de diffrentes marques.
Une unit statistique tant constitue dune marque vendue dans un magasin.
Les donnes recueillies concernent les variables suivantes :
Chiffre daffaires du produit en KF
Budget publicitaire rgional du magasin en KF
Distribution en valeur (DV)5 pour la marque dans la zone de chalandise concerne
(entre 0 et 1)
Prix moyen du Kg de produit dans le magasin pour la marque concerne en F
Marque du produit (code de 1 4)
Rgion du magasin (code de 1 5)
Votre objectif est de dterminer un modle explicatif du Chiffre daffaires.

Etude des variables quantitatives


Dans un premier temps, on nutilisera que les trois variables explicatives quantitatives
(Publicit, DV, Prix moyen). Aprs avoir effectu les 4 rgressions linaires de la variable
Ventes (Chiffre daffaires) en fonction d'au moins deux des variables explicatives, rpondre
aux questions suivantes.
Analyse du modle 3 variables
Quelle est la validit statistique et conomique du modle ?
Analyse des modles deux variables
Analyser rapidement les modles 2 variables explicatives. Quelles remarques pouvez-
vous faire ? Quel est le meilleur modle 2 variables ? Utiliser ce modle pour faire une
estimation du chiffre daffaires espr avec les donnes suivantes :
Budget Publicitaire 100KF
DV de 0,95
Prix moyen du Kg : 8F
Choix dun modle
Quel est pour vous le meilleur modle ne faisant intervenir que les variables explicatives
quantitatives ? ?

Etude des variables qualitatives


Ici ne sont prises en compte que les variables qualitatives Marque et Rgion. Effectuer les
trois rgressions, ainsi que le tableau danalyse de la variance (test de Fisher partiel).
Etude de chacune des variables individuellement
1- Rappeler comment est traite en rgression une variable qualitative k modalits.
2- La marque a-t-elle une influence significative sur le chiffre daffaires ? Classer les
marques en fonction du chiffre daffaires moyen.

5
La DV est gale au rapport des CA des magasins offrant la marque divise par la somme des CA de tous les
magasins de la zone. La DV donne une ide de la reprsentation, pondre par limportance des magasins, de la
marque dans la zone de chalandise.

Page 120
La rgression linaire

3- La rgion a-t-elle une influence significative sur le chiffre daffaires ? Classer les rgions
en fonction du chiffre daffaires moyen.
Etude des deux variables qualitatives simultanment
1- Quelle est la validit statistique du modle obtenue ?
2- Analyser le tableau de l'analyse de la variance, conservez-vous les deux variables
explicatives ?
3- Quel modle variable(s) explicative(s) qualitative(s) conseillez-vous ?

Etude avec lensemble des variables


En conservant les variables qualitatives et quantitatives juges satisfaisantes aux deux
questions prcdentes, effectuer une rgression comprenant ces trois variables.
4- Que pensez-vous de la validit du modle obtenu ?
5- Quel est le modle retenu finalement ?
6- Comment pouvez-vous expliquer la non-validit d'une des variables explicatives
(statistiquement et conomiquement) ?
7- Utiliser ce modle pour donner le chiffre daffaires espr pour un produit et un magasin
prsentant les caractristiques suivantes :
Budget Publicitaire 100KF
DV de 0,95
Prix moyen du Kg : 8F
Marque 3

Conclusion :
Quel modle vous semble-t-il le plus adapt pour lexplication et la prvision du chiffre
daffaires ?

Page 121