Vous êtes sur la page 1sur 200

HEC

GillesMauffrey

METHODESQUANTITATIVESAVECEXCEL
Programmationlinaire,programmationdynamique,simulation,statistiquelmentaire

La Modlisation

LA MODELISATION
1 Modle et typologie des modles
1.1
La notion de modle
Un modle est daprs le dictionnaire Robert :
1. Ce qui sert ou doit servir d'objet d'imitation pour faire ou reproduire quelque chose
2. Personne, fait, objet possdant au plus haut point certaines qualits ou caractristiques
qui en font le reprsentant d'une catgorie
3. Objet de mme forme qu'un objet plus grand mais excut en rduction
4. Reprsentation simplifie d'un processus, d'un systme
La notion de modle qui nous utiliserons ici est en fait un mix des dfinitions 2, 3 et 4. Nous
nous attacherons donner une reprsentation schmatise, mais en contrlant la
simplification, de la ralit et nous serons conduits utiliser parfois des modles
mathmatiques prexistants. Pour nous un modle sera une reprsentation simplifie de la
ralit dans au moins l'un des deux buts suivants :

mieux comprendre la ralit


aider la prise de dcision en fournissant des solutions acceptables aussi bonnes que
possible.

1.2
Les composants dun modle
On est conduit modliser quand on se trouve confront un problme dont il nexiste pas de
solutions videntes (soit heuristiques, soit parce quon a dj t confront ce type de
problme).
Le problme concerne lentreprise ou une partie de lentreprise que nous appellerons systme
(par exemple une unit de production, les caisses dun supermarch, etc..) ; ce systme est
sous contrle dun dcideur ( ou dun groupe de dcideurs) qui peut en modifier le
comportement par des actions (ou dcisions). Ce systme est en relation avec des lments
extrieurs non directement contrls par le dcideur que nous appellerons environnement.
Remarquons que les dcisions du dcideur peuvent avoir des consquences sur
lenvironnement (par exemple un fort budget publicitaire peut accrotre la fois la part de
march et la taille du march).
Enfin certaines caractristiques du systme et de lenvironnement peuvent tre considres
comme primordiales pour le dcideur et servir comparer entre elles les dcisions, nous
parlerons alors de consquences des actions. Bien videmment ces consquences sont
fonction des objectifs que sest fix (ou qui ont t fixs au) le dcideur.
1.2.1 Les variables de dcisions
Les variables de dcisions servent dcrire les actions envisages. Elles peuvent prendre leurs
valeurs sur ensemble fini (par exemple nombre de caisses ouvrir) ou considr comme infini
(par exemple budget consacr un mdia). Elles peuvent tre simultanes (par exemple
quantits produire un mois) ou squentielle stalant dans le temps ( par exemple faire une
tude de march, puis dcider de la taille de la capacit de production).

Page 3

La Modlisation

1.2.2 Lenvironnement et le systme


Pour dcrire lenvironnement et le systme que nous noterons E/S, nous utilisons deux
lments :

Les paramtres structurels : ce sont des constantes qui ne vont pas tre modifies par les
dcisions du dcideur, ces paramtres structurels sont dpendants des hypothses
simplificatrices qui ont t prises pour construire le modle et de lhorizon de
modlisation que lon sest fix (prix de vente dun produit, salaire dune caissire, etc..).
Certains paramtres structurels peuvent tre dfinis par une loi de probabilit (par
exemple nombre de clients arrivant une station service pendant un intervalle de temps
donn).

Les variables dtat du systme : vont permettre de faire une photographie de


lenvironnement et du systme sous leffet des dcisions, ce sont des fonctions la fois
des paramtres structurels et des dcisions envisages. Par exemple :

les capacits de production utilises dpendent des quantits


produire(dcision) et des donnes technologiques de production(paramtres),

le budget publicitaire dpens, le nombre de contacts publicitaires dpendent des


spots publicitaires (dcisions) , du cot des spots et des audiences des
missions(paramtres),

le nombre de clients dans une file dattente, le nombre de caisses inoccupes


dpendent du nombre de caisses ouvertes (dcision) et du rythme darrives la
caisse et du temps de service(paramtres).

Ces variables dtat sont des variables alatoires si les paramtres dont elles
dpendent sont des lois de probabilit.

Les relations de fonctionnement du systme, qui expriment le respect des contraintes


dvolution du systme. Ce peut tre des quations ou inquations (respect dune
demande, dune capacit de production, dun budget par exemple) ou des relations
temporelles (volution dune file dattente toutes les minutes). Ces relations dfinissent le
modle de fonctionnement du systme.

1.2.3 Les consquences


Les consquences sont des variables dtat privilgies qui vont permettre de comparer ou de
slectionner les dcisions : par exemple le profit ralis grce une production ou le temps
moyen dattente dun client. Ces consquences sont values par un modle dvaluation.
Le modle dvaluation peut consister en une simple optimisation (maximisation ou
minimisation) : par exemple marge maximale dune production, risque minimal dun
portefeuille, minimiser le temps moyen dattente, dans ce cas la variable dtat privilgie
comme consquence doit tre unique et se nomme fonction conomique (ou fonction
objectif).
Il peut aussi tre constitu de plusieurs compteurs qui dterminent les plages dans lesquelles
doivent se trouver les consquences : par exemple moins de 95% des clients doivent attendre
plus de 5 minutes aux caisses et le taux doccupation des caisses doit au moins tre de 80%.

Page 4

La Modlisation

Dans ce cas le modle dvaluation permet dliminer les dcisions qui natteignent pas ces
objectifs
En consquence, la structure dun modle suivra le schma suivant :
Action

Critres

Environt.
Paramtres
Variables
Consquences

E/S

G
Systme
Paramtres
Variables

Modle d'valuation

Modle de fonctionnement

1.3
Typologie des modles
Suivant les lments connus, on peut dgager la typologie suivante :
1.3.1

Modles descriptifs (E/S) :


Il s'agit de modles gnralement statistiques qui ont pour objet de faire connatre les
paramtres structurels du modle ou les formules dfinissant les variables d'tat du
systme.
On rpond ici aux questions "Quel est mon environnement, comment fonctionne le
systme ?"
Les mthodes statistiques utilises vont de l'estimation simple l'analyse des donnes
ou aux mthodes de prvision.

1.3.2

Modles de simulation (Calcul des consquences) (E/S, Action) :


On connat ici les paramtres structurels et les variables d'tat de l'environnement et du
systme et l'on veut valuer les consquences des diffrentes actions envisages (donc
en nombre fini) sans pour autant chercher identifier "la meilleure".
Ce choix est laiss au dcideur, le modle peut fournir videmment plusieurs
consquences (multicritre).
On rpond ici la question "Que se passe-t-il si... ?"
La mthode privilgie ici est la mthode de simulation, soit avec des langages ddis,
soit sur tableur ou l'aide de langages "classiques" tels que C, FORTRAN, PASCAL,
BASIC.

Page 5

La Modlisation

1.3.3

Modles d'optimisation (E/S, Action, Critres) :


On connat ici les paramtres structurels et les variables d'tat de l'environnement et du
systme. On connat les actions envisages ainsi que le critre d'valuation des
consquences. On veut dterminer la meilleure action possible.
Evidemment, le critre de choix est unique (limitation des mthodes mathmatiques).
On rpond ici la question "Que faire ?" Les mthodes utilises sont trs varies :
elles sont mathmatiques ou font appel la simulation ou des heuristiques.

Nous nous intresserons dans ce cours uniquement aux modles doptimisation ou de


simulation. Dans ce cas la modlisation peut tre considre comme une mthodologie daide
la dcision stratgique, qui a pour objectif de permettre une allocation efficace des
ressources en vue de la ralisation dobjectifs. En voici quelques exemples :

Dterminer le nombre de guichets ouvrir pendant une priode donne pour viter
une attente trop longue des clients et une inactivit trop importante des guichetiers
Dterminer une bonne utilisation dun budget publicitaire pour atteindre le plus
grand nombre de clients potentiels
Dterminer la composition dun portefeuille pour atteindre une rentabilit
maximale avec risque maximum donn
Dterminer une production qui conduise une marge maximum compte tenu des
ressources disponibles et des demandes connues

2 La dmarche de modlisation
La dmarche de modlisation peut sarticuler autour de trois phases :
2.1

Analyse descriptive
1.Fixer les limites gographiques, physiques et aussi temporelles du systme tudi et de
son environnement. Quels sont les paramtres structurels dcrivant ce systme ?
2.Enumrer les actions envisages ou le type d'action envisage.
3.Dterminer les variables d'tat, c'est dire les lments qui permettent de
"photographier" le systme un moment donn sous l'effet des actions.
4.Choisir la faon dont le fonctionnement du systme sera dcrit : satisfaction de
contraintes structurelles, volution temporelle.
5.Identifier les consquences qui serviront valuer les actions (variables d'tat
privilgies).
6.Slectionner ventuellement les critres permettant de comparer les actions.

2.2

Mise en quation
1.Nommer la (ou les variables) associe(s) aux actions.
2.Ecrires les relations dfinissant les variables d'tat.
3.Ecrire les relations dcrivant le fonctionnement du systme, relations entre les variables
d'tat et les paramtres structurels et les dcisions.
4.Identifier les relations dfinissant les consquences et exprimer les critres.

Page 6

La Modlisation

2.3

Rsolution du modle
On peut soit utiliser un logiciel spcifique, par exemple un logiciel de programmation
linaire, soit utiliser un progiciel standard du type tableur. Dans ce dernier cas, il faudra
veiller respecter la structuration du modle, c'est dire affecter des zones bien
dlimites et spares aux diffrents composants du modle :

Paramtres structurels
Variables de dcision
Variables d'tat et relations de fonctionnement
Consquences values par des critres

Il faut bien noter que les solutions trouves sont les solutions du modle et non du problme
originel ; il reste au dcideur transcrire ces solutions dans le monde rel en rintgrant
ventuellement certains lments non pris en compte dans le modle. L'adquation des
solutions trouves au problme rel dpend bien videmment de la pertinence du modle et
ceci relve plus d'un art que d'une science.
Le processus de modlisation fait donc appel trois ressources principales :

Les donnes de lentreprise et lenvironnement, recueillies dans le systme


dinformation de lentreprise (paramtres structurels)
Les connaissances dun expert sur le mtier et lenvironnement (relations de
fonctionnement, consquences)
Des modles mathmatiques ou des outils de simulation tels quun tableur
(rsolution).

Page 7

La Modlisation

EXERCICE DE MODELISATION
L'entreprise Clairgaz
L'entreprise Clairgaz met en bouteille et distribue des bouteilles de gaz. La mise en bouteille
s'effectue dans trois usines notes 1, 2, 3 qui livre 5 dpts rgionaux, nots A,B, C,D, E. Les
capacits de production mensuelle (en milliers de bouteilles) de chacune des usines et les
demandes mensuelles de chacun des dpts sont les suivants :
Usine Production
1
40
2
80
3
120

Dpt Demande
A
20
B
10
C
30
D
80
E
100

Les bouteilles doivent tre livres de chaque dpt chaque usine, on peut en premire
approximation considrer que le cot unitaire de transport est proportionnel la distance, c'est
d'ailleurs ainsi que se fait la facturation interne, les cots de transport tant affects aux
dpts et donc pris en compte lors de l'valuation annuelle des directeurs de dpts. L'annexe
1 vous donnent les valeurs de ces cots unitaires. On remarquera que le dpt C et l'usine 2
ont une mme localisation.
Actuellement la politique de livraison rsulte de ngociations entre les directeurs de dpts et
d'usine, cette politique vous est donne en annexe 2. La direction gnrale trouve les cots
totaux de transport actuellement trop levs, et pense qu'il serait possible de les diminuer de
faon significative pour les deux annes venir, o il n'est pas envisag de modifications
importante de la demande. Il est fait appel vous pour tudier ce problme.
Question 1
Analyser le problme de la direction gnrale :
Quels sont le systme, les paramtres structurels, les dcisions, les variables dtat, la
consquence ?
Question 2
Ecrire les quations correspondant.
Question 3
Que pensez-vous des ractions possibles des diffrents intervenant : direction gnrale,
directeurs de dpt et d'usine; comment y remdier?
Question 4
Pouvez vous proposer une mthode heuristique de rsolution?

Page 8

La Modlisation

Annexe 1
Cot de transport unitaire d'usine dpt (en ) :
Usines
1
2
3

A
7
3
8

B
10
2
13

Dpts
C
5
0
11

D
4
9
6

E
12
1
14

E
40
50
10

Annexe 2
Politique actuelle d'approvisionnement des dpts
Usines
1
2
3

20

10

Dpts
C
30

80

Soit un cot total de 1 440K

Page 9

Elments de Recherche Oprationnelle

Page 10

LA PROGRAMMATION LINEAIRE
3 Un Premier Exemple
Une entreprise fabrique deux produits A et B avec deux matires premires M et P, et une
machine T1. Les consommations, les temps de fabrication et les marges ralises pour chaque
produit ; ainsi que les quantits disponibles pour le mois venir sont donns dans le tableau
suivant :

Matire Premire M
Matire Premire P
Temps de fabrication
Marge Bnficiaire

Produit A
12
8
3H
300

Produit B
14
4
1H
250

Disponible
1500
600
210 H

3.1 Formalisation du problme


3.1.1 Analyse descriptive :
Le systme est constitu de l'unit de production de l'entreprise durant le mois suivant.
Les paramtres structurels sont les donnes technologiques de production, les disponibilits
en matires premires et temps machine et les marges bnficiaires unitaires.
Les variables d'action sont les quantits respectives de produit A et B fabriquer le mois
suivant
Les variables d'tat sont les quantits de matires premires utilises, le temps machine utilis
et la marge dgage
Les relations de fonctionnement du systme consistent s'assurer que l'utilisation des
ressources reste infrieure la disponibilit.
La consquence privilgie et la marge dgage par la production dcide, le critre consiste
maximiser cette marge
On a donc affaire un problme d'optimisation.
3.1.2 Mise en quations du problme
Dfinition des variables d'action : notons X1 et X2 les quantits respectives de produit A et B
fabriquer durant le mois. On peut considrer que ces quantits sont des nombres rels, la
partie fractionnaire correspondant des produits encours. Ces deux variables sont
videmment positives ou nulles.
Calcul des variables d'tat :

Utilisation de la matire premire M : 12*X1 + 14*X2

Utilisation de la matire premire P : 8*X2 + 4*X2

Utilisation de la machine T : 3*X1 + 1*X2

Marge bnficiaire dgage : 300*X1 + 250*X2

Page 11

Equations de fonctionnement du systme (Contraintes) : (X1>=0 ; X2>=0)


12*X1 +14*X2 <= 1500
8*X1 + 4*X2 <= 600
3*X1 + 1*X2 <= 210
Objectif (fonction conomique) et critre :
Maximiser f(X1, X2) = 300*X1 + 250*X2
3.1.3 Rsolution graphique du problme
Comme il n'intervient ici que 2 variables on peut donner une reprsentation graphique du
problme :
Construction de la surface correspondant aux contraintes : Chaque contrainte partage le plan
en deux demi-plans dont un seul correspond la contraintes. De plus, comme les variables
sont positives on se limite qu quadrant suprieur droit. On obtient ainsi l'intrieur d'un
polygone convexe appel Ensemble des solutions ralisables ou admissibles.
Matire M

Matire P

Atelier

Reprsentation de la fonction conomique : Pour une valeur donne k de la marge l'ensemble


des productions conduisant cette marge se trouvent sur la droite d'quation 300 X1+ 250 X2
= k appele droite d'isoprofit ; seuls les points de cette droite intrieurs au polygone
correspondent des productions compatibles avec la structure de production actuelle.
A

Isoprofit

D
0

Page 12

Rsolution graphique du problme : Toutes les droites d'isoprofit sont parallles entre elles, il
nous faut donc dterminer une droite qui soit parallle une direction donne, qui soit le plus
loigne possible de l'origine tout en coupant l'ensemble des solutions ralisables. Cette droite

Marge Maximale

La valeur maximale de la
marge est obtenue en
dplaant la droite
disoprofit paralllement
elle-mme jusqu un des
sommets du polygone

D
O

intuitivement va passer par l'un des sommets du polygone.


4 Dfinition d'un programme linaire
Les caractristiques d'une situation pouvant conduire la formalisation sous forme de
programme linaire sont illustres par l'exemple prcdent :
Les actions sont en nombre non fini, (dnombrable, voire mme continu), elles ne peuvent
prendre que des valeurs positives.
Les paramtres structurels sont connus de faon certaine et dterministe (sans loi de
probabilit).
Les variables d'tat sont linaires (ou au moins les relations de fonctionnement sont
linarisables).
Les relations de fonctionnement s'expriment sous la forme d'ingalits.
La consquence privilgie est unique et le critre est un critre d'optimisation (maximum ou
minimum).
D'un point de vue mathmatique, il s'agit de maximiser une fonction linaire de variables
relles positives ou nulles sous une conjonction de contraintes d'ingalit dont la partie droite
(dpendant des variables) est linaire. C'est cette linarit qui va permettre de dgager des
proprits mathmatiques assez simples de l'ensemble des solutions ralisables et de
l'optimum, et de mettre en place un algorithme de rsolution du problme.
Remarques :
1.On peut bien videmment minimiser une fonction linaire puisque cela revient maximiser
l'oppos de la fonction
2.On peut aussi envisager des contraintes d'galit puisqu'une contrainte du type
f(x, y, z,... )=b

Page 13

est quivalente la conjonction des deux contraintes :


f(x, y, z,...)<=b
f(x, y, z,...)>=b
5 Proprits mathmatiques d'un programme linaire
Remarque : ce paragraphe n'est pas ncessaire la comprhension du reste du document.
Un programme linaire peut tre dfini sous la forme gnrale suivante :
Maximiser une fonction linaire de n variables :
c1X1+c2X2+. +cnXn
sous p contraintes (inquations infrieures ou gales) dont la partie gauche est une fonction
linaire des n variables et la partie droite est constante :
ai1X1+ ai2X2 +...........+ainXn <=bi

i variant de 1 p

toutes les variables Xi tant positives ou nulles. Soit donc n+p inquations.
Les variables X1, X2, X3, Xn sont appeles variables naturelles.
5.1 Ensembles convexes
L'ensemble des solutions ralisables est un ensemble convexe. C'est dire si M et P sont deux
points de cet ensemble, tout point du segment [MP] est aussi une solution ralisable. Soit pour
tout rel t dans [0 ; 1] et tous points M et P dans le convexe C le point Q=tP+(1-t)M
(barycentre de M(1-t), P(t)) est dans C.
Point extrmal d'un convexe : Un point E d'un convexe C est dit extrmal s'il n'est pas
l'intrieur d'un segment ; c'est dire si
la relation E=tP+(1-t)M entrane t=0 ou t=1 (i.e. E=P ou E=M)
Exemples :
Pour une boule les points extrmaux sont les points de la sphre. Pour un disque, les points du
cercle.
Pour un polydre (ou polygone en dimension 2) les points extrmaux sont les sommets
Remarque : Dans le cas d'un programme linaire, l'ensemble des solutions est un polydre
convexe, appel simplexe, les points extrmaux sont donc les sommets qui correspondent la
saturation (transformation en quation) de n des n+p inquations.
n+ p
Il y a donc au plus C n points extrmaux.
5.2 Fonction linaire sur un convexe
Un programme linaire se prsente donc comme un cas particulier de maximisation d'une
fonction linaire sur un convexe. Nous confondrons dans la suite le point M et le vecteur OM.
Une fonction linaire f vrifie la proprit :
Pour tous rels a et b f(aP+bM)=af(P)+bf(M) donc en particulier pour tout point Q du
segment [MP] on a min(f(M), f(P))<=f(Q) <= max(f(M), f(P)), on en dduit le

Page 14

Premier thorme : Si la fonction prsente un maximum sur le convexe, ce maximum est


atteint en au moins un point extrmal (raisonnement par l'absurde).
En consquence, il nous suffira de chercher le maximum sur les sommets du convexe des
solutions ralisables ; toutefois ces sommets peuvent tre trs nombreux dans la pratique, il
nous faut donc trouver une mthode qui permette de slectionner les sommets explorer. Le
thorme suivant va nous y aider :
Deuxime thorme : Pour une fonction linaire dfinie sur un convexe tout optimum local
est global.
Dmonstration : soit A un optimum local (c'est dire qu'au voisinage de ce point la fonction
prend des valeurs infrieures ou gales f(A)), supposons qu'il existe dans le convexe C un
point B tel que f(B)>f(A). Le segment AB est dans le convexe C, donc pour tout t dans
l'intervalle ouvert ]0;1[ le point M = tA+(1-t)B est dans C et on a f(M)=t f(A)+(1-t) f(B)>f(A).
Donc en tout point du segment ouvert (AB) la fonction f prend des valeurs suprieures f(A),
ce qui est contraire l'hypothse de maximum local.
En conclusion :

Nous pouvons donc explorer les sommets de proche en proche (c'est dire passer d'un
sommet un sommet voisin), et vrifier localement que le maximum est atteint. C'est
la dmarche de la mthode du simplexe.
6 Algorithme du simplexe
Dans ce chapitre nous supposerons toujours que le second membre des contraintes (partie
constante) est positif ; nous distinguerons donc les contraintes infrieures ou gales des
contraintes suprieures ou gales.
6.1 Variables d'cart - Variables de surplus
Considrons une contrainte infrieure ou gale (par exemple ressource utilise <= ressource
disponible) :
a1X1+a2X2+....+anXn <= b
il est possible de remplacer cette inquation par une quation en faisant intervenir une
variable positive ou nulle e :
a1X1+a2X2+....+anXn +e = b
cette variable qui peut reprsenter l'cart entre le disponible et l'utilis est appele variable
d'cart (slack variable).
Pour une contrainte suprieure ou gale (par exemple satisfaction d'une demande minimale) :
a1X1+a2X2+....+anXn >= b
on se ramnera une quation en soustrayant une variable positive ou nulle s :
a1X1+a2X2+....+anXn -s= b
cette variable qui peut reprsenter le surplus de production par rapport au minimum impos
est appele variable de surplus (surplus variable).
Sur l'exemple de prsentation les contraintes s'crivent alors :

Page 15

12*X1 +14*X2

+ e1

8*X1 + 4*X2

+e2

3*X1 + 1*X2

= 1500

(Matire premire M)

= 600

(Matire premire P)

+e3 = 210

( Atelier)

6.2 Variables de base - Variables hors base


Le problme qui faisait intervenir n variables naturelles (dfinies par la formalisation) et p
contraintes infrieures ou suprieures, devient maintenant un problme n+p variables et p
contraintes d'galit.
Chaque point extrmal du simplexe des solutions ralisables correspond la saturation de p
contraintes (explicites ou implicites : positivit des variables naturelles). On pourra donc
associer un sommet du simplexe une partition des n+p variables : n variables nulles et p
variables solution du systme de p quations p inconnues.
Les p variables qui servent rsoudre le systme s'appellent les variables de base, les n autres
variables sont les variables hors base.
Sur l'exemple de prsentation nous avons pour chaque sommet les variables de base :
A Base(X2,e2,e3)

Matire
B Base(X1,X2,e3)

Matire
C Base(X1,X2,e1)

Atelie

O Base(e1,e2,e3)

Base(X1,e2,e1) D

Remarquons que passer d'un sommet un sommet voisin revient simplement changer une
variable de base avec une variable hors base, puisque entre deux sommets voisins seul un
hyperplan satur est modifi.
6.3 Principe de l'algorithme
A partir des remarques prcdentes, la dmarche va consister se dplacer d'un sommet en un
sommet voisin, et vrifier si on peut amliorer localement la fonction conomique (en effet
nous savons que tout optimum local est global). Prcisons cette dmarche :
1. Trouver un sommet initial ; si on ne peut en trouver il n'y a pas de solution.

Page 16

2. Exprimer grce aux contraintes la fonction conomique en fonction des variables


hors base (il suffit de rsoudre le systme en fonction des variables de base, les
variables hors base tant considres comme des paramtres)
3. Voir si l'introduction d'une variable hors base amliore la fonction conomique
(existe-t-il un coefficient strictement positif pour les variables hors base de la
fonction conomique ?), si ce n'est pas le cas on a atteint l'optimum, sinon choisir
la meilleure candidate localement (la variable hors base dont le coefficient positif
est le plus grand).
4. Dterminer la valeur maximale prise par cette nouvelle variable, si cette valeur est
infinie la solution est aussi infinie ; sinon un sommet amliorant la fonction
conomique est trouv, retourner alors en 2.
Cet algorithme converge (avec une modification pour viter le cyclage quand la valeur
maximale en 4 est 0).
Remarque : la premire tape peut tre dlicate s'il existe des contraintes >=, en revanche
elle est trs simple dans le cas o les seules contraintes sont des contraintes <= en effet dans
ce cas l'origine est toujours dans le simplexe (ce qui correspond la base constitue de toutes
les variables d'cart). C'est sur un exemple de ce type que nous illustrerons l'algorithme.
7 Exemple de l'algorithme du simplexe
Nous allons prendre comme exemple l'exemple d'introduction, qui est un problme de
maximisation sous contraintes infrieures ou gales. Dans ce cas l'tape 1 de l'algorithme est
trs simple puisque l'origine appartient toujours l'ensemble des solutions ralisables.
7.1 Etape 0 : Etat Initial
Ecriture du problme
MAX 300X1 + 250X2
12*X1 +14*X2 + e1

= 1500

8*X1 + 4*X2

= 600

3*X1 + 1*X2

+e2

+e3 = 210

Nous sommes en O, les variables de base sont (e1,e2,e3), les variables hors base (X1,X2). La
valeur de la fonction conomique est gale son terme constant 0, et son expression ne fait
intervenir que les variables hors base (X1 et X2) ; d'autre part la solution en ce point est
donne par le systme de contrainte : e1=1500, e2=600, e3=210.
Nous ne sommes pas l'optimum car les coefficients des variables hors base sont positifs : on
peut amliorer la fonction conomique qui vaut actuellement 0. Il nous faut donc passer un
sommet voisin, c'est dire changer une variable hors base et une variable de base.

Choix de la variable entrant dans la base : c'est la variable X1 car son coefficient est le plus
grand, c'est donc celle qui localement amliore le plus la fonction conomique.
Choix de la variable sortant de la base : les trois variables e1, e2, e3 sont candidates, il nous
faut voir quelle est la valeur maximale possible de X1 sans qu'aucune autre variable ne soit
ngative (ne pas oublier que X2 reste nulle). Examinons les 3 quations :

Page 17

Si X1 remplace e1, X1 prend la valeur 1500/12=125


Si X1 remplace e2, X1 prend la valeur 600/8 = 75
Si X1 remplace e3, X1 prend la valeur 210/3=70
La valeur maximale que peut prendre X1 est donc le minimum de ces 3 valeurs, c'est dire 70
(sinon on devrait donner des valeurs ngatives e2 ou e1). X1 remplace donc e3. La troisime
contrainte qui caractrise l'change s'appelle la contrainte pivot, elle va nous servir rcrire
le systme :
1. Remplacer X1 par 70-1/3 e3 - 1/3 X2 dans la fonction conomique et les deux
premires contraintes
2. Rcrire la troisime contrainte de faon mettre en vidence les variables de base
(sous matrice identit) comme dans l'tat initial.
7.2 Etape 1
En utilisant la relation dfinie prcdemment nous obtenons la formulation quivalente
suivante :
MAX -100e3 + 150X2 +21000
-4e3

+ 10*X2

-(8/3)e3 +(4/3)X2
(1/3)e3 +(1/3)X2

+ e1

= 660
+e2

= 40
+X1

=70

Nous sommes au point D, les variables de base sont (e1, e2, X1) les variables hors base (e3,
X2). La valeur de la fonction conomique est le terme constant 21000 (car e3 et X2 sont hors
base donc valent 0), elle est obtenue avec les valeurs lues dans le systme de contraintes :
e1=660, e2= 40, X1=70. Toutefois cette valeur n'est pas optimale car il reste un coefficient
strictement positif, donc la fonction conomique peut s'amliorer localement (les variables ne
peuvent qu'tre positives).

Choix de la variable entrant dans la base : c'est la variable X2 car son coefficient est le seul
positif.
Choix de la variable sortant de la base : les trois variables e1, e2, X1 sont candidates, il nous
faut voir quelle est la valeur maximale possible de X2 sans qu'aucune autre variable ne soit
ngative (ne pas oublier que e3 reste nulle). Examinons les 3quations :
Si X2 remplace e1, X2 prend la valeur 660/10=66
Si X2 remplace e2, X2 prend la valeur 40/(4/3) = 30
Si X2 remplace e3, X2 prend la valeur 70/(1/3)=210
La valeur maximale que peut prendre X2 est donc le minimum de ces 3 valeurs, c'est dire 30
(sinon on devrait donner des valeurs ngatives e1 ou X1). X2 remplace donc e2. La
deuxime contrainte est la contrainte pivot, elle va nous servir rcrire le systme :
1. Remplacer X2 par 30-3/4e2+2e3 dans la fonction conomique et la premire et la
dernire contrainte

Page 18

2. Rcrire la deuxime contrainte de faon mettre en vidence les variables de base


(sous matrice identit) comme dans le systme initial.
7.3 Deuxime tape
En utilisant la relation dfinie prcdemment nous obtenons la formulation quivalente
suivante :
MAX 200e3 - 112,5e2 +25500
16e3

- 7,5 e2

-2e3

+(3/4)e2

e3

-(1/4)e2

+ e1

= 360
+X2

= 30
+X1

= 60

Nous sommes au point C, les variables de base sont (e1, X2, X1) les variables hors base (e3,
e2). La valeur de la fonction conomique est 25500 (car e3 et X2 sont hors base donc valent
0), la solution en ce point correspond e1=360, X2=30, X1=60.Cette solution n'est toujours
pas optimale car il reste un coefficient strictement positif, donc la fonction conomique peut
s'amliorer localement (les variables ne peuvent qu'tre positives).

Choix de la variable entrant dans la base : c'est la variable e3 car son coefficient est le seul
positif.
Choix de la variable sortant de la base : les trois variables e1, X2, X1 sont candidates, il nous
faut voir quelle est la valeur maximale possible de X2 sans qu'aucune autre variable ne soit
ngative (ne pas oublier que e2 reste nulle). Examinons les 3 quations :
Si e3 remplace e1, e3 prend la valeur 360/16=22,5
Si e3 remplace X2, e3 prend la valeur 30/(3/4) = 40
Si e3 remplace X1, e3 prend la valeur 60
La valeur maximale que peut prendre e3 est donc le minimum de ces 3 valeurs, c'est dire
22,5 (sinon on devrait donner des valeurs ngatives e1 ou X1). e3 remplace donc e1. La
premire contrainte est la contrainte pivot. Nous allons donc :
1. remplacer e3 par 22,5+(15/32)e2-(1/16)e3 dans la fonction conomique et les deux
dernires contraintes,
2. rcrire la premire contrainte de faon mettre en vidence les variables de base
(sous matrice identit) comme dans le systme initial.
7.4 Etape 3
En utilisant la relation dfinie prcdemment nous obtenons la formulation quivalente
suivante :
MAX -12,5e1 - 18,75e2 +30000
(1/16)e1 -(15/32)e2 + e3
(1/8)e1

- (3/16)e2

-(1/16)e1 + (7/32)e2

=22,5
+X2

=75
+X1

=37,5

Page 19

Nous sommes au point B, les variables de base sont (e3, X2, X1) les variables hors base
(e1, e2). La valeur de la fonction conomique est 30000, la fonction conomique ne peut pas
s'amliorer localement car tous les coefficients sont <=0. On a donc atteint le maximum (local
donc global).
La solution optimale est donc la suivante :
Produire 37,5 units de A(X1), 75 units de B(X2)et laisser 22h30 inutilises dans
l'atelier (e3) : variables de base.
Utiliser toutes les matires premires (e1=e2=0) : variables hors base.
La marge dgage est alors de 30000F
Comment interprter les coefficients de e1 et e2 dans la fonction conomique ? La seule faon
d'accrotre la fonction conomique serait de pouvoir leur donner une valeur ngative. Par
exemple si on donnait e1 la valeur 1, la fonction conomique augmenterait de 12,5. En
regardant la premire formulation du problme, c'est dire la dfinition des variables d'cart,
on constate que cela revient disposer d'une unit supplmentaire de la matire premire A.
La valeur absolue des coefficients des deux variables d'cart reprsente le gain que l'on
pourrait raliser en disposant d'une unit de ressource supplmentaire, conomiquement cela
revient quantifier le cot d'opportunit associ une contrainte sature ( une ressource
"rare" pour l'entreprise), contrainte qui empche d'accrotre la production. Bien videmment
cela ne peut pas tre valable pour une quantit quelconque, car partir d'une certaine quantit
la ressource n'est plus "rare", et une autre contrainte sera sature. L'analyse de listing que nous
allons voir au paragraphe suivant permet de rpondre ce type de question.
8 Utilisation du solveur Excel pour la programmation linaire
Pour utiliser Excel en programmation linaire, il faut formaliser le problme sur une feuille,
puis utiliser une macro complmentaire appele solveur pour rsoudre le problme, les
solutions sont donnes sur des feuilles "Rapport" cres par Excel. Nous illustrerons cette
utilisation sur l'exemple des paragraphes prcdents.
8.1 Formalisation du problme
L'criture du problme sous Excel se prsente sous la forme suivante :

Les cellules B2 et C2 contiennent les quantits de produit fabriques, ici initialises 0,


variables dterminer. La cellule B4 contient la formule de la fonction conomique, quel 'on
peut crire soit sous la forme B2*B3+C2*C3 ou SOMMEPROD(B2:C23 ; B3:C3).

Page 20

Les cellules B7:C9 donnent les donnes technologiques, les cellules E7:E9 donnent les
quantits disponibles.
Les cellules D7:D9 contiennent les formules calculant les quantits utilises : attention aux $
pour la recopie vers le bas.
Il est important que le ct droit de chaque contrainte soit une constante, et non pas une
fonction des variables de dcision, sinon dans certains cas Excel pourrait ne pas accepter que
le problme soit linaire.
La feuille de calcul ainsi crite ne permet pas seule de rsoudre le problme d'optimisation, il
nous serait seulement possible de tester certaines solutions (simuler des dcisions). Nous
vrifierions que ces dcisions sont acceptables sans jamais savoir si nous avons atteint
l'optimum.
Enfin il n'apparat pas sur la feuille de calcul le sens des contraintes (<= ou >=), ni le sens de
l'optimisation (Maximum ou Minimum). Il est donc ncessaire, pour finaliser la formulation
du problme et le rsoudre de faire appel un "add-in" (un programme complmentaire
accessible partir d'Excel, en "franais" une macro complmentaire.
8.2 Utilisation du solveur
Aprs avoir slectionn la cellule contenant la valeur de la fonction conomique, dans le
menu Outils nous choisissons le sous menu Solveur, il apparat alors la bote de dialogue
suivante :

Dans la zone Cellule cible dfinir, il est indiqu l'adresse de la cellule contenant la formule
de la fonction conomique, ici $B$4 ; si vous avez ouvert le solveur partir dune autre
cellule slectionne, cest ladresse de cette cellule qui apparatra ici, il faudra alors modifier
en consquence cette zone en cliquant sur la cellule de la fonction conomique. Ensuite il faut
slectionner le type d'optimisation voulu (Maximisation ou minimisation).
Dans la zone cellules variables, il faut indiquer la zone contenant les variables du problme,
ici $B$2:$C$2. Il faut ensuite entrer les contraintes du problme ; pour cela cliquer sur le
bouton "Ajouter" de la zone contrainte, une autre bote de dialogue apparat :

Page 21

Dans la zone cellule, il faut indiquer l'adresse de la cellule contenant la formule du ct


gauche des contraintes, puis choisir dans la liste droulante le sens de la contrainte (<=, >= ou
=) et enfin, dans la zone contrainte indiquer l'adresse de la cellule contenait la valeur du ct
droit de la contrainte. Entre chaque contrainte cliquer le bouton ajouter, vous pouvez entrer
les contraintes de mme sens sous forme vectorielle, condition bien sr que les cellules des
mmes cts soient adjacentes (par exemple $D$7:$D$9).
Aprs la dernire contrainte, valider avec le bouton OK. On revient alors la premire boite
de dialogue qui se prsente ainsi :

Il nous reste prciser que le problme est un problme de programmation linaire, nutilisant
que des variables positives ou nulles. Pour cela cliquer sur le bouton "Options" et dans la zone
de dialogue suivante, cocher la case "Modle suppos linaire" et "Suppos non ngatif" :

Page 22

Revenu au dialogue initial par le bouton "OK", il faut demander la rsolution du problme en
cliquant sur le bouton "Rsoudre". L'algorithme de rsolution s'excute, en fin de traitement
un dernier dialogue apparat :

Il faut alors slectionner les rapports de Rponse et Sensibilit, en cliquant sur ces libells ;
mais il est inutile de demander celui des Limites qui en programmation linaire n'apporte rien.
9 Analyse d'un listing de programmation linaire
En pratique, on ne rsout jamais " la main" un programme linaire, on utilise pour ce faire
soit des logiciels spcialiss soit un tableur comme Excel.
9.1 Structure d'un listing de programmation linaire
Les listings de programmation linaire comportent tous, sous des prsentations variables, trois
parties :

la valeur de la fonction conomique : valeur optimale de la fonction conomique


pour le problme pos.

les rsultats concernant les variables naturelles : valeurs des variables naturelles et
sensibilit de l'optimum en fonction du coefficient de chacune des variables
naturelles dans la fonction conomique

les rsultats concernant les contraintes : valeurs des variables d'cart ou de surplus
l'optimum et sensibilit de l'optimum en fonction de chacun des cts droit des
contraintes.

Les phases de l'analyse :


On peut distinguer trois phases dans l'analyse du listing d'un programme linaire :
1. Dterminer la solution optimale dans la structure actuelle
2. Faire une analyse marginale des contraintes, en vue de dterminer les dcisions
pouvant amliorer la solution actuelle.
3. Faire une analyse des coefficients de la fonction conomique pour dterminer la
stabilit de la solution optimale
Les tapes 2 et 3 s'appellent souvent analyse marginale.

Exemple d'un listing Excel


Dans le cas d'un listing produit par Excel, la valeur de la fonction conomique et les valeurs
des variables naturelles sont donnes dans la feuille "Rapport des rponses", tandis que les
lments concernant l'analyse marginale se trouvent dans la feuille "Rapport de sensibilit".

Page 23

9.2 Dtermination de la solution optimale


Il s'agit ici de donner les valeurs des variables naturelles, de la fonction conomique et l'tat
des contraintes l'optimum.
Gnralement les listings de Programmation Linaire donnent pour chaque variable naturelle
son statut (Variable de base ou hors base) en plus de sa valeur l'optimum, certains
programmes (SAS par exemple) donnent les mmes prcisions pour les variables d'cart ou de
surplus.

Exemple d'un listing Excel


Nous donnons ici le rapport des rponses correspondant au problme initial :
Cellule cible (Max)
Cellule
Nom
$B$4 F.Eco Produit A

Valeur initiale Valeur finale


0
30000

Cellules variables
Cellule
Nom
$B$2 Quantit Produit A
$C$2 Quantit Produit B

Valeur initiale Valeur finale


0
37,5
0
75

Contraintes
Cellule
Nom
$D$7 Matire Premire M Utilis
$D$8 Matire Premire P Utilis
$D$9 Temps de Fabrication Utilis

Valeur
Formule
tat Marge
1500 $D$7<=$E$7 Li
0
600 $D$8<=$E$8 Li
0
187,5 $D$9<=$E$9 Non li
22,5

La cellule cible correspond la fonction conomique : sa valeur l'optimum est 30000.


Pour atteindre cette valeur les productions sont donnes dans la partie de la feuille intitule
"Cellules variables" : l'optimum il faut produire 37,5 units de A et 75 units de B.
L'utilisation des ressources est donne dans la partie "Contraintes". La valeur reprsente la
valeur prise l'optimum par la partie gauche des contraintes (ici la quantit de ressources
utilise), l'tat indique si cette contrainte est sature (lie) ou non, et la marge reprsente la
valeur de la variable d'cart (ou de surplus) l'optimum.
Ici toutes les matires premires sont utilises et il reste 22H30 de disponible dans l'atelier.
9.3 Analyse marginale des contraintes
Il s'agit ici de dterminer des actions modifiant l'environnement (certains paramtres
structurels) permettant d'amliorer la fonction conomique, ou d'valuer l'impact de certaines
volutions de cet environnement.

9.3.1 Interprtation du listing


Seuls sont pris en compte les cts droits des contraintes. L'analyse, thoriquement ne se fait
qu'une contrainte la fois.
Pour les contraintes non satures, cette analyse est peu intressante : par exemple, tant que
l'entreprise dispose des ressources suffisantes pour la production optimale, la valeur de la

Page 24

fonction conomique ne change pas et il est bien videmment inutile de se procurer un surplus
de ressources.
En revanche une contrainte sature indique une gne pour l'amlioration de la fonction
conomique, toute augmentation ou diminution du ct droit de la contrainte va conduire
une modification de l'allocation des ressources et/ou de la production et par consquent une
modification de la fonction conomique. On peut donc associer chaque contrainte un cot
(ou profit) marginal correspondant au resserrement (ou relchement) de la contrainte, bien
videmment ce cot ne sera valable que sur un intervalle de valeurs pour le ct droit de la
contrainte : par exemple si l'on augmente trop une ressource, on se trouvera limit par d'autres
ressources ou par le march, tout apport supplmentaire n'aura alors plus aucun intrt
conomique.
Les listings de programmation linaire donnent la fois le cot marginal, appel shadow cost
(traduit sous Excel par Ombre Cot) ou shadow price, qui indique le gain associ au
relchement de la contrainte, ainsi que l'intervalle sur lequel cette valeur est valable. Ce
shadow price est exprim en units de la fonction conomique.

Exemple d'un listing Excel


Voici une partie du rapport de sensibilit correspondant l'exemple:
Contraintes
Cellule
Nom
$D$7 Matire Premire M Utilis
$D$8 Matire Premire P Utilis
$D$9 Temps de Fabrication Utilis

Finale Ombre Contrainte Admissible


Admissible
Valeur Cot
droite Augmentation Rduction
1500
12,5
1500
600
360
600 18,75
600
48 171,4285714
187,5
0
210
1E+30
22,5

"Finale Valeur" correspond la partie gauche des contraintes (ressources utilises),


"Contrainte droite" correspond la partie droite des contraintes (ressources disponibles). La
valeur de la variable d'cart associe la contrainte s'obtient comme diffrence de ces deux
valeurs. "Admissible Augmentation" et "Admissible Rduction" dfinissent l'intervalle sur
lequel le shadow price ("Ombre Cot") est valable. Interprtons ces valeurs.
La contrainte de matire premire M est sature, toute augmentation marginale de ressource
en cette matire permettra de gnrer un nouveau profit, la variation marginale du profit par
unit de ressource supplmentaire est donne par le shadow price : 12,5. Cependant, si la
quantit de ressource est trop importante son influence conomique va diminuer, c'est ce que
nous indique l'augmentation admissible : on n'augmentera le profit de 12,5 par unit de
ressource supplmente que tant que la quantit supplmentaire restera infrieure ou gale
600, c'est dire tant qu'on disposera de moins de 2100 units de matire premire M ; au-del
bien videmment le profit marginal sera infrieur.
De la mme faon, toute diminution d'une unit de ressource dans cette matire premire va
diminuer le profit de 12,5, et ceci tant que la diminution ne dpassera pas 360 units ; c'est
dire tant que la quantit de ressource restera suprieure 1140 units. Au-del la perte
marginale sera suprieure.
Remarque : ce shadow price correspond une restructuration optimale de la production en
fonction de la nouvelle quantit, les autres ressources tant inchanges. Le listing ne donne
pas cette nouvelle structure de production.

Page 25

La contrainte sur la matire premire P s'analyse de la mme faon, puisque cette contrainte
est aussi sature.
Interprtons maintenant la dernire contrainte : la contrainte d'atelier. Cette contrainte n'est
pas sature, donc augmenter les heures disponibles n'apportera aucun profit supplmentaire,
c'est pourquoi le shadow cost est nul et l'augmentation admissible infinie (note 1E+30 par
Excel). De la mme manire si on diminue les ressources disponibles, tant que l'on conserve
la quantit ncessaire la production, ceci ne diminuera en rien le profit : la diminution
admissible est donc gale la variable d'cart.

9.3.2 Cas limite : problme dgnr


Il peut arriver que parmi les variables de base, l'une d'entre elles soit nulle, dans ce cas le
shadow cost pour la variable d'cart correspondant (ou le reduced cost pour une variable
naturelle) sera lui aussi nul, on dit alors que le problme est dgnr. Ceci correspond la
valeur limite d'un intervalle de variation d'un cot droit d'une contrainte. Etudions ce cas sur
la premire contrainte.
Tout d'abord considrons la limite infrieure, le second membre de la contrainte passe
1500-360=1140, la valeur de la fonction conomique est de 30000-12,5*360=25500, le
rapport de sensibilit est le suivant :
Cellules variables
Cellule
Nom
$B$2 Quantit Produit A
$C$2 Quantit Produit B

Finale Rduit Objectif


Admissible Admissible
Valeur Cot Coefficient Augmentation Rduction
60
0
300
200
85,71
30
0
250
100
100

Contraintes
Finale Ombre Contrainte Admissible Admissible
Cellule
Nom
Valeur Cot
droite Augmentation Rduction
$D$7 Matire Premire M Utilis
12,5
1140
1140
960
0
$D$8 Matire Premire P Utilis
600 18,75
600
0
274,29
$D$9 Temps de Fabrication Utilis
0
210
210
1E+30
0

Les trois contraintes sont satures, mais comme il doit y avoir trois variables de base, et que
les deux variables naturelles sont dans la base, l'une des variables d'cart nulles est dans la
base. C'est celle dont le shadow cost est nul, c'est dire la troisime contrainte. On constate
de plus que les trois contraintes se coupent au mme point, ceci apparat dans le listing par le
fait que l'une des deux augmentations limites (admissible augmentation ou admissible
rduction) est nulle : ds que l'on bouge un peu l'une des deux premires contraintes (vers le
bas pour la premire, vers le haut pour la seconde), elle devient inactive (non sature) et la
troisime devient active, alors sont shadow cost va devenir strictement positif.
Ce cas se gnralise dans un espace de dimension n, quand n+1 contraintes concourent en un
sommet du simplexe : on aura alors une des n+1 contraintes dont le shadow cost sera gal 0
et pour les n+1 contraintes l'une des limites gale 0. Cependant la lecture du listing n'est pas
trs simple et sur beaucoup de logiciel la contrainte correspondant la variable de base est
indique comme dgnre; malheureusement Excel ne l'indique pas.

Page 26

Il se peut aussi que la variable de base qui est nulle soit une variable naturelle, auquel cas le
listing sera un peu diffrent. C'est le cas pour la valeur maximale de la premire contrainte, si
le second membre de la contrainte passe de 1500 1500+600=2100, on obtient le rapport
suivant :
Cellules variables
Cellule
Nom
$B$2 Quantit Produit A
$C$2 Quantit Produit B

Finale Rduit Objectif


Admissible Admissible
Valeur Cot Coefficient Augmentation Rduction
85,71
300
200
0
0
150
0
250
100
100

Contraintes
Cellule
Nom
$D$7 Matire Premire M Utilis
$D$8 Matire Premire P Utilis
$D$9 Temps de Fabrication Utilis

Finale Ombre Contrainte Admissible Admissible


Valeur Cot
droite Augmentation Rduction
2100
2100
12,5
0
960
600
600 18,75
128
0
150
0
210
1E+30
60

La production de produit A est nulle, les deux premires contraintes sont toujours satures,
mais l'augmentation admissible de la premire et la diminution admissible de la seconde sont
nulles, ds que l'on modifiera un peu l'une de ces contraintes dans ce sens le reduced cost du
produit A deviendra strictement positif.
Ici c'est la contrainte A0 qui est associe la troisime contrainte sature, on constate que
l'on est dans le cas de dgnrescence et non pas de solution multiple(voir ci-dessous) d'une
part d'aprs le nombre de variable de base nulle(ici 1) (ou non nulles 2 au lieu de 3) et d'autre
part parce que pour la variable naturelle nulle, dont le shadow cost est nul, aucune des deux
limites n'est gale 0, ce qui signifie que ce n'est pas la rentabilit du produit qui est en cause,
mais la disponibilit des ressources.
Remarque importante : suivant les arrondis, l'algorithme utilis par Excel, qui n'est pas
exactement le simplexe, conduira l'une ou l'autre des solutions optimales extrmes.
9.4 Analyse marginale d'un coefficient de la fonction conomique
Il s'agit ici de voir la stabilit de l'optimum (valeur des variables de base) en fonction des
variations d'un coefficient de la fonction conomique (changement de prix d'un produit par
exemple). Cette analyse ne se fait qu'un seul coefficient la fois. Nous raisonnerons dans le
cas d'une maximisation.

9.4.1 Interprtation du listing


Si une variable naturelle n'est pas dans la base, sa valeur est nulle, lui donner une valeur
positive ne pourrait que faire baisser la fonction conomique, cette baisse est indique sur les
listings en tant que shadow cost ou reduced cost (traduit en Rduit Cot). Si ce shadow cost
est nul ceci signifie qu'il existe au moins un autre sommet solution optimale, donc une infinit
de solutions optimales (le segment joignant ces deux sommets).
Si une variable est dans la base, ceci signifie que dans la structure actuelle son coefficient est
suffisamment lev. Puisqu'elle est dans la base son shadow cost est videmment nul ; mais il
existe un intervalle (pour le coefficient de cette variable) pour lequel la solution optimale reste

Page 27

la mme. Si le coefficient augmente trop la solution va changer (augmentant la valeur de cette


variable), si le coefficient diminue, cette variable sera moins intressante conomiquement
dans la structure actuelle et la solution changera aussi (diminution de la valeur de cette
variable).

Cas d'un listing Excel


Pour les besoins de l'analyse nous avons ici ajout un produit C, qui dans la structure de
production actuelle n'est pas rentable, sa contribution est de 291 ("Objectif Coefficient").
Voici la partie du rapport de la sensibilit correspondant l'analyse marginale des
coefficients:
Microsoft Excel 9.0 Rapport de la sensibilit
Feuille: [exempPL.xls]Exemple2

Cellules variables
Cellule
Nom
$B$2
Quantit Produit A
$C$2
Quantit Produit B
$D$2
Quantit Produit C

Finale
Valeur
37,5
75
0

Rduit
Cot

Objectif
Admissible Admissible
Coefficient Augmentation Rduction
0
300
200
85,71
0
250
100
64,92
-52,75
291
52,75
1E+30

Pour les produits A et B, le cot rduit est gal 0, en effet ces produits sont effectivement
fabriqus et s'imposer d'en fabriquer n'est pas une contrainte. Les valeurs "Admissible
Augmentation" et "Admissible diminution" nous indique pour chaque produit sur quel
intervalle le coefficient de la fonction conomique doit rester pour que la production ne soit
pas modifier.
Attention : On ne fait varier qu'un coefficient, les autres gardent la mme valeur.
Pour le produit A, tant que sa contribution est comprise entre 214,29 (300-85,71) et 500 (300
+ 200) (les autres contributions restant respectivement de 250 pour B et 290 pour C), la
production optimale restera toujours de 37,5 A et 75 B ; mais la fonction conomique sera
modifie en consquence.
Pour le produit C, l'interprtation est thoriquement la mme, tant que sa contribution est
infrieure 343,75 (291+52,75), il est inintressant produire. Une autre faon d'aboutir ce
rsultat est obtenue avec le cot rduit : si on tait oblig de produire ce produit C, on perdrait
52,75 pour chaque unit produite, au moins pour les premires units, sa contribution
minimum est donc gale sa contribution actuelle (291) + la perte lue ici (52,75) soit 343,75.
On ne connat pas, par le listing, sur quelle quantit s'applique cette perte unitaire ; mais
conomiquement, il est clair que si le nombre de produits fabriqus augmente, la mauvaise
utilisation des ressources conduira une perte plus importante. De la mme manire on ne sait
pas quelle quantit on serait conduit produire si la contribution du produit dpassait 343,75.

9.4.2 Cas limite : problme solution multiple


Introduisons cette fois ci la marge limite pour le produit C, c'est dire 343,75; nous obtenons
alors le rapport de sensibilit suivant, pour la partie variable, la partie contrainte est reste la
mme :

Page 28

Cellules variables
Cellule
Nom
$B$2
Quantit Produit A
$C$2
Quantit Produit B
$D$2
Quantit Produit C

Finale
Valeur
37,50
75,00
0,00

Rduit
Cot

Objectif
Admissible Admissible
Coefficient Augmentation Rduction
0
300
200
0
0
250
100
0,00
0
343,75
0,00
1E+30

Le produit C n'est toujours pas produit semble-t-il, mais comme le reduced cost est nul le fait
de s'imposer d'en produire ne coterait rien, il existe donc des solutions optimales contenant
des quantits non nulles du produit C. Ici ce n'est pas une variable de base qui vaut 0, les
variables de base sont restes les mmes, mais c'est uniquement le reduced cost (ou pour une
variable d'cart le shadow cost) associ une variable hors base qui est nul.
On voit aussi sur ce listing que ds que l'une des deux premires marges diminue, la solution
va changer, de mme si la marge du produit C augmente la solution changera ; dans tous les
cas la nouvelle solution optimale consistera commencer la production du produit C. On
pourra donc obtenir l'autre solution en modifiant lgrement l'un de ces prix par exemple en
mettant 343,751 pour le produit C on obtient alors le listing suivant :
Cellules variables
Cellule
$B$2
$C$2
$D$2

Nom
Quantit Produit A
Quantit Produit B
Quantit Produit C

Finale
Valeur
0
10,000
80,000

Rduit
Objectif
Admissible Admissible
Cot
Coefficient Augmentation Rduction
-0,002
300
0,002
1E+30
0
250
0,001
53,571
0
343,751
93,749
0,001

L'autre solution correspond donc la production de 10 B et 80 C, on vrifie d'ailleurs que :


300*37,5+75*250 = 10*250+343,75*80 = 30000
En fait toute combinaison convexe entre les deux productions est solution optimale, c'est
dire une production de la forme :
prodA 37,5
0 37,5*t
prodB =t75,0 +(1t)10 = 65*t +10 pout tout t[0;1]
prodC 0
80 8080*t
par exemple pour t=0,2 on a une production de 7,5A, 23 B et 64 C qui conduit une marge
totale de 7,5*300 + 23*250 + 64*343,75 = 30000, qui est bien la valeur optimale.
Il se peut aussi que l'on ait une solution multiple qui ne joue que sur les quantits des mmes
produits, et non pas sur l'introduction d'un produit la limite de la rentabilit, dans ce cas ce
sera une variable d'cart (hors base) nulle qui aura un shadow price nul, il faudra viter de
confondre ce cas avec le cas de dgnrescence voqu plus haut. Pour illustrer ce
phnomne, en revenant au cas initial avec deux variables, mettons au minimum admissible le
coefficient de B, c'est dire 250-100=150. Nous obtenons alors le rapport de sensibilit
suivant :

Page 29

Cellules variables
Cellule
Nom
$B$2 Quantit Produit A
$C$2 Quantit Produit B

Finale
Valeur
37,5
75

Rduit
Cot

Objectif
Admissible
Admissible
Coefficient Augmentation Rduction
0
300
0,00
171,43
0
150
200,00
0,00

Contraintes
Finale Ombre Contrainte Admissible
Admissible
Cellule
Nom
Valeur
Cot
droite Augmentation Rduction
$E$7 Matire Premire M Utilis
1500
0,00
1500
600
360
$E$8 Matire Premire P Utilis
600
37,50
600
48
171,43
$E$9 Temps de Fabrication Utilis 187,5
0,00
210
1E+30
22,50

La premire contrainte est sature (valeur finale=contrainte droite), mais son shadow cost
est nul, donc si on dispose de moins de ressources la valeur de la fonction conomique ne
changera pas; il existe donc une autre production (correspondant un autre sommet du
simplexe) consommant moins de matire premire M (et donc plus de temps pour maintenir le
nombre de variables de base et hors base) et conduisant la mme valeur de la fonction
conomique. De faon prcise, on peut savoir que cette autre solution consommera
exactement 360 units de moins de matire premire M. Pour obtenir cette nouvelle solution,
il suffit comme prcdemment d'augmenter la marge du produit A ou de diminuer celle du
produit B, puisque aucune variation des coefficients dans ce sens n'est accepte. On obtient
alors le rsultat suivant, en mettant 149,99 comme valeur de marge pour le produit B :
Cellules variables
Cellule
Nom
$B$2 Quantit Produit A
$C$2 Quantit Produit B

Finale Rduit Objectif


Admissible Admissible
Valeur Cot Coefficient Augmentation Rduction
60
0
300
149,97
0,02
30
0
149,99
0,01
49,99

Contraintes
Finale Ombre Contrainte Admissible Admissible
Cellule
Nom
Valeur Cot
droite Augmentation Rduction
$E$7 Matire Premire M Utilis
1140
0
1500
1E+30
360
$E$8 Matire Premire P Utilis
600
37,49
600
48
40
$E$9 Temps de Fabrication Utilis
210
0,02
210
15
22,5

La production de 60A et 30B conduit la mme marge totale :


60*300+30*150=37.5*300+75*150=22500
Ici encore toute combinaison convexe des deux solutions est aussi optimale.
Les logiciels spcialiss en Programmation linaires signalent les cas de solutions multiples,
malheureusement Excel ne le fait pas.
Ici aussi Excel peut arriver sur l'une quelconque des solutions extrmes.

Page 30

9.5 Solution dgnre ou solutions multiples?


Solution dgnre et solutions multiples se caractrisent par l'apparition pour une mme
variable (naturelle ou d'cart ou de surplus) de valeurs nulles la fois pour la valeur de la
variable et pour son shadow cost (ou reduced cost). Comment distinguer alors ces deux cas, si
ce n'est pas fait par le logiciel.
La premire diffrence vient de la nature de la variable :
-

Un problme admet une solution dgnre si une variable de base est nulle, tandis
qu'un problme admet une solution multiple si le shadow cost associ une variable
hors base est nul.

Si une seule variable prsente la particularit d'tre nulle et d'avoir son shadow cost (ou
reduced cost) nul aussi, il suffit alors de dterminer si cette variable est de base ou hors base.
On sait que dans un problme contenant n variable naturelles et p contraintes, il y a p
variables de base et donc n variables hors base ; il suffit alors de compter les variables de base
non nulles pour dtecter la nature du problme.
Cette dtection est plus dlicate si plusieurs variables prsentent cette particularit, surtout si
le problme est la fois dgnr et solutions multiples, dans ce cas on peut faire les
remarques suivantes :
-

Pour un cas de dgnrescence on a soit une variable naturelle nulle avec un reduced
cost nul mais deux valeurs de variations admissibles strictement positives, soit une
variable d'cart (ou de surplus) nulle ainsi que son shadow cost, mais dans ce cas l'une
des variations admissibles nulle.

Pour un cas de solution multiple on a soit une variable naturelle nulle avec un reduced
cost nul et une des deux valeurs de variation admissible nulle, soit une variable d'cart
(ou de surplus) nulle ainsi que son shadow cost, mais dans ce cas les deux valeurs des
variations admissibles sont positives strictement.

Page 31

Programmation Linaire - Exercices

EXERCICES DE PROGRAMMATION LINEAIRE


10 Cooprative
Une cooprative agricole disposant de 1 000ha. veut dfinir son plan annuel de production de
crales. Le tableau suivant montre les besoins en irrigation et engrais par type de culture.

Bl
Orge
Seigle

Eau
Engrais
(m3/ha./an) (kgs/ha./an)
1 000
200
2 000
100
250
50

Les profits annuels par ha pour le bl, l'orge et le seigle sont respectivement de 200, 100 et
40. On dispose de 160 tonnes d'engrais et de 1,6 millions de m3 d'eau par an.
Questions
1) Formuler le problme dfinissant le nombre d'hectares de chaque crale cultiver de
faon maximiser le profit.
2) En comparant les ressources utilises, simplifier le problme autant que possible. En
dduire la solution optimale
3) Analyser le listing ci-dessous
Cellule cible (Max)
Cellule
Nom
$B$4
Profit
Cellules variables
Cellule
Nom
$B$2
Bl
$C$2
Orge
$D$2
Seigle
Contraintes
Cellule
Nom
$E$8
Surface
$E$9
Engrais
$E$10
Eau

Valeur initiale
0

Valeur finale
160000

0
0
0

Valeur finale
800
0
0

Valeur initiale

Valeur

Formule
800 $E$8<=$F$8
160000 $E$9<=$F$9
800000 $E$10<=$F$10

tat
Non li
Li
Non li

Marge
200
0
800000

Rapport de sensibilit
Cellules variables
Cellule
Nom
$B$2
Bl
$C$2
Orge
$D$2
Seigle

Finale Rduit
Objectif
Admissible
Admissible
Valeur
Cot
Coefficient
Augmentation
Rduction
800
0
200
1E+30
0
0
0
100
0
1E+30
0
-10
40
10
1E+30

Page 32

Programmation Linaire - Exercices


Contraintes
Cellule
Nom
$E$8
Surface
$E$9
Engrais
$E$10
Eau

Finale Ombre Contrainte


Admissible
Admissible
Valeur
Cot
droite
Augmentation
Rduction
800
0
1000
1E+30
200
160000
1
160000
40000
160000
800000
0
1600000
1E+30
800000

11 Compagnie Minire
Une compagnie minire possde deux puits diffrents P1 et P2, pour lextraction duranium.
Les puits sont en deux lieux distincts et ne possdent pas la mme capacit de production. Le
minerai duranium est dabord concass, puis analys et enfin rang dans lune des trois
qualits U1, U2 ou U3, suivant sa teneur minerai riche, moyen ou pauvre.
La demande du march pour les trois qualits est suprieure ce que lon peut extraire.
La compagnie sest engage fournir une usine de sparation 12 tonnes de minerai U1,
8 tonnes de minerai U2 et 24 tonnes de minerai U3 par semaine.
Lexploitation de P1 cote la compagnie 20 000 par jour et celle de P2 revient 16 000
par jour.
En un jour dexploitation, le premier puits produit 6 tonnes de U1, 2 tonnes de U2 et 4 tonnes
de U3 ; les chiffres pour le second puits sont respectivement de 2 tonnes, 2 tonnes et 12
tonnes.
Combien de jours par semaine faut-il exploiter chaque mine pour que les engagements soient
tenus le plus conomiquement possible? (ci dessous le rapport de sensibilit)
Cellules variables
Cellule
Nom
$B$2
Nbre jours P1
$C$2
Nbre jours P2

Finale Rduit
Objectif
Valeur Cot
Coefficient
1
0
20
3
0
16

Admissible
Augmentation
28
4

Admissible
Rduction

Finale Ombre Contrainte


Valeur Cot
droite
12
1
12
8
7
8
40
0
24

Admissible
Augmentation

Admissible
Rduction

4
9,333333333

Contraintes
Cellule
Nom
$D$9
U1 Production
$D$10 U2 Production
$D$11 U3 Production

8
4
16

4
2
1E+30

12 Compagnie du Bois
La Compagnie du Bois veut utiliser au mieux les ressources en bois dune de ses proprits
forestires.
Dans cette rgion, il y a une scierie et une fabrique de contreplaqu ; le bois coup peut ainsi
tre transform en bois de charpente ou en contreplaqu.
Pour produire 100 m3 de bois de charpente, il faut 1.000 mtres de planches de sapin et 3.000
mtres de planches de htre (ces planches ayant une largeur et une paisseur fixes). Pour

Page 33

Programmation Linaire - Exercices

produire 1.000 mtres de planches de contreplaqu, il faut 2.000 mtres de planches de sapin
et 4.000 mtres de planches de htre..
La Compagnie du Bois peut couper par priode 32.000 m. de planches de sapin et 72.000 m.
de planches de htre. Les contraintes de vente exigent quau moins 400 m3 de bois de
charpente et 12.000 mtres de planches de contreplaqu soient produits pendant la priode.
Le profit est de 400 pour 100 m3 de bois de charpente et de 600 pour 1.000 m de planches
de contreplaqu.
B sera le nombre de centaines de m3 de bois de charpente produits, C correspondant aux
milliers de mtres de planches de contreplaqu.
Questions
1) Formuler le problme entant que modle de programmation linaire.
2) Rsoudre le problme graphiquement.
3) Analyser le listing ci-dessous.
Cellules variables
Cellule
Nom
$B$2
Quantit Charpente
$C$2
Quantit Contreplaqu

Finale Rduit Objectif


Admissible
Valeur Cot Coefficient Augmentation
8
0
400
50
12
0
600
200

Admissible
Rduction
100
66,66666667

Finale Ombre Contrainte Admissible


Valeur Cot
droite Augmentation
32000
0,1
32000
2000
72000
0,1
72000
0
8
0
4
4
12
0
12
0

Admissible
Rduction

Contraintes
Cellule
$E$9
$E$10
$E$11
$E$12

Nom
Sapin
Htre
Charpente
Contreplaqu

0
4000
1E+30
1E+30

13 Le Laboratoire
Un laboratoire fabrique des rcepteurs haute performance. Il emploie quatre assembleurs et
deux ingnieurs 40 heures par semaine le salaire est de 20 lheure pour un assembleur et
30 lheure pour un ingnieur. Chacun des six est prt faire jusqu 10 heures
supplmentaires 50 % par semaine.
Les cots fixes pour lentretien du laboratoire slvent 5.000 par semaine. Les cots
variables pour lentretien et les madres premires sont de 5 /heure pour un assembleur et
10 /heure pour un ingnieur, le matriel utilis tant alors plus coteux.
Le laboratoire vend des rcepteurs finis, 175 pice. Le march peut absorber toute la
production. Le laboratoire vend aussi une compagnie spcialise des rcepteurs non finis,
130 pice le contrat est pour 100 rcepteurs minimum, mais la compagnie est prte en
acheter jusqu 150.
Pour construire un rcepteur non fini, il faut une heure dassembleur et 30 minutes
dingnieur. Pour construire directement un rcepteur fini, il faut une heure et demie
dassembleur et autant dingnieur.

Page 34

Programmation Linaire - Exercices

Comment le responsable du laboratoire devrait-il dfinir sa production et le programme de ses


employs pour maximiser son profit?
14 Le Campeur
La socit Le Campeur vend des chaises de jardin, des bancs et des tables. Ces objets sont
raliss l'aide de tubulures mtalliques qui doivent tre mises en forme (tordues selon la
forme dsire, l'aide d'une machine) puis soudes (par un robot). Durant la priode prvue,
on dispose d'une capacit de 1.000 minutes pour la mise en forme et de 1.200 pour la soudure.
Une chaise requiert 1,2 minutes de mise en forme et 0,8 de soudure. Pour un banc, il n'y a pas
de soudure et il faut 1,7 minutes de mise en forme. La table, quant elle, ncessite 1,2
minutes de mise en forme et de 2,3 de soudure.
Pour le moment, le fournisseur de tube est en grve, et l'on peut seulement compter sur le
stock, qui s'lve actuellement 2 000 kilos de tubes, achets 0,4 le kg. Il en faut 2 pour une
chaise, 3 pour un banc et 4,5 pour une table.
La contribution est de 3 pour une chaise, 3 pour un banc et 5 pour une table.
Questions :
1) Formuler mathmatiquement le problme rsoudre.
2) A l'aide du listing ci-joint, indiquer la production optimale et la contribution.
3) Un distributeur local propose de livrer du tube supplmentaire 1 le kilo (pour une
quantit pouvant aller jusqu' 500 kilos). Est-ce une bonne affaire ?
4) On s'aperoit qu'un commercial a pris une commande ferme pour 10 bancs. Quelles
seront les consquences si l'on dcide d'honorer cette commande ?
5) Le dpartement R&D a conu une nouvelle faon de raliser le banc, avec 1,1 minutes
de mise en forme, 2 de soudure et 2 kilos de tube. A partir de quelle contribution
unitaire un tel produit serait-il intressant ?
6) Un client est prt passer -pour un produit spcifique qui lui est destin- une
commande qui exigerait de la mise en forme, et qu'il payerait 1,5 la minute. Il est
prt commander ainsi jusqu' 8 heures de mise en forme. Que faut-il faire ?
7) Qu'arriverait-il si la contribution pour les chaises diminuait 2,5 ?
8) Les bancs sont actuellement vendus 45 pice. Quelle augmentation doit on imposer
pour qu'ils soient intressants produire ?

Page 35

Programmation Linaire - Exercices

Listing Excel
Microsoft Excel 9.0 Rapport des rponses
Feuille: [CAMP.XLS]Feuil2
Cellule cible (Max)
Cellule
Nom
$B$4
Marge

Valeur initiale Valeur finale


0 2766,666667

Cellules variables
Cellule
Nom
$B$2
Chaises
$C$2 Bancs
$D$2 Tables

Valeur initiale Valeur finale


0
700
0
0
0 133,3333333

Contraintes
Cellule
Nom
$E$7
Mise en Forme
$E$8
Soudure
$E$9
Tubes

Valeur
Formule
1000 $E$7<=$F$7
866,6666667 $E$8<=$F$8
2000 $E$9<=$F$9

tat
Marge
Li
0
Non li 333,3333333
Li
0

Microsoft Excel 9.0 Rapport de la sensibilit


Feuille: [CAMP.XLS]Feuil2

Cellules variables
Cellule
Nom
$B$2 Chaises
$C$2 Bancs
$D$2 Tables

Finale
Valeur

Rduit
Cot

Objectif
Admissible Admissible
Coefficient Augmentation Rduction
700
0
3
2 0,777777778
0 -1,383333333
3 1,383333333
1E+30
133,3333333
0
5
1,75
2

Contraintes
Cellule
Nom
$E$7 Mise en Forme
$E$8 Soudure
$E$9 Tubes

Finale
Valeur
1000
866,6666667
2000

Ombre
Contrainte Admissible Admissible
Cot
droite Augmentation Rduction
1,166666667
1000
200 466,6666667
0
1200
1E+30 333,3333333
0,8
2000 555,5555556 333,3333333

Page 36

Programmation Linaire - Exercices

15 Composition de portefeuille
Un fond de pension veut placer 1 000 000 dans des actions, des obligations et des bons du
trsor. On supposera que le risque du portefeuille est le risque moyen de ses composants, par
exemple si lon place 1000 dans une action dont le risque est valu 10% et 3000 dans
une obligation dont le risque est valu 5% le risque moyen est :
(1000*10%+3000*5%)/4000=6,25%
Les caractristiques des actifs envisags sont les suivantes :
Actif
Action A
Action B
Obligation A
Obligation B
Bons du trsor

Rentabilit moyenne
18%
15%
10%
8%
5%

Risque
15%
13%
5%
4%
0%

De plus on a le fond de pension veut respecter les contraintes suivantes :


La valeur totale investie en obligations et bons du trsor ne doit pas tre infrieure
500 000
Le risque du portefeuille doit tre infrieur 10%
La valeur investie en action A et obligation A doit tre infrieure dau moins 100
000 celle investie en action B et obligation B
Questions :
1) Formaliser le problme de composition du portefeuille
2) Quelle est la composition optimale du portefeuille ?
3) Quel est son risque ?
4) Quelle est la rentabilit minimum que devraient avoir les obligations A pour quil y en ait
dans le portefeuille ?
5) La valeur minimum investie en obligations ou bons du trsor passe 550 000 quel sera
limpact de cette nouvelle contrainte ?
6) Un des gestionnaires du fond a dj plac 100000 en bons du trsor, quel est limpact de
cette action ?
7) On peut se procurer 100000 supplmentaires 14% ? Quelle sera leffet de lacceptation
de ce prt sur la fonction conomique ?

Page 37

Programmation Linaire - Exercices

Listing Excel :
Rapport des rponses
Cellule cible (Max)
Cellule
Nom
$B$5
Rendement
Cellules variables
Cellule
Nom
$B$3
Montant AA
$C$3
Montant AB
$D$3
Montant OA
$E$3
Montant OB
$F$3
Montant BT

Contraintes
Cellule
Nom
$G$10
Dif A B
$G$11
Investi
$G$12
Risque
$G$13
Obli+trsor

Valeur initiale
0

Valeur finale
128500

0
0
0
0
0

Valeur finale
450000
50000
0
500000
0

Valeur initiale

Valeur
Formule
100000 $G$10>=$H$10
1000000 $G$11<=$H$11
-6000 $G$12<=$H$12
500000 $G$13>=$H$13

tat
Li
Li
Non li
Li

Marge
0
0
6000
0

Rapport de sensibilit
Cellules variables
Cellule
$B$3
$C$3
$D$3
$E$3
$F$3

Nom
Montant AA
Montant AB
Montant OA
Montant OB
Montant BT

Finale
Rduit
Objectif
Admissible
Valeur
Cot
Coefficient Augmentation
450000
0
0,18
1E+30
50000
0
0,15
0,01
0
-0,01
0,1
0,01
500000
0
0,08
0,07
0 -0,045
0,05
0,045

Admissible
Rduction
0,01
0,07
1E+30
0,01
1E+30

Nom
Dif A B
Investi
Risque
Obli+trsor

Finale Ombre Contrainte


Admissible
Valeur
Cot
droite
Augmentation
100000 -0,015
100000
900000
1000000
0,165
1000000
150000
-6000
0
0
1E+30
500000
-0,07
500000
50000

Admissible
Rduction
100000
100000
6000
66666,66667

Contraintes
Cellule
$G$10
$G$11
$G$12
$G$13

Page 38

Programmation Linaire - Exercices

16 Fixation de prix
L'entreprise Toutenkit importe trois nouveaux composants C1, C2, C3 aux prix respectifs
unitaires de 3, 5 et 6 $ (transport inclus).
Ces composants peuvent tre inclus dans de nombreux produits finis, mais d'aprs le service
Marketing, les produits leaders contenant ces composants et pouvant facilement tre
assembls par des amateurs sont les produits PF1, PF2, PF3 et PF4.
D'autre d'aprs l'exprience des vendeurs de Toutenkit, pour que le montage soit plus
intressant que l'achat du produit tout mont, il faut que le prix d'achat (pour le client) des
composants soit infrieur d'au moins 20% au prix du modle mont.
Pour les 4 produits finis, on a obtenu les renseignements suivants :
Produit
PF1
PF2
PF3
PF4

Nombre
de C1
2
4
4
1

Nombre
de C2
1
2
3

Nombre
de C3
2
6
3

Autres
Composants
80 $
50 $
90 $
70 $

Prix de
vente
125 $
125 $
175 $
150 $

O la colonne "Nombre de C1", C2 ou C3 indique le nombre de composants C1, C2 ou C3


dans le produit fini donn, et la colonne "Autres composants" donne le prix d'achat des autres
composants ncessaires la fabrication du modle. Enfin Prix de vente reprsente le prix de
vente minimum observ sur le march pour le produit fini donn.
Les ventes hebdomadaires espres par le service commercial sont de 2000 units pour C1,
1000 units pour C2 et 3000 units pour C3, ces ventes devraient rester stables sur le
trimestre.
Enfin le prix de vente d'un produit doit lgalement tre suprieur son cot (loi antidumping).
1) Formaliser le problme de fixation de prix de l'entreprise Toutenkit, sachant qu'elle veut
maximiser la marge globale dgage par les trois nouveaux composants.
2) Utiliser Excel pour rsoudre le problme. Quels sont les prix que doit fixer l'entreprise
pour les trois composants, quelle marge totale l'entreprise ralisera-t-elle ? Quels sont les
produits finis dont l'entreprise Toutenkit doit particulirement surveiller l'volution ? La
loi antidumping est-elle contraignante pour l'entreprise ?
3) Lors du relev des prix minimums, il y a eu une erreur pour le prix de PF2, la valeur est
120 $ et non pas 125 $, cela a-t-il une influence sur la solution trouve prcdemment ?
4) Quel serait l'effet sur la marge d'une rduction de 10 $ du prix minimum de PF4 ?
5) Si la loi antidumping tait abolie, quelle serait la nouvelle marge pour l'entreprise, et les
nouveaux prix pratiqus pour les composants ?

Page 39

Programmation Linaire - Exercices

Listing Excel
Microsoft Excel 8.0a Rapport des rponses
Cellule cible (Max)
Cellule
Nom
Valeur initiale
Valeur finale
$B$5
fe C1
0
34500

Cellules variables
Cellule
Nom
$B$2
C1
$C$2
C2
$D$2
C3

Contraintes
Cellule
Nom
$F$7
PF1
$F$8
PF2
$F$9
PF3
$F$10
PF4
$F$11
achatC1
$F$12
achatC2
$F$13
achatC3

Valeur initiale
0
0
0

Valeur

Valeur finale
3,50
9,50
6

Formule
96,5 $F$7<=$G$7
95 $F$8<=$G$8
140 $F$9<=$G$9
120 $F$10<=$G$10
3,50 $F$11>=$G$11
9,50 $F$12>=$G$12
6 $F$13>=$G$13

tat
Non li
Non li
Li
Li
Non li
Non li
Li

Marge
3,50
5,00
0
0
1,50
5,50
0

Microsoft Excel 8.0a Rapport de la sensibilit


Cellules variables
Finale
Rduit
Objectif
Admissible
Admissible
Cellule
Nom
Valeur
Cot
Coefficient Augmentation Rduction
$B$2
C1
3,50
0
2000
1E+30
333,33
$C$2
C2
9,50
0
1000
5000,00
1000
$D$2
C3
6
0
3000
500,00
1E+30
Contraintes
Cellule
$F$7
$F$8
$F$9
$F$10
$F$11
$F$12
$F$13

Nom
PF1
PF2
PF3
PF4
achatC1
achatC2
achatC3

Finale
Valeur
96,5
95
140
120
3,50
9,50
6

Ombre
Cot
0
0
416,67
333,33
0
0
-500,00

Contrainte
Admissible
Admissible
droite
Augmentation Rduction
100
1E+30
3,50
100
1E+30
5
140
6
6,00
120
7,50
16,5
2
1,50
1E+30
4
5,50
1E+30
6
1,00
1,00

Page 40

Programmation Linaire - Exercices

17 La tannerie Landaise
La tannerie Landaise est une unit de production indpendante situe dans la Rgion Landaise
qui traite des peaux de mouton. Elle revend ensuite ses peaux dautres entreprises dans toute
lEurope. Actuellement, 3 types de produits finis sont vendus sur le March:
des Cuirs Souples
du Box
du Daim
Les peaux passent par 3 ateliers :
latelier de schage
latelier de tannage
latelier de teinture
Les temps de production sont indiqus dans le tableau suivant :
Schage
Teinture
Tannage

Cuir Souple
1h
2h
1h

Box
2h
1h
1h

Daim
1h
3h
4h

Latelier de Schage dispose de 50 personnes travaillant 40 heures par semaine ; ce personnel


est mensualis. Le salaire horaire moyen est de 12 /H. Les cots variables de production
(matires premires, entretien, etc..) sont de 40 /H.
Latelier de Teinture dispose de lquivalent de 37,5 personnes travaillant 40 heures par
semaine ; ce personnel est mensualis. Le salaire horaire moyen est de 12 /H. Les cots
variables de production (matires premires, entretien, etc..) sont de 90 /H. Dautre part, la
Tannerie Landaise peut sous-traiter une petite entreprise artisanale lquivalent de 800H de
travail (au maximum) ; dans ce cas, elle paie 25 par heure sous-traite.
Latelier de Tannage nutilise que des intrimaires qui sont en moyenne pays 28 /H et
lentreprise peut disposer de 3000 Heures au maximum par semaine ; les cots variables de
production (hors main duvre) sont denviron 32 /H.
Enfin la position de lentreprise sur le march la conduit fabriquer moins de peaux en Daim
que le total des peaux en Box ou en Cuir souple.
Les prix de ventes unitaires des peaux sont respectivement de 400 pour le Cuir Souple,
390 pour le Box, 810 pour le Daim.
Les cots fixes hebdomadaires sont de 50 000 environ.
Questions :
1) Formaliser le problme.
2) Quels sont la production optimale, le chiffre daffaires correspondant et le profit de
lentreprise.
Les questions suivantes sont indpendantes les unes des autres :

Page 41

Programmation Linaire - Exercices

3) Les ouvriers de latelier de schage sont prts faire 500 H supplmentaires payes
50% de plus. Que doit faire lentreprise et quel en sera limpact sur la fonction
conomique ?
4) A quel prix devrait-on vendre la peau en Cuir souple pour quelle devienne rentable
dans la structure de production actuelle ? Lentreprise dintrim qui fournit les
ouvriers de latelier de tannage vous propose 1200 H supplmentaires pour un prix
global de 40 000 . Evaluer limpact de lacceptation de cette proposition.
5) Un nouveau type de peau utilise 2H de schage, 2H de teinture et 1H de tannage. A
quel prix lentreprise doit-elle le vendre pour quil soit conomiquement comptitif
avec les produits actuels ?
6) Le prix du Box doit baisser de 10%. Quelle consquence cette baisse aura-t-elle sur la
production et sur le profit de lentreprise ?
18 L'entreprise ShareGift
Lentreprise ShareGift a reu une commande dune association qui veut distribuer ses
membres des portefeuilles, porte-cls ou porte-cartes en tissu enduit son logo. Le tissu
enduit a t fourni par lassociation et on dispose de 78 m (soit 7800 dm) de tissu.
Lassociation est prte acheter 3000 pices au maximum (toutes catgories confondues).
Elle exige aussi la production de 200 parures formes dun portefeuille et dun porte-cartes.
Pour fabriquer 1 portefeuille il faut 4 dm de tissu, 3 minutes de dcoupe et 2 minutes de
couture.
Pour 1 porte-cls, il faut 2 dm de tissu, 2 minutes de dcoupe et 1 minute de couture.
Pour 1 porte-cartes, il faut 2 dm de tissu, 1 minute de dcoupe et 3 minutes de couture.
Etant donns les dlais de livraison demands par lassociation, on ne pourra disposer que de
100H de dcoupe et 90 H de couture.
Les cots variables de dcoupe sont de 240 F par heure, ceux de couture de 300 F par heure.
Ces cot ne prennent pas en compte la main duvre qui est mensualise.
Les prix de ventes pour chacun des produits sont :
Portefeuille
Porte-cls
Porte-cartes

Prix de Vente
112 F
63 F
49 F

Questions :
1) Formaliser le problme en prenant comme variables le nombre de portefeuilles, de
porte-cls et de porte-cartes fabriqus pour maximiser la marge
Les questions suivantes sont indpendantes les unes des autres
2) Lassociation demande une rduction de 5 F sur le prix du portefeuille. Quel sera
limpact de cette rduction sur la production et la marge de lentreprise ?

Page 42

Programmation Linaire - Exercices

3) Une panne entrane une diminution de 10 H des heures disponibles pour la couture.
Quel en sera limpact sur la marge ?
4) 5 m de tissu ont t endommags pendant le transport. Quel sera limpact sur la
marge ?
5) Les ouvriers de latelier Dcoupe sont disposs faire des heures supplmentaires,
quel prix maximum tes vous prt les payer et combien dheures leur demanderezvous ?
6) Quelles seraient les consquences si lassociation exigeait 300 parures au lieu de 200 ?
7) Le prix du porte-cartes vous semble-t-il bien fix, par rapport la structure de
production actuelle ? Quel serait daprs vous le prix minimum de vente de cet objet ?
8) Un ouvrier propose une nouvelle faon de fabriquer les porte-cls, qui demande
1,5 dm de tissu, 1 minute de dcoupe et 3 minutes de couture. Quel serait le prix
minimum de vente pour que ce produit soit intressant produire dans la structure
actuelle ?
19 Mdia planning
Une entreprise de jeux pour console veut lancer une campagne publicitaire sur un nouveau
jeu, sa cible est constitue des jeunes de 10 15 ans, ventuellement de la tranche dage 1525 ans. Elle envisage les mdias suivants :
Mdia
TV1
TV2
Radio1
Radio2

Prix du spot
40 000
50 000
15 000
12 000

Nombre de contacts (en milliers/spot)


10-15 ans
15-25 ans
35-55 ans
500
180
200
600
200
200
100
50
10
70
50
15

Le budget prvu pour le mois venir est de 2 M, lentreprise veut limiter le nombre de spots
tlviss diffuss sur la priode 25 au maximum.
Elle souhaite que le nombre de contacts 10-15 ans soit au moins 3 fois suprieur ceux des
contacts 35-55 ans.
Il serait souhaitable aussi que le nombre de contacts 15-25 ans soit au moins de 8000000
Enfin pour des raisons commerciales la diffrence entre les deux budgets radios ne doit pas
excder 200 000
20 La Socit Electromga
La socit Electromga fait de limport de matriel lectronique. Elle met les produits (A, B
et C) aux normes de scurit du march intrieur dans un atelier dlectronique et peint les
diffrents produits. De plus elle a cr un nouveau produit (le produit D)qui est fabriqu
partir des produits (finis et modifis) A et B(une unit de chaque produit A et B est incorpore
dans chacune unit du produit D). Elle peut recevoir par mois jusqu 500 produits A, 1200
produits B et 200 produits C.
Ces produits sont respectivement achets au prix de 400 , 350 et 500 lunit.
Les consommations dans les diffrents ateliers sont les suivantes :

Page 43

Programmation Linaire - Exercices

Produit A Produit B Produit C Produit D


Atelier Electronique
1H
1H
2H
1H
Peinture
2H
1H
2H
2H
Les cots variables de production hors main duvre sont respectivement de 250 par heure
pour latelier Electronique et de 200 par heure pour latelier de peinture.
Latelier dlectronique peut disposer de 2800 H pendant le mois. Les techniciens sont
mensualiss et pays en moyenne 150 /H.
Latelier de peinture peut disposer de 3000 H par mois et peut ventuellement employer des
intrimaires pour lquivalent de 500 H au maximum. Le cot salarial moyen et de 80 pour
les ouvriers qui sont mensualiss, pour les intrimaires le cot est de 150 par heure.
Les prix de vente des produits sont respectivement de 1500 pour le produit A, 1500 pour
le produit B, 2000 pour le produit C et 4000 pour le produit D. Les cots fixes mensuels
sont de 500 000 .
Questions :
1) Formaliser le problme en prenant comme variables d'action les quantits vendues des
diffrents produits et le nombre d'heures d'intrim utilises.
2) Quelle est la solution optimale en terme de production et en terme de chiffre daffaires et
de profit.
Les questions suivantes sont indpendantes les unes des autres.
3) Les techniciens de latelier dlectronique proposent de faire 50H supplmentaires payes
50% plus chres. Quel serait limpact de lacceptation sur la fonction conomique ?
4) Un autre importateur vous propose un lot de 600 produits B 400 000 . Que dcidezvous? Quel serait limpact sur la fonction conomique.
5) On vous annonce que 40 des 200 produits C imports ont t endommags pendant le
voyage et ne sont donc plus disponibles chez limportateur, quelle consquence cela aurat-il sur la solution ?
6) Le prix de vente du produit D peut passer (sans que cela ne gne les ventes) 4100 .
Quelle sera la consquence de cette augmentation ?
7) Un ingnieur propose de fabriquer un produit E contenant une unit de B, une unit de C
et demandant 4H datelier lectronique et une demi-heure datelier peinture. Ce produit
sil tait vendu moins de 5000 pourrait pntrer facilement le march. Quelle dcision
conseillez-vous lentreprise?

Page 44

Programmation dynamique

PROGRAMMATION DYNAMIQUE
Nous n'tudierons dans ce chapitre que le cas de la programmation dynamique dterministe et
o l'ensemble des dcisions est fini.
21 Un exemple
Une entreprise doit fabriquer pour les trois semaines venir 6 units d'un produit donn. Le
cot de production et stockage est des produits, suivant leur semaine de production, est donn
dans le tableau suivant :
Quantits fabriques
Semaine 0
1
2
3
4
5
6
20
23
29
40
60
75
80
1
20
25
32
42
68
75
80
2
20
26
35
41
66
73
78
3
Par exemple, si l'on ralise la production demande avec 1 unit en premire semaine et 5
units en troisime semaine le cot total sera alors de : 23 + 20 +73 = 116
21.1 Analyse du problme
Le systme S est constitu du dpartement production sur trois semaines. Il peut tre
considrer comme constitu d'une suite croissante de systmes embots :
S0=dpartement de production avant la premire semaine
S1=dpartement de production la premire semaine
S2=dpartement de production les deux premires semaines
S3=S=dpartement de production sur les trois semaines
Avec S0 S1 S2 S3=S, on dit que l'on a dcompos le problme en trois tapes.

Les actions : il s'agit ici de dterminer les quantits produire chaque semaine. C'est donc une
squence de trois dcisions (appele stratgie) ; chaque sous systme il est possible
d'associer une sous squence de dcisions (appele sous stratgie).
Les paramtres structurels sont : la quantit totale fabriquer, les cots de production.
Les variables d'tat sont la quantit totale fabrique, le cot total de production. Remarquons
que nous pouvons associer les mmes variables d'tat au diffrents sous systmes dfinis plus
haut, c'est dire chaque tape.

Les quations de fonctionnement du systme consistent crire qu' la fin de la troisime


semaine il a t fabriqu 6 units du produit et que, chaque semaine, on fabrique une quantit
positive ou nulle (on ne dtruit pas des units produites).
La consquence privilgie est le cot total et le critre est le minimum.
21.2 Mise en quation du problme
Nous noterons x1 la quantit fabrique en semaine 1, x2 celle fabrique en semaine 2 et x3 la
quantit fabrique en semaine 3.
En notant g1(x), g2(x) et g3(x) les fonctions de cot donnes par le tableau, la formulation du
problme est aise :

Page 45

Programmation dynamique
Minimiser

F3(x1,x2,x3) = g1(x1) + g2(x2) +g3(x3)

Sous les contraintes :


x1 + x2 + x3 =6
x1, x2, x3 >=0
La variable d'tat x1 + x2 + x3, se transmet par les sous systmes S1, S2, la contrainte
prenant alors la forme x1<=6 pour S1 et x1 + x2 <=6 pour S3, cette variable joue un rle
particulier pour la programmation dynamique et les diffrentes valeurs que peut prendre cette
variable pour les systmes S1, S2, S3 s'appellent les tats du systme pour les diffrentes
tapes. Une dcision consiste passer d'un tat l'tape n un autre tat l'tape n+1.
La contrainte de positivit des quantits va dfinir "l'accessibilit" d'un tat de l'tape n+1
partir d'un tat de l'tape n : par exemple l'tat 4 de l'tape 2 est accessible des tats 0,1,2,3,4
de l'tape 1, mais des tats 5 ou 6 de l'tape 1.
Enfin la valeur de la fonction conomique est pour la stratgie (x1,x2,x3) est gale la valeur
de la fonction conomique pour la sous stratgie (x1,x2) plus la valeur de la dcision x3. On
pourrait faire la mme remarque pour la sous stratgie (x1,x2).
21.3 Reprsentation graphique
On peut donner une reprsentation graphique du problme sous forme de graphe, en marquant
les diffrentes tapes (sous systmes), et tats du systme sur des lignes verticales et en
joignant par une ligne un tat de l'tape n et un tat de l'tape n+1 si celui-ci est accessible. On
obtient alors la reprsentation suivante :

S0

S1

S2

Il s'agit de trouver le chemin de cot minimum qui partant de l'tat initial 0 du systeme S0,
atteint l'tat final 6 du sytme S3. Il serait possible ici d'explorer tous les chemins, mais nous
allons montrer sur cet exemple, un algorithme permettant de diminuer de faon significative
la combinatoire des chemins.
21.4 Rsolution du problme.
La fonction conomique peut s'crire
f(x1,x2,x3)=(g1(x1)+ g2(x2)) + g(x3) avec x1+x2+x3=6
Page 46

Programmation dynamique
On peur alors crire :

Max

x1+ x 2 + x 3= 6

f ( x1, x 2, x3) = Max g 3( x3) + Max


x3

(g1( x1) + g 2( x 2) ))

x1+ x 2 = 6 x 3

C'est dire qu'il n'est pas ncessaire de mmoriser tous les chemins qui conduisent de l'tat
initial un tat donn du systme S2, mais seulement ceux qui correspondent au maximum de
la fonction conomique restreinte S2. Ceci pourrait s'noncer de la faon suivante : "toute
sous stratgie d'une stratgie optimale est optimale". Attention cela ne signifie pas que pour
chaque tape il ne faut conserver que le meilleur tat (c.a.d. celui correspondant au cot
minimum) mais qu'il suffit de conserver pour chaque tape et pour tous les tats de cette
tape la sous stratgie conduisant au cot minimum. Ceci nous permettra de rduire chaque
tape le nombre de "chemins explorer".
Appliquons ce principe la rsolution du problme. Nous allons construire des tableaux
concernant les diffrentes tapes, en mettant en ligne les tats de l'tape n et en colonne les
tats de l'tape n+1, chaque case du tableau contenant la valeur de la fonction conomique
pour l'tape n+1. La colonne la plus gauche du tableau contenant la valeur optimale de la
fonction conomique l'tape n (pour chaque tat), la dernire ligne contenant la valeur
optimale de la fonction conomique pour chacun des tats de l'tape n+1.
Premire tape : passage du systme S0 au systme S1
Le seul tat possible pour S0 est 0, les tats possibles pour S1 sont les productions possibles
en premire semaine soit (0,1,2,3,4,5,6).
S1
S0

Optimum S0

0
0
Optimum (S1)

0
20
20

1
23
23

2
29
29

3
40
40

4
60
60

5
75
75

6
80
80

Deuxime tape : passage de S1 S2


Les tats possibles pour S2, correspondent aux productions cumules des semaines 1 et 2, et
sont donc toutes les valeurs (0,1,2,3,4,5,6). Toutefois comme la production de la deuxime
semaine ne peut tre ngative, seuls les tats (de S2) de valeur suprieure ou gale sont
accessibles partir d'un tat du systme S1 ; c'est pour toute la partie sous la diagonale du
tableau des valeurs de la fonction conomique est vide.
S2
S1

Optimum S1
20
23
29
40
60
75
80

Optimum S2

0
1
2
3
4
5
6

0
40

1
45
43

2
52
48
49

3
62
55
54
60

4
88
65
61
65
80

5
95
91
71
72
85
95

40

43

48

54

61

71

6
100
98
97
82
92
100
100
82

A ce stade les seuls "chemins" conservs sont ceux qui correspondent l'optimum de la
fonction conomique pour chaque tat. C'est dire que le graphe, pour l'tape suivante est
rduit :

Page 47

Programmation dynamique

S0

S1

S2

S3

Troisime tape : passage de S2 S3=S


Les tats possibles pour le systme S3 se rsument au seul tat 6, puisque la quantit
fabriquer sur les 3 semaines est fixe. On obtient donc le tableau final suivant :
Optimum S2

S2

40
43
48
54
61
71
82
Optimum S2

0
1
2
3
4
5
6

S3
6
118
116
114
95
96
97
102
95

Le chemin optimal est alors le suivant ("en remontant les tableaux") :

Page 48

Programmation dynamique

S0

S1

S2

S3

La politique de production correspondante est : fabriquer 2 units en premire semaine, 1


unit en seconde semaine et 3 units en dernire semaine, pour un cot total de 95.
Remarques :
1. Dans la mesure o l'tat final tait aussi unique, on aurait pu procder de faon rtrograde,
en partant de la dernire semaine, l'exercice est laiss au lecteur.
2. Une exploration exhaustive de tous le chemins aurait conduit (7+6+5+4+3+2+1)*2 = 56
additions pour l'valuation des chemins et 28 comparaisons pour trouver l'optimum.
L'algorithme que nous avons utilis ne demande que 28 additions et (28+6) comparaisons.
soit un gain de 22 oprations. La rduction aurait t encore plus importante si le nombre
d'tapes avait t plus grand.
22 Formalisation l'aide de la programmation dynamique
22.1 Caractristiques d'un problme de programme dynamique discret
Pour qu'un problme puisse tre formalis en termes de programmation dynamique, il faut
que l'on puisse dfinir des tapes c'est dire une suite croissante de sous systmes ; nous ne
considrerons ici que le cas o cette suite est finie : S0 S1..Sn=S.

A chaque tape i sont associes des dcisions qui concerne le passage du sous systme Si au
sous systme Si+1. Nous supposerons ici que ces dcisions sont en nombre fini. Une nuplet
compos d'une dcision pour chaque tape est appele une stratgie : (d1,d2,..,dn). Un sousensemble de dcisions conscutives est appel une sous stratgie (par exemple (d2,d3,d4)).
A chaque tape sont associes des variables d'tat privilgies, dont l'ensemble des valeurs
possibles est appel ensemble des tats du systme l'tape i. Nous supposerons aussi que ces
valeurs sont en nombre fini. Les tats du systme S0 s'appellent les tats initiaux, ceux du
systme Sn les tats finaux. Les tats du systme l'tape i, reprsentent les diffrentes
consquences possibles de toutes les sous stratgies (d1,d2,..di).

Page 49

Programmation dynamique

Un tat ei+1, de l'tape i+1, est dit accessible partir d'un tat ei, de l'tape i, s'il existe une
dcision di permettant de passer de ei ei+1. Ce sont les contraintes de fonctionnement du
systme qui dfinissent l'accessibilit d'un tat par rapport un autre.
Enfin la fonction conomique est dfinie comme la somme des valeurs des dcisions d'une
stratgie, cette fonction dpend donc des diffrents tats par lesquels passe la stratgie au
cours des n tapes.
22.2 Le principe de Bellman
Nous raisonnerons ici dans le cas d'une maximisation.

Notons di la dcision l'tape i, et ei l'tat atteint cette tape, la fonction conomique peut
s'crire :
i =n

f (d1, d 2,...dn, e1, e2,..en) = g i (di, ei) =


i =1

i =n

i= p

i = p +1

i =1

g i (di, ei) + g i (di, ei)

ce qui revient simplement dcomposer les n tapes en deux sous-ensembles : les tapes 1 p
et les tapes p+1 n.
Pour un tat ep+1 fix, notons :
f p (ep + 1) =

max

( g1 (d1, e1) + g 2 (d 2, e2).. + g p (dp, ep))

d 1, d 2 , dp ,e1,e 2 , ep

Il est alors clair, d'aprs l'additivit de la fonction conomique que :

max

d 1, d 2 , dn ,e1, e 2 ,en

f (d1,.., dn, e1,.., en) =

max

dp +1,.., dn ,ep +1,..,en

( f p (ep + 1) + g p +1 (dp + 1, ep + 1) + .. + g n (dn, en))

Ce qui revient dire que la sous stratgie menant de l'tat e1 l'tat ep+1 est optimale, ce
qui s'nonce sous le nom de principe de Bellman :
Toute sous stratgie d'une stratgie optimale est elle-mme optimale.

On peut alors rsoudre le problme par rcurrence, pour chaque tat terminal de l'tape i,
il suffit de dterminer les stratgies optimales conduisant cet tat, les autres stratgies
sont sans intrt pour la suite de la rsolution.
Pour dmarrer la rsolution on partira de l'ensemble des tats initiaux ou finaux le plus
simple, c'est dire celui qui a le moins d'lments ; dans l'exemple trait plus haut ces
deux ensembles n'avaient qu'un lment, il tait donc indiffrent de partir de l'un ou de
l'autre.
22.3 Mthode de rsolution
Bien qu'il n'y ait pas de mthode gnrale permettant de rsoudre un programme dynamique,
avec les restrictions que nous nous sommes imposes ( problme dterministe, nombre fini
d'tape, de dcisions et d'tats chaque tape) il est souvent possible d'utiliser une
prsentation identique celle que nous avons utilise lors de l'exemple.

Pour chaque tape on construira donc un tableau rectangulaire ayant la prsentation suivante :

Page 50

Programmation dynamique
Etats de l'tape i+1
Etats de
l'tape i

Valeurs
optimales de
l'tape i
V1,i

E1,i

Vj,i

Ej,i

E1,i+1

Ek,i+1

Optima l'tape i+1

Dans la cellule se trouvant l'intersection de la ligne de l'tat Ej,i (de l'tape i) et de la colonne
de l'tat Ek,i+1 (de l'tape i+1) on indiquera la valeur de la fonction conomique pour atteindre
l'tat Ek,i+1 en passant par l'tat Ej,i s'il existe une dcision di permettant ce passage, cette
valeur est : Vj,i + gi(di) ; sinon on indique la non-accessibilit de l'tat.
Dans la dernire ligne on dtermine pour chaque tat de l'tape i+1, la valeur optimale de la
fonction conomique pour atteindre cet tat.
La dernire tape permet de dterminer la valeur optimale de la fonction conomique, pour
dterminer la stratgie correspondante, il suffit de "remonter" les tableaux, ce qui donne la
suite des tats et d'en dduire les dcisions correspondantes. Remarque, il est aussi possible de
rajouter au tableau une ligne mmorisant, chaque tape et pour chaque tat, la dcision
optimale.
23 Mise en place sous Excel

Nous allons reprendre lexercice dintroduction et expliquer les formules utilises pour la
rsolution de cet exemple sous Excel (fichier Stocks_Dyn.xls).

Pour la deuxime tape, nous avons, des formules particulires pour les optima prcdents,
qui viennent directement du tableau des donnes :
Le tableau de donnes des cots a t nomm Couts , la colonne B contient les tats du
systme S1 (la production de la premire semaine), la ligne 2 contient les tats du systme S2
(la production des deux premires semaines).
Pour afficher le cot associ chaque tat de S1, chaque production de la premire semaine, il
suffit daller lire dans le tableau de donnes llment de la premire ligne correspondant, ceci
se fait avec index, lindice de la ligne est 1, celui de la colonne ltat+1, puisque ces tats
commencent 0.
Pour les cases de calcul transitoire, il faut tout dabord vrifier que ltat de S2 est accessible
par ltat de S1, ce qui est fait avec la condition $B3<=C$2 pour la premire case (attention
aux $ pour la recopie), si cette condition nest pas vrifie, rien nest affiche dans la case,
sinon le cot correspondant est affich : ce cot est gal au minimum de ltat de dpart plus
le cot de production de la seconde semaine correspondant C$2-$B3 produits. Ce dernier
cot se lit dans le tableau de donnes initiales, comme prcdemment, mais dans la ligne 2.
Enfin la dernire ligne contient le cot minimum de chaque tat du systme S2, qui nous
servira dans ltape suivante.
Page 51

Programmation dynamique

Il est enfin possible avec Excel de connatre pour chaque tat final, le chemin optimal, cest ce
que nous allons faire en rajoutant deux lignes notre tableau :
Pour trouver la production de la premire semaine, il suffit daller lire dans la colonne B
llment qui se trouve sur la ligne du minimum de la colonne courante, cest ce que fait la
fonction EQUIV (avec comme dernier argument 0, et comme premier argument le minimum),
la fonction index retourne alors la valeur cherche.
La production de la deuxime semaine est obtenue par simple diffrence entre la production
des deux semaines et la production de la premire semaine.

On retrouve alors les rsultats obtenus en 21.4 :

Pour ltape suivante, signalons simplement les diffrences, la premire colonne du tableau
est obtenue en lisant la valeur de loptimum prcdent, les formules internes au tableau sont
les mmes, en changeant cependant la ligne du tableau de donnes (3 et non 2) :
Pour les productions optimales, il faut passer par lintermdiaire de la production des
semaines 1 et 2, que lon dcompose en utilisant les rsultats de ltape prcdente.
Remarque : nous avons donner les formules internes au tableau avec les adresses relatives et
absolues, bien quici ce soit inutile puisquil ny a quun seul tat ; mais elles seraient
ncessaires si le problme avait plus de trois tapes.

Page 52

Programmation dynamique

EXERCICES DE PROGRAMMATION DYNAMIQUE


24 Plus court trajet

Il s'agit de dterminer le plus court chemin menant de la ville A la ville B, les villes
intermdiaires et les distances entre ces villes vous sont donnes ci dessous :
C

L
B

A
E

C
47

D
45

E
39

F
38

C
D
E
F

G
13
11
27
30

H
48
28
44
16

I
37
48
47
44

J
41
27
20
22

G
H
I
J

K
47
50
27
35

L
16
12
35
47

M
31
15
44
39

N
27
42
25
21

K
L
M
N

B
39
28
49
14

Questions :

1) Montrer que ce problme peut se formaliser en un programme dynamique, prciser les


tapes, les tats chaque tape, les dcisions et la fonction conomique.
2) Rsoudre le problme. Quel(s) est (sont) le(s) chemin(s) optimal(aux)?
25 Aerospa
La socit Aerospa doit sous-traiter la construction de 10 ogives de fuse en cramique pour la fin du mois. Elle

sest adresse trois sous-traitants qui lui ont fait les propositions suivantes :
Sous-traitant 1

Page 53

Programmation dynamique
Nombre de pices
Prix en K

1
38

2
65

3
100

4
143

5
185

Sous-traitant 2
Nombre de pices
Prix en K

2
75

4
150

6
220

8
280

Sous-traitant 3
Nombre de pices
Prix en K

3
90

6
200

9
315

Questions :

1) Montrer que ce problme peut tre trait laide de la programmation dynamique.


Prciser les tapes, les tats, les dcisions et la fonction conomique.
2) Rsoudre le problme.
26 Choix d'investissement

Une socit d'investissement envisage de placer jusqu' 10M$, qu'elle peut investir dans
quatre types de projets collectifs, l'unit d'investissement tant le million de $. Elle peut
rpartir son investissement comme elle l'entend, par exemple tout placer dans le projet B, ou
bien placer 3M$ en A, 2 en B, 4 en D, par exemple.
Le tableau ci-dessous montre le profit qui rsultera de chaque investissement : ainsi, un
placement de 5M$ en B rapporterait 0,9M$ et un placement de 3M$ en D rapporterait
0,42M$.
Placement
0
1
2
3
4
5
6
7
8
9
10

0,00
0,28
0,45
0,65
0,78
0,90
1,02
1,13
1,23
1,32
1,38

0,00
0,25
0,41
0,55
0,65
0,75
0,80
0,85
0,88
0,90
0,90

0,00
0,15
0,25
0,40
0,50
0,62
0,73
0,82
0,90
0,96
1,00

0,00
0,20
0,33
0,42
0,48
0,53
0,56
0,58
0,60
0,60
0,60

Questions :

1) Montrer que ce problme peut tre trait laide de la programmation dynamique.


Prciser les tapes, les tats, les dcisions et la fonction conomique.
2) Rsoudre le problme.
27 La socit Mdiajeux

La socit Mdiajeux lance une campagne nationale pour un nouveau jeu. Elle veut appuyer
cette campagne par une campagne rgionale dans 4 rgions. Pour cela elle a slectionn
quatre radios locales ayant une forte audience et se propose de passer un certain nombre de
spots publicitaires durant le mois venir.
Daprs les campagnes prcdentes lapport de ventes supplmentaires du aux spots peut tre
valu, en fonction du nombre de spots diffuss par jour, selon le tableau suivant :
Page 54

Programmation dynamique

Nombre de
spots

Rgion1

0
1
2
3
4
5
6
7
8
9
10
11
12

Nombre de ventes supplmentaires


Rgion2
Rgion3
Rgion4

0
1000
2500
7500
18000
32000
41000
44500
45500
46000
46200
46200
46200

0
700
2500
8000
21000
42000
59000
66000
69000
70000
70000
70000
70000

0
1400
9000
34000
54000
59000
60000
60000
60000
60000
60000
60000
60000

0
600
1800
4000
9000
19000
32000
43000
49000
52000
53000
53500
53600

Dautre part la marge ralise sur chaque vente est de 20 et le cot dun spot publicitaire
dpend de la radio locale, le tableau suivant vous donne le cot mensuel dun spot journalier :
Prix mensuel dun spot

Rgion1
40 000

Rgion2
80 000

Rgion3
60 000

Rgion4
40 000

On dispose dun budget de 400 000


Questions :

1) Montrer que ce problme peut se formaliser sous forme de programmation


dynamique : on prcisera les tapes, ltat du systme chaque tape, les dcisions
chaque tape, la fonction conomique.
2) Rsoudre alors le problme dallocation du budget aux diffrentes radios locales.
3) La direction de Mdiajeux veut absolument passer au moins un spot dans chaque
radio, quelle est alors la meilleure allocation du budget ?

Page 55

Programmation dynamique

28 Exploitation minire

Le schma ci-dessous vous donne les estimations profit d'exploitation d'une mine(vue en
coupe verticale) :
-4 -4 -4 -4
-4 -4 -4
-4 -4
-4

8
0
-4
-4
-4

12
12
8
0
-4
-4

12
12
12
12
8
0
-4

0
8
12
12
12
12
8
0

-4
-4
0
8
12
12
12
12

-4
-4
-4
-4
0
8
12
12

-4
-4
8
8
-4
-4
0
8

-4
-4
-4
4
-4
-4
-4

-4
-4
4
4
-4
-4

-4
-4
-4
-4
-4

-4 -4 -4 -4
-4 -4 -4
-4 -4
-4

Il s'agit de dterminer la stratgie optimale de creusement de cette mine, sachant que la pente
maximale doit rester infrieure 45.
Questions :

1) Montrer comment ce problme peut tre formalis en utilisant la programmation


dynamique : quelles sont les tapes, ltat du systme chaque tape, les dcisions, la
fonction conomique et le critre.
2) Dterminer alors le (ou les) programme(s) optimal(aux) d'exploitation.

29 Entreprise ABC

Une entreprise ABC doit fabriquer 10 units dun produit X dans la journe. Pour ce faire,
elle dispose de trois machines M1, M2, M3 de capacit de production journalire respective
de 9, 8 et 5 units.
Les marges dgages par les diffrents niveaux de production pour les trois types de machine
sont donnes dans le tableau suivant

M1
M2
M3

0
-360
-360
-300

1
-120
-160
-140

0
-50
20

3
120
150
180

Production
4
5
360
480
260
460
340
500

6
600
570

7
840
770

8
960
880

9
1080

Questions :

3) Montrer comment ce problme peut tre formalis en utilisant la programmation


dynamique : quelles sont les tapes, ltat du systme chaque tape, les dcisions, la
fonction conomique et le critre.
4) Dterminer alors le (ou les) programme(s) optimal(aux) de production.

Page 56

Programmation dynamique

30 La socit Copsi-Cola (univers probabiliste)

La socit Copsi-Cola produit des boissons rafrachissantes dans son usine de la rgion MidiPyrnes, dont la capacit de production est de 1200 T par semaine. La demande est connue
une semaine l'avance, ce qui permet thoriquement de produire exactement la quantit
ncessaire, si cette demande est infrieure 1200 T, ce qui est le cas toute l'anne sauf durant
les treize semaine de la saison estivale, priode durant laquelle, il est possible suivant les
conditions mtorologiques que la demande excde la capacit de production, ce qui conduit
constituer des stocks. La demande hebdomadaire durant les treize semaines considres peut
tre considre comme prenant six valeurs quiprobables donnes dans le tableau suivant :
Semaine
1
2
3
4
5
6
7
8
9
10
11
12
13

600
600
800
900
900
1000
1000
800
700
800
900
800
800

Demandes quiprobables
700
800
900
700
800
900
900
1000
1100
1000
1100
1200
1000
1100
1200
1100
1200
1300
1100
1200
1300
900
1000
1100
800
900
1000
900
1000
1100
1000
1100
1200
900
1000
1100
900
1000
1100

1000
1000
1200
1300
1300
1400
1400
1200
1100
1200
1300
1200
1200

1100
1100
1300
1400
1400
1500
1500
1300
1200
1300
1400
1300
1300

La direction commerciale estime que le pourcentage de rupture ne doit pas excder 5% de la


demande, mais devant les demandes du service de planification, elle admet que l'on peut
considrer que le cot de rupture est d'environ 19 fois le cot de stockage, de manire
pourvoir quantifier le cot d'une politique.
Questions :

1) L'an pass, la demande sur les 13 semaines a t la suivante :


Semaine
1
2
3
4
5
6
7
8
9
10
11
12
13
Demande 1000 1100 1300 1300 1100 1200 1400 1300 1200 1100 1300 1200 1300

Quelle aurait du tre la politique de production et de stockage pour n'avoir sur la


priode aucune rupture de stocks?
Quelle aurait du tre la politique de production pour minimiser le cot total (stockage
+ rupture) sur la priode?
En raisonnant sur l'esprance de cot, quel est d'aprs vous la meilleure politique de
production et de stockage sur la priode? (Indication : on essaiera de dterminer pour
chaque semaine un niveau idal de stocks, niveau maximal qu'il ne sera pas toujours
possible d'atteindre)

Page 57

LA SIMULATION
31 Dfinition
Simulation : mthode de mesure et d'tude consistant remplacer un phnomne, un systme
par un modle plus simple mais ayant un comportement analogue (Larousse).

Le systme ou phnomne analys peut tre schmatis sous forme d'un modle mcanique,
lectronique ou logico-mathmatique. Nous nous intresserons ici uniquement la
reprsentation du systme sous la forme d'un modle informatisable.
L'objectif d'un modle de simulation peut tre simplement descriptif : tudier le
comportement d'un systme sous diffrentes hypothses d'volution de l'environnement, ou
aussi normatif (dcisionnel): en simulant plusieurs dcisions envisages choisir la meilleure
ou la moins mauvaise.
32 Typologie des modles de simulation

Une premire segmentation possible des modles de simulation peut se faire en fonction du
type des connaissances que l'on a sur le systme et son environnement. Si cette connaissance
est certaine, on parlera de simulation dterministe; s'il est possible (en fonction des
expriences passes ou de l'exprience) de probabiliser l'apparition de diffrents tats, on
parlera alors de simulation probabiliste.
33 La simulation dterministe

La simulation dterministe est frquemment utilise pour la cration de scnarii. L'utilisateur


teste ainsi les consquences de diverses hypothses sur l'volution du systme et de son
environnement (cf. les exercices d'introduction Excel).
La dynamique industrielle, invente par Forrester, est un autre exemple de modle de
simulation dterministe; elle s'intresse essentiellement aux systmes cyberntiques, c'est-dire aux systmes avec boucle de feed-back.

Dcideur

Action

Systme/environnement

Feedback
La boucle de feed-back envoie au "dcideur" des informations sur le systme et son
environnement, qui lui permettent de modifier de faon automatique son action chaque
instant. Par exemple un thermostat capte la temprature ambiante, ce qui lui permet de rgler
le chauffage en fonction d'un objectif; une usine peut modifier sa production en fonction de la
demande constate sur le march et du niveau de ses stocks.
34 La simulation probabiliste

Dans ce cas, les vnements qui apparaissent lors de l'volution du systme ne sont pas
connus avec certitude, mais on est capable de probabiliser cette apparition: par exemple, dans
une tude de files d'attente un guichet, on peut donner la loi de probabilit du temps sparant
deux arrives et ventuellement aussi la loi de probabilit du temps de service.

Page 58

34.1 Proprits des modles de simulation probabiliste


Un modle de simulation probabiliste permet dtudier le comportement temporel dun
systme dont certains paramtres structurels sont donns sous forme de loi de probabilit. Les
caractristiques des modles de simulation probabiliste sont les suivantes :

Environnement et le systme : dfinis sur une priode (jour, mois, anne,..) divise en
sous priodes, le nombre de sous priodes peut tre fixe (heure, jour,..)ou non (arrive
dun client, fin de service,..) ; voir plus loin la diffrence entre simulation vnement et
simulation temps.

Les dcisions sont en nombre fini, ce nombre est souvent assez faible.

Les paramtres structurels sont pour certains dfinis par des lois de probabilit
(arrives de clients une caisse, temps de service, demande..), dautres sont
dterministes (cots de production, cot dun spot)

Les variables dtat sont des variables alatoires, cest dire que leurs valeurs suivent
des lois de probabilits, quil nest gnralement pas possible de (ou que lon ne sait
pas) calculer analytiquement. Ces variables dtats sont dfinies soit au niveau de la
sous-priode (attente du dernier client arriv, stock en dbut de sous priode), puis sont
ventuellement agrges au niveau de la priode.

Les quations de fonctionnement sont les quation dfinissant le passage de la valeur


dune dtat dune sous priode la sous priode suivante.

Le modle dvaluation porte donc sur des variables alatoires (agrgation sur la
priode des variables dtat), plus prcisment sur des paramtres de ces variables
(moyenne, cart type, fractile).Il est donc ncessaire dapprocher la distribution des
variables alatoires de faon empirique en itrant le modle dune priode.

34.2 Simulation temps et simulation vnement


Pour analyser un phnomne alatoire, on peut raisonner de deux faons diffrentes : soit on
compte le nombre d'vnements se produisant pendant un intervalle de temps fixe, soit on
dtermine le temps sparant deux vnements. Dans le premier cas, on parle de simulation
temps, dans le second cas de simulation vnement.

Reprenons l'exemple de la file d'attente:

pour une simulation-temps, on se donne la loi de probabilit du nombre d'arrives


pendant un intervalle de temps fixe, par exemple toutes les 10 minutes, dans ce cas
la sous priode sera lintervalle de 10mn qui sera considr comme inscable. Si
nous travaillons sur une demi journe de 4H (la priode), il y aura donc exactement
24 sous priode. Les variables dtat seront donc values toutes les 10mn.

pour une simulation-vnement, on se donne la loi de probabilit du temps


sparant deux arrives. La sous priode correspond ce temps, la fin dune sous
priode correspondant larrive dun nouveau client. Dans ce cas on ne sait pas
priori combien de sous priodes apparatront dans la priode, ce nombre va
dpendre du nombre darrives de client pendant la demi-journe.

En rgle gnrale une simulation vnement permet une analyse plus fine du systme, mais sa
ralisation informatique (sur tableur du moins) est plus dlicate et son cot de traitement plus
lev.

Page 59

34.3 Simulation d'une loi de probabilit


Pour pouvoir simuler le comportement d'un systme faisant intervenir des vnements
probabiliss, il va falloir simuler l'apparition de ces vnements; c'est--dire gnrer des
vnements dont la frquence observe sur un grand nombre de simulations doit tre proche
de la loi de probabilit thorique.

Remarquons que la simulation d'une loi de probabilit quelconque peut se ramener la


simulation d'une loi uniforme sur l'intervalle [0;1[.
En effet, soit une loi de probabilit discrte dfinie par P(X=xi)=pi pour i=1,..,n; supposons
qu'il existe une mthode m permettant de simuler une loi uniforme sur l'intervalle [0;1[, c'est-dire que P(x<=m<x+dx)=dx pour tout x de l'intervalle [0;1[. Dfinissons la rgle
d'affectation suivante (mo tant le rsultat obtenu par la mthode m lors d'une exprience):
si 0<=mo<p1 alors X=x1
si p1<=mo<p1+p2 alors X=x2
.....
si p1+...+pk<=mo<p1+...+pk+pk+1 alors X=xk+1
Il est alors clair que l'on simule ainsi la loi de probabilit initiale, puisque la probabilit
d'obtenir lors de l'exprience le rsultat X=xk+1est gale la probabilit d'obtenir par la
mthode m un rsultat dans l'intervalle [p1+...+pk;p1+...+pk+pk+1] soit pk+1.
Remarque : il est bien vident que l'on pourrait prendre une autre partition de l'intervalle [0;1]
qui conduirait une autre mthode de simulation de la loi de probabilit initiale. Cependant la
partition utilise fait intervenir la fonction de rpartition de la loi et est gnralisable au cas
d'une loi continue, sous rserve de savoir inverser cette fonction de rpartition.
Pour une loi de probabilit continue, on peut faire le mme raisonnement en considrant la
fonction de rpartition de la loi (note F), cette fonction est une fonction croissante continue
(pour les cas qui nous intressent) valeur dans [0;1[, elle est donc bijective et tout lment
a de l'intervalle [0;1[ on peut associer un lment x tel que F(x)=a.
34.3.1 Fonction pseudo alatoire
On appelle fonction pseudo alatoire une fonction (videmment dterministe) qui permet de
simuler une loi uniforme sur l'intervalle [0;1[. Cette fonction doit avoir les proprits
suivantes :
Les valeurs prises par cette fonction doivent tre uniformment rparties sur
l'intervalle [0;1[.
Des rsultats conscutifs doivent tre indpendants.
Dans la pratique, ces fonctions sont ralises par des mthodes de congruence, ce qui
signifient que les rsultats sont priodiques, mais la priode est suffisamment longue
(plusieurs milliards) pour que cela ne gne pas la ralisation de simulations. Dans le cas
d'Excel, cette fonction se nomme alea().

34.3.2 Simulation d'une loi de probabilit discrte avec Excel.


Pour simuler une loi de probabilit discrte sous Excel on utilise en gnral la recherche dans
une table contenant dans la premire ligne(ou colonne) 0 et les probabilits cumules, et dans

Page 60

la seconde ligne (ou colonne) les valeurs prises par la variable alatoire. La valeur recherche
dans la table tant la valeur prise par la fonction alea(). Si cumul est le nom de la table, on
utilisera donc la formule :
RECHERCHEH(ALEA();cumul;2) (ou RECHERCHEV(ALEA();cumul;2)).

Dans certains cas particuliers on peut se passer de table de recherche : par exemple pour
simuler le jet d'un d on peut utiliser la formule ENT(6*ALEA())+1). De faon plus gnrale
pour simuler une loi discrte a valeur entire sur l'intervalle [p;q], on utilisera la formule :
ENT((q-p+1)*ALEA())+p

34.3.3 Simulation de certaines loi continue avec Excel


Il est possible avec Excel de simuler toutes les lois continues dont les fonction de rpartition
inverses sont des fonctions d'Excel. Sinon il faut que l'utilisateur dfinisse lui-mme une
fonction permettant de calculer cette inverse (par une macro par exemple).
Nous donnerons ici deux exemples calculables avec Excel, la loi normale et la loi
exponentielle.
Pour simuler un tirage alatoire dans une loi normale N (, ) , on utilisera la formule :
LOI.NORMALE.INVERSE(ALEA();;)

Pour une loi exponentielle de paramtre l, on utilisera le fait le fait que la loi exponentielle de
paramtre est la loi gamma particulire de paramtres 1 et 1/. L' inverse de la fonction de
rpartition de la loi gamma tant donne dans Excel, on utilisera la formule
LOI.GAMMA.INVERSE(ALEA();1;)
34.4 Construction d'un modle de simulation
Aprs avoir dlimit dans le temps et dans l'espace le systme dont on veut tudier le
comportement, la construction du modle comportera deux phases:

tout d'abord construire un modle "classique", en sparant bien paramtres et


quations, qui permette d'obtenir la ralisation d'une priode, divise en sous
priode. Ce modle aura videmment en entre des vnements alatoires, donc les
sorties correspondant aux critres d'valuation vont changer chaque excution.

construire une boucle de simulation qui itre le calcul du modle prcdent de


faon obtenir une estimation de la loi ou de certains paramtres des critres

Pour raliser les itrations sous Excel, on peut procder de diffrentes faons ; nous allons en
exposer les trois principales sur un exemple.
34.5 Exemple: Gestion de stocks
On considre une entreprise distribuant un produit A dont la demande mensuelle suit une loi
de probabilit uniforme sur l'intervalle de nombres entiers [400;1000] . Chaque mois
l'entreprise envisage de commander 700 units (quantit appele Commande) qui seront
disponibles le mois suivant. Le responsable commercial aimerait estimer les ruptures de
stocks sur une anne.

34.5.1 Construction d'un modle annuel


Le systme et lenvironnement que nous tudions est constitu du magasin, des fournisseurs
et des clients sur une anne, divise en mois puisque les commandes sont mensualises.

Page 61

La dcision que nous avons prendre est le niveau de commande ( actuellement 700).
Les paramtres structurels sont ici simplement la demande qui est probabilise, on pourrait
aussi prendre en compte par exemple un cot unitaire de stockage mensuel moyen, un cot
unitaire de rupture.
Les variables dtat sont les lments qui permettent de suivre mensuellement la satisfaction
de la demande, cest dire le stock initial, le stock final, le nombre de rupture et le
pourcentage de demandes non satisfaites.
Les quations de fonctionnement permettent de calculer au cours du temps lvolution de ces
variables dtat.
Les consquences retenues par le directeur sont les ruptures, cest dire le nombre total de
ruptures annuelles et peut-tre aussi le pourcentage annuel de demandes non satisfaite.
La mise en quation est la suivante.
Nous allons tudier dans un premier temps le systme sur une anne soit une priode de 12
mois, puisque la demande est mensuelle.
1) Simulation de la demande sur une anne.
Chaque mois la demande sera donne par la formule :
demande(m)=400+ENT(601*ALEA())
2) Calcul des stocks initiaux et finaux du mois(m) :
Stock_initial(m)=Stock_final(m-1)+Commande
Stock_final(m)=Max(Stock_initial(m)-demande(m);0)
On initialisera le stock initial du mois 1 0.
3) Calcul de la quantit en rupture chaque mois :
rupture(m)=Max(demande(m)-Stock_initial(m);0)
%rupture(m)=rupture(m)/demande(m)

On peut alors crire le modle sous Excel, sur une feuille nomme Modele. Les formules
entres sont les suivantes :
Exemple de simulation sur une anne :

Page 62

Il nous reste agrger sur lanne les variables dtat qui vont nous servir de consquence, par
exemple ici le nombre total de rupture sur lanne, ou le pourcentage annuel de rupture :
12

rupture_annuelle= rupture(m)
m=1

rupture_annuelle
%rupture_annuelle= 12
demande(m)
m=1

(La premire cellule a pour adresse Modele!E16, la seconde Modele!E17).


Toutefois, comme il a t dit prcdemment, chaque recalcul de la feuille de calcul, les
valeurs changent, puisque l'ala est recalcul. Pour obtenir des rsultats utilisables pour la
dcision, il nous faut donc obtenir des renseignements sur la loi de probabilit des ruptures :
par exemple la moyenne des ruptures par an, la frquence des ruptures suprieures 5% etc..
34.5.2 Itration du calcul
Il nous faut rpter la simulation annuelle un certain nombre de fois, soit en utilisant des
tables pour stocker les rsultats, soit en utilisant le mode itratif du tableur soit en
programmant une macro.
Utilisation des tables
Cest la mthode la plus simple mettre en uvre, les rsultats sur modle de simulation
dpendent des valeurs des tirages alatoires, cest dire des rsultats de la fonction Alea(),
cette fonction na pas de paramtres, donc en fait les rsultats de notre modle dpendant dun
paramtre invisible.

Pour obtenir des rsultas diffrents stocks dans une table pour les variables dtat
consquences, il suffira donc de construire une table un paramtre dont les cellules dentre
en colonne (ou en ligne)sont associe une cellule vide, chaque ligne correspondant au
rsultat dune itration ; la table doit donc contenir autant de lignes que la taille de
lchantillon que nous voulons constituer.
Le recalcul de la feuille provoquera automatiquement le tirage alatoire dautre nombres,
donc de nouvelles valeurs des consquences.

Page 63

On construit la table stockant les rsultats voulus pour un niveau de commande donn, ici le
total des ruptures et le pourcentage :
La cellule B19 tant une cellule vide de la feuille.

En utilisant des formats personnaliss simples (pour la premire ligne de la table), on obtient
alors les rsultats suivants :
On peut alors extraire de la table, tous les lments statistiques qui sont intressant, sur
lexemple nous nous sommes limits la moyenne, mais on pourrait ( laide del fonction
Frquence), par exemple, sortir lhistogramme des valeurs.
Il est aussi possible, si lon veut tester diffrents niveaux de commande, de construire une
table deux entres, lentre en colonne correspond au numro de litration et lentre en

ligne la commande. Cependant dans ce cas, nous sommes limits un seul critre, ici nous
avons choisi le pourcentage de demande non satisfaite :
On pourra alors, faire les statistiques voulues pour chacun des niveaux de commande.
Remarque, ici il serait plus intressant de prendre un indicateur plus synthtique par exemple
la somme des cots de stockage et de rupture.
Notons cependant que, si le nombre de dcisions est faible (3 ou 4), il est prfrable de
construire un modle permettant de tester, dans un mme environnement (cest dire avec le
mme tirage alatoire), les diffrentes dcisions. Il suffit alors dune table une seule entre
pour pouvoir comparer sur plusieurs critres ventuellement les dcisions.
Utilisation des itrations
Indiquons par exemple le calcul de la moyenne des ruptures annuelles.

Nous avons besoin de quatre cellules : une cellule drapeau, qui indiquera si les itrations sont
commences, une cellule pour la somme des ruptures obtenues entre l'itration 1 et l'itration

Page 64

N, une cellule contenant la moyenne des ruptures et enfin une cellule contenant le numro de
l'itration en cours.
Pour calculer la somme des ruptures entre l'itration 1 et N, nous utiliserons la formule :
somme_ruptures(N)=somme_ruptures(N-1)+ ruptures(N)
soit, en ne tenant pas compte des indices,:
somme_ruptures=somme_ruptures+ruptures
la cellule somme_ruptures fait rfrence elle-mme, il ne faut donc pas oublier de
l'initialiser 0, avant que les itrations ne commencent. La formule contenue dans cette
cellule sera alors :
somme_ruptures=si(drapeau=0;0;somme_ruptures+ruptures)
D'o la ncessit d'un indicateur de dbut d'itration, contenu dans la cellule drapeau.
De la mme faon, pour obtenir le numro de l'itration en cours, on crit la formule :
itration_en_cours=si(drapeau=0;0;itration_en_cours+1)
Attention : il nous faut modifier la formule dfinissant la demande, car l'ala n'est pas
recalcul automatiquement chaque itration puisqu'Excel ne recalcule que les cellules
dpendantes. Dans la demande nous utiliserons la formule :
demande=si(iteration_en_cours>0;400+ent(101*alea());400+ent(101*alea()))

ainsi, comme la cellule iteration_en_cours est modifie chaque itration, le test est refait et
l'ala recalcul.
Enfin la moyenne des ruptures sera donne pour viter le message d'erreur #DIV/0 (
l'initialisation) par la formule :
moyenne_ruptures=si(drapeau=0;0;somme_ruptures/itration_en_cours)
Pour faire fonctionner le modle, on choisit le mode de calcul manuel et le nombre d'itrations
que l'on dsire effectuer. On initialise ensuite les valeurs en mettant 0 dans la cellule drapeau,
puis en appuyant sur F9. Pour effectuer les itrations on met 1 dans la cellule drapeau, puis on
appuiera sur F9.
On obtient alors un tableau semblable :
drapeau
itration en cours

1
100

Mois
1
2

Demande
403
459

Stock Initial
450
497

Stock Final
47
38

Rupture
0
0

%rupture
0.00%
0.00%

11
12

402
500

588
636

186
136

0
0

0.00%
0.00%

somme des ruptures


moyenne des ruptures

5579
55.79

Remarque importante : lors de l'utilisation d'itration dans Excel il faut faire trs attention
l'ordre de recalcul de la feuille, de faon ce que les cellules soient bien mises jour avec les
nouvelle valeurs de chaque itration. Ceci rend dlicat l'utilisation de cette mthode si l'on ne
matrise pas bien l'ordre de recalcul des cellules.
Page 65

Utilisation d'une macro


Tout d'abord il nous faut crer une feuille macro, pour cela nous passons dans le menu
Macros... du bandeau de longlet Dveloppeur.

Remarque : si longlet Dveloppeur napparat pas, utiliser le bouton Office, Options Excel
Standard pour lafficher.pour lafficher.
Nous obtenons alors une boite de dialogue :

Aprs avoir tap un nouveau nom de macro le bouton Crer est actif, il suffit de cliquer sur ce
bouton pour se retrouver dans lenvironnement de Visual Basic (VB) adapt Excel.
Lutilisateur tape alors le corps de la procdure (Subroutine) l o se trouve le curseur :

Les instructions suivantes mettent dans une cellule nomme mamoyenne la moyenne des
ruptures de stocks obtenue pour un nombre ditrations plac dans la cellule nomme iter. La
somme des ruptures dune simulation annuelle est stocke dans la cellule nomme rupture :

Page 66

Mois
1

11
12

Demande
473
.
446
497

Stock Initial
450

450
454

Stock Final
0

4
0

Rupture
23

0
43
196

%rupture
4.86%
.
0.00%
8.65%
rupture

Sub itration()
REM TOTAL EST UNE VARIABLE LOCALE CONTENANT LA SOMME DES RUPTURES
Dim total As Long
total = 0
Application.Calculation = xlCalculationManual
For i = 1 To Range("iter").Value
Application.Calculate
total = total + Range("rupture").Value
Next i
Range("mamoyenne").Value = total / Range("iter").Value
Application.Calculation = xlCalculationAutomatic
End Sub

Quelques remarques sur ce programme. Les instructions commenant par Rem sont des
commentaires non excuts. Le langage est un langage "objet", ici les objets que nous
manipulons sont des zones de cellules.
Range("iter") dsigne la zone de cellules ayant pour nom iter. Dans notre exemple cette zone
ne contient quune seule cellule, nous pouvons alors avoir accs sa valeur par la proprit
Value (proprit en lecture, criture).
Remarque : Si lon voulait conserver les rsultats de toutes les annes simules pour obtenir
diffrentes statistiques, il suffirait par exemple de dfinir une zone suffisamment grande
nomme rsultat :
Itration
1
100

Rupture Annuelle
112
Zone rsultat
16

et dutiliser la procdure suivante :


Sub iteration2()
Rem conserve dans rsultat toutes les ruptures
Application.Calculation = xlCalculationManual
For i = 1 To Range("iter").Value
Application.Calculate
Range("rsultat").Cells(i, 1).Value = i
Range("rsultat").Cells(i, 2).Value = Range("rupture").Value
Next i
Application.Calculation = xlCalculationAutomatic
End Sub

Ici Range("rsultat") est une zone contenant deux colonnes et plusieurs lignes pour accder
une cellule particulire, on utilise la proprit Cells(i,j) qui dsigne la cellule se trouvant la
ime ligne et jme colonne partir du coin suprieur gauche de la zone.
Il est aussi possible, aprs avoir calcul certaines caractristiques de lchantillon obtenu (la
moyenne par exemple) prcdemment, dcrire une macro permettant de tester diffrents
niveaux de commande. La cellule contenant la moyenne est appelle mamoyenne, comme dans
le premier cas. En pratique il serait judicieux de garder aussi un indicateur sur le stock moyen,
car en augmentant le niveau de commandes on diminue les ruptures mais on gonfle les
Page 67

stocks !! Sans dtailler les instructions, nous donnons ici la procdure permettant dobtenir ce
rsultat, il est laiss au lecteur le soin de modifier la procdure pour stocker aussi le niveau
moyen de stocks :
Sub compare()
Const commande_min = 550, commande_max = 850, pas = 50
Rem initialisation de la commande
Range("Commande").Value = commande_min
For i = 1 To (commande_max - commande_min) / pas + 1
Rem on appelle l'iteration
itration
Rem On stocke les resultats
Range("Titre").Cells(1, i) = Range("Commande")
Range("Rupmoy").Cells(1, i) = Range("mamoyenne")
Rem on peut se passer de prciser .valeur
Rem augmenter le niveau de commande
Range("Commande") = Range("Commande") + pas
Next i
End Sub

Page 68

On obtient alors les rsultats suivants pour 1000 itrations :

Conclusion
Il est assez simple avec Excel de faire de la simulation probabiliste, la plupart du temps
lutilisation des tables est trs suffisante, pour les modles plus important en taille et o les
recalculs sont longs, les itrations peuvent tre utilises, si lon ne veut pas programmer .

Les macros offrent bien sur plus de souplesse et, pour qui veut bien investir dans le langage
de programmation, permet de construire des modles plus professionnels.
Signalons enfin quil existe aussi des addins permettant de raliser des simulations sans
toujours bien comprendre ce qui est fait, ces addins permettent le tirage au hasard et les
itrations sans que lutilisateur ninterviennent autrement que par un choix de menu.

Page 69

EXERCICES DE SIMULATIONS
35 Socit Mtallurgique et Minire.

La socit mtallurgique et minire (SMM) a cr, en 1970, une usine sidrurgique dans un
port de l'Ouest de la France. L'installation portuaire de cette usine comporte un quai pouvant
recevoir en mme temps deux bateaux minraliers de 10.000 tonnes environ. Les quipements
du quai ont t conus pour que chaque minralier puisse tre dcharg dans la journe.
Les besoins actuels de l'usine en minerai sont de 2.500.000 tonnes/an. Cependant, des accords
avec des partenaires europens, ont conduit la SMM prvoir le doublement de la capacit de
l'usine d'ici 1993. Des contacts ont dj t pris avec les fournisseurs de minerai de faon
pouvoir approvisionner l'usine cette date.
Le contrat qui lie la SMM et les armateurs des minraliers ne pourra tre modifi : la SMM
s'est engage dcharger le bateau dans les 24 heures suivant son arrive. En cas de retard, la
SMM doit payer une indemnit de 7000F par jour d'attente et par bateau.
Les installations portuaires de la SMM peuvent tre utilises 24 heures sur 24, 7 jours sur 7.
Devant le doublement de la capacit de l'usine et donc du nombre de bateaux dcharger, la
socit SMM craint de voir augmenter dramatiquement les pnalits qu'elle aura payer aux
armateurs, elle a donc demand son service des Etudes de proposer des solutions pour
augmenter la capacit d'accueil des navires.
Deux solutions ont t proposes :
1) L'agrandissement du quai actuel, qui porterait la capacit journalire de dchargement 3
bateaux. Le cot de cette solution est de 3.000.000 F. Pour que cet investissement, d'aprs les
normes en vigueur la SMM, soit considr comme rentable, il doit permettre d'conomiser
500.000F de pnalits par an.
2) Le doublement du quai, ce qui porterait la capacit journalire de dchargement 4
bateaux. Le cot de cette solution est de 7.500.000 F. Pour que cet investissement, d'aprs les
normes en vigueur la SMM, soit considr comme rentable, il doit permettre d'conomiser
1.250.000F de pnalits par an.
Les tudes statistiques ralises par le pass ont montr que les arrives journalires des
bateaux taient pratiquement poissonniennes. Le service des tudes pense que cette
adquation persistera dans le futur.
La socit SMM vous demande de l'aider dans sa prise de dcision.
Annexe : Probabilits poissonniennes
Moyenne
0 bateau / jour
1 bateau / jour
2 bateaux / jour
3 bateaux / jour
4 bateaux / jour
5 bateaux / jour

1,370
0,26
0,35
0,23
0,11
0,04
0,01

Remarque : le fichier SocMetalMin.xls contient une solution

Page 70

36 Analyse du travail d'un pompiste.

Vous tes charg, par le service Mthodes d'une grande Compagnie Ptrolire, d'analyser le
travail du pompiste de la Station Service de cette compagnie situe sur la Nationale 20,
Salbris, Loir et Cher.
Dans le cadre d'une exprience, cette station service a embauch un jeune pour servir ses
clients. Les clients ne peuvent pas se servir seuls.
Le Grant de la Station Service trouve que les clients attendent trop longtemps pour tre
servis, et que cela lui fait perdre des clients. Il souhaite donc embaucher un second pompiste.
Le service Mthodes envoy sur place des agents chargs d'analyser le flux de clients ainsi
que le temps mis par le pompiste pour les servir.
Aprs de trs nombreux chronomtrages, il a pu tre tabli que le temps sparant l'arrive de
deux clients suit une loi de poisson de moyenne 4 minutes.
Le temps de service est uniformment distribu, mais entre une et sept minutes.
Dans un premier temps, vous pouvez laborer un tableau comme celui donn ci-dessous
(d'autres mthodes sont, bien entendu, possibles).
Arrives
5
2
8
3
3
2
4
4
4
4
2
1

Temps
Service
6
3
5
3
7
5
5
2
6
7
3
3

Chronologie
5
7
15
18
21
23
27
31
35
39
41
42

Dbut
service
5
11
15
20
23
30
35
40
42
48
55
58

Fin service Attente client Attente


Pompiste
11
6
5
14
7
0
20
5
1
23
5
0
30
9
0
35
12
0
40
13
0
42
11
0
48
13
0
55
16
0
58
17
0
61
19
0

En considrant que le pompiste travaille 540 minutes par jour (sur quatre jours, les trois autres
jours la station fonctionne en automatique avec la carte bancaire), calculer le temps total
d'attente des clients sur une journe, le temps moyen d'attente par client, puis le temps o le
pompiste, lui, attend un client servir.
Sans lment conomique supplmentaire, pouvez-vous donner raison ou tort au Grant de la
Station Service?
Quels sont les lments conomiques dont vous auriez besoin pour aller plus loin?
Comment pourriez-vous introduire un second pompiste dans le modle, sachant que la station
service est quipe de plus de deux pompes pour chaque type de carburant (Sans Plomb 98,
Super Plomb 97, et Gazole)?
Remarque : dbut de solution dans le fichier Pompiste.xls

Page 71

37 Gestion d'un Cabinet Dentaire.

Un dentiste vous a charg d'analyser sa procdure de prises de rendez-vous. Il trouve, en effet,


que la procdure actuelle conduit des attentes qui peuvent tre insupportables pour certains
de ses clients, et il a peur, terme de perdre une partie de sa clientle.
Pour le moment, ce Dentiste ne travaille que sur rendez-vous et sa clientle est suffisamment
nombreuse pour qu'il n'y ait pas de "trous" dans son emploi du temps.
Le premier rendez-vous est 8 heures trente. Ensuite, la Secrtaire mdicale programme un
rendez-vous de demi-heure en demi-heure jusqu' midi. Aprs une pause pour le djeuner, de
nouveaux rendez-vous sont planifis, sur le mme rythme de 13 heures trente 17 heures.
Vous devez tenir compte de deux sources d'incertitude :
Tout d'abord, les patients n'arrivent pas toujours l'heure exacte de leur rendez-vous. Ensuite,
le temps indispensable pour soigner chaque patient varie en fonction de l'importance du
problme dentaire rsoudre.
L'analyse de la clientle de ce Dentiste vous a fourni les informations suivantes :
En ce qui concerne les arrives des patients :
Arrives
15 mn avant
10 mn avant
5 mn avant
A l'heure
5 mn aprs
10 mn aprs
15 mn aprs

Frquences
10%
15%
20%
20%
20%
10%
5%

Quant la dure des soins, si 30 minutes est l'occurrence la plus frquente, la distribution des
frquences est assez large :
Temps soins
15 minutes
20 minutes
25 minutes
30 minutes
35 minutes
40 minutes
45 minutes
60 minutes

Frquences
5%
10%
15%
30%
15%
10%
10%
5%

Vous devez simuler, pendant une journe, l'arrive des patients et le travail du Dentiste.
Dterminer le temps moyen d'attente par client, le temps d'attente du dentiste le temps dont il
dispose pour le djeuner.
Quel temps sparant deux prises de rendez-vous prconisez-vous?

Page 72

38 Gestion des stocks.

Vous tes charg, par la Direction d'un magasin textile, l'enseigne Centmill, d'analyser la
politique actuelle de Gestion de stocks et d'Approvisionnement du magasin situ Boulevard
Saint Michel, dans le cinquime arrondissement de Paris.
La mthode est toujours la mme, et consiste, pour une rfrence particulire de chemises,
commander, ds que le stock passe en dessous de 200 chemises, la quantit ncessaire pour
revenir un stock de 400 chemises de cette rfrence1. Si par exemple, en fin d'une certaine
semaine, le stock final est de 34 chemises, la commande sera de 66 chemises de la rfrence
tudie.
Il peut alors arriver que le magasin subisse une rupture de stocks. Dans ce cas, la commande
est la commande habituelle plus la quantit de ventes manques.
Si une ou plusieurs nouvelles ruptures de stocks se produisent, en suivant la premire, la
commande sera, dans ce cas d'un montant gal aux ruptures (les 100 chemises du stock de
dpart ayant dj t commandes).
L'analyse des ventes des deux dernires annes, pour une catgorie de chemises a donn les
rsultats suivants :
Quantits

Probabilits
5%
10%
20%
25%
25%
10%
5%

25
30
40
50
60
70
80

Les dlais de livraisons, indpendants des quantits achetes, sont donns dans le tableau cidessous :
Semaines

Probabilits
10%
30%
20%
30%
10%

1
2
3
4
5

Sachant que le Directeur du magasin estime que le cot de stockage d'une chemise en stock en
dbut de semaine est de 1 Franc, que le cot d'une rupture de stock est estim 25 Francs
(cot d'opportunit), et qu'enfin que le cot d'une commande est de 500 Francs, quelle que
soit la quantit commande, pouvez-vous calculer le cot moyen de la politique actuelle
calcule sur 52 semaines?
Pouvez-vous proposer une meilleure politique?
Remarque : dbut de solution dans le fichier Gestocks.xls

Pour ne pas compliquer le problme, nous ne tenons pas compte de la rpartition des tailles
l'intrieur d'une rfrence.

Page 73

39 Gestion des approvisionnements.

Un grossiste d'appareils lectromnagers situ dans la Rgion Parisienne, commande certains


de ses produits en Core du Sud.
L'un de ces produits (four micro ondes) prsente une demande relativement stable. C'est
pourquoi le Directeur de cette Socit, en tenant galement compte de l'loignement de son
fournisseur a pris l'habitude de commander chaque mois une quantit FIXE d'appareils.
La demande non saisonnire peut tre considre comme suivant une loi normale de moyenne
450 et d'cart type 50 units. Bien videmment ce n'est qu'une approximation, puisque les
valeurs de la demande doivent tre entires et positives : en fait il n'a jamais t constat de
ventes infrieures 300 units par mois, ni suprieures 650.
En fonction des lments statistiques prcdents, le Directeur a dcid de commander 450
appareils par mois.
Pouvez-vous expliquer pourquoi?
Le neveu de notre importateur, aprs un stage dans l'entreprise en question dclare "la
politique d'approvisionnement n'est pas optimale, et donc tu perds de l'argent en commandant
450 appareils par mois".
Somm de s'expliquer, il rpond :"C'est vident, la fonction de profit n'est pas symtrique".
Sachant que la marge nette par produit vendu est de 250 Francs, que le cot de stockage
mensuel est de 50 Francs par unit, et que le cot d'opportunit d'une vente manque est de
500 Francs, pouvez-vous confirmer ou infirmer les dclarations du neveu?
Presque convaincu, l'oncle demande alors son neveu de lui proposer "la politique optimale".
Pouvez-vous aider le neveu dans la formulation de sa rponse? Sachant que, comme
rcompense il peut demander son oncle 10% du gain prouv, combien peut-il demander
son oncle?

Page 74

40 Gestion de location de camions

L'agence ADA, de location de vhicules situe Velizy, envisage de diversifier ses produits
et de louer des utilitaires (petits camions qui peuvent se conduire avec le permis "voiture").
Le directeur de cette agence vous a demand d'analyser les chiffres actuellement disponibles (
l'agence de Velizy sous traite actuellement ce type de location l'agence de Versailles) et de
lui proposer le nombre "optimum" de camions mettre dans son parc.
Les statistiques de la demande locale sont rsumes dans le tableau suivant :
Nb camions
0
1
2
3
4

Probabilits
0.20
0.20
0.30
0.15
0.15

En ce qui concerne les dures de locations, les chiffres sont bass sur l'ensemble des agences
Ile de France et sont les suivants :
Jours de location
1
2
3
4

Probabilits
0.35
0.30
0.20
0.15

Enfin les donnes conomiques sont les suivantes :


Profit net par jour de location par camion : 250 F
Cot d'opportunit d'une location manque : 300 F
Cot journalier d'inutilisation d'un camion : 50 F
Construire un modle de simulations permettant au directeur de l'agence de dterminer le
nombre de camions mettre en service.

Page 75

41 La boucherie Netprix

Une suprette de la chane NetPrix vient de rnover son magasin et a modernis le rayon
boucherie. Les deux personnes qui servent ce rayon se plaignent de leur charge de travail et
du fait qu'ils doivent frquemment faire des heures supplmentaires pour servir les derniers
clients de la journe.
Ils ont demand au responsable du magasin d'tre aids par 2 apprentis. Ces apprentis seraient
pays 700 par mois charges comprises, alors que les professionnels sont pays 2500, les
heures supplmentaires tant payes 25 l'heure.
Une tude a montr que si les clients attendaient un rayon, ils prenaient moins de temps
pour faire leurs achats et que la perte de chiffre d'affaires occasionne tait d' peu prs 3 par
minute d'attente.
Pour rpondre ses employs le directeur demande une tude sur les temps d'arrive et de
service du rayon boucherie.
Les temps sparant deux arrives ont t enregistrs la minute prs, c'est dire que si le
temps tait infrieur 1 minute on codait 0, entre 1 et 3 minutes on codait 2 etc..
Les temps de services ont t arrondis la minute. Les rsultats vous sont donns dans
l'annexe.
Au vu de ces rsultats, le directeur calcula les moyennes et obtint :
moyenne des temps de service = 16,28 minutes
moyenne des temps sparant deux arrives = 16,48 minutes
Il convoqua alors les deux bouchers et leur expliqua qu'en fait, c'est plutt la suppression d'un
poste qu'il serait raisonnable d'envisager, puisqu'une seule personne semblait en moyenne
suffisante pour satisfaire pratiquement sans attente la clientle.
Les bouchers ne comprirent pas grand chose aux explications du directeur, mais lui
affirmrent que leur exprience montrait qu'il se constituait des files d'attente importante et
que pour s'en convaincre il suffisait de regarder l'tat des heures supplmentaires. Il
indiqurent mme qu'encas de suppression d'emploi de l'un d'entre eux, on courrait l'meute!
Trs perplexe le directeur vous demande une tude.

Page 76

Annexe : Rsultat de l'tude des temps entre deux arrive et des temps de service
Entre deux arrives
Temps
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
52
54
56
58
60

Probabilit
0,17
0,08
0,07
0,06
0,06
0,05
0,05
0,04
0,04
0,03
0,03
0,03
0,03
0,02
0,02
0,02
0,02
0,02
0,02
0,02
0,02
0,01
0,01
0,01
0,01
0,01
0,01
0,01
0,01
0,01
0,01

Temps de service
Service

Probabilit
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Page 77

0,01
0,01
0,02
0,02
0,02
0,03
0,04
0,06
0,08
0,09
0,11
0,12
0,11
0,09
0,07
0,05
0,03
0,02
0,01
0,01

Elments de Statistique

Page 78

Statistique Descriptive

STATISTIQUES DESCRIPTIVES

Nous prsenterons ici le vocabulaire de la statistique et les lments de base de la statistique


descriptive une et deux variables.
Vocabulaire de la statistique
Population
La population P est l'ensemble des lments (objets, personnes .) satisfaisant une
dfinition commune auxquels on s'intresse au cours d'une tude.

Chaque lment de la population est appel unit statistique ou individu.


On notera N la taille de cette population (cette taille n'est pas toujours connue avec
exactitude)
Exemples :
1 Ensemble des Franais se connectant au moins une heure par jour Internet.
2 Ensemble des comptes clients d'une entreprise
3 Ensemble des consommateurs achetant des produits frais en hypermarch.
Variables
Une variable statistique X est une application qui chaque individu ou unit statistique
associe une valeur prise dans un ensemble E . Cette valeur peut tre numrique ou non.

Suivant la nature de l'ensemble E , on distingue trois types de variables statistiques :

Les variables quantitatives associes une caractristique mesurable de la population,


dans ce cas l'ensemble E est un sous ensemble de l'ensemble des nombre rels, par
exemple l'ge, le montant d'une facture, le temps de connexion etc.

Les variables qualitatives qui permettent d'organiser la population en classe, par


exemple la profession, le fait d'acheter sur internet, la marque du produit achet, la
satisfaction du consommateur, les tranches d'ge etc. On fait parfois la distinction
entre les variables qualitatives nominales o les classes sont sans hirarchie (CSP,
dpartement,) et les variables qualitatives ordinales pour les quelles les classes
adjacentes peuvent tre regroupes (tranches d'ge, degr de satisfaction..).

La valeur prise par la variable X pour l'individu i sera note x i .


Paramtre
Un paramtre est une valeur numrique associe une population P et une variable X . La
valeur de ce paramtre est calcule partir des N valeurs prises par la variable X :

= f ( x1 , x 2 ,K , x N )
Pour connatre la valeur d'un paramtre, il faut donc connaitre chacune des valeurs prises par
la variable.
Exemples :

Temps moyen pass sur les sites de recherche

Pourcentage d'internautes faisant des achats sur Internet

Page 79

Statistique Descriptive

Moyenne et cart-type des comptes clients

Coefficients de corrlation entre deux variables

Coefficient d'une variable dans une quation de rgression.

Remarque : Dans ces deux derniers cas la variable X est en fait un couple ou un n-uple de
variables.
Collecte donnes Tableau statistique

Les donnes peuvent tre internes l'entreprise ou externes. Il est quelque fois possible
d'obtenir les informations sur l'ensemble de la population partir d'une base de donnes, par
exemple.
La plupart du temps, il ne sera pas possible, pour des raisons de cot si la population est trs
nombreuse ou simplement de connaissance parfaite de la population, de faire un recueil
exhaustif de l'ensemble des valeurs prises par les variables que l'on veut tudier. On
recueillera alors des donnes soit par sondage soit sur un panel. On traitera donc alors une
sous population appel chantillon.
Dans la suite nous considrerons la variable X restreinte la sous population.
Il faudra ensuite organiser et traiter ces donnes. Pour cela les donnes sont regroupes dans
un tableau statistique o les colonnes reprsentent les variables et les lignes les individus,
l'intersection d'une ligne i et d'une colonne j donnant la valeur de la variable j pour
l'individu i . Sous Excel on utilisera une feuille pour ce tableau en indiquant souvent le nom
des variables dans la premire ligne et ventuellement le numro de lindividu dans la
premire colonne :

Statistiques descriptives d'une variable

Pour une variable, les statistiques descriptives se composent de rsums numriques et de


graphiques, nous ne donnerons ici que les lments essentiels.
Variable qualitative
Une variable qualitative partageant la population (ou la sous population) en classes, le rsum
que l'on va obtenir est constitu de l'effectif ce ces classes et de leur pourcentage par rapport
la population (ou sous population) totale.

Dans le cas d'une variable qualitative ordinale, les pourcentages cumuls peuvent avoir un
sens si l'on regroupe des catgories voisines (par exemple tranches d'ges ou degr de
satisfaction).

Page 80

Statistique Descriptive

Voici un exemple de rsum fourni pour la variable qualitative Marque du fichier Pfrais.xls :
Formules

Valeurs
MARQUES

1
2
3
4

Effectifs
=NB.SI(Pfrais!$E$2:$E$50;Feuil1!B3)
=NB.SI(Pfrais!$E$2:$E$50;Feuil1!B4)
=NB.SI(Pfrais!$E$2:$E$50;Feuil1!B5)
=NB.SI(Pfrais!$E$2:$E$50;Feuil1!B6)
=SOMME(C3:C6)

Marque
Marque
Marque
Marque
Total

1
2
3
4

Effectifs
9
18
10
12
49

Pourcentage
18,37%
36,73%
20,41%
24,49%
100,00%

Pourcentage
cumul
18,37%
55,10%
75,51%
100,00%

MARQUE

Marque
Marque
Marque
Marque
Total

1
2
3
4

Effectifs
9
18
10
12
49

Pourcentage
cumul
18,37%
55,10%
75,51%
100,00%

Pourcentage
18,37%
36,73%
20,41%
24,49%
100,00%

La reprsentation associe est le diagramme en btons, qui se distingue de l'histogramme par


le fait que les rectangles reprsentant les effectifs ou les pourcentages sont disjoints :
40%

Pourcentage

30%

20%

10%

36,73%
20,41%

18,37%

24,49%

0%
1

Marques

Ici apparait dans chaque rectangle le pourcentage de la classe.


Variable quantitative
Le rsum pour une variable qualitative est plus complet, car il doit ventuellement donner
des indications sur la loi de probabilit sous-jacente ces donnes, en statistique en effet de
nombreuses mthodes supposent des hypothses sur cette loi. Nous ne verrons ici qu'une
partie de ces indicateurs. Nous noterons N la taille de la population ou sous population et X
la variable quantitative.

Indicateur de position centrale


Deux indicateurs sont particulirement utiliss :

Page 81

Statistique Descriptive

1 N
x i , cette valeur est celle qui est associe la mtrique
N i =1
euclidienne habituelle. La moyenne est la valeur la plus proche de toutes les
observations pour cette mtrique, c'est--dire que pour cette valeur la fonction :

La moyenne : =

d 2 ( y) = (xi y)

est minimum. Le principal dfaut de cet indicateur, comme il

i =1

est facile de le voir, est sa sensibilit aux valeurs extrmes, une erreur de saisie peut la
modifier profondment.

La mdiane m est la valeur qui partage l'ensemble des donnes en deux parties
gales : 50% des observations sont infrieures ou gales cette valeur m et 50% sont
suprieures m . Cette valeur est associ la mtrique dfinie par la valeur absolue,
c'est cette valeur m qui minimise la fonction ( y ) = x i y . Cette valeur est
beaucoup moins sensible aux valeurs extrmes.

Indicateurs de dispersion
L'indicateur de dispersion le plus simple est donn par la valeur la plus petite et la valeur la
plus grande. La diffrence entre ces deux valeurs s'appelle l'tendue :

etendue = max min .


Les autres indicateurs de dispersion sont lis aux indicateurs de position centrale.

A la moyenne est associ l'cart-type qui est la racine carr de la distance moyenne au
carr, appele variance :
1 N
( x i )2 et l' cart - type = V
V =

N i =1

A la mdiane on pourrait associer de faon "naturelle" l'cart absolu moyen dfini par
1 N
e=
xi m
N i =1
mais on prfre utiliser les quartiles, dciles ou centiles qui partagent respectivement
les donnes en quatre, dix ou cent parties ayant le mme nombre d'lments.
L'intervalle interquartile est la diffrence entre le premier et le troisime quartile.

Page 82

Statistique Descriptive

Voici un exemple (fichier Forfait.xls) de rsum calcul avec Excel :


Statistiques
Km

42

=NBVAL(forfaits!B2:B43)

Moyenne

128,1

=MOYENNE(forfaits!B2:B43)

Mdiane

120

=MEDIANE(forfaits!B2:B43)

Ecart-type

54,13

Variance

2930,49

Intervalle

233

=E11-E10 (Maximum-Minimum)

Minimum

32

=MIN(forfaits!B2:B43)

265
90
120
150

=MAX(forfaits!B2:B43)
=CENTILE(forfaits!$B$2:$B$43;0,25)
=CENTILE(forfaits!$B$2:$B$43;0,5)
=CENTILE(forfaits!$B$2:$B$43;0,75)

Maximum
Centiles

25
50
75

=RACINE(E8) (racine de la variance)


=VAR(forfaits!B2:B43)

Remarque :

en lieu et place de la fonction centile, il est possible dutiliser la fonction quartile, dont le dernier
paramtre est le numro du quartile.

La fonction VAR de Excel renvoie la variance estime dun echantillon, ce qui est le cas ici, et non la
variance de la population (voir le chapitre sur lestimation). Il existe une fonction VARP qui renvoie la
variance de la population.

Les reprsentations associes aux variables quantitatives permettent de visualiser ces rsums et de se faire une
ide de la distribution thorique que l'on pourrait associer cette variable, dans les cas les plus frquents on
cherchera voir si cette distribution peut suivre une loi normale. En dehors des histogrammes bien connus, il est
d'usage d'utiliser les boites moustaches (Box Plot) et les diagrammes Q-Q (Q-Q Plot).
Ralisation d'histogrammes sous Excel

Il n'existe pas de rgles permettant de fixer le nombre de classes utilises dans un histogramme. Si ce nombre est
trop faible, l'"allure" de la loi sous-jacente est gomme, s'il est trop grand, trs souvent le graphique sera
incohrent. Les logiciels statistiques utilisent trs souvent
maximum de classe est 1

classes, Sturges suggre que le nombre

Pour obtenir les effectifs des classes, il faut crer un tableau 2 colonnes, dans la premire colonne on indiquera
les bornes siprieures des classes et dans la seconde, on utilisera la fonction matricielle FREQUENCE.
Pour ne pas tre gn par une erreur qui liminerait les observations correspondant au maximum, nous prendrons
comme intervalle l'arrondi suprieur 3 ou 4 dcimales.
Pour entrer une formule matricielle, rappelons que l'utilisateur doit slectionner la zone dans laquelle cette
formule est entre, puis ensuite valider la formule avec la combinaison de touches Ctrl-Majusule-Entre. Les
paramtres de la fonction FREQUENCE sont :

Page 83

Statistique Descriptive

1. La zone de donnes
2. La zone des bornes suprieures des intervalles
On obtient alors le tableau suivant (pour le fichier Forfaits) :

Le graphique associ est obtenu en insrant un histogramme, dont la prsentation va tre modifie de faon
satisfaire l'usage, qui veut que pour une variable quantitative les blocs soient colls pour bien souligner l'aspect
continu de la variable. D'o le graphique suivant :
14
12

Effectifs

10
8

12

4
2

7
5

0
48,64

81,93

115,22

148,50

181,79

215,07

248,36

Intervalles

Boite moustaches

Une boite moustache est une reprsentation associe au rsum mdiane-quartiles, la boite (rectangle)
reprsente le premier et le troisime quartile avec un trait pour la mdiane, les moustaches (traits verticaux)
reprsentent (aux donnes exceptionnelles prs outliers) le minimum et le maximum. Ces moustaches sont dans
la plupart des logiciels statistiques limites 1,5 fois la distance interquartile. Raliser de telles boites
moustaches sous Excel demande soit de programmer soit dutiliser les commandes de base de donnes pour

Page 84

Statistique Descriptive
extraire les outliers, nous nous limiterons ici ajouter aux moustaches le minimum et le maximum de la srie
(qui apparaitront soit extrieurs aux moustaches soit la limite de celle-ci).
La ralisation de la bote moustache se fait en deux tapes :

Cration de la zone des donnes

Cration du graphique en "dtournant" un histogramme empil.

Cration de la zone de donnes

Les lments dont nous avons besoin pour crer le graphique sont :

1. Pour la bote :
a. Le bas de la boite qui correspond au premier quartile. (ce bas sera rendu
transparent)
b. La hauteur du fond de la boite qui correspond la diffrence entre la mdiane
et le premier quartile.
c. La hauteur du couvercle de la bote qui correspond la diffrence entre le
troisime quartile et la mdiane.
2. La longueur des deux moustaches, ventuellement limites une fois et demi
l'intervalle interquartile.
3. Les outliers ventuellement, ici seul le max et le min

.
Cration du graphique :

Etape 1 : Cration de la bote


Slectionner les trois premires donne H1, H2, H3 et insrer un graphique en
histogramme empil (inverser ventuellement les ligne et les colonnes pour obtenir le
graphique etape 1 ci-dessous)
, la partie la plus basse sera ensuite rendue transparente, mais il faut d'abord ajouter la
moustache infrieure. Slectionner un remplissage (blanc par exemple) pour les blocs
2 et 3 et un contour automatique par exemple.

Etape 2 : Cration de la moustache infrieure :


Slectionner le bloc infrieur, de l'histogramme et dans le bandeau "Disposition" de

Page 85

Statistique Descriptive

"Outils de graphique", choisir Barres d'erreur, Autres options de barres d'erreur :


Dans barres d'erreur verticales, choisir Orientation Moins, style d'arrive Maj et dans
marge d'erreur, choisir Personnalis et donner comme valeur ngative la valeur de la
cellule correspondant la moustache du bas. Choisir enfin dans la mise en forme pour
le bloc du bas aucun remplissage. Vous devez alors obtenir le graphique etape 2 cidessous.

Etape 3 : Cration de la moustache suprieure


Slectionner le bloc suprieur, de l'histogramme et dans le bandeau "Disposition" de
"Outils de graphique", choisir Barres d'erreur, Autres options de barres d'erreur :
Dans barres d'erreur verticales, choisir Orientation Plus, style d'arrive Maj et dans
marge d'erreur, choisir Personnalis et donner comme valeur positive la valeur de la
cellule correspondant la moustache du haut. Vous devez alors obtenir le graphique
Etape 3 ci-dessous.
200

200

150

150

100

100

50

50

300
250
200
150
100
50
0

Etape 1

Etape 2

Etape 3

Il est possible ensuite d'ajouter des outliers comme nouvelles


sries associes un axe secondaire des ordonnes. Pour
obtenir par exemple le graphique final suivant, o seuls sont
reprsents le minimum et le maximum :

Diagramme Q-Q

L'ide d'un diagramme Q-Q est de comparer les percentiles des observations avec les
percentiles d'une loi thorique. Nous ne traiterons que le cas de la loi normale centre rduite,
le cas gnral tant facilement comprhensible.
Dans un premier temps les donnes sont rduites, c'est--dire que l'on soustrait la moyenne
aux observations et on divise par l'cart-type, la nouvelle variable est donc dfinie par :
Page 86

Statistique Descriptive

X1 =

Les N donnes sont ensuite ordonnes par ordre croissant, la valeur de la premire
0,5
de la loi normale centre rduite, la seconde
observation est alors compare au percentile
N
1,5
N 0,5
au percentile
etc.. la dernire au percentile
. Pour ne pas modifier les donnes
N
N
par une opration de tri, on utilisera la fonction PETITE.VALEUR(serie,p) qui retourne la
pime valeur d'une srie d'observations.
Sur l'exemple Forfaits, on obtient le tableau suivant :

La formule en C3 est : =(B3-$G$3)/$G$4


La formule en D3 est : =LOI.NORMALE.STANDARD.INVERSE((A3-0,5)/$G$5)
Enfin le graphique obtenu :
3

Valeursnormalesthoriques

2
1
0

1
2
3

1
0
1
Valeursobservesstandardises

L'ajustement est correct, bien que l'on retrouve les valeurs extrmes en queue de distribution.
Statistiques descriptives d'un couple de variables

L'objectif de l'tude descriptive d'un couple de variables statistiques est de mettre en vidence
une relation ventuelle entre ces deux variables.

Page 87

Statistique Descriptive
Variables quantitatives
L'indicateur de liaison entre deux variables quantitative est la corrlation. Cet indicateur est
calcul partir de la covariance :
cov ( X , Y ) =

1
N

(x
i =1

X )( y i Y )

o X et Y dsignent respectivement les moyennes des variables X et Y . Pour se


dbarrasser des effets d'chelle, on divise par les cart-type des variables ( ce qui revient
prendre la covariance des variables centres rduites) :
N

1
( X ,Y ) =
N

(x
i =1

X )( y i Y )

X Y

Cette corrlation est toujours comprise entre -1 et 1. La liaison entre les variables est d'autant
plus forte que la valeur absolue est proche de 1.
Dans Excel, la covariance est donnes par la fonction COVARIANCE(srie1;srie2) et le
coefficient de corrlation par la fonction COEFFICIENT.CORRELATION(srie1;srie2).
Une corrlation positive indique une variation moyenne dans le mme sens des deux
variables, une corrlation ngative une variation moyenne en sens inverse.
Remarque : cette corrlation n'est un indicateur que d'une liaison linaire entre les variables
(cf infra). Une corrlation nulle n'indique pas une absence de liaison entre les variables.

La reprsentation graphique associe est le diagramme cartsien :


Parabole

Prix
350

700

600

300

500

250
Prix

400

200

300

200

150

100

100
0

50

100

150

200

250

Kms

300

0
0

Corrlation = 0,756

10

15

20

25

30

35

40

45

50

Corrlation = 0

Une variable qualitative et une variable quantitative


Ici on donnera pour chaque modalit de la variable qualitative, les indicateurs de tendance
centrale et de dispersion de la variable quantitative restreinte cette modalit.

Par exemple pour les pays de l'Union Europenne, nous avons relev le PIB en $, et la priode
d'adhsion avec les modalits :

1 - adhsion avant 1980

2 adhsion entre 1980 et 2000

3 adhsion aprs 2000


Page 88

Statistique Descriptive

En utilisant les fonctions de base donnes, il est ais d'obtenir un tableau tel que :
Priode
1 Moyenne
Minimum
Maximum
Ecart-type

38555,56
30200,00
71400,00
12321,90

2 Moyenne
Minimum
Maximum
Ecart-type

28600,00
19800,00
34700,00
5388,57

3 Moyenne
Minimum
Maximum
Ecart-type

17600,00
9100,00
23400,00
4485,72

Priode

Priode

Dont les formules sont les suivantes :

La zone A1:D28 contient les donnes y compris les titres de colonne, la zone de critre est
constitue de deux cellules, la premire contient le nom du champ "Priode" et l'autre la
valeur de la priode dont on veut les caractristiques.
On peut constater que les moyennes des PIB sont de plus en plus faibles au cours du temps,
on pourrait vrifier graphiquement cela en construisant des botes moustaches. Pour raliser
ces botes, il faut extraire les enregistrements correspondant aux trois priodes, car Excel n'a
pas de fonction BDmediane ou BDquartile. Aprs cette extraction, il suffit de procder
comme au paragraphe prcdent pour construire les botes moustaches.

Page 89

Statistique Descriptive

Variables qualitatives
On testera ici l'"indpendance" de deux variables qualitatives. Comme en probabilit, mais ici
les variables statistiques ne sont pas des variables alatoires, on dira que deux variables sont
indpendantes si les rpartitions de la variables X selon les modalit de la variable Y sont
les mmes quelque soit la modalit de X prise en compte (et bien sur rciproquement si les
rpartition de la variable Y selon les modalits de la variable X sont les mmes quelque soit
la modalit de Y prise en compte). Comme les effectifs de chaque modalit ne sont pas
identiques pour que cette dfinition est un sens il faut raisonner en frquence, on doit donc
avoir en cas d'indpendance (en notant f i , j la frquence dans la population de la prsence

simultane des modalits i et j :


f i , j = f i f j soit en effectifs N i , j =

Ni N j
N

Comme rsum numrique on donnera le tableau crois, en mettant en ligne les modalits de
X et en colonne les modalits de Y, chaque cellule du tableau contenant l'effectif rel
(constat) ainsi que l'effectif calcul en cas d'indpendance not effectif thorique.

Page 90

Statistique Descriptive

Exemple (fichier pfrais.sav) relation entre marque et rgion :


Tableau crois MARQUE * REGION
REGION
Nord
MARQUE

Marque 1

Effectif
Effectif thorique

Marque 2

Effectif
Effectif thorique

Marque 3

Effectif
Effectif thorique

Marque 4

Effectif
Effectif thorique

Total

Effectif
Effectif thorique

Est

Centre

Ouest

Sud

Total

1,7

1,5

1,7

2,4

1,8

9,0

18

3,3

2,9

3,3

4,8

3,7

18,0

10

1,8

1,6

1,8

2,7

2,0

10,0

12

2,2

2,0

2,2

3,2

2,4

12,0

13

10

49

9,0

8,0

9,0

13,0

10,0

49,0

Remarquons qu'un tel tableau est difficile interprter puisque les carts se rpercutent sur plusieurs cellules (cf
test du Khi-2).

Page 91

Sondage - Estimation

SONDAGE-ESTIMATION
1 Un Exemple (Fichier Martin.xls)

Monsieur Martin, chef de produit dune voiture de moyenne gamme, lance depuis trois ans,
veut savoir si la promotion qu il a mis en place pour les rvisions annuelles a eu un impact
sur les clients.
Dordinaire 60% des clients font leurs rvisions annuelles chez les concessionnaires, il
aimerait avoir une ide de la proportion des utilisateurs du modle qui ont fait leur rvision
chez un garagiste du rseau ; malheureusement son budget ne lui permet de faire des
interviews de tous les clients ayant achet un vhicule depuis plus dun an (au nombre de 42
612 pour les deux annes) et il ne pourra demander un institut de marketing tlphonique
que dinterroger 500 personnes.
Monsieur Martin se demande comment va procder linstitut et quelle est la fiabilit du
rsultat obtenu, non pas sur les 500 personnes mais sur lensemble des clients. Il aimerait par
la mme occasion savoir quel kilomtrage parcourt environ un client type par an pour pouvoir
affiner son offre.
Posons le problme de Monsieur Martin en termes statistiques. Monsieur Martin sintresse
une population prcise, les personnes ayant achet une voiture du modle donn depuis plus
dun an, et layant gard ; en fait pour le kilomtrage la population nest pas la mme, cest
seulement les clients ayant cette voiture depuis plus dun an. Nous noterons P cette
population.
Sur cette population deux variables statistiques concernent Monsieur Martin, une variable
qualitative savoir le lieu o le client a fait sa dernire rvision variable que nous noterons X,
une variable quantitative le nombre de kilomtres parcourus en 1 an que nous noterons Y.
1.1 Prsentation mathmatique
Nous noterons N la taille de la population.

La variable qualitative X, tant deux modalits (rvision chez le concessionnaire ou non),


peut tre considre comme une variable valeurs dans {0 ;1}, 1 signifiant que la rvision est
faite chez le concessionnaire :
X {0;1}
P

Le paramtre qui nous intresse, le pourcentage de clients faisant leur rvision chez le
concessionnaire, peut sexprimer facilement en fonction de cette variable :
N

p= X(i)
i =1

cest en effet la moyenne de la variable X sur lensemble de la population, il suffit en effet de


compter les clients qui vont chez un concessionnaire, cest dire ceux pour lesquels X prend
la valeur 1, et de diviser par la taille de la population.
Pour la variable Y qui est numrique nous pouvons la considrer comme une application de la
population P dans lensemble des nombres rels R
Y R
P

Page 92

Sondage - Estimation

Les paramtres qui peuvent tre intressants sur cette variable sont la moyenne et la variance
(ou sa racine carre lcart type) de cette variable :
N

= 1 Y (i )
N i =1
N

= 1 (Y (i ) )2
N i =1

Lcart type donne une indication sur la dispersion des valeurs prises par la variable Y, mais
jouera aussi un rle sur les moyennes prises sur les chantillons, comme nous le verrons plus
loin.

1.2 Utilisation dExcel.


Dans la feuille Clients, vous trouverez le tableau statistique relatif ces populations et ces
variables, nous connaissons ces donnes, mais malheureusement pour lui Monsieur Martin
ny a pas accs.

Cette feuille contient 42540 donnes, la premire colonne contient le nombre de kilomtre
parcouru dans lanne, la deuxime colonne le fait que le client aie fait sa rvision chez un
concessionnaire ou non.
Nous pouvons obtenir des rsultats exacts sur la population pour les deux variables qui nous
intressent (mais Monsieur Martin lui ne les aura pas) :
Pour la variable kilomtrage :
Moyenne = 25005
Ecart-type = 3978

(fonction MOYENNE() dExcel)


ici la fonction EcartypeP dExcel est utilise et non pas la fonction
Ecartype qui ne concerne que les chantillons (voir plus loin)

Remarquons tout dabord que Monsieur Martin fait une premire erreur, il croit connatre le
nombre des clients, mais en fait un certain nombre dentre eux ont revendu ou cass leur
voiture et son fichier client ne peut pas tre rellement jour ; cela peut le conduire sous
estimer le cot de son enqute car pour obtenir 500 rponses (mme en supposant que toute
personne interroge veut bien rpondre), il faudra contacter plus de 500 personnes. Cest pour
cela que le fichier de donnes fourni ne contient que 42540 clients (cellule nomme Taille).
La zone contenant les donnes a t nomme Donnes. Les donnes relatives au kilomtrage
se trouvent dans la premire colonne, celles relatives la rvision dans la deuxime, et pour
les donnes concernant la rvision, nous avons not 1 le fait de faire la rvision chez un
concessionnaire, 0 sinon ; avec un format personnalis affichant respectivement Oui ou Non.
2 Constitution dun chantillon

Pour quun chantillon puisse nous donner un rsultat fiable, il semble naturel quil soit
reprsentatif de la population, cest dire quil soit une image fidle de la diversit des
individus constituant la population.
Pour atteindre cet objectif il est possible de procder de diffrentes faons, nous ne parlerons
ici que de deux mthodes les plus frquemment utiliss, les sondages par quotas et les
sondages alatoires, nous illustrerons ce dernier concept avec le fichier de donnes.

Page 93

Sondage - Estimation

La mthode de sondage par quotas, mthode utilise par exemple dans les enqutes dopinion,
repose sur une constitution raisonne de lchantillon. En partant du fait que les variables qui
vont tre analyses dpendent dautres caractres connus de la population (par exemple la
catgorie socioprofessionnelle) on tchera de respecter dans lchantillon les mmes
proportions de chacune des catgories dans la population entire. Ensuite on chargera chaque
enquteur dinterroger un nombre donn dindividu de chaque catgorie, lavantage de cette
mthode est quelle est moins coteuse que la mthode alatoire indique ci-dessous,
linconvnient est que lon ne connat pas exactement la prcision des rsultats obtenus. On
peut cependant utiliser les rsultats des sondages alatoires pour avoir une ide de la
prcision. Remarquons quil ne faut pas confondre cette mthode avec la mthode des
sondages alatoires stratifis (cf. exercice ), qui permet sous certaines conditions de diminuer
de faon significative la taille des chantillons pour une prcision donne ; cette dernire
mthode est une mthode alatoire et permet dvaluer la prcision des rsultats.
La mthode de sondage alatoire permet de constituer des chantillons qui ont une forte
probabilit de reconstituer la diversit de la population originelle. Pour cela on procde un
tirage alatoire uniforme dans la population initiale, cest dire que chaque individu de la
population a la mme probabilit dtre le kime lment de lchantillon, cest dire que
lon transforme la population statistique en un ensemble probabilis, les variables statistiques
devenant alors des variables alatoires ; nous renvoyons le lecteur intress lannexe pour la
suite de lillustration mathmatique du sondage alatoire simple. On peut alors procder soit
par tirage sans remise dans la population soit par tirage avec remise, nous supposerons
toujours que le tirage effectu est avec remise, ce qui nest pas trop contraignant si la taille de
lchantillon est faible par rapport la taille de la population, ce qui est gnralement le cas.
Remarquons ds maintenant quil est malheureusement possible de tomber sur des
chantillons aberrants et que donc la notion de prcision sera srement lie llimination de
ces chantillons, donc un pari sur le fait de ne pas avoir tir ce type dchantillon.
Pour pouvoir raliser ce type de sondage, il est ncessaire de connatre explicitement toute la
population, ce qui nest pas toujours le cas. On numrote les individus de la population de 1
N, et on effectue, grce des nombres alatoires, un tirage au hasard dans cet intervalle ; on
va ensuite interroger (dans certains cas consulter, factures, stocks) les individus tirs au
hasard. Quand les individus ont des localisations trs rparties gographiquement, il est
possible, pour diminuer les cots du sondage de procder un tirage hirarchis (choix dune
commune proportionnellement son nombre dhabitants, puis choix dun quartier etc..).
Lchantillon ainsi tir sappelle lchantillon individu, en lui-mme cet chantillon na que
peu dintrt, ce sont les valeurs prises par les variables tudies qui nous intresse, cest ce
que lon appelle lchantillon image.
2.1 Prsentation mathmatique
Le tirage alatoire simple consiste, tout dabord, munir la population P dune loi de
probabilit uniforme, cest dire que chaque individu a la mme probabilit 1 dtre tir.
N

Les deux variables statistiques deviennent alors des variables alatoires, prcisons les deux
cas que nous trouvons ici.
La variable qualitative X, ne prend que deux valeurs 0 et 1, la valeur 1 ne peut tre prise que
par les clients allant faire leur rvision chez le concessionnaire, cest dire que cette valeur
une probabilit p dtre tire, on a donc faire une variable de Bernouilli de paramtre p,
dont lesprance est p et lcart type p(1 p ) .

Page 94

Sondage - Estimation

La variable quantitative Y, prend un grand nombre de valeurs distinctes, on peut la considrer


comme une variable alatoire continue, trs frquemment on fera lhypothse que cette
variable quantitative peut tre considre comme une approximation dune variable suivant
une loi normale de paramtre et : N(, ) .
Dans le cas de tirage avec remise, un chantillon individu est un lment de Pn, un chantillon
image pour les valeurs de la rvision est un lment de {0;1}n , pour le kilomtrage un lment
de R n (on pourrait donc considrer lchantillon image comme un lment de {0;1}nR n ). En
appelant X1 (respectivement Y1 ) la valeur prise par X (respectivement Y) pour le premier
individu de lchantillon, et de mme pour les autres individus de lchantillon, on peut mettre
en vidence un n_uple de variables alatoires indpendantes qui permettent de passer de
lchantillon individu lchantillon image :

(X , X ,..., X )

n
2
{0;1}n ou
P n 1

(Y Y ,...,Y )
n

1, 2
Pn

R n

2.2 Illustration de cette procdure avec Excel.


Nous allons travailler ici sur une nouvelle feuille, que nous nommerons Echantillon. Le
modle existe dans le classeur Martin2.xls, mais nous conseillons au lecteur de refaire luimme le travail.

La taille de lchantillon tant fixe dans une cellule nomme Tchan (nous prciserons plus
loin o doit se trouver cette cellule), nous allons tout dabord tirer lchantillon individu. La
taille de lchantillon tant limite 500 au maximum.

Construction de lchantillon individu


Sur une zone de 500 lignes, allant de A2 A501, il suffit de recopier la formule suivante :
=ENT(ALEA()*Taille)+1
En effet ALEA() retourne un nombre (pseudo-) alatoire compris entre 0 et 1 (1 non
compris), cette formule donne donc une valeur entire comprise entre 1 et Taille.
Pour contrler le nombre de valeurs obtenues, qui doit tre gal la taille de lchantillon,
nous modifions la formule de la faon suivante :
=SI(LIGNE()+1<=Tchan ; ENT(ALEA()*Taille)+1 ; )
ce qui ne provoquera le tirage alatoire dun numro dindividu que si nous navons pas
encore atteint le nombre voulu.

Construction de lchantillon image


Sur les zones de 500 lignes allant respectivement de B2 B501 et de C2 C501, nous
allons indiquer les rponses donnes aux questions des enquteurs interrogeant lindividu
tir au hasard, cest dire les valeurs correspondant la premire colonne et la
deuxime colonne de la ligne tire au hasard dans le tableau de donnes :
Pour le kilomtrage : =SI($A4="";"";INDEX(Donnes;$A4;1))
Pour la rvision : =SI($A4="";"";INDEX(Donnes;$A4;2))

Page 95

Sondage - Estimation

Extrait de la feuille Excel

ou sans laffichage formule :

Remarquons, bien sr, que chaque fois que nous entrons une formule, de faon plus gnrale
chaque fois quun recalcul est effectu, les valeurs prises par lala changent, donc
lchantillon individu ainsi que lchantillon image changent aussi, les valeurs que nous
donnerons pour les paramtres recherchs vont donc dpendre de lchantillon, cest ce qui
sera lorigine de limprcision.
3 Estimation Estimateur
3.1 Gnralits
Une fois que notre chantillon est obtenu, il nous faut prvoir les rsultats sur lensemble de la
population, cest dire extrapoler des valeurs calcules sur lchantillon comme valeurs des
paramtres sur la population. Bien videmment, cette valeur calcule sur lchantillon va
dpendre de lchantillon que nous aurons tir, nous appellerons estimation (ou estimation
ponctuelle) cette valeur. Cette estimation est donc le rsultat de lapplication dune formule,
dune fonction sur lchantillon, cette fonction sappelle lestimateur.

3.1.1 Aspects mathmatiques


Soit donc X une variable statistique dfinie sur une population P (ici soit la variable X
caractristique de la rvision, soit la variable Y lie au kilomtrage), soit un paramtre de
cette variable. On appelle estimateur du paramtre sur un chantillon de taille n, une
application note n :
n R
P n

et on appellera estimation la valeur prise par cette fonction sur un chantillon particulier. Dun
point de vue mathmatique, lestimation na en soi que peu dintrt, alors que pour
lutilisateur cest le plus important ; mais ce sont les proprits de lestimateur qui sont
intressantes et qui vont garantir la fiabilit de lestimation.
Les deux proprits intressantes pour un estimateur sont :
o Etre non biais, cest dire que les valeurs prises par lestimation se rpartissent
autour de la vraie valeur du paramtre, et ne sont pas systmatiquement trop

( )

grandes ou trop petites, mathmatiquement ceci sexprimera par E n = , pour


tout n.
Page 96

Sondage - Estimation
o Etre consistant, ceci signifie que plus la taille de lchantillon est grande, meilleur
est lestimation, cest dire quelle a moins de chances dtre loigne de la
vraie valeur, ceci se traduit mathmatiquement par le fait que la variance de
lestimateur diminue quand la taille n de lchantillon augmente, de faon plus
prcise on dira que lestimateur est convergent (dans le cas dun estimateur non

biais) si lim Var(n)=0 .


n

Une autre proprit, que nous signalerons simplement, est la consistance : cest, par rapport
aux autres estimateurs possibles dun mme paramtre, le fait davoir une dispersion plus
faible, cest dire une variance infrieure.

3.2 Estimation de la moyenne ou dune proportion


Intuitivement, puisque lchantillon est reprsentatif de la population, pour estimer la
moyenne du kilomtrage ou le pourcentage de clients faisant leur rvision chez un
concessionnaire, il suffira de prendre les mmes caractristiques sur lchantillon. Cest dire
que nous prendrons comme estimation du kilomtrage moyen sur la population, la moyenne
du kilomtrage sur lchantillon et comme estimation de la proportion sur la population, la
proportion de clients faisant leur rvision chez un concessionnaire dans lchantillon.

Suivant les conventions statistiques habituelles, nous noterons p lestimation de la proportion

p sur lchantillon de taille n, et nous noterons yn lestimation de la moyenne du kilomtrage


sur ce mme chantillon. Remarquons quil serait plus cohrent de noter xn plutt que p
lestimation de la proportion puisque cest en fait lestimation de la moyenne de la variable X.
3.2.1 Proprit mathmatique de lestimateur de la moyenne
Nous ne traiterons ici que le cas de la moyenne, puisque comme il vient dtre not la
proportion en est un cas particulier pour une variable indicatrice ( valeur {0 ;1}).
Lestimateur de la moyenne dune variable statistique X sur un chantillon de taille n sera not

X n est dfini en fonction de lchantillon alatoire X1 , X 2,..., X n par :


X + X 2 +...+ X n 1 n
Xn = 1
= Xi
n
n i =1
Puisque les variables Xi sont toutes de mme loi et que lesprance mathmatique est linaire,
il vient immdiatement :

( )

( )

E X n = 1 E X i = E( X )
n i =1
ce qui signifie que lestimateur de la moyenne est non biais.
Dautre part comme les variables Xi sont de plus indpendantes, nous avons :

( )

( )

nVar(X) Var(X)
Var X n = 12 Var X i =
=
n
n i =1
n2

Page 97

Sondage - Estimation

ce qui montre que lestimateur de la moyenne est convergent, en augmentant la taille de


lchantillon, les estimations sont gnralement plus proches de la vraie valeur ; nous
prciserons plus loin cette notion de "gnralement plus proche".
3.2.2 Utilisation dExcel
Pour calculer lestimation de la proportion ou de la moyenne du kilomtrage, il nous suffira
donc dutiliser la fonction MOYENNE() dExcel, avec comme argument la zone correspond
aux valeurs observes sur lchantillon respectivement pour le lieu de rvision (cod 0 ou 1)
et pour le kilomtrage.
Mise vidence de la consistance de lestimateur : pour cela nous allons construire un grand
nombre dchantillons ; il est impossible en effet pour de construire tous les chantillons, par
exemple pour une taille de 100 il y a (42540)100 chantillons individus diffrents (mme si en
fait pour le pourcentage il ny a que 2100 chantillons image et 101 valeurs possibles mais
avec des probabilits diffrentes, comme nous le verrons plus loin). Nous allons donc utiliser
une table dhypothses deux entres, lentre en ligne sera lie la cellule de la taille
dchantillon, lentre en colonne sera lie une cellule vide de la feuille, puisque la fonction
ALEA() que nous voulons recalculer ne dpend daucun paramtre.
Les entres en lignes prendront par exemple les valeurs 100,200, 300, 400,500 et nous
tirerons 1000 chantillons, donc les entres en colonne prendront les valeurs de 1 1000 pour
indiquer le numro dordre de lchantillon.
Nous obtenons ainsi les valeurs de lestimation de la proportion (on pourrait faire de mme
avec la moyenne du kilomtrage) pour 1000 chantillons de taille variant entre 100 et 500.
Ensuite, on calculera les caractristiques de ces moyennes pour chaque taille dchantillon :
moyenne, variance, cart type.
Voici les formules utilises pour cette construction :

Rappelons que les cellules dentre doivent tre sur la mme feuille que la table, la cellule E1
correspond la cellule nomme Techan prcdemment, la cellule I8 correspond une cellule
vide quelconque de la feuille, enfin la cellule Echantillon !F7 est la cellule contenant la valeur
de lestimation de la proportion dans la feuille de lchantillon.
On obtient alors les rsultats suivants :

Page 98

Sondage - Estimation

On constate bien que lestimateur de la moyenne est sans biais, la moyenne des estimations de
la proportion est presque gale la vraie valeur 75,87%.
Mais surtout la variance diminue de faon significative avec la taille de lchantillon et on
observe peu prs le ratio prvu : par rapport un chantillon de taille 100, la variance des
estimations pour un chantillon de taille 200 est premier la moiti, celle pour un chantillon
de taille 300 le tiers, etc.
3.3 Estimation de la variance
Il peut sembler naturel destimer la variance de la population par la variance de lchantillon ;
cependant comme dans ce cas on ne centrerait pas les observations par rapport la vraie
moyenne (celle de la population) mais par rapport la moyenne de lchantillon, on aura
certainement un biais, on aura mme certainement tendance sous estimer la valeur relle de
la variance de la population. Il est facile de dmontrer (voir ci-dessous) quun estimateur non
biais de la variance est donn par la formule :
Sn2 =

1
Xi X n
n1
i =1

cest dire quau lieu de diviser la somme des carrs par n, taille de lchantillon, il faut
diviser cette somme par n-1. Lestimation est alors :
o Pour une variable quantitative

sn2 =

1
xi xn
n1
i =1

o Pour une variable indicatrice, comme dans le cas de lestimation de la proportion


de clients faisant leur rvision chez un concessionnaire sn2 = n p (1 p )
n1

Et pour lcart type on prendra comme estimateur, la racine carr de lestimateur de la


variance ; il faut noter que cet estimateur est biais, mais contrairement la variance on ne
sait pas dterminer pas son biais et donc le "dbiaiser". Il est cependant asymptotiquement
sans biais, ce qui signifie que le biais tend vers 0, donc diminue quand la taille de
lchantillon augmente.
3.3.1 Proprits mathmatiques de lestimateur de la Variance
Partant de l"estimateur naturel" de la variance, cest dire la variance de lchantillon, nous
allons montrer que cest un estimateur biais, mais que lon peut calculer ce biais.

Page 99

Sondage - Estimation
n

Soit donc Vn = 1 X i X n
n i =1

la variable alatoire qui permet de calculer la variance de

lchantillon.
Comme les variables X i et X n ont mme moyenne , nous pouvons crire que

E X i X n

) =E (X (X ) =Var(X )+Var(X )2Cov(X , X )


2

( )

1
En notant 2 la variance commune des X i nous avons vu que Var X n = 2 , il ne nous
n
reste plus qu calculer la covariance de X i et X n . Comme X i et X j sont indpendants pour
1
i j , cette covariance est en fait gale la covariance de X i et X i , cest dire 2 . On en
n
n
dduit donc :

((

E Xi Xn

) )=
2

1
2
1 n 1 n 1 2
1

+ 2 2 = 1 2 d' o E Vn = 1 2 =
n
n
n i =1 n
n
n

( )

Lestimateur Vn est donc biais, puisque son esprance nest pas gale au paramtre 2 , de
plus comme n1 est strictement infrieur 1, cet estimateur sous estime la vraie variance. En
n
revanche, il est facile dobtenir un estimateur non biais en prenant :
n

Sn2 = n Vn = 1 X i X n
n1
n1i =1

On peut de plus monter que cet estimateur est convergent ( condition que les moments
dordre infrieur ou gal 4 existent), mais cette dmonstration beaucoup plus lourde est
laisse au lecteur.
3.3.2 Utilisation dExcel
Nous allons mettre en vidence, le biais de lestimateur naturel de la variance et visualiser le
bon estimateur grce aux tables dExcel. Pour que lcart entre les deux estimateurs soit
significatif, nous travaillerons sur des chantillons de petite taille (ici n=10).
Il existe sous Excel deux fonctions associes la variance :

La fonction VAR(Zone) ; qui retourne lestimation de la variance(correspondant


lestimateur Sn2 ), considrant donc que la zone de donnes est un chantillon.
Lestimation de lcart type est alors la fonction ECARTYPE(Zone).

La fonction VAR.P(Zone) ; qui retourne la variance des donnes, cest dire ce


qui correspond la variance de la population, de mme lcart type est alors
donne par la fonction ECARTYPEP(Zone).

Cependant mme avec cette taille dchantillon, il est hors de question de tirer tous les
chantillons, nous allons tirer un grand nombre dchantillon (1000 par exemple) et calculer
pour chacun des chantillons la valeur des deux fonctions VAR et VARP dExcel. Nous
valuerons ensuite la moyenne de ces fonctions sur lchantillon et nous comparerons avec les
valeurs calcules sur la population.
Page 100

Sondage - Estimation

Ceci va se faire laide de table une entre : une cellule vide, et deux colonnes de rsultats.
Voici les formules de la feuille de calcul, pour la variable Kilomtrage :

La table est dans la zone J9 :L1009, la ligne 7 sert calculer les moyennes, la zone B2:B501
de la feuille Echantillon contient les valeurs du kilomtrage de lchantillon.
En utilisant des formats personnaliss pour les enttes de colonne de la table on obtient les
rsultats suivants :

La vraie valeur de la variance sur la population est de 15 825 792, la valeur moyenne obtenue
avec VAR est trs proche de cette valeur (moins de 1% derreur), tandis que la valeur obtenue
Avec VAR.P est trs en dessous de la vraie valeur, on retrouve comme il tait prvu une sous
estimation de lordre de 10% (9,4%). Si on refait calculer plusieurs fois ces moyennes, on
constate que ce nest pas un rsultat exceptionnel, mais que systmatiquement la moyenne des
variances de 1000 chantillons sous estime la variance de la population ; nos avons donc ainsi
mis en vidence le biais calcul plus haut.
4 Estimation par intervalle, prcision dun sondage

Comme nous venons de le voir, les estimations obtenues pour un paramtre partir dun
chantillon sont trs variables, il nous faut donc associer ces estimations une prcision qui
nous permettra dans un certain sens dencadrer la vraie valeur du paramtre. Cette notion de
prcision est plus dlicate que celle des mesures en physique, dire quun pain pse 400g 5g
prs, cela signifie que le poids du pain est compris de faon certaine entre 395 et 405g. Il nest
pas possible en statistique dobtenir cette mme notion, nous allons donc introduire une autre
notion de prcision, associe un degr de confiance.
Nous nous intresserons ici quau cas de la moyenne ou du pourcentage, mais ce que nous
dirons est gnralisable dautres paramtres.
Tout dabord, une mauvaise nouvelle : dans la mesure ou nous effectuons des tirages avec
remise, nous ne pouvons pas esprer diminuer ltendue des valeurs obtenues, en effet il est
toujours thoriquement possible de tirer un chantillon constitu n fois de lindividu
prsentant la plus petite (ou la plus grande valeur), il donc inutile desprer pouvoir majorer
de faon certaine lerreur commise lors dun sondage. En revanche dans la mesure, o lcart
type de lestimateur tend vers 0 quand la taille de lchantillon augmente, les valeurs extrmes
vont avoir des probabilits de plus en plus faible dapparatre, et donc ne seront observes que
dans des chantillons de plus en plus exceptionnels. Cest cette notion que nous allons
formaliser en tudiant la loi de lestimateur du pourcentage et de la moyenne.

Page 101

Sondage - Estimation

4.1 Gnralits : Prcision de lestimation au degr de confiance 1-


On appellera intervalle de lestimation au degr de confiance 1- ( tant un nombre plus
petit que 1), lintervalle dans lequel se trouvent les valeurs lestimation, quand on a dcid de
ngliger les chantillons les plus extrmes ayant la probabilit dapparatre.
Cest dire que lon fait un pari, on pense que lon aura la chance de ne pas tirer un de ces
chantillons extrmes, et 1- reprsente la probabilit que lon a de gagner ce pari ;
reprsente le risque derreur (ou la malchance). Notons bien que nous ne saurons jamais si oui
ou non ce pari a t gagn.
Formellement, nous pouvons crire : la prcision e au degr de confiance 1-a, est dfinie par :

Pr X n =1

X n tant lestimateur du paramtre . On voit donc sur cette formule quil nous faut
connatre la loi de lestimateur X n pour pouvoir dterminer en fonction de et de n.
Quelques remarques gnrales :

Pour n fix, quand augmente diminue, il faudra donc faire un arbitrage (pour un
cot donn) entre la prcision que lon dsire et le risque que lon a de perdre son pari.

En se fixant et , on peut dterminer une taille dchantillon convenable permettant


datteindre une prcision voulue avec un risque donn, puisque la variance de X n tend
vers 0. Toutefois, il faudra dans ce cas arbitrer avec le budget disponible.

Une fois la taille de lchantillon fixe, la formule ci-dessus peut tre inverse et nous
obtenons, un intervalle destimation qui est un intervalle alatoire [X n ; X n + ] , dans
le quel la vraie valeur du paramtre a une probabilit 1 de se trouver. En
remplaant la variable alatoire par sa valeur observe sur mchantillon rellement
tir, on dira souvent, par un raccourci un peu brutal, quil y a une probabilit 1 que
le paramtre soit dans lintervalle [xn ; xn + ] , ce qui na aucun sens puis que toutes
les valeurs sont certaines et que lon na plus alors de loi de probabilit.

4.2 Cas du pourcentage

4.2.1 Loi de probabilit de X n


La loi de X sur la population initiale est, comme nous lavons vu (2.1), une loi de Bernouilli
de paramtre p.
Il est possible dans ce cas de dterminer exactement la loi de lestimateur du pourcentage,
puisque nous avons faire la moyenne de n variables indpendantes de Bernouilli. La
variable nX n est donc la somme de n variables de Bernouilli indpendantes, et suit donc une
loi binomiale bien connue. Il est donc possible de dfinir la loi de X n en fonction du
paramtre p (pourcentage estimer) :

Pour tout 0k n on a Pr X n = k =Cnk p k (1 p )nk


n

Page 102

Sondage - Estimation

Nous pouvons avec Excel, sur une nouvelle feuille, construire cette loi thorique, laide des
formules suivantes :
La fonction LOI.BINOMIALE comporte quatre paramtre :

le premier est le nombre de succs, cest dire pour nous le nombre de clients dans
lchantillon faisant leur rvision chez un concessionnaire, cest donc la taille de
lchantillon multipli par lestimation du pourcentage.

Le second est la taille de lchantillon

Le troisime est la vraie valeur du paramtre, le pourcentage rel dans la


population

Le dernier est un indicateur logique du cumul de la loi, ici faux car ne voulons pas
la loi cumule.

Par exemple pou un chantillon de taille 10, la loi de probabilit de la proportion estime sur
les chantillons sera la suivante :

Remarquons tout dabord, que lon retrouve bien ici la proportion relle comme esprance de
la loi binomiale, et on pourrait conclure par exemple, de lexamen de cette loi, aprs avoir
limin les chantillons les plus exceptionnels (dont la probabilit est la plus faible), que 95%
des chantillons donneront une proportion comprise entre 60% et 100%, donc une prcision
de lordre de 20% au degr de confiance 0,95.
Cependant comment faire pour donner la prcision dune estimation quand on ne connat pas
la vraie valeur ? Comme dans la pratique la taille des chantillons est gnralement beaucoup
plus grande que 10 (les sondages dopinion se font sur des chantillons dau moins 500
personnes, le plus souvent un millier), nous allons pouvoir rpondre cette question en
regardant lvolution de la loi de X n en fonction de n. On obtient les graphiques suivants :

Page 103

Sondage - Estimation
n=10

n=100

n=50

0,30

0,50

0,70

0,90

0,50

0,70

0,90

0,50

0,70

0,90

On obtient rapidement une loi de probabilit caractristique : en forme de cloche, symtrique


autour de la valeur moyenne, on reconnat la loi de Gauss ou loi normale. Cest une simple
illustration du thorme de la limite centre, sur ce cas particulier la variable alatoire
X nE(X n )
tend, quand n tend vers linfini, en loi vers la loi normale centre rduite. On peut
(X n )
en pratique considrer que la limite est atteinte pour n>30, on pourra donc assimiler la loi de
X n une loi normale de moyenne E(X n )= E( X )= p , et dcart type

(X n )= Var(X n )=

Var( X )
.
n

Nous pouvons maintenant utiliser ce rsultat pour donner une estimation par intervalle un
degr de confiance donn.
4.2.2 Calcul de la prcision
Nous noterons z le fractile dordre de la loi normale centre rduite, cest dire le
nombre dfini par :

Pr Z < z =

Z N(0,1)

Comme X n suit une loi normale, en la centrant et


Xn p
suit une loi
(X n )
normale centre rduite. La dfinition de la prcision et
du degr de confiance peut donc se rcrire de la faon
suivante :
rduisant, on en dduit que Z =

/ 2

/2

0
-3,5

3,5

Pr Z < =1 soit encore Pr < Z < =1


(X n )
(X n )

(X n )

Comme la loi normale centre rduite est symtrique, cette probabilit sexprime aussi :

Pr <Z < =12Pr Z


(X n )
(X n )
(X n )

donc Pr Z = ou Pr Z < =1
2
2
(X n )
(X n )

on obtient alors lexpression de la prcision en fonction du fractile dordre 1

= z1 * (X n )= z1 *
2

Page 104

p(1 p)
.
n

Sondage - Estimation

Malheureusement (X n ) dpend du paramtre que lon veut estimer (le pourcentage), et


nest donc pas connu. Lusage veut que lon remplace cette valeur inconnue par son
estimation sur lchantillon avec la correction que nous avons signale :

= z1 * (X n )= z1 *
2

p (1 p )
.
n1

Lestimation par intervalle au degr de confiance 1-, est alors le suivant :

p (1 p )
p (1 p )
p z1 2 * n1 ; p + z1 2 * n1

4.2.3 Utilisation dExcel


Il est alors facile de mettre en place les formules permettant les calculs de lintervalle
destimation, en supposant donne la taille de lchantillon n et le degr de confiance 1
voulu. Nous utiliserons la fonction statistique dExcel :
LOI.NORMALE.STANDARD.INVERSE(probabilit)

qui retourne le fractile dune probabilit donne. Il nous reste simplement exprimer la valeur
1 dont nous voulons obtenir le fractile, en fonction du degr de confiance 1 , qui est
2
connu.
1+(1 )
. La feuille de calcul se prsente alors sous la forme
La formule est simple : 1 =
2
2
suivante :

Les rsultats numriques sont alors les suivants :

Vrifions que les approximations faites ne conduisent pas une dgradation des termes du
pari. Construisons un grand nombre dintervalles destimations pour un degr de confiance
donn (0,95 par exemple) et plusieurs tailles dchantillons (de 100 500) et dterminons le
pourcentage de paris gagns, cest dire la frquence de la prsence de la vraie valeur du
pourcentage dans lintervalle construit partir des estimations.
Page 105

Sondage - Estimation

A partir de la table construite plus haut (3.2.2), nous crons un indicateur de russite qui vaut
1 si lintervalle destimation contient le vrai pourcentage, 0 sinon avec la formule suivante :
=SI(ET(Population!$F$9<B10+$I$4*RACINE(B10*(1-B10)/H$9);Population!$F$9>B10$I$4*RACINE(B10*(1-B10)/H$9));1;0)

Population!$F$9 faisant rfrence la vraie valeur de la proportion

$I$4 est la rfrence du fractile de la loi normale centre rduite

B10 est le pourcentage estim

H$9 est la taille de lchantillon

On obtient alors les rsultats suivants :

On obtient bien un rsultat proche des 95% de paris russis (refaire ventuellement une
estimation par intervalle !)
4.2.4 Dtermination dune taille dchantillon
La formule donnant la prcision peut tre utilise aussi, pour dterminer la taille dchantillon
ncessaire pour obtenir une prcision voulue un degr de confiance donn. Nous allons
distinguer deux cas, suivant que lon possde ou non une premire estimation du pourcentage.
1) Dtermination dune taille priori
Dans ce cas nous allons partir de la formule exacte de la prcision :

= z1 * (X n )= z1 *
2

p(1 p)
n

Pour un niveau donn du degr de confiance, il est facile de dterminer la taille dchantillon
n permettant dobtenir une prcision donne : n

(z ) p(1 p)
1

, et ceci doit tre vrifi

pour toute valeur de p sur la population, puisque nous navons aucune connaissance priori
sur cette proportion. Or quand 0 p1 la quantit p(1 p) reste toujours infrieure ou gale
1/42. En conclusion la taille ncessaire pour obtenir une prcision donne e, un degr de
confiance a, sans information priori sur le pourcentage est donne par la formule :

( )

z1 2

2
n=EntierSup

2
4

Comme il est facile de le voir par drivation, ou en remarquant que la surface maximale dun rectangle de
primtre donn (ici 2) correspond au carr.

Page 106

Sondage - Estimation

EntierSup(x) dsignant le plus petit entier suprieur ou gal x, ce qui correspond la


fonction dExcel ARRONDI.SUP(x ;0).
Remarquons que cette formule peut tre toujours applique, elle seule assurera dobtenir la
prcision voulue, mais bien videmment elle conduira des tailles importantes dchantillons
pas toujours ncessaires mais toujours coteuses. Nous illustrerons ceci au paragraphe
suivant.
2) Dtermination de la taille aprs pr chantillonnage
Si nous disposons dune estimation du pourcentage nous pouvons esprer diminuer la taille de
lchantillon ncessaire, en prenant comme valeur probable de la proportion, la dernire
valeur estime. On utilisera alors la formule approche de la prcision un degr de confiance
donne. Avec les mmes notations quau paragraphe prcdent nous obtenons :

( )

z1 2 p (1 p )

2
n=EntierSup
+1
2

La seule diffrence avec le calcul thorique (cest dire utilisant la vraie valeur p, est le
+1 final, qui est souvent ngligeable dans la pratique.
Dans les deux cas nous pouvons constater que la prcision cote cher en statistique, en effet la
taille de lchantillon varie comme linverse du carr de lestimation, donc pour diviser par 2
la prcision (donc limprcision), il faut multiplier par 4 la taille de lchantillon.
3) Calculs sous Excel et comparaison
Nous allons mettre sur une mme feuille, les rsultats obtenus dans les deux cas voqus cidessus, les formules sont les suivantes, nous avons cr une cellule contenant le fractile de la
loi normale centre rduite, de faon obtenir des formules plus lisibles. Nous avons ensuite
cr un tableau des tailles correspondant diffrentes pr-estimations du pourcentage, il
apparat alors clairement, quconomiquement il est important de tenir compte dune
estimation antrieure du paramtre recherch.

Remarquons enfin, que dans tous les cas il est ncessaire aprs avoir fait le sondage de
recalculer la prcision obtenue, qui ne peut qutre meilleure (infrieure) si lon utilise la
premire mthode de majoration, mais qui peut tre suprieure la valeur dsire dans le cas
de la seconde mthode, si la nouvelle valeur estime est plus proche de 50% que celle qui a
servi la dtermination de la taille de lchantillon.

Page 107

Sondage - Estimation
4.3 Cas de la moyenne
Sur la population nous avons une variable alatoire numrique Y qui a une moyenne note
et un cart type not .

Lestimateur de la moyenne que nous avons utilis au paragraphe 3.2.1 not Yn (de moyenne
m et dcart type
) a la mme proprit asymptotique que lestimateur du pourcentage,
n
Yn
cest dire quil vrifie le thorme de la limite centre : Z n =
tend en loi vers la loi

n
normale centre rduite N(0,1) . Cependant la vitesse de cette convergence peut dpendre de
faon trs significative de la forme de la loi initiale de Y, trs souvent il est fait lhypothse
que cette loi est proche dune loi normale, ce qui assure une convergence rapide. Dans le cas
o la variable Y suivrait exactement une loi normale, la variable Z n prcdemment dfinie
suit toujours une loi normale.
4.3.1 Cas o la variance est connue
Dans le cas o la variance est connue, ce qui est trs rare en pratique, on peut utiliser le
thorme central limite, pour des chantillons de taille suffisante (n>30, si la loi de Y ne
semble pas trop anormale ). La prcision, au degr de confiance , est alors donne par :

=z
1
n
2

z dsignant le fractile dordre 1 de la loi normale centre rduite.


2
1
2

Sous Excel cette prcision se calcule laide de la fonction INTERVALLE.CONFIANCE qui


admet trois paramtres :

Alpha : qui est gal au risque pris, cest dire 1-degr de confiance

Ecart type : qui est lcart type connu sur la population.

Taille : la taille de lchantillon

Exemple dapplication, sur un chantillon de taille 100, tir du fichier Martin :

La cellule Population !$F$6 est la cellule contenant la valeur de lcart type du kilomtrage
parcouru sur toute la population. Les valeurs obtenues sont les suivantes :

Page 108

Sondage - Estimation

4.3.2 Cas o la variance est inconnue


Dans ce cas, il nous faut ajouter une hypothse sur loi de Y. Lhypothse de normalit de Y
Yn
( est remplac par
permet de connatre exactement la loi de la variable alatoire Tn =
Sn2
n
3
lestimateur de lcart type), cette loi est la loi de Student n-1 degrs de libert. Cette loi est
une loi symtrique comme la loi normale centre rduite, cependant les queues de distribution
sont plus paisses que celles de la loi normale, ce qui veut dire quil y a une probabilit plus
forte dobtenir des chantillons dont la moyenne est loigne de la moyenne de la population ;
toutefois quand n augmente la loi de Student n degrs de liberts se rapproche de la loi
normale centre rduite qui en est la limite quand n . En pratique quand n>500 , on pourra
sans problme utiliser la loi normale plutt que la loi de Student.
Loi Normale
Student(2)
Student(5)

-3,0

-2,0

-1,0

0,
0,0

1,0

2,0

3,0

On obtient alors comme intervalle destimation alatoire au degr de confiance, lintervalle


dont les bornes sont des variables alatoires :

n1 Sn2 ;Yn +t n1 Sn2


Yn t1
n
n
1
2
2

o t n1 dsigne le fractile dordre 1 de la loi de Student n-1 degrs de libert.


2
1
n

Si lon construit tous les intervalles de cette forme en remplaant les variables par leurs
valeurs prises sur les chantillons (ou du moins un trs grand nombre), il y en aura une
3

Voir lannexe pour quelques indications sur cette loi.

Page 109

Sondage - Estimation

proportion qui contiendra la valeur du paramtre, et donc 1- qui ne contiendra pas la


valeur . On retrouve la notion de pari que nous avons expose au dbut de ce paragraphe.
En pratique, on remplacera les variables alatoires par leurs valeurs, et on dira que lon a une

probabilit de 1-a, que la moyenne se trouve dans lintervalle yn t n1 ; yn +t n1 ,


1
1
n
n
2
2

tant lestimation de lcart type.


La prcision au degr de confiance est donc donne par la formule :

=t n1
1

Sous Excel nous allons utiliser la fonction donnant le fractile de la loi de Student, il faut noter
que Excel ne donne pas le fractile exactement, mais raisonne toujours symtriquement et par
complmentarit. De faon prcise, la fonction LOI.STUDENT.INVERSE a deux
paramtres :

p : probabilit, qui est un nombre compris entre 0 et 1

d : nombre de degrs de libert

Et retourne une valeur t telle que Pr(Student(d) t )= p , pour calculer la prcision nous
prendrons donc comme valeur : p= =1degr de confiance et d =n1 . Nous avons alors les
formules suivantes :

La cellule H6 de la feuille active ( Feuille nomme Echantillon) est la cellule contenant


lestimation de lcart type partir de lchantillon.
4.4 Dtermination de la taille dun chantillon
Comme il a t vu pour le cas dune proportion, les formules que nous venons de voir
permettent aussi, une fois le degr de confiance fix et une valeur de la prcision donne, de
dterminer la taille ncessaire de lchantillon. Nous ne traiterons ici que le cas o lcart type
de la variable est inconnu, signalant au passage le cas de lcart type connu.

Remarquons tout dabord, quil est dans ce cas toujours ncessaire davoir procder un pr
sondage, de faon obtenir une premire estimation de lcart type. Ce pr sondage se fait
gnralement sur un chantillon dindividus dont le nombre est compris entre 20 et 50. Cest
partir de cette premire estimation de lcart type que sera value la taille de la population
ncessaire lobtention dune prcision donne.
Si nous voulons, comme pour le cas dune proportion, dterminer la taille partir de la
formule de la prcision nous obtenons, pour une prcision e donne et un degr de confiance
a, le rsultat suivant :

n= t n1

1 2

Page 110

Sondage - Estimation

il apparat un problme, car le fractile de la loi de Student dpend du nombre de degr de


liberts, cest dire de la taille de lchantillon. Nous avons donc une quation implicite que
nous ne savons pas rsoudre analytiquement ; il est possible cependant de la rsoudre par
approximation de deux faons diffrentes.
4.4.1 Cas des grands chantillons
Daprs ce qui a t dit plus haut quand n est grand, la loi de Student n degrs de liberts
peut tre confondue avec la loi normale centre rduite. La formule tablie ci dessus est dans
ce cas exploitable et nous obtenons :

n= u

1 2

o u est le fractile dordre 1 de la loi normale centre rduite. Cette formule


2
1
2

sapplique pour toute taille dchantillon si on dispose de la valeur de lcart type sur la
population. Voici la formule utilise sous Excel, et les valeurs correspondantes :

Lcart type estim, tait le rsultat dun pr sondage sur 20 individus du fichier Martin, pour
la variable kilomtrage. Il faudrait donc ajouter environ 940 autres individus pour obtenir une
prcision sur le kilomtrage moyen de lordre de 250 km.
Toutefois sur ce nouvel chantillon, lestimation de lcart type sera diffrente, mais plus
fiable puisque prise sur un chantillon de taille plus importante, et il faudra donc calculer de
nouveau la prcision obtenue.
4.4.2 Cas gnral
Si lon ne veut pas utiliser lapproximation par une loi normale, il est possible dutiliser les
fonctionnalits dExcel pour rsoudre lquation implicite dfinissant la taille de lchantillon.
Sur une feuille contenant les rsultats du pr sondage, nous allons ajouter trois lments, le
seuil de prcision voulu, le seuil de prcision obtenue avec la taille dchantillon, lcart entre
la prcision obtenu et la prcision voulue. Nous obtenons les lments suivants :

Il nous faut maintenant modifier, la taille de lchantillon de faon ce que la prcision


obtenue soit gale la prcision voulue, cest dire que lcart soit gal 0. Il est possible de
le faire manuellement par ttonnement, mais il est plus judicieux dutiliser la commande
Valeur Cible dExcel.

Page 111

Sondage - Estimation

Dans le Menu Outils dExcel, choisissons cette commande, nous obtenons alors la boite de
dialogue :

La cellule dfinir correspond la fonction qui doit atteindre une certaine valeur, donc ici la
cellule contenant lcart entre la prcision voulue et la prcision obtenue. La valeur atteindre
est ici 0 ; enfin la cellule modifier, correspond la taille de lchantillon. Aprs avoir valid
ces entres, nous obtenons la boite de dialogue suivante :

Indiquant que la valeur a t atteinte, en validant par OK, la cellule correspondant la taille
contiendra la solution, cest dire la taille dchantillon permettant dobtenir la prcision
voulue. Comme cette solution nest pas obligatoirement entire, il nous faudra, dans une autre
cellule, prendre lentier immdiatement suprieur. Ici, il faudrait donc un chantillon de taille
63 environ, pour atteindre une prcision de 1000km, sur le kilomtrage moyen annuel des
clients.
Si nous calculons, cette taille avec lapproximation normale, nous aurions trouv 60, un
nombre videmment infrieur, mais peu diffrent ; cest pourquoi la plupart du temps on se
contentera de lapproximation normale pour la dtermination de la taille dchantillon. La
diffrence entre les deux approches ntant rellement significative que sur les petits
chantillons, auquel cas il est ncessaire de croire lhypothse de normalit, puisque lon ne
dispose pas de donnes suffisantes pour la tester.
5 Annexe 1 : La loi de Student

William Sealey Gosset (1876-1937) tait chimiste la brasserie Guiness Dublin, puis
ensuite Londres. Cest pour le contrle de qualit quil fut conduit sintresser
lchantillonnage et surtout aux petits chantillons. Il publia ses travaux sous le nom de
Student. Cest lui qui mit en vidence la loi qui porte son nom et qui permet de faire des tests
sur la moyenne dune variable quantitative.

Page 112

Sondage - Estimation

Gosset tudia la fonction de rpartition de la variable (dite variable de Student n degrs de


libert) T = X
, X tant une variable alatoire normale centre rduite et Z une variable
Z
n
alatoire suivant une loi du khi-deux4 n degrs de libert, X et Z tant de plus
indpendantes.
Y
Dans le cas de lestimation la variable X est lestimateur de la moyenne n
qui est bien

une variable alatoire normale centre rduite, et la variable Z =

(n1)Sn2
2

n
qui suit une loi du

khi-deux n-1 degrs de liberts. Le nombre de degrs de liberts est n-1 car les n variables
Yi Yn sont lies par la relation

Yi Yn =0 ; la forme quadratique (n1)Sn2 =(Yi Yn )


n

i =1

i =1

est

donc de rang n-1, ce qui dtermine le nombre de degr de libert de la loi du khi-deux.
La distribution de la loi de Student degrs de libert est donne par la formule :

( ) 1+ x
( )

+1
2
f (x )=

2

+1
2 2

o la loi (t )= euut 1dt est la fonction Gamma. Remarquons que cette distribution peut tre
0

tendue aux valeurs non entires de .


Cette distribution n'est pas donne directement dans Excel, puis que seule apparat dans les
fonctions d'Excel la fonction de rpartition (et pas directement!), si vous voulez tracer cette
fonction, il vous faudra donc entrer la formule ci-dessus. On est alors confront un nouveau
problme, la fonction Gamma; cette fonction n'est pas une fonction d'Excel, seule existe la
fonction LNGAMMA(x) qui est le logarithme nprien de la fonction Gamma, il suffira alors
de prendre l'exponentielle de cette fonction (voir le fichier Student.xls).
6 Annexe 2 : Intervalle de confiance de la variance

Bien que moins utilis que pour la moyenne, il est possible de dterminer un intervalle de
confiance pour la variance dune variable quantitative, si lon fait lhypothse que cette
(n1)Sn2 suit une loi du khi-deux n-1 degrs de
variable suit une loi normale. Dans ce cas Z =
2

liberts, en notant 1 le fractile dordre /2 de cette loi, et 2 le fractile dordre 1- /2, on a :

(n1)s 2 (n1)s 2
n;
n . Notons
pr 1 <Z < 2 = , on en dduit lintervalle de confiance pour 2 :
2
1
que cet intervalle nest pas centr autour de lestimation sn2 , mais est centr en probabilit :
4

Une loi du khi-deux n degrs de libert est la loi suivie par la somme des carrs de n lois normales centres
rduites indpendantes

Page 113

Sondage - Estimation

cest dire que lon limine autant dchantillons sous estimant la variance que
dchantillons surestimant cette variance. La notion de prcision na donc pas ici le sens
physique habituel comme pour la moyenne.
En prenant les racines carres des bornes on en dduira un intervalle de confiance pour lcart
type.
Sous Excel on utilisera la fonction KHIDEUX.INVERSE a deux paramtres :

p : reprsente la probabilit dobserver une valeur suprieure au fractile cherch

d : le nombre de degrs de liberts

Pour un degr de confiance 1- donn, 1 et 2 seront dfinis par :

1 =KHIDEUX.INVERSE 1- 2 ,n1

et 2 =KHIDEUX.INVERSE ,n1
2

Nous laissons au lecteur le soin dutiliser ces formules sur lexemple, nous aurons loccasion
de revenir sur lutilisation de cette fonction pour le test de contingence.
7 Annexe 4 : Mthode du maximum de vraisemblance

Nous avons jusqu' prsent utiliser des estimateurs "intuitifs" qui se sont avrs efficaces, il
existe une mthode mathmatique pour trouver systmatiquement des estimateurs de
paramtres en faisant des hypothses sur la loi de probabilit suivie par une variable. C'est la
mthode du maximum de vraisemblance qui est trs utilise en modlisation statistique et
assez facile mettre en uvre sur ordinateur. Nous en donnerons le principe ainsi qu'un
exemple ici, avec la rsolution analytique et avec Excel.
7.1 Formalisme du maximum de vraisemblance
On suppose qu'une variable statistique X dfinie sur une population P, suit une loi donne
dpendant de p paramtres (ai )1i p . La densit de probabilit de X (que nous supposons

exister) est donc une fonction dpendant la fois de la valeur x prise par X et des paramtres
estimer, nous la noterons f (x, a1 , L, a p ). Par exemple si l'on veut estimer la moyenne et la
variance d'une variable X suppose suivre une loi normale, les deux paramtres sont la
moyenne et l'cart type , et la fonction de densit sera donne par
f ( x, , ) =

1
2

( x )2
2 2

Soit maintenant un chantillon alatoire simple de taille n, tir dans la population et (x j )1 j n

f (x
n

l'chantillon image, la probabilit dobtenir cet chantillon est alors

j =1

, a1 ,L, a p ) , on

appelle vraisemblance de cet chantillon le logarithme de cette probabilit :

L ((x j )1 j n , a1 ,L, a p ) = log f (x j , a1, L, a p )


n

j =1

le principe du maximum de vraisemblance, consiste dire que l'chantillon tir maximise


cette vraisemblance, l'estimation des paramtres peut alors tre trouve soit analytiquement (
par exemple en annulant les drives partielles par rapport aux paramtres) soit

Page 114

Sondage - Estimation

numriquement par un algorithme de maximisation. Si le calcul analytique est possible,


l'estimateur associ s'obtient en remplaant les valeurs x j par les variables X j .
L'intrt de cette mthode est que les estimateurs ainsi trouv sont de bons estimateurs,
asymptotiquement sans biais et convergents. De plus il est possible de trouver la loi limite de
ces estimateurs, ce qui permet des estimations par intervalle.
7.2 Estimateurs du maximum de vraisemblance des paramtres d'une loi normale
Soit donc (x j )1 j n un chantillon de taille n d'une variable suppose suivre une loi normale de

moyenne et d'cart type . La fonction de vraisemblance de l'chantillon est dfinie par :

L ((x j )1 j n , , ) = nLog (

2 nLog ( )

(x

j =1

2 2

Les estimations du maximum de vraisemblance de deux paramtres sont les valeurs m et s


telles que :

L ((x j )1 j n , m, s ) = Max
L ((x j )1 j n , a, b )
a ,b

En utilisant les drives partielles, nous obtenons les deux quations suivantes :
n (x m )
n (x m )
L
(m, s ) = j 2 = 0 et L (m, s ) = n + j 3
b
s j =1
a
s
s
j =1

(x

m ) = 0 soit m =

1 n
x j qui est la moyenne
j
n j =1
j =1
de l'chantillon ce qui correspond l'estimateur que nous avons utilis : m = x n .

La premire quation permet de calculer

1 n
En revanche la seconde quation donne ns = (x j m ) , soit s = (x j m ) .
n j =1
j =1
L'estimateur du maximum de vraisemblance de la variance est donc la variance de
l'chantillon qui comme nous l'avons vu est asymptotiquement sans biais mais non sans biais.
2

Il est facile de vrifier que les conditions du second ordre sont vrifies pour le maximum
calcul ci-dessus.
7.3 Utilisation d'Excel pour le calcul d'estimation
Le fichier MaxVrai.xls contient 10 donnes qui sont supposes provenir d'une loi normale de
moyenne et variance inconnue. Ces donnes sont dans la plage A5:A14, nous allons
construire sur cette feuille de calcul, la fonction de vraisemblance de l'chantillon pour une
moyenne et un cart type donns.

La moyenne est dans la cellule D1, nomme "moy", et initialise une valeur arbitraire (20).
L'cart type est dans la cellule D2, nomme "sigma", et initialis la valeur 5.
On entre alors les formules permettant de calculer la vraisemblance, c'est dire la densit de
probabilit en chaque valeur et le logarithme nprien de cette probabilit :

Page 115

Sondage - Estimation

La vraisemblance de l'chantillon est simplement la somme des cellules C5 C14, valeur de


cette vraisemblance est dans la cellule D4.
Une fois ce modle crit, il nous faut utiliser le solveur d'Excel pour maximiser la
vraisemblance. Aprs avoir slectionner la cellule D2, nous choisissons le menu "OutilsSolveur" qui conduit la boite de dialogue suivante :

Aprs avoir demand la rsolution nous obtenons les rsultats suivants (nous avons affich les
valeurs des fonctions MOYENNE, ECARTYPE et ECARTYPEP sur la feuille :

La convergence pour la moyenne s'est bien faite vers la valeur de la fonction moyenne, en
revanche pour l'cart type la convergence se fait vers la fonction ECARTYPEP, qui est l'cart
type de l'chantillon et non pas vers la fonction ECARTYPE qui est l'estimation habituelle de
l'cart type de la population.
Remarque importante : si les valeurs initiales des paramtres sont trop loignes des valeurs
estimes, l'algorithme de recherche de maximum peut chouer, il est donc recommand avant
d'utiliser le solveur de faire une table pour diffrentes valeurs des paramtres.

Page 116

Sondage - Estimation

EXERCICES ESTIMATION
1 : RadioLook

RadioLook est une radio prive mettant sur Grenoble et sa rgion depuis deux ans. Aprs un
an de fonctionnement, une enqute faite auprs de 1200 grenoblois a donn les rsultats
suivants:
240 personnes ont dclar couter rgulirement la station
parmi ces 240 personnes, 30 ont un statut d'tudiant.
Prcisons que sur les 1200 personnes interroges, 100 taient des tudiants. Actuellement, la
direction commerciale veut mener une enqute auprs des tudiants. Elle dsire connatre de
faon prcise, la proportion d'tudiants coutant rgulirement RADIO-LOOK et envisage
donc un deuxime sondage.
1. Prciser la population , la variable de description et le paramtre faisant l'objet de l'tude.
2. Exploiter le sondage fait auprs de 1200 grenoblois pour obtenir une premire estimation
(ponctuelle et par intervalle) du paramtre dfini en 1.
3. Combien de personnes faut-il interroger au cours de la seconde enqute, si le degr de
confiance (ou seuil ) retenu est de 0.95 et la prcision (absolue) dsire 3%.
4. A l'issue du deuxime sondage, il a t constat 368 auditeurs. Donner une estimation et
un intervalle de confiance du paramtre faisant l'objet de l'tude ( avec un degr de
confiance de 0.95).
5. Peut-on affirmer que l'audience du segment tudiant a augment d'une enqute l'autre
2 La socit UVJM (Classeur UVJM.xls)

La socit UVJM a un compte clients compos de 7 000 clients. Lauditeur, charg de la


vrification du compte, dsire estimer le montant moyen d'une crance l'aide d'un sondage
alatoire. Le montant de la crance due par un client est le solde positif de son compte. Un
chantillon constitu de 25 comptes a t prlev parmi les 5 000 comptes ayant un solde
positif. Chaque compte a t vrifi et son solde rvalu. Cette opration de rvision
comptable est donne dans la feuille "Premier sondage" du classeur.
1. Prciser la population, la variable de description et le paramtre faisant l'objet de l'tude.
2. Donner les estimations ponctuelles de la moyenne et de l'cart type du montant des
crances
3. Etablir un intervalle de confiance de la moyenne des soldes positifs avec un niveau de
confiance de 0.95.
4. Le niveau de confiance tant gal 0.95, quelle taille d'chantillon faut-il envisager pour
obtenir une prcision de 8 (la prcision est gale la demi-longueur de lintervalle de
confiance).
5. Un sondage complmentaire permettant d'obtenir un chantillon de taille gale celle
tablie en 2 a t men. Les rsultats sont donns dans la feuille "Sondage
supplmentaire". En fusionnant les deux chantillons, donnez une estimation du montant
total des crances et un intervalle de confiance avec un niveau de confiance de 0.95.

Page 117

Sondage - Estimation
3 La socit de contrle et de rgulation (daprs J. Obadia)
La socit de contrle et rgulation est une entreprise fabriquant des matriels lectroniques en
moyennes sries : appareils de contrle, de rgulation et de mesure. Elle travaille essentiellement sur
catalogue et sur devis. L'auditeur responsable du contrle de la comptabilit de l'entreprise a dcid
d'effectuer un sondage pour dterminer la valeur relle du stock des pices dtaches (petites pices
mcaniques, composantes lectroniques, sous-ensembles achetes l'extrieur, etc... ).Ce stock fait
l'objet d'un inventaire permanent assur par l'ordinateur partir des bordereaux d'entre (livraison
fournisseurs) et des bons de sortie mis par la production.

La diversit des articles constitutifs du stock des pices dtaches a conduit distinguer :
les articles de faible valeur regroupant essentiellement les petites pices mcaniques
dont le cot unitaire est infrieur un euro.
les articles de valeur moyenne qui regroupent l'essentiel des composants lectroniques
dont les cots unitaires sont compris entre un et dix euros.
les articles considrs comme coteux et dont le cot unitaire dpasse dix euros et qui
sont suivis un un.
Ces trois catgories se trouvent dans des magasins diffrents et sont gres sparment.
L'ordinateur peut fournir tout moment, une liste des valeurs stockes. Pour chaque
rfrence, il est possible de disposer des informations suivantes:
le numro de la rfrence ou code - article : u
le nombre d'articles N(u) comptabiliss dans le stock sous cette rfrence
le cot unitaire auquel ces articles sont valoriss : C(u)
la valeur stocke correspondante dite valeur comptable: Y(u) = N(u)*C(u)
Au jour du contrle, les chiffres comptables relatifs aux trois catgories sont donns par
l'annexe 1. La catgorie des articles les plus coteux, a t contrle en totalit; la premire
catgorie a t contrle l'aide d'un sondage portant sur 100 rfrences.
L'annexe 3 donne les rsultats de ces deux contrles. Le contrle de la seconde catgorie doit
tre ralis. Il s'agit donc d'estimer, pour cette catgorie, la valeur relle du stock. Les erreurs
sur les quantits et les cots tant globalement prises en compte dans la valeur, on ne se
proccupera pas des quantits et des cots unitaires sparment mais du produit des deux. Si
l'estimation de la valeur constitue l'objectif principal du sondage, l'auditeur souhaite
galement dterminer la proportion des valeurs errones.
Vous tes charg par l'auditeur d'tablir un plan de sondage de la deuxime catgorie de
pices dtaches.
Un plan de sondage doit indiquer :
la population, les variables et les paramtres
le nombre de rfrences constituant l'chantillon
le mode de slection de ces units
comment, en utilisant les observations ou valeurs constates faites sur les units
prleves, tablir les estimations des paramtres
la prcision du sondage

Page 118

Sondage - Estimation

Pour tablir ce plan de sondage vous disposez des informations fournies par un chantillon
prliminaire concernant la variable X = "valeur relle des rfrences". L'analyse de cette
information pourra se faire suivant les deux points ci-dessous.
3.1 Examen de l'information apporte par l'chantillon prliminaire sur la variable X =
"valeur relle des rfrences"
1) Dduire une estimation de la valeur totale relle du stock et la prcision de cette
estimation

2) On constatera que la prcision obtenue n'est pas suffisante. Quelle est la taille de
l'chantillon permettant d'obtenir une prcision satisfaisante gale 1% de la valeur
comptable du stock. Conclusion .
3.2 Examen de l'information apporte par l'chantillon prliminaire sur la variable D =
X - Y cart entre la valeur relle et valeur comptable du stock.
1) Donner une estimation de l'cart entre valeur totale relle et valeur totale comptable du
stock. Quelle est la prcision de cette estimation?

2) Utiliser les rsultats du point a) pour calculer une estimation de la valeur totale relle
du stock et sa prcision
3) Quelle est la taille de l'chantillon permettant d'obtenir la prcision fixe au point 1.
3.3 Annexe 1
Donnes comptables relatives aux trois catgories
Cots Unitaires
Moins de 1
De 1 10
Plus de 10
Total

Nombre de rfrences
2140
1500
180
3520

Valeur totale en stock


231843
3366495
625380
4223728

3.4 Annexe 2
Sondage prliminaire

Taille de l'chantillon : 50 rfrences


Variable
Moyenne
Val. Comptable
2315.83
Val.Relle
2304.1
Ecart
-11.73

Variance
604281
568128
12170.1

Ecart-type
777.35
753.74
110.32

Nombre de rfrences pour lesquelles l'cart D = X - Y n'est pas nul : 6


3.5 Annexe 3
Rsultats des contrles des catgories 1 et 3
1. Catgorie d'articles de valeur leve

Le contrle complet des 180 rfrences a montr que la valeur totale relle tait de 612 750 .
2. Catgorie d'articles de faibles valeurs

Un sondage portant sur 100 rfrences a donn les rsultats suivants:

Page 119

Sondage - Estimation

Valeur totale : 228 660


Prcision du sondage :
- degr de confiance : 0.95
- seuil de prcision : 4540
4 La socit de contrle et de rgulation (Deuxime partie : CasSCR.xls)

Un deuxime sondage a permis de constituer un chantillon de 321 rfrences. Ce deuxime


chantillon a t fusionn avec l'chantillon prliminaire de taille 50 (cf. partie I) pour
constituer un chantillon de 371 rfrences et vous est donn dans le classeur CasSCR.xls.
Les rsultats se prsentent sous la forme suivante :
Rfrence
0pp10673
0pp12370
0pp15926
0pp29971

Quantit C Prix unitaire


369
8
389
3
402
9
434
4

Valeur C
Quantit Stock
2952
369
1167
389
3618
402
1736
434

Les contenus de chaque colonne sont les suivants :


Rfrence : Le numro de rfrence du produit.
Quantit C : quantit comptable, la quantit enregistre informatiquement
Prix unitaire : le prix unitaire du produit en euro.
Valeur comptable : la valeur de la rfrence enregistre informatiquement (Quantit
C*Prix unitaire).
Quantit en stock : la quantit physique vrifie en stock.
1. Utiliser les rsultats de ce deuxime sondage pour obtenir une estimation de la valeur
relle des rfrences de la deuxime catgorie. En dduire une estimation de la valeur
relle de tout le stock et la prcision obtenue
2. Pensez-vous que l'approximation normale soit justifie pour la variable D=X-Y ? On
pourra utiliser soit un histogramme, soit le graphique normal (voir le chapitre Rappel
Excel). Justifiez conomiquement ce fait.
3. Donner une estimation par intervalle du pourcentage d'erreur dans la seconde catgorie.
5 Maximum de vraisemblance pour la loi exponentielle

La loi exponentielle est une loi un paramtre dont la densit est donne par la formule.
1. A partir d'un chantillon de taille n quelle est l'estimation du maximum de vraisemblance
du paramtre ? Comparer cette estimation l'estimation de la moyenne.
2. En utilisant les donnes du fichier MaxVrai.xls, retrouver le rsultat prcdent (prendre
0,04 comme valeur initiale de lambda, par exemple).
6 Maximum de vraisemblance pour une loi uniforme sur un intervalle

La loi uniforme sur un intervalle [a, b] dpend des deux paramtres a et b, sa densit est
donne par :

f ( x, a , b ) =

1
si a x b et 0 sinon
ba

Page 120

Sondage - Estimation

1. A partir d'un chantillon de taille n quelle est l'estimation du maximum de vraisemblance


des paramtres a et b?
En utilisant les donnes du fichier MaxVrai.xls, retrouver le rsultat prcdent. Que se passet-il si l'une des valeurs initiales des paramtres est entre le maximum et le minimum

Page 121

Tests d'hypothse

TESTS D'HYPOTHESE
1 Un exemple

Monsieur Dupond, directeur commercial d'une chane de magasins de distribution, veut tester
un nouveau type de promotion sur les produits forte frquence d'achat, le client reoit des
coupons en fonction des achats effectus et du montant de la facture. D'ordinaire dans la
chane de magasin le taux de retour des coupons est de 40% (c'est dire que 40% des coupons
distribus sont utiliss), le nouveau type sera considr comme plus efficace si le taux de
retour est suprieur ce taux. Dans un magasin considr comme reprsentatif de la chane,
Monsieur Dupond installe son nouveau systme, au terme de trois semaines d'essais sur 1000
coupons distribus 452 ont t rutiliss. Monsieur Dupond se demande si ce pourcentage
(45,2%) est significatif d'une augmentation du taux de retour ou si la diffrence observe n'est
imputable qu'aux incertitudes d'chantillonnage.
2 Gnralits

Soit une variable X statistique dfinie sur une population P, et un paramtre li cette
variable, nous appellerons hypothse sur ce paramtre le fait de limiter les valeurs prises par
ce paramtre une partie non vide et non totale de l'ensemble des valeurs possibles not A0 ,
le complmentaire de cet ensemble not A1 sera associe l'hypothse alternative. La
premire hypothse est appele hypothse nulle.
Sur l'exemple prcdent, la population est l'ensemble des coupons distribus pour les produits
forte frquence d'achat, la variable X est la variable indicatrice de l'utilisation du coupon, le
paramtre est le pourcentage de coupons utiliss. L'ensemble des valeurs possibles est
l'intervalle [40%, 100%], puisque le directeur commercial n'envisage pas que sa mthode de
distribution puisse tre moins efficace que les autres mthodes. Une hypothse ici serait par
exemple que la nouvelle mthode ne soit pas plus efficace, c'est dire que = 0 = 40%
(ensemble not A0 = {40%} ), une autre hypothse serait par exemple que la promotion
personnalise soit rellement plus efficace, c'est dire que > 0 =40% (ensemble not

A1 =]40%;100%] ).
Il arrive souvent que les ensembles associs aux hypothses soient plus complexes que ceux
prsents en exemple, nous le verrons plus loin lors des tests portant sur deux chantillons,
ou lors de la rgression par exemple.
L'objectif des tests d'hypothse est de dterminer une rgle de dcision permettant de rejeter
une hypothse partir de l'examen d'un chantillon. Comme nous l'avons vu au chapitre sur
l'estimation, on ne peut pas prtendre prendre une telle dcision sans risque d'erreur, ce risque
est li la probabilit d'apparition d'chantillons exceptionnels (statistiquement aberrants).
Nous allons donc formaliser cette dmarche. Nous noterons H 0 l'hypothse A0 , cette
hypothse est appele hypothse nulle, et H 1 l'hypothse A1 , appele hypothse
alternative (nous reviendrons plus loin sur le choix de l'hypothse nulle).
Lapplication dune rgle de dcision peut conduire lun des quatre cas suivants :

Page 122

Tests d'hypothse

Choix (A partir
de lchantillon)

H0
H1

Etat Rel (Valeur de )


A1
A0
Pas derreur
Erreur de type II
Erreur de type I

Pas derreur

A chaque erreur peut tre associe une probabilit appele risque :

Le risque de premire espce not est la probabilit de lerreur de type I cest


dire le fait de choisir lhypothse H1, alors que le "vrai" paramtre appartient au
sous-ensemble A0 ; on dira plus simplement la probabilit du choix de H 1 alors
que H 0 est vraie.

Le risque de seconde espce not est la probabilit de l'erreur de type II, c'est
dire le choix de H 0 alors que H 1 est vraie.

La dfinition d'une rgle de dcision se fait par la dfinition d'un ensemble R A1 , appel
zone de rejet, tel que pour toute estimation du paramtre se trouvant dans cet ensemble on est
conduit rejeter l'hypothse H 0 , c'est dire accepter l'hypothse H 1 . La dtermination de
la zone de rejet se fait en fixant le risque de premire espce : le risque de premire espce est
en effet dfini partir de cette rgion par : prob(estimateur( paramtre)R / paramtreA0 ).
Une autre faon de procder est de dterminer la probabilit (appele niveau de signification
du test)d'obtenir un chantillon conduisant au rsultat observ (appele niveau de signification
du test), sous l'hypothse H 0 , si cette probabilit est infrieure au risque de premire espce,
on rejettera alors l'hypothse H 0 . Ces deux procdures sont quivalentes, toutefois il est
possible dans certains cas de dfinir la rgion de rejet avant mme d'avoir procder au
sondage, ce qui bien sr n'est pas possible pour le niveau de signification.
Remarquons que les hypothses ne sont pas traites de faon symtrique, on veut tre assur
que l'hypothse H 0 n'a qu'une probabilit trs faible d'tre vrifie, donc, en fait, on cherche
se convaincre de l'hypothse H 1 . En gnral quand on rejettera H 0 , on sera assur d'avoir
une faible probabilit de se tromper, en revanche, si on est conduit par le test ne pas rejeter
l'hypothse nulle, il est possible que la probabilit de se tromper soit trs grande, comme nous
le verrons dans les cas traits dans ce chapitre.
3 Comparaison d'un pourcentage un standard

Dans ce cas la variable est une variable indicatrice d'une caractristique de la population, c'est
dire, en termes probabilistes, une variable de Bernouilli, le paramtre estimer est
l'esprance de cette variable, c'est dire le pourcentage d'individus prsentant la
caractristique dans la population. Dans tous les cas l'ensemble A0 est rduit un seul
lment {p0}, l'ensemble A1 tant l'un des trois ensembles suivants

A1 = ]p0;1] c'est dire le test H 0 : p= p0 contre H1 : p> p0 , ce test est dit

unilatral droite, la rgion de rejet est de la forme R =[c;1] avec c> p0 : il faut que
la valeur observe sur l'chantillon soit significativement suprieure p0 pour que

Page 123

Tests d'hypothse

l'on soit convaincu de l'hypothse H1 . C'est le cas de notre exemple avec


p0 =40% .

A1 = [0; p0 [ c'est dire le test H 0 : p= p0 contre H1 : p< p0 , ce test est dit unilatral

gauche, la rgion de rejet est de la forme R =[0;c] avec c< p0 : il faut que la

valeur observe sur l'chantillon soit significativement infrieure p0 pour que


l'on soit convaincu de l'hypothse H1 .

A1 = [0; p0 []p0;1] c'est dire le test H 0 : p= p0 contre H1 : p p0 , ce test est dit

bilatral, la rgion de rejet est de la forme R =[0; p0 c[]p0 +c] avec c>0 : il faut
que la valeur observe sur l'chantillon soit significativement diffrente de p0
pour que l'on soit convaincu de l'hypothse H1 . Dans ce cas il est d'usage de
choisir la zone de rejet symtrique par rapport p0 , comme l'est l'ensemble A1 ,
toutefois comme nous le verrons plus loin, un autre choix pourrait tre fait.

Nous allons maintenant voir comment sont dtermines les valeurs critiques bornes ouvertes
de la zone de rejet, pour cela revenons sur l'hypothse H 0 , et analysons les consquences de
cette hypothse sur la loi de l'estimateur du pourcentage.
3.1 Loi de l'estimateur X n sous l'hypothse H0

Sous l'hypothse H 0 la loi de la variable X dfinie sur la population est parfaitement


connue, c'est une loi de Bernouilli de paramtre p0 , valeur de p sous l'hypothse retenue.
Pour un chantillon de taille n, la loi de X n peut donc en tre dduite soit de faon exacte,
pour les petites valeurs de n, soit de faon asymptotique pour les grandes valeurs de n.
De faon exacte, la variable nX n somme de n variables de Bernouilli indpendantes suit une
loi binomiale de paramtres n et p0 , on peut donc en dduire la loi de X n .
Pour les grandes valeurs de n, on pourra se contenter de l'approximation normale:

Xn
N p0, p0(1 p0 ) n (voir chapitre sur l'estimation).

Pour dterminer les rgions de rejet de l'hypothse, on liminera les chantillons les plus
improbables correspondant des valeurs d'estimation dans le sous-ensemble, c'est dire des
chantillons donnant des valeurs exceptionnellement grandes dans le cas de test unilatral
droite, exceptionnellement petites dans le cas de test unilatral gauche ou exceptionnellement loignes de p0 dans le cas de test bilatral.
Remarquons que cette loi ne fait pas intervenir des rsultats obtenus par sondage, il est donc
possible ici de dfinir la zone de rejet avant mme de procder au sondage. C'est ce que nous
allons faire pour les trois cas dcrits plus hauts. Nous indiquerons aussi comment calculer
avec Excel le niveau de signification du test.
3.2 Tests unilatraux
Nous traiterons simultanment les deux cas gauche et droite :

Page 124

Tests d'hypothse

H 0 : p = p0

H 0 : p = p0

H1 : p< p0

H1 : p> p0

1-

3.2.1 Cas des petits chantillons, dtermination exacte avec Excel


En utilisant la variable binomiale nX n il est facile de dterminer la valeur de nc l'aide de la
fonction CRITERE.LOI.BINOMIALE(n, p0,proba) qui donne la plus valeur pour laquelle la
loi cumule est suprieure une probabilit donne. (fichier Standard.xls, feuille proportion),
on divisera ensuite par n pour obtenir la valeur de c.
La probabilit cumule est ici

Ici, la probabilit cumule est 1-

soit en valeur :

soit en valeur :

La rgle de dcision est la mme que celle qui La rgle de dcision est la mme que celle
qui sera nonce pour l'approximation
sera nonce pour l'approximation normale
normale (cf. ci-dessous).
(cf. ci-dessous).

Page 125

Tests d'hypothse

3.2.2 Cas des grands chantillons, approximation normale avec Excel


Nous allons ici utiliser, la convergence de la loi de X n vers la loi normale, on peut avec

Excel soit utiliser directement la loi normale de paramtre p0, p0(1 p0 ) n , soit aprs

centrage et rduction se ramener la loi normale centre rduite, nous donnerons les
formules de calcul de c en fonction de la loi normale centre rduite, en revanche nous
donnerons les deux formules d'Excel avec la loi normale centre rduite pour le test gauche,
avec la loi non centre rduite pour le test unilatral droite. Nous dsignerons, comme
d'habitude par zq le fractile d'ordre q de la loi normale centre rduite, c'est dire la valeur

dfinie par : prob N (0,1)< zq =q . Comme la variable

X n p0

p0(1 p0 ) n

suit une loi normale

standard (centre rduite), il est facile de dterminer dans les deux cas la valeur critique c
Nous avons ici :

Nous avons ici :


c p0

p0(1 p0 ) n

c p0

= z (<0) donc

p0(1 p0 ) n

= z1 (>0)

c= p0 + z * p0(1 p0 ) n qui est bien

c= p0 + z1 * p0(1 p0 ) n qui est bien

strictement infrieur p0.

strictement suprieur p0.

On en dduit la rgle suivante: si la valeur


observe sur l'chantillon est infrieure c,
on rejettera l'hypothse H1 avec un risque
d'erreur de , on dira que la valeur observe
est significativement infrieure p0 avec un
risque infrieur .

On en dduit la rgle suivante: si la valeur


observe sur l'chantillon est suprieure c,
on rejettera l'hypothse H1 avec un risque
d'erreur de , on dira que la valeur observe
est significativement suprieure p0 avec un
risque infrieur .

Formule avec Excel utilisant directement la


loi de X n , dans ce cas c'est simplement le

Formule avec Excel utilisant la loi normale


centre rduite, c'est dire la formule ci
dessus :

fractile d'ordre a de la loi de X n : la formule


utilise est LOI.NORMALE.INVERSE(;;)
soit :

=$C$2+RACINE($C$2*(1-$C$2) /$C$1) *
LOI.NORMALE.STANDARD.INVERSE(1C4)
avec la mme disposition que pour le test
unilatral gauche.

Ce qui nous donne les valeurs numriques


suivantes pour diffrentes valeurs du risque
de premire espce :

Ce qui nous donne les valeurs numriques


suivantes pour diffrentes valeurs du risque
de premire espce :

En appliquant la rgle de dcision, comme


sur l'chantillon nous obtenons 45,2%, nous
pouvons considrer avec un risque d'erreur
infrieur 1% que le taux de retour est bien
suprieur au taux habituel de 40%

Page 126

Tests d'hypothse

3.2.3 Niveau de signification du test


Comme nous l'avons signal, une autre mthode consiste dterminer le niveau de
signification du test, c'est dire la probabilit d'obtenir un chantillon conduisant une
valeur plus intrieure l'ensemble A1 que celle obtenue par sondage; cette valeur sera note
p . Nous noterons ns ce niveau de signification, il reprsente le risque maximum que l'on
prend en rejetant l'hypothse H0.
Pour le test unilatral gauche, le niveau de
signification est dfini par :

Pour le test unilatral gauche, le niveau de


signification est dfini par :

ns = prob(X n < p , sous H 0)

ns = prob(X n > p , sous H 0)

Sous Excel on peut utiliser la fonction :

ou encore en centrant et rduisant, et en


LOI.NORMALE( p ;p0;RACINE(p0*(1-p0)/n);VRAI) prenant le complmentaire :

p p0
Le dernier paramtre indiquant que l'on veut

1ns = prob N (0,1)<


la loi cumule

p0(1 p0)/ n

ce qui se traduit sous Excel par :

La valeur du niveau de signification obtenue


ns=0,0004 qui est bien infrieur 1%.
La rgle de dcision est, dans tous les cas, la suivante : si le niveau de signification est
infrieur a, on rejette l'hypothse H 0 .
3.2.4 Courbe de puissance du test
Pour terminer nous allons nous intresser au risque de seconde espce , ce risque dpend
bien sr de la valeur prise par le paramtre dans le sous-ensemble A1, on a donc en fait une
fonction de la valeur du paramtre p, plus le paramtre est loin de la valeur p0, plus faible est
le risque de seconde espce, en revanche si la valeur de p est trs proche de p0, le risque de
seconde espce sera proche de 1-, la vitesse de dcroissance de la fonction en s'cartant de
p0 est donc un indicateur du pouvoir discriminant du test. (Les courbes prsentes ci-dessous
sont dans le fichier PropPuissance.xls)

Ici l'ensemble A1=[0; p0 [ , traons la courbe de Ici l'ensemble A1=]p0;1] , traons la courbe de

puissance du test pour p0 =40% et n=100 .


puissance du test pour p0 =40% et n=100 .
Pour une valeur donne du risque de premire Pour une valeur donne du risque de premire
espce , la valeur critique c est calcule.
espce , la valeur critique c est calcule.
Pour une valeur donne de p<p0 , le risque de Pour une valeur donne de p>p , le risque de
0
seconde espce reprsente la probabilit de
seconde espce reprsente la probabilit de
choisir tort l'hypothse H0, c'est dire que choisir tort l'hypothse H , c'est dire que
0
la valeur estime de la proportion est
la valeur estime de la proportion est
suprieure c. Si la proportion dans la
infrieure c. Si la proportion dans la

Page 127

Tests d'hypothse

population est p, X n suit approximativement population est p, X n suit approximativement

une loi normale N p, p(1 p) n , le risque


de seconde espce est alors donn par :

= prob(X n >c )= prob N(0,1)>

c p

p(1 p) n

une loi normale N p, p(1 p) n , le risque


de seconde espce est alors donn par :

= prob(X n >c )= prob N(0,1)<

c p

p(1 p) n

En utilisant cette dfinition, on obtient alors


la courbe suivante (voir le fichier Excel pour
le dtail des formules) :

En utilisant cette dfinition, on obtient alors


la courbe suivante (voir le fichier Excel pour
le dtail des formules):

Remarque : le test

De mme le test

H 0 : p p0

H 0 : p p0

contre H1 : p< p0

contre H1 : p> p0

se ramne ce test unilatral

se ramne ce test unilatral

3.3 Test bilatral


Faire le test

H 0 : p = p0
contre H1 : p p0
au risque de premire espce , revient faire deux tests unilatraux :
H 0 : p = p0

H 0 : p = p0

H1 : p< p0

et H : p > p
1
0

au risque 1

au risque 2

Avec 1+ 2 = , l'usage est de prendre 1= 2 = 2 .


La dtermination des valeurs critiques c1 et c2 se fait comme nous l'avons vu prcdemment,
ces deux valeurs sont, avec la convention 1= 2 = 2 ,symtriques par rapport p0 . La rgle
de dcision est alors la suivante :

Page 128

Tests d'hypothse

Si sur l'chantillon la valeur du pourcentage observe est extrieure l'intervalle [c1;c2 ], on


rejettera l'hypothse H 0 avec un risque d'erreur infrieur , sinon on conservera
l'hypothse H 0 mais sans connatre le risque d'erreur.
3.3.1 Dtermination du niveau de signification
La dtermination du niveau de signification est particulire dans ce cas, elle ne peut se faire
qu'avec la convention signale, c'est dire 1= 2 = 2 .
Soit p la valeur du pourcentage observ sur l'chantillon, dans le cas de test bilatral, le
niveau de signification est par dfinition :

si H 0 est vraie prob X n p0 > p p0 ,


c'est dire la probabilit pour un chantillon tir sous l'hypothse H 0 de donner un cart
(absolu) par rapport la vraie valeur p0 suprieur l'cart (absolu) constat lors du sondage.
Compte tenu de la symtrie de la loi normale, approximation de la loi de X n , le niveau de
signification est donn par l'quation :

ns =2* prob X n p0 > p p0

soit aprs centrage et rduction :

p p0
p p0
=2*1 prob N (0,1)<

ns =2* prob N (0,1)>

p
p
n
(
1
)
/
p
(
1
p
)
/
n
0
0
0
0

ce qui s'exprime sous Excel sous la forme :

La rgle de dcision dans ce cas est toujours la mme : si le niveau de signification du test est
infrieur , on rejette l'hypothse H 0 .
3.3.2 Courbe de puissance du test
La courbe de puissance du test est symtrique par rapport p0 , elle n'est pas exactement
obtenue comme "recollement" des deux courbes dfinies prcdemment pour les tests
unilatraux. Indiquons rapidement comment on peut avec Excel construire cette courbe. Ici
l'ensemble A1=[0; p0 []p0;1] , pour une valeur donne du risque de premire espce , les

valeurs critique c1 et c2 sont calcules.


Pour une valeur donne de p p0 , le risque de seconde espce reprsente la probabilit de
choisir tort l'hypothse H0, c'est dire que la valeur estime de la proportion est intrieure
l'intervalle [c1;c2 ]. Si la proportion dans la population est p, X n suit approximativement une

loi normale N p, p(1 p) n , le risque de seconde espce est alors donn par :
Page 129

Tests d'hypothse

= prob(c1 X n c2 )= prob

c1 p

p(1 p) n

= prob N(0,1)

N (0,1)

ou encore
p(1 p) n
c2 p

c1 p
prob N (0,1)

p(1 p) n
p
(
1
p
)
n

c2 p

En utilisant cette dfinition, on obtient alors la courbe suivante (voir le fichier Excel pour le
dtail des formules) avec p0 =40% et n=100 :

4 Comparaison d'une moyenne un standard


4.1 Un exemple (fichier ptidej.xls)
Monsieur Durlan, nouveau chef de produit chez Nesnone, envisage le lancement (dans les
supermarchs)dun nouveau petit djeuner biologique. Daprs le service conomique le
produit ne sera rentable que si les ventes moyennes hebdomadaires par magasin dpassent 320
units. Monsieur Durlan a obtenu de 332 magasins quils prsentent ce nouveau produit, au
bout de quatre semaines, il vient de recevoir les rsultats. Quelle dcision doit-il prendre ?

Avant de consulter les rsultats de lchantillon, formalisons sous forme de test dhypothse
le problme de dcision de Monsieur Durlan :
La population que lon tudie est lensemble des supermarchs, la variable statistique est une
variable numrique qui chaque magasin associe les ventes hebdomadaires du produit. Le
paramtre est la moyenne de ces ventes sur lensemble de la population.
Ce paramtre peut prendre des valeurs sur l'intervalle [0,+[ , ce qui intresse M. Durlan cest
de placer le paramtre par rapport la valeur (seuil de rentabilit) 320. Nous allons montrer
sur cet exemple comment dfinir les hypothses en fonction du contexte conomique.
Nous avons deux hypothses candidate au rle de lhypothse H1, hypothse que lon cherche
valider par le test puisque la rgion de rejet de H0 est dtermine par le risque de premire
espce a. Notons les HA et HB :
H A : > 320
H B : < 320

Analysons dans chacun des cas lerreur de type I correspondant au choix de cette hypothse
comme hypothse H1 :
Cas A : Dans ce cas lhypothse H 0 : 320 , lerreur de type I (choix de H1, alors que H0
est "vraie") revient croire que le produit va tre rentable alors quen ralit il ne le sera pas,
Page 130

Tests d'hypothse

cette erreur conduira une perte qui sera tangible, et facilement constate par le suprieur
hirarchique de M. Durlan. En revanche lerreur de type II conduirait ne pas saisir
lopportunit de lancer un nouveau produit rentable, ce qui en fait ne pourra jamais tre
directement constat. Poser le test ainsi revient dire que l'on veut vraiment tre convaincu de
la rentabilit du produit (observer sur l'chantillon une valeur significativement plus grande
que 320) pour se dcider le lancer.
Cas B : Dans ce cas lhypothse H 0 : 320 , lerreur de type I (choix de H1, alors que H0
est "vraie") revient croire que le produit va n'est pas rentable alors quen ralit il le sera,
cette erreur conduira ne pas lancer le produit, ne sera pas constate par le suprieur
hirarchique de M. Durlan, mais pourrait long terme tre catastrophique pour l'entreprise si
ce type de produit prend une importance trs grande sur le march des petits djeuners. En
revanche lerreur de type II conduirait lancer un produit non rentable et le risque associ ne
sera pas matris. Poser le test ainsi revient dire que l'on veut vraiment tre convaincu de la
non-rentabilit du produit (observer sur l'chantillon une valeur significativement plus petite
que 320) pour se dcider ne pas le lancer.
Suivant l'importance stratgique du produit et la fragilit de la position de M. Durlan on sera
conduit privilgier l'une des deux approches. Comme ici M. Durlan est un jeune chef de
produit, il ne veut pas commencer sa carrire par un lancement rat, il privilgiera le cas A, il
voudra contrler le risque associ l'erreur constatable par son suprieur. La valeur du risque
de premire espce dpend des consquences conomiques ou sociales de l'erreur, c'est un
arbitrage entre l'erreur de premire espce contrle et l'erreur de seconde espce non
contrle. Gnralement il prend une des trois valeurs 10%, 5% ou 1%, plus sa valeur est
faible, plus on laisse de "place" l'erreur de seconde espce.
Enfin comme dans le cas des proportions on peut toujours se ramener pour l'hypothse nulle
une hypothse simple du type :
H 0 : = 0

Notons enfin qu'il est d'usage en statistique de supposer que la variable quantitative tudie
est distribue sur la population (munie d'une loi de probabilit quiprobable) suivant une loi
normale.
Comme dans le cas d'une proportion nous traiterons les trois cas de tests possibles, mais plus
succinctement dans la mesure ou seule les lois changent.
4.2 Statistique utilise sous l'hypothse H0
Sous l'hypothse H 0 la loi de la variable X dfinie sur la population est suppose normale de

moyenne =0 et d'cart type , nous supposerons cet cart type inconnu, le cas o il est
connu est peu diffrent il suffit se supposer la taille de l'chantillon suffisante pour que la loi
de Student se confonde avec la loi normale, ou que l'hypothse de normalit puisse tre
abandonne.
Comme pour l'estimation nous utiliserons la statistique, dont la loi est connue sous H0:
Tn =

Yn 0
S

2
n

suit
LoiStudent n - 1 degrs de libert

Pour dterminer les rgions de rejet de l'hypothse, on liminera les chantillons les plus
improbables correspondant des valeurs d'estimation dans le sous-ensemble A1 , c'est dire

Page 131

Tests d'hypothse

des chantillons donnant des valeurs exceptionnellement grandes dans le cas de test unilatral
droite, exceptionnellement petites dans le cas de test unilatral gauche ou exceptionnellement loignes de 0 dans le cas de test bilatral.
Remarquons qu'ici cette loi fait intervenir des rsultats obtenus par sondage, il est donc
impossible ici de dfinir la zone de rejet avant mme de procder au sondage. Il nous est
ncessaire d'avoir une estimation de l'cart type de la variable, en revanche l'estimation de la
moyenne n'est ncessaire que pour l'application de la rgle de dcision.
Les rsultats obtenus sur le sondage command par M. Durlan sont les suivants :
Taille de l'chantillon : 332
Moyenne des ventes par magasin : 328,27
Ecart type des ventes : 51,82
Sont notes en gras les valeurs qui nous serviront construire la rgion de rejet.
4.3 Tests unilatraux
Nous traiterons simultanment les deux cas gauche et droite :

H 0 : = 0

H 0 : = 0

H1 : < 0

H1 : > 0

4.3.1 Cas de la loi normale, dtermination exacte avec la loi de Student


En utilisant la variable Tn , dfinie plus haut, il est facile de dterminer la valeur de c l'aide
de la fonction LOI.STUDENT.INVERSE(probabilit; degrs de libert) qui donne la plus
valeur pour laquelle la variable suivant la loi de Student est suprieure en valeur absolue
cette valeur a une probabilit donne, c'est dire :

prob Tn > t qn = q , Tn dsignant une variable suivant une loi de Student n degrs de libert.

Attention la fonction est toujours bilatrale, donc pour les tests unilatraux il faudra
mettre comme valeur de la probabilit le double du risque de premire espce.

Nous avons ici :

Nous avons ici :

c 0
= t 2n1 o est l'estimation de
n
l'cart type de X donc

c 0
= t 2n1 , avec les mmes notations
n

c = 0 t

n 1
2

n qui est bien strictement

infrieur 0.
On en dduit la rgle suivante: si la valeur
observe sur l'chantillon est infrieure c,
on rejettera l'hypothse H1 avec un risque
d'erreur de au maximum, on dira que la
valeur observe est significativement
infrieure 0 avec un risque infrieur .
Formule avec Excel, en utilisant la loi de

c = 0 + t 2n1 *

n qui est bien strictement

suprieur 0.
On en dduit la rgle suivante: si la valeur
observe sur l'chantillon est suprieure c,
on rejettera l'hypothse H1 avec un risque
d'erreur de au maximum, on dira que la
valeur observe est significativement
suprieure 0 avec un risque infrieur .
Formule avec Excel, en utilisant la loi de

Page 132

Tests d'hypothse

Student : la formule utilise pour le calcul de


la valeur de c est :

0 - LOI.STUDENT.INVERSE(2;n-1)*s/ n

Student inverse, la formule ci dessus devient :

0 - LOI.STUDENT.INVERSE(2;n-1)*s/ n
soit :

O B5 est la cellule contenant lestimation de


lcart type, B3 celle contenant la taille de
lchantillon et B7 celle contenant la valeur
0.
Ce qui donne les valeurs numriques
suivantes pour diffrentes valeurs du risque
de premire espce :

En appliquant la rgle de dcision, comme


sur l'chantillon nous obtenons une moyenne
de 332, nous pouvons considrer avec un
risque d'erreur infrieur 1% que le seuil de
rentabilit est bien atteint, et M. Durlan peut
dcider de lancer ce produit.
4.3.2 Niveau de signification du test
Comme nous l'avons signal, une autre mthode consiste dterminer le niveau de
signification du test, c'est dire la probabilit d'obtenir un chantillon conduisant une
valeur plus intrieure l'ensemble A1 que celle obtenue par sondage; valeur qui sera note x n .
Nous noterons ns ce niveau de signification, il reprsente le risque maximum que l'on prend
en rejetant l'hypothse H0.
Pour le test unilatral gauche, le niveau de
signification est dfini par :

Pour le test unilatral gauche, le niveau de


signification est dfini par :

x 0
0
< n
ns = prob n
, sousH 0
S2 n

n
n

x 0
0
> n
ns = prob n
, sousH 0
S2 n

n
n

Cest dire la valeur de la fonction de


rpartition de la loi de Student (n-1) degrs
de libert, pour la valeur (standardise) :

Cest dire 1 - la valeur de la fonction de


rpartition de la loi de Student (n-1) degrs
de libert, pour la valeur (standardise) :

xn 0
n

xn 0
n

Page 133

Tests d'hypothse

Il nous faut donc, dans les deux cas, utiliser la fonction de rpartition de la loi de Student,
cette fonction nexiste pas directement sous Excel, mais il existe une fonction qui permet de
la calculer, la fonction LOI.STUDENT dont la syntaxe est la suivante :
LOI.STUDENT(Valeur, degrs, uni ou bilatral)
Pour nous le dernier paramtre sera dans les deux cas gal 1(unilatral). Dans ce cas la
fonction renvoie pour une valeur positive uniquement, 1- la fonction de rpartition, cest
dire que la fonction sous Excel est dfinie par :
Si unilatral (dernier paramtre=1), pour t>0
LOI.STUDENT(t,n,1) = prob(Tn > t ) o Tn dsigne une variable de Student n degrs de
libert
Si bilatral (dernier paramtre =2) pour t>0
LOI.STUDENT(t,n,2) = prob( Tn > t ) o Tn dsigne une variable de Student n degrs de
libert
Dans le cas du test unilatral gauche, il suffira Ici on utilisera directement la formule, ce qui
donnera :
dutiliser la fonction avec comme premier
paramtre loppos de la valeur standardis.
La valeur du niveau de signification obtenue
ns=0,0019 qui est bien infrieur 1%.
La rgle de dcision est, dans tous les cas, la suivante : si le niveau de signification est
infrieur , on rejette l'hypothse H 0 .
4.4 Test bilatral
Faire le test

H0 : = 0
contre H 1 : 0
au risque de premire espce , revient faire deux tests unilatraux :
H0 : = 0
H0 : = 0
H 1 : < 0 et H 1 : > 0
au risque 2
au risque 1
Avec 1+ 2 = , l'usage est de prendre 1= 2 = 2 . Remarquons que dans le cas du test sur la
moyenne cette convention et sans doute lorigine des fonctions de Student programmes
dans Excel.
La dtermination des valeurs critiques c1 et c2 se fait comme nous l'avons vu prcdemment,
ces deux valeurs sont, avec la convention 1= 2 = 2 ,symtriques par rapport 0 . La rgle
de dcision est alors la suivante :

Page 134

Tests d'hypothse

Si sur l'chantillon la valeur du pourcentage observe est extrieure l'intervalle [c1;c2 ], on


rejettera l'hypothse H 0 avec un risque d'erreur infrieur , sinon on conservera
l'hypothse H 0 mais sans connatre le risque d'erreur.
Les formules Excel dfinissant c1 et c2 sont les suivantes :
c1 = 0 -LOI.STUDENT.INVERSE(,n-1)*

c1 = 0 -LOI.STUDENT.INVERSE(,n-1) *

4.4.1 Dtermination du niveau de signification


La dtermination du niveau de signification est particulire dans ce cas, elle ne peut se faire
qu'avec la convention signale, c'est dire 1= 2 = 2 .
Soit x n la valeur de la moyenne observe sur l'chantillon, dans le cas de test bilatral, le
niveau de signification est par dfinition :
X
x 0
0
< n
Sous lhypothse H 0 ns = prob n

2
n
Sn n

c'est dire la probabilit pour un chantillon tir sous l'hypothse H 0 de donner un cart
(standardis absolu) par rapport la vraie valeur x n suprieur l'cart (standardis absolu)
constat lors du sondage.
Etant donn la forme de la fonction de Student sous Excel, ce niveau de signification sera
obtenu facilement :

La rgle de dcision dans ce cas est toujours la mme : si le niveau de signification du test est
infrieur , on rejette l'hypothse H 0 .
5 Comparaison de deux pourcentages

Reprenons lexemple de Monsieur Dupond, il a conclu que sa nouvelle politique de


distribution de coupons tait plus efficace que l'ancienne. Il serait intress par savoir si le
comportement des clients est diffrent suivant date d'achat :semaine ou week-end. Le dtail de
l'enqute est le suivant (dans le fichier Standard.xls, sur la feuille Comparaison, nous avons
les rsultats par date de distribution, les valeurs estimes) :

Page 135

Tests d'hypothse

Les pourcentages constats sur l'chantillon sont videmment diffrents (44% pour la semaine
et 47% pour le week-end), mais cela peut tre du aux alas de l'chantillonnage et non pas
un comportement diffrent entre la clientle de semaine et la clientle de week-end, ce que
voudrait dtecter M Martin.
5.1 Formalisation du problme
Nous pouvons ici prsenter la formalisation de deux faons diffrentes, soit comme la
comparaison de pourcentages sur deux populations, soit comme l'tude d'une liaison entre
deux variables indicatrices dfinies sur une mme population (cas particulier de la liaison de
deux variables qualitatives que nous verrons plus loin).

5.1.1 Formalisation sous forme de deux populations


La premire population est l'ensemble des coupons distribus en semaine que nous noterons
P1, la seconde est l'ensemble des coupons distribus en week-end note P2. Sur chacune de
ces populations nous dfinissons une variable indicatrice boolenne, notes respectivement X1
et X2, qui correspond au retour du coupon.
Xi
{0,1}
Pi

pour i = 1,2

en dsignant par p1 et p2 les pourcentages respectifs, c'est dire les moyennes sur l'ensemble
des variables X1 et X2 sur chacune des populations l'hypothse nulle s'exprime alors sous la
forme :
H 0 p1 = p 2
l'hypothse alternative dans le cas de M Dupond est simplement la diffrence entre les deux
valeurs (test bilatral), mais pourrait tre un pourcentage suprieur l'autre (test unilatral) :
H 1 p1 p 2

ou

p1 < p 2

5.1.2 Formalisation l'aide de deux variables


Dans ce cas la population P unique est l'ensemble des coupons distribus, quelque soit le jour
de la semaine, la variable X est toujours la variable indicatrice du retour ou non du coupon, et
nous allons introduire une nouvelle variable indicatrice Y de la date de distribution du
coupon : cette variable vaut 1 si le coupon est distribu en semaine et 0 s'il l'est le week-end.
Le problme de M Dupond se rsume savoir si ces deux variables sont indpendantes, une
fois la population munie d'une loi de probabilit uniforme.
En effet, le pourcentage p1 reprsente la probabilit conditionnelle, pour que le coupon soit
retourn sachant qu'il a t distribu en semaine, de mme p2 est la probabilit conditionnelle
pour que le coupon soit retourn sachant qu'il a t distribu le week-end.
L'hypothse H0 revient alors crire :
p1 = prob( X = 0 Y = 0 ) = prob( X = 0 Y = 1) = p 2

et comme X est une variable de Bernouilli (donc ne prenant que deux valeurs 0 et 1) on a
aussi :
1 p1 = prob( X = 1 Y = 0 ) = prob( X = 1 Y = 1) = 1 p 2

Ce qui est bien la dfinition de l'indpendance des deux variables.

Page 136

Tests d'hypothse

L'hypothse alternative dans le cas bilatral est simplement la supposition d'une liaison entre
les deux variables sans en indiquer le sens, le cas unilatral tant l'existence d'une corrlation
de signe donn.
Remarque : On retrouve aussi l'interprtation des deux hypothses (nulle et alternative) sous
la forme de moyenne, c'est dire d'esprance en remarquant que p1 et p2 sont aussi les
esprances conditionnelles de X sachant Y=0 ou Y=1; on peut aussi retrouver l'interprtation
en terme de population en prenant respectivement les images rciproques Y 1 (0) = P1 et
Y 1 (1) = P2 .
Dans la suite nous utiliserons la formalisation en termes de deux populations, la deuxime
formalisation sera gnralise aux variables qualitatives (du moins pour le test bilatral) lors
du test du Khi2 de contingence.
5.2 Statistique associe au test
L'hypothse nulle peut aussi s'crire

H0

p1 p 2 = 0

Sur un chantillon de taille n1 tir de la population P1, le paramtre p1 aura pour estimateur
X n11 , de mme pour un chantillon de taille n2 tir de la population P2, l'estimateur du
paramtre p2 sera X n22 ; la statistique utilise sera donc la variable alatoire Z = X n11 X n22 .
Pour n1 et n2 suffisamment grands, nous connaissons une approximation normale des lois
estimateurs, comme les chantillons sont tirs de faon indpendante dans chacune des
populations nous connaissons la loi (approche) de la variable Z :
Z
N ( , )

avec = p1 p 2 et 2 =

p1 (1 p1 ) p 2 (1 p 2 )
+
n1
n2

sous l'hypothse H0, en dsignant par p la valeur commune de p1 et p2, nous aurons donc :
1

= 0 et 2 = p (1 p ) +
n1 n2
Mme si l'hypothse H0 est vrifie dans les populations, les estimations obtenues pour p1 et
p2 seront diffrentes, quelle estimation devons nous considrer comme estimation commune?
Dans la mesure ou l'estimateur du pourcentage est un estimateur convergent, plus la taille de
l'chantillon est grande meilleure est la prcision de l'estimation, la meilleure estimation sera
donc obtenue en "regroupant" les deux chantillons en un seul chantillon de taille n=n1+n2 et
n p + n2 p 2
cette estimation sera p = 1 1
. C'est cette valeur que nous utiliserons comme pour
n1 + n2
calculer une approximation de l'cart type de la loi de la statistique Z.
5.3 Test bilatral
Dans ce cas l'hypothse alternative est H 1 p1 p 2 , comme pour le test contre un standard,
nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette hypothse) un
cart en valeur absolue entre les moyennes des chantillons trop improbable, c'est dire dont
la probabilit est infrieure au risque de premire espce fix.

Page 137

Tests d'hypothse
5.3.1 Dtermination de la valeur critique
La valeur critique au-del de laquelle on rejettera l'hypothse H0 est donc dfinie par la valeur
c telle que :
prob( Z > c / H 0 ) = soit encore en tenant compte de la symtrie de la loi normale

prob(Z < c / H 0 ) = 1 2 . La valeur critique c correspond donc au fractile d'ordre 1 2

de la loi normale de moyenne 0 et d'cart type dfini au paragraphe prcdent. On peut bien
videmment se ramener au cas de la loi normale centre rduite, en notant z1 2 le fractile de
la loi normale centre rduite, on a alors :

1
1
c = z1 2 p (1 p ) + o p dsigne la valeur commune de p1 et p2
n1 n2
Dans les applications la valeur p est bien sure inconnue, il n'est donc pas possible de
dterminer la valeur critique avant de connatre les rsultats du sondage ; on remplacera alors
cette valeur par l'estimation p obtenue en "regroupant" les deux chantillons.
La rgle de dcision est alors la suivante, si sur les chantillons lcart absolu observ est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
5.3.2 Calcul du niveau de signification
Le niveau de signification est dans ce cas la probabilit, sous lhypothse H0, dobserver un
cart entre les deux estimateurs qui soit en valeur absolu au moins gal lcart absolu
observ sur les chantillons :
ns = prob( Z >= p 1 p 2 ) = (1 prob(Z < p 1 p 2 )) * 2
Puisque la loi normale suivi par Z est de moyenne nulle sous l'hypothse H0.
Si ce niveau de signification est infrieur au risque de premire espce , lhypothse H0 est
alors rejete.
5.3.3 Utilisation d'Excel
Sous Excel, nous avons la possibilit d'utiliser soit la loi normale, soit la loi normale centre
rduite (nomme standard sous Excel), pour le test bilatral nous donnerons les formules
utilisant la loi normale, et pour le test unilatral nous utiliserons la loi normale standard.
Sur la feuille de calcul Excel nous calculons tout dabord l'estimation "la meilleure" sous
l'hypothse H0, puis l'cart type de la loi normale suivie par Z, ce qui nous permettra de
calculer alors la valeur critique pour un risque de premire espce donn ou/et le niveau de
signification du test. Les formules sont les suivantes :

Page 138

Tests d'hypothse

Rappel : le dernier paramtre de la fonction LOI.NORMALE (ici VRAI) indique que l'on
utilise la loi cumule.
Les valeurs obtenues sont alors :

On ne pourra donc pas rejeter l'hypothse H0, au risque de 5% puisque l'cart observ est de
47%-44%=3% donc infrieur 6,3%. On voit d'ailleurs par le niveau de signification, que si
l'hypothse H0 est vraie, plus de 35% des chantillons pourraient conduire un cart absolu
suprieur celui observ ici.
5.4 Test unilatral
Dans ce cas l'hypothse alternative est H 1 p1 > p 2 , il est inutile de distinguer ici le test droit
du test gauche puisque cela revient simplement changer les indices!, comme pour le test
contre un standard, nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette
hypothse) un cart entre les moyennes des chantillons trop improbable, c'est dire dont la
probabilit est infrieure au risque de premire espce fix.

5.4.1 Dtermination de la valeur critique


La valeur critique au-del de laquelle on rejettera l'hypothse H0 est donc dfinie par la valeur
c telle que :
prob(Z > c / H 0 ) = soit encore en prenant le complmentaire prob(Z < c / H 0 ) = 1 . La
valeur critique c correspond donc au fractile d'ordre 1 de la loi normale de moyenne 0 et
d'cart type dfini au paragraphe prcdent. On peut bien videmment se ramener au cas de
la loi normale centre rduite, en notant z1 le fractile de la loi normale centre rduite, on a
alors :
c = z1

1
1
p (1 p ) + o p dsigne la valeur commune de p1 et p2.
n1 n 2

Dans les applications la valeur p est bien sure inconnue, il n'est donc pas possible de
dterminer la valeur critique avant de connatre les rsultats du sondage ; on remplacera alors
cette valeur par l'estimation p obtenue en "regroupant" les deux chantillons(voir plus haut).
La rgle de dcision est alors la suivante, si sur les chantillons lcart observ ( p 1 p 2 ) est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
5.4.2 Calcul du niveau de signification
Le niveau de signification est dans ce cas la probabilit, sous lhypothse H0, dobserver un
cart entre les deux estimateurs qui soit en valeur absolu au moins gal lcart absolu
observ sur les chantillons :
ns = prob(Z >= p 1 p 2 ) = (1 prob(Z < p 1 p 2 ))

Ou encore en utilisant la loi normale centre rduite, ici il suffit simplement de rduire,
puisque sous l'hypothse H0, la loi de Z est dj centre :
Page 139

Tests d'hypothse
p p 2

ns = 1 prob N (0,1) < 1


avec =

1
1
p (1 p ) +
n1 n2

p tant la valeur commune de p1 et p2, sous l'hypothse H0 ; cette valeur est inconnue est sera
bien entendu remplace par son estimation dans les applications numriques.
Si ce niveau de signification est infrieur au risque de premire espce , lhypothse H0 est
alors rejete.
5.4.3 Utilisation d'Excel
Comme nous l'avons annonc, nous utiliserons dans ce paragraphe la loi normale standard,
c'est dire centre rduite.
Nous ne reprendrons pas ici le calcul intermdiaire de l'estimation du pourcentage commun,
les formules spcifiques du test unilatral sont les suivantes :

Remarque : tant donn les rsultats obtenus sur l'chantillon, il est plus "naturel" ici de tester
p2>p1 plutt que l'inverse..
Les valeurs obtenues sont alors :

On ne pourra donc pas rejeter l'hypothse H0, au risque de 5%, puisque l'cart observ (3%)
est infrieur la valeur critique 5,28%. On voit d'ailleurs par le niveau de signification que si
l'hypothse H0 est vraie, plus de 17,5% des chantillons pourraient conduire un cart, entre
l'estimation de p2 et celle de p1,suprieur 3%.
6 Comparaison de deux moyennes

Reprenons lexemple de Monsieur Durlan, rassur sur la rentabilit de son produit, il


s'interroge sur le rayon o celui-ci doit tre vendu ; en effet en regardant les rsultats des
magasins tests, il a constat que certains le vendait avec les produits laitiers et d'autres avec
les produits frais (voir la feuille Echantillon du fichier Ptidej.xls). A son avis le choix du
rayon produits frais est prfrable pour ce type de produit. Dans un premier temps, utilisant
les fonctions base de donnes d'Excel, il obtient les rsultats suivants :

La moyenne des ventes en rayon "produits frais" est effectivement suprieure celle des
ventes en rayon "produits laitiers", cependant la diffrence est-elle suffisamment importante
Page 140

Tests d'hypothse

pour pouvoir extrapoler ce rsultat l'ensemble de la population, c'est dire l'ensemble des
supermarchs qui vendront bientt ce produit. Ce problme est un peu plus compliqu que le
problme de pourcentage dans la mesure o interviennent ici les dispersions (cart type) des
ventes dans chacun des rayons.
6.1 Formalisation du problme
Nous pouvons ici encore prsenter la formalisation de deux faons diffrentes, soit comme la
comparaison de moyennes sur deux populations, soit comme l'tude d'une liaison entre deux
variables (une variable quantitative et une variable indicatrice) dfinies sur une mme
population (cas particulier de la liaison entre une variable quantitative et une variable
qualitative que nous reverrons lors de la rgression).

6.1.1 Formalisation sous forme de deux populations


La premire population est l'ensemble des rayons "produits frais" des supermarchs que nous
noterons P1, la seconde est l'ensemble des rayons "produits laitiers" note P2. Sur chacune de
ces populations nous dfinissons une variable quantitative, notes respectivement X1 et X2, qui
correspond au volume hebdomadaire des ventes.
Xi
Pi
R

pour i = 1,2

en dsignant par 1 et 2 les esprances respectives, c'est dire les moyennes des variables X1
et X2 sur chacune des populations (nous noterons 1 et 2 les carts types), l'hypothse nulle
s'exprime alors sous la forme :
H 0 1 = 2
l'hypothse alternative dans le cas de M Durlan est simplement la prfrence pour le rayon
"produits frais" (test unilatral), mais pourrait tre simplement un comportement diffrent
(test bilatral) :
H 1 1 > 2

ou

1 2

Nous supposerons de plus que les deux variables suivent une loi normale.
6.1.2 Formalisation l'aide de deux variables
Dans ce cas la population P unique est l'ensemble des supermarchs o sera distribu le
nouveau produit, quelque soit le rayon, la variable X est toujours la variable quantitative du
volume des ventes hebdomadaire, et nous allons introduire une nouvelle variable indicatrice Y
du rayon : cette variable vaut 1 pour le rayon "produits frais" et 0 pour le rayon "produits
laitiers". Le problme de M Durlan se rsume savoir s'il existe une forme de dpendance
entre ces variables, une fois la population munie d'une loi de probabilit uniforme ; la loi de X
est de plus suppose normale.
Les hypothses portent uniquement dans la formulation de M Durlan sur les esprances
conditionnelles, et non pas sur les deux paramtres. En effet, la moyenne 1 reprsente
l'esprance de X sachant Y=1, de mme la moyenne 2 reprsente l'esprance de X sachant
Y=0.
L'hypothse H0 revient alors crire :

1 = E ( X Y = 1) = E ( X = 0 Y = 0) = 2
Ce qui est peut s'interprter comme une "indpendance" en moyenne.

Page 141

Tests d'hypothse

L'hypothse alternative dans le cas bilatral est simplement la supposition d'une liaison entre
les deux moyennes sans en indiquer le sens, le cas unilatral tant l'existence d'une corrlation
de signe donn.
Dans la suite nous utiliserons la formalisation en termes de deux populations, la deuxime
formalisation sera gnralise aux variables qualitatives lors de la rgression (et en ajoutant
une hypothse supplmentaire sur les variances).
6.2 Statistique associe au test
L'hypothse nulle peut aussi s'crire

H0

1 2 = 0

Sur un chantillon de taille n1 tir de la population P1, le paramtre 1 aura pour estimateur
X n11 , de mme pour un chantillon de taille n2 tir de la population P2, l'estimateur du
paramtre 2 sera X n22 ; la statistique utilise sera donc la variable alatoire Z = X n11 X n22 . En
faisant l'hypothse de normalit des lois, nous connaissons thoriquement la loi de Z :
Z
N ( , ')

avec = 1 2 et ' 2 =

12
n1

22
n2

sous l'hypothse H0, en dsignant, nous aurons donc = 0 .


Malheureusement les carts type ne sont pas connus et nous allons tre conduits faire une
hypothse sur ceux ci, pour pouvoir mener bien le test. Nous aurons une connaissance
exacte de la loi de la statistique utilise uniquement dans un cas, le cas d'galit des variances.
Nous indiquons en annexe comment tester ventuellement cette galit
6.2.1 Egalit des variances(homoscdascit)
Si on ajoute l'hypothse 1 = 2 = , nous pouvons regrouper les deux estimateurs de cette
valeur commune, pour obtenir un estimateur de variance infrieure, donc plus prcis, en
tenant compte des dfinitions vues au chapitre prcdent, nous utiliserons :
S

2
n1 + n2 2

(n1 1)S n2 + (n2 1)S n2


1

n1 + n 2 2

, alors T =
S

2
n1 + n2 2

1
1
+
n1 n 2

suit une loi de Student

n1 + n2 2 degrs de libert.

6.2.2 Ingalits des variances(htroscdascit)


Si nous ne faisons plus l'galit des variances, une solution simple (voire simpliste) consiste
considrer que les chantillons sont suffisamment grands pour pouvoir remplacer les carts
type rels par leurs estimations et donc utiliser la loi normale. Remarquons que cette solution
est d'ailleurs la seule rellement applicable si l'on ne fait pas l'hypothse de normalit des lois
X1 et X2 sur les populations.
Toutefois, il est possible sous l'hypothse de normalit, d'avoir une meilleure approximation
Z
qui suit une loi de Student dont l'approximation du
en utilisant la statistique T =
2
S n1 S n22
+
n1
n2
nombre de degrs de libert est donne par la formule de Satterthwaite :
Page 142

Tests d'hypothse

dl =

(s

2
1

n1 )

(s

2
1

n1 + s 22 n2 )

(n1 1) + (s

2
2

n2 )

(n2 1)

Cette formule est utilise par les logiciels statistiques tels que SPSS ou SAS, c'est pourquoi
nous l'utiliserons aussi.
6.3 Test unilatral
Dans ce cas l'hypothse alternative est H 1 1 > 2 , il est inutile de distinguer ici le test droit
du test gauche puisque cela revient simplement changer les indices!, comme pour le test
contre un standard, nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette
hypothse) un cart entre les moyennes des chantillons trop improbable, c'est dire dont la
probabilit est infrieure au risque de premire espce fix.

6.3.1 Dtermination de la valeur critique


La valeur critique au-del de laquelle on rejettera l'hypothse H0 est donc dfinie par la valeur
c telle que :
prob(Z > c / H 0 ) = soit encore en prenant le complmentaire prob(Z < c / H 0 ) = 1 . La
valeur critique c correspond donc au fractile d'ordre 1 de la loi de Z sous l'hypothse H0.
On se ramnera la loi de Student en divisant par l'estimateur de l'cart type de Z suivant
l'hypothse faite sur l'galit des variances. En notant t1 le fractile de la de Student associe,
on a alors :

1
1
En cas d'galit des variances : c = t1 * s + o s dsigne l'estimation
n1 n 2

"regroupe" de 1 = 2 qui est calcul par la formule s =

(n1 1)s12 + (n2 1)s 22


n1 + n2 1

, la loi de

Student tant n1 + n2 1 degrs de libert.

s2 s2
En cas d'ingalit de variance : c = t1 1 + 2 , le nombre de degrs de libert tant
n1 n2
donn par la formule de Satterthwaite.

La rgle de dcision est alors la suivante, si sur les chantillons lcart observ ( p 1 p 2 ) est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
6.3.2 Calcul du niveau de signification
Le niveau de signification est dans ce cas la probabilit, sous lhypothse H0, dobserver un
cart entre les deux estimateurs qui soit en valeur absolu au moins gal lcart absolu
observ sur les chantillons :
ns = prob(Z >= x1 x 2 ) = (1 prob(Z < x1 x 2 ))

Ou encore en se ramenant en divisant par l'cart type convenable la loi de Student :

Satterthwaite, FW "An approximate Distribution of Estimate of Variance Components", Biometrics Bulletin,2,


110-114 (1946)

Page 143

Tests d'hypothse

x x2

ns = 1 prob T < 1
avec le nombre convenable de degrs de libert.
'

Si ce niveau de signification est infrieur au risque de premire espce , lhypothse H0 est


alors rejete.
6.3.3 Utilisation d'Excel
Nous prsenterons ici les rsultats dans les trois cas : galit de variance, ingalit de
variance. Rappelons qu'Excel donne toujours la fonction de rpartition symtrique de la loi de
Student. Les tailles et estimations des moyennes et carts types des deux chantillons sont
donnes au dbut du paragraphe 6, pour leur localisation dans la feuille.
1) Egalit des variances

Remarque : Nous avons dcompos les formules de faon pouvoir facilement les copier
pour le cas d'ingalit des variances. L'cart type de Z reprsente le dnominateur de la loi de
Student ; le 2*B14 qui apparat dans la formule de la cellule C15 est du la dfinition de la
fonction LOI.STUDENT.INVERSE d'Excel qui est symtrique ; enfin le troisime paramtre
1 de la fonction LOI.STUDENT indique le cumul. La valeur standard reprsente la diffrence
entre les deux moyennes estimes divise par l'cart type de Z.
Les valeurs obtenues sont alors :

On pourra donc rejeter l'hypothse H0, au risque de 5%, puisque l'cart observ (334,30320,95=13,35) est suprieur la valeur critique 9,36. On voit d'ailleurs par le niveau de
signification que si l'hypothse H0 est vraie, moins de 1% des chantillons pourraient conduire
un cart, entre l'estimation de p2 et celle de p1,suprieur 13,35.
2) Variances ingales
Avec les mmes conventions et notations que prcdemment on a les formules :

Page 144

Tests d'hypothse

Les valeurs obtenues sont alors :

On pourra donc rejeter l'hypothse H0, au risque de 5%, puisque l'cart observ (334,30320,95=13,35) est suprieur la valeur critique 9,34. On voit d'ailleurs par le niveau de
signification que si l'hypothse H0 est vraie, moins de 1% des chantillons pourraient conduire
un cart, entre l'estimation de p2 et celle de p1,suprieur 13,35.
Remarquons enfin que sur des tailles d'chantillon "raisonnables" comme celles que nous
avons ici, il n'y a que peu de diffrence entre les rsultats sous les deux hypothses d'galit
ou d'ingalit des variances, et il serait tout fait possible d'utiliser directement la loi normale
en remplaant les carts types thoriques par leurs estimations (exercice laiss au lecteur).
6.4 Test bilatral
Dans ce cas l'hypothse alternative est H 1 p1 p 2 , comme pour le test contre un standard,
nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette hypothse) un
cart en valeur absolue entre les moyennes des chantillons trop improbable, c'est dire dont
la probabilit est infrieure au risque de premire espce fix. Nous supposerons ici que les
tailles d'chantillons sont suffisamment grandes pour pouvoir utiliser l'approximation normale
directement, nous librant ainsi de l'hypothse de la normalit des lois sous jacentes.

Le lecteur pourra facilement passer du cas unilatral au cas bilatral pour les lois de Student.
6.4.1 Dtermination de la valeur critique
La valeur critique au-del de laquelle on rejettera l'hypothse H0 est donc dfinie par la valeur
c telle que :
prob( Z > c / H 0 ) = soit encore en tenant compte de la symtrie de la loi normale

prob(Z < c / H 0 ) = 1 2 . La valeur critique c correspond donc au fractile d'ordre 1 2


de la loi normale de moyenne 0 et d'cart type dfini au paragraphe prcdent. On peut bien
videmment se ramener au cas de la loi normale centre rduite, en notant z1 2 le fractile de
la loi normale centre rduite, on a alors :

Page 145

Tests d'hypothse

s2 s2
c = z1 2 1 + 2 o s1 et s2 dsignent les estimations des carts types de X1 et X2.
n1 n2
La rgle de dcision est alors la suivante, si sur les chantillons lcart absolu observ est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
6.4.2 Calcul du niveau de signification
Le niveau de signification est dans ce cas la probabilit, sous lhypothse H0, dobserver un
cart entre les deux estimateurs qui soit en valeur absolu au moins gal lcart absolu
observ sur les chantillons :
ns = prob( Z >= x1 x 2 ) = (1 prob(Z < x1 x 2 )) * 2

Puisque la loi normale suivi par Z est de moyenne nulle sous l'hypothse H0.
Si ce niveau de signification est infrieur au risque de premire espce , lhypothse H0 est
alors rejete.
6.4.3 Utilisation d'Excel
Sous Excel, nous avons la possibilit d'utiliser soit la loi normale, soit la loi normale centre
rduite (nomme standard sous Excel), pour le test bilatral nous donnerons les formules
utilisant la loi normale.
Sur la feuille de calcul Excel nous calculons tout dabord l'estimation de l'cart type de la loi
normale suivie par Z, ce qui nous permettra de calculer alors la valeur critique pour un risque
de premire espce donn ou/et le niveau de signification du test. Les formules sont les
suivantes :

Les valeurs obtenues sont alors :

On pourra rejeter l'hypothse H0, au risque de 5% puisque l'cart observ est de 13,35 donc
suprieur 11,10. On voit d'ailleurs par le niveau de signification, que le risque de premire
espce assum est au plus de 1,84%. Cette dernire valeur tait attendue, elle correspond

Page 146

Tests d'hypothse

environ au double du niveau de signification du test unilatral (environ du l'utilisation de la


loi normale et non de la loi de Student).
6.5 La fonction TEST.STUDENT
Il existe sous Excel une fonction nomme TEST.STUDENT, qui permet de dterminer le
niveau de signification du test de comparaison des moyennes, si l'on dispose des donnes dans
deux zones matricielles distinctes.

La syntaxe de cette fonction est la suivante :


TEST.STUDENT(matrice1;matrice2;uni/bilatral;type)

matrice 1 reprsente la zone o sont stockes les donnes du premier chantillon

matrice 2 reprsente la zone o sont stockes les donnes du deuxime chantillon

uni/bilatral vaut 1 pour un test unilatral, 2 pour bilatral

type peut prendre 3 valeurs :

1 pour un test dit "pair", on utilise la variable alatoire gale la diffrence des
deux variables, ce qui suppose que cette diffrence ait un sens et que le nombre
d'observations des deux chantillons soit le mme.

2 en cas d'galit des variances

3 en cas d'ingalit des variances.

7 Test du KHI-DEUX

Le test de contingence du Khi deux a pour objectif de mettre en vidence un lien ventuel
entre deux variables qualitatives. Nous allons l'illustrer sur un exemple (fichier Tchi2.xls) : le
fabricant de shampoing DIP, veut dterminer quels sont les critres de choix d'un shampoing
suivant les catgories d'ages, de faon plus prcise il veut savoir si ces critres diffrent
suivant les tranches d'ages. Aprs une enqute auprs d'un chantillon de 535 consommateurs,
il a t constitu un fichier de donnes o sont relevs le principal critre de choix, l'age et le
lieu d'achat habituel du consommateur.
7.1 Formalisation du problme
La population E est constitue de l'ensemble des consommateurs de shampoing, sur cette
population sont dfinies plusieurs variables qualitatives, dont les deux variables qui nous
intressent notes X et Y concernant le choix et la tranche d'age.

La variable "choix" est une variable qualitative m = 4 modalits notes ai pour 1 i m :


X
{ distribution, marque, odeur, texture} .
E

La variable "age" est une variable qualitative p = 3 modalits notes b j pour 1 j p :


Y
{ < 25, 25 - 45, > 45}
E

L'hypothse nulle, que l'on cherche rejeter est l'indpendance des deux variables,
l'hypothse alternative est la liaison entre les deux variables sans toutefois prciser de quel
type est cette liaison.
L'hypothse nulle peut se formuler de la faon suivante :

H 0 i [1, m] j [1, p ] prob(X = ai , Y = b j ) = prob( X = ai ) * prob(Y = b j )


Page 147

Tests d'hypothse

Les probabilits correspondent aux frquences observes sur la population toute entire,
puisque la loi mise pour l'chantillonnage quiprobable est la loi uniforme.
7.2 Tableaux croiss ou de contingence (observ et thorique)
Sur un chantillon de taille n, nous utiliserons les notations suivantes :

nij dsigne le nombre d'individus de l'chantillon possdant la modalit ai pour la variable X


et la modalit bj pour la variable Y.

nij
n

est donc l'estimation de prob(X = ai , Y = b j ) .

n j = nij dsigne le nombre d'individus de l'chantillon la modalit bj pour la variable Y.


i =1

n j
n

est donc l'estimation de prob(Y = b j ) .

ni = nij dsigne le nombre d'individus de l'chantillon la modalit ai pour la variable X


j =1

ni
est donc l'estimation de prob( X = ai ) .
n

On regroupe ces lments dans un tableau, appel tableau crois ou tableau de contingence
des deux variables, les lments n j et ni s'appellent les marges du tableau. On a donc la
prsentation suivante :
Y
X

Total

bj
..

..

..

ai

nij

..

..

ni

..

Total

n j

Sous l'hypothse H 0 , on peut construire le tableau thorique que l'on devrait obtenir si
l'indpendance tait parfaitement respecte sur l'chantillon ; on suppose que l'chantillon
parfait a les mmes marges que l'chantillon observ. Nous noterons eij les effectifs thoriques
correspondant l'indpendance. Nous aurons alors les relations suivantes :

i [1, m] j [1, p ]

eij
n

ni n j
*
n
n

soit

eij =

ni n j
n

On pourra donc construire le tableau thorique correspondant l'hypothse H 0 :


Y
X
..

ai

Total

bj

..

..

eij

Page 148

..

ni

Tests d'hypothse

..
Total

..

n j

Seules les cellules grises diffrent du tableau de contingence observ sur l'chantillon, si ces
deux tableaux sont suffisamment diffrents nous rejetterons l'hypothse H 0 . Il nous faut donc
dfinir une distance entre tableau et connatre la loi de cette distance sous l'hypothse nulle,
pour appliquer la mme dmarche que dans les tests prcdents.
7.3 Construction des tableaux sous Excel
Si l'on dispose des donnes brutes comme c'est le cas ici (feuille Enqute), il faut tout d'abord
construire le tableau de contingence observ. Pour cela on peut soit utiliser les tables (cf. le
chapitre rappel Excel), soit utiliser la commande "Tableau Crois dynamique" du menu
Donnes, que nous allons illustrer ici.

La cellule active tant une des cellules de donnes, pour qu'Excel dtermine lui-mme la zone
de donnes, nous choisissons donc la commande Donnes, puis Rapport de Tableau Crois
dynamique ; l'assistant va alors nous guider dans le choix des diffrents lments.
Tout d'abord nous devons indiquer partir de quelles donnes doit tre construit le tableau
crois :

Nous confirmons le choix par dfaut (Liste ou base de donnes) en cliquant sur suivant. Si la
cellule active est dans la zone de donnes l'tape suivante est simplement une confirmation de
la plage de donnes (sinon il faudra alors indiquer cette plage) ; nous passons directement
l'tape suivante qui est la cration du tableau crois.
Cette cration se fait en prcisant la variable en ligne, la variable en colonne et le contenu des
cases du tableau, ici le nombre des individus. Il suffit de faire glisser les champs apparaissant
droite de la bote de dialogue leur place dans le tableau crois (figure 1), puis de glisser
l'intrieur du tableau le champ correspondant une variable qualitative :

Page 149

Tests d'hypothse

Figure 1

Figure2

Si la variable est quantitative, Excel propose la somme des valeurs de cette variable pour
chacun des couples de modalit, en double cliquant sur l'tiquette intrieure au tableau il est
possible de modifier cette caractristique.
En cliquant sur "Suivant", on obtient une dernire boite de dialogue qui permet de choisir o
sera cr le rapport, nous choisirons l'option "Nouvelle feuille" et terminerons la cration du
tableau crois, ce qui nous donne le rsultat suivant sur une feuille qui a t renomme
"Choix-Age" :

Remarque : contrairement ce que l'on obtient par les tables d'hypothse, ce tableau ne
contient aucune formule, mais uniquement des valeurs (pour les marges aussi).
Il est alors facile d'obtenir le tableau thorique sous l'hypothse H0, par les formules suivantes
obtenues par recopie de l'une d'entre elles :

ce qui donne les valeurs des effectifs thoriques :

Il est clair dans la mesure o les valeurs ne sont pas entires, ce tableau thorique ne peut
videmment pas tre observ. Il nous faut savoir si l'cart entre le tableau observ et le tableau
thorique doit tre attribu aux alas de l'chantillonnage ou une dpendance structurelle
entre les variables. Ceci va se faire en dfinissant une distance entre les tableaux.

Page 150

Tests d'hypothse
7.4 Distance du Chi2 Test
Pour mesurer la distance entre deux tableaux A et B m lignes et p colonnes, l'ide naturelle
est de prendre la distance euclidienne dans Rmp, c'est dire :

d ( A, B ) =
2

(a
m, p

i , j =1,1

bij )

ij

cependant dans notre dmarche, cette distance ne correspond pas exactement ce que nous
recherchons. En effet, les deux tableaux (observ et thorique) ne jouent pas des rles
symtriques, nous voulons calculer la distance du tableau observ au tableau thorique
puisque nous nous plaons sous l'hypothse H0. Il est donc naturel d'accepter un cart plus
grand pour une case du tableau thorique prsentant un effectif plus grand, on va donc tenir
compte dans la distance des effectifs thoriques attendus, et nous utiliserons comme distance,
m , p (n e )2
ij
ij
2

la distance, dite distance du Chi2, dfinie par d =


o nij dsigne, comme au
eij
i , j =1
paragraphe prcdent, l'effectif observ et eij l'effectif thorique.
Une fois les marges fixes, les valeurs eij sont des constantes et sous l'hypothse H0, pour les
chantillons prsentant les marges donnes, seuls l'effectif nij change suivant la loi d'une
variable alatoire Nij, nous pouvons donc considrer la distance D comme une variable
m , p (N e )2
ij
ij
2
alatoire (statistique) dfinie par D =
, les variables alatoires Nij ne sont pas
eij
i , j =1
indpendantes, car elles doivent respecter les contraintes :
pour tout j
pour tout i

i =1

i =1

j =1

j =1

N ij = eij = n j
N ij = eij = ni

ce qui revient dire que seules (m-1)*(p-1) d'entre elles sont indpendantes, comme on peut
le voir quand on veut remplir "au hasard" un tableau m lignes et p colonnes en respectant
des marges donnes l'avance.
On peut alors dmontrer le rsultat suivant : quand n tend vers l'infini (et si aucun eij n'est
born), la variable D2 tend en loi vers une loi du Chi2 (m-1)*(p-1) degrs de libert.
Remarque : la condition impose sur les eij est rapprocher du cas de convergence d'une loi
binomiale vers une loi de Poisson.
L'hypothse H0 est rejete si la distance entre le tableau thorique et le tableau observ est
trop grande, c'est dire si la probabilit d'observer sous l'hypothse H0 une telle distance est
infrieure au risque de premire espce donn.
La valeur critique c de rejet de l'hypothse H0 est donc dtermine en fonction du risque
assume par la formule prob 2
> c = . On voit que la valeur critique peut
(
)(
)
1
1
m

tre fixe avant tirage de l'chantillon. La rgle de dcision est alors la suivante : si la valeur
de la statistique d 2 observe sur l'chantillon est suprieure c, l'hypothse H0 est rejete et
on conclut une liaison entre les deux variables, ceci avec un risque d'erreur infrieur .

Page 151

Tests d'hypothse

On peut aussi raisonner en terme de niveau de signification, en calculant la valeur de la


statistique d 2 sur l'chantillon, le niveau de signification est alors dfini par
prob 2
> d 2 = ns , la rgle de dcision consiste rejeter l'hypothse H0 si le
(
)(
)
1
1
m

niveau de signification est infrieur , dans ce cas le risque d'erreur est infrieur ou gal
ns.

7.5 Mise en uvre du test sous Excel


Pour calculer la valeur critique, il suffit d'utiliser la fonction KHIDEUX.INVERSE d'Excel,
qui retourne la valeur critique c pour un risque de premire espce donn a. La syntaxe est la
suivante :
KHIDEUX.INVERSE(alpha; degrs de libert)

Il faut alors calculer la statistique sur l'chantillon, voici les formules correspondantes (les
colonnes C et D ont t masqu), la valeur de la statistique est dans le coin infrieur droit du
tableau, chaque case contient la diffrence entre l'effectif thorique et l'effectif observ au
carr divise par l'effectif thorique. La statistique est simplement la somme de toutes les
cases du tableau :

ce qui conduit aux valeurs numriques :

En appliquant la rgle de dcision, comme 100,5>12,59 on rejette l'hypothse H0 avec un


risque de premire espce infrieur 5%.
Pour calculer le niveau de signification, on dispose de deux fonctions, l'une utilise
directement les tableaux, l'autre la valeur de la statistique calcule. La fonction
TEST.KHIDEUX vite le calcul de la statistique, elle retourne directement le niveau de
signification avec comme paramtre les deux tableaux : le thorique puis l'observ. La
syntaxe est TEST.KHIDEUX(thorique, observ) sur l'exemple :
TEST.KHIDEUX(B3:D6;B10:D13)

Attention l'ordre des paramtres!

Page 152

Tests d'hypothse

L'autre mthode consiste utiliser la fonction LOI.KHIDEUX(valeur, DL) qui retourne la


probabilit pour qu'une loi du CHI2 DL degrs de libert soit suprieure valeur. Cette
fonction demande bien sur d'avoir calcul la statistique sur l'chantillon, ici la formule est
donc LOI.KHIDEUX(E24;6).
Dans les deux cas on trouve comme valeur ns =1,957E-19, on peut donc rejeter l'hypothse
H0 avec un risque quasi nul (infrieur 210-19).
8 Annexe : Comparaison de deux variances

Nous allons indiquer ici succinctement la procdure de test d'galit de deux variances,
l'hypothse alternative tant le fait que les variances sont diffrentes, les cas unilatraux tant
laisss au lecteur dans la mesure o ils sont trs rarement utiliss dans la pratique.
Nous considrons deux variables quantitatives X1 et X2 dfinies sur deux populations P1 et
P2(comme dans le paragraphe 6- comparaison de deux moyennes), nous supposerons de plus
que ces deux variables suivent une loi normale d'cart type respectif 1 et 2.
L'hypothse nulle et l'hypothse alternative sont respectivement :
H0
H1

1 = 2
1 2

On utilisera l'hypothse nulle sous la forme 12 22 = 1 . L'hypothse alternative peut alors

s'crire sous la forme 12 22 > 1 ou 22 12 < 1 , soit encore max 12 22 , 22 12 > 1 .


Sur un chantillon de taille n1 de la population P1, l'estimateur de la variance est la statistique
que nous avons note S n21 et nous savons que (n1 1)S n21 12 suit une loi du Chi2 (n1 1)
degrs de libert, si la loi de X1 est une loi normale. De mme, sur un chantillon de taille n2
de la population P2, l'estimateur de la variance est la statistique que nous avons note S n22 et

nous savons que (n 2 1)S n22 22 suit une loi du Chi2 (n 2 1) degrs de libert (voir le
chapitre sur l'estimation).
Pour le test nous allons utiliser la statistique

S n21
S n22

, dont la loi est connue sous l'hypothse H0,

car alors les deux variances sont gales donc les deux dnominateurs rappels ci-dessus le
sont aussi. Cette loi est la loi de Fisher-Snedecor (n1 1, n 2 1) degrs de libert, nous
noterons FS n , p la loi gnrique (n,p) degrs de libert. D'aprs la dfinition mme de cette
loi, on peut voir que :
pour f > 1

prob(FS n , p > f ) = prob(FS p ,n < 1 f )

puisque changer le couple (n,p) en (p,n) revient simplement inverser la fraction dfinissant
la loi.
8.1 Dtermination de la valeur critique

8.1.1 Les formules


La valeur critique c de rejet de l'hypothse H0 est dtermin par l'quation :

Page 153

Tests d'hypothse

S n21 1
S n21

prob 2 < + prob 2 > c =


Sn

Sn

2 c
2

en utilisant la remarque faite la fin du paragraphe prcdent, nous obtenons :

S n21
prob 2 > c =
2

Sn

2
La rgle de dcision est alors la suivante : si s1 et s2 sont les carts type estims sur les
chantillons, on rejettera l'hypothse H0 avec un risque d'erreur infrieur , si :
s2 s2
max 12 , 22 > c
s 2 s1

sinon on conservera l'hypothse H0, sans connatre le risque d'erreur.


8.1.2 Utilisation d'Excel
Sous Excel nous pouvons utiliser la fonction INVERSE.LOI.F(proba;DL1;DL2)=f o f est
dfinie par prob(FS DL1, DL 2 > f ) = proba . Pour un risque de premire espce donn , il
suffira donc de donner proba la valeur /2. Sur l'exemple du paragraphe 6, nous avons les
formules et valeurs numriques suivantes :

Valeurs

Formules

Comme la valeur critique est infrieure la valeur observe, nous ne pouvons pas rejeter
l'hypothse H0 au risque de 5%, nous conserverons donc l'hypothse d'galit des variances.
8.2 Calcul du niveau de signification

8.2.1 Les formules


s2 s2
Nous noterons f = max 12 ; 22 , la valeur observe sur l'chantillon le niveau de
s 2 s1
signification est la probabilit d'observer une valeur au moins gale f sous l'hypothse H0.
Cette probabilit peut s'crire :

ns = 2 * prob FS n11,n 21 > f

La rgle de dcision consiste rejeter l'hypothse H0, si le niveau de signification ns est


infrieur au risque de premire espce .
8.2.2 Utilisation d'Excel
Pour calculer le niveau de signification, on dispose sous Excel de deux fonctions selon que
l'on dispose des donnes brutes ou seulement des rsums.

Page 154

Tests d'hypothse

A partir des donnes brutes on utilisera la fonction TEST.F(echan1,echan2) o echan1 et


echan2 dsigne les zones ou sont stockes les donnes des deux chantillons. Cette fonction
retourne directement le niveau de signification du test.
A partir des rsums, ce sera la fonction LOI.F(fobserv,DL1,DL2) qui sera utilise; cette
fonction renvoie la probabilit d'obtenir une valeur suprieure ou gale fobserv pour une
loi de Fisher-Snedecor (DL1,DL2) degrs de libert.
Sur l'exemple les formules et les valeurs sont :

Formules

Valeurs

Il y a ici plus de 77% de chances d'observer une telle valeur de f sous l'hypothse H0, on ne
rejette donc pas l'hypothse nulle au risque de 5%.

EXERCICES SUR LES TESTS D'HYPOTHESE


Sauf indication contraire, on prendra pour tous les exercices pour risque de premire espce
les deux valeurs 5% et 1%.
1 Taux de phosphate (phos.xls)

Un fabricant de lessive affirme que le taux de phosphates contenu dans les lessives de sa
marque est infrieur 6% du poids total. Un institut de consommation a fait analyser un
chantillon de 150 paquets dont les rsultats sont donns dans le fichier "phos.xls".
1. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
2. Formulez sous forme de test le problme de l'institut de consommation.
3. Quelle conclusion tirez-vous de l'analyse de l'chantillon?
2 AntiSmoke(tabac.xls)

Un laboratoire pharmaceutique envisage de lancer sur le march un nouveau "patch" antitabac "Antismoke", que s'il assure au moins 25% de russite, c'est dire qu'au moins 25% des
utilisateurs ne doivent pas recommencer fumer aprs un mois de traitement.
Des essais ont t faits sur un panel de 100 fumeurs et les rsultats sont donns dans le fichier
"tabac.xls", la reprise=1 indique que le fumeur a rechut avant la fin du mois sinon il est
indiqu 0.
1. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
2. Formulez le test du laboratoire
3. Le laboratoire doit-il lancer son produit?
4. Peut-on faire une diffrence sur l'efficacit du mdicament selon le sexe de la personne?

Page 155

Tests d'hypothse
3 Le groupe de presse AES

Le groupe de presse AES (Avenir et Socit) est spcialis dans l'dition de livres et de revues
scientifiques. L'une de ces revues Sciences du Futur, est diffuse exclusivement par
abonnement. La direction commerciale dsire prospecter le segment de clientle des
professions mdicales par des offres d'abonnement des tarifs prfrentiels. Pour cela elle
envisage d'acqurir le fichier des abonns de la revue mdicale CADUCOR.
CADUCOR annonce que l'exprience passe montre quentre 8 12 % environ des mdecins
du fichier rpondent positivement aux offres qui leur sont faites par correspondance
(abonnements, livres, objets etc...). Aprs un calcul de rentabilit, AES estime que le fichier
peut se rvler intressant sil prsente un taux de rponse suprieur 10%.
1. Prciser la population, la variable de description et le paramtre faisant l'objet de l'tude.
2. Formuler le problme sous forme d'un test. Donner la forme gnrale de la rgion de rejet
de l'hypothse H0. Donner une interprtation des deux types d'erreur.
3. AES dsire contrler l'erreur de type I en fixant le risque associ a = 0.05. Prciser la
rgion de rejet du test si la taille de l'chantillon retenue est de 400.
4. Une proposition d'abonnement a t envoye 400 mdecins; 58 d'entre eux ont rpondu
favorablement.
D'aprs ce rsultat AES doit-il acheter le fichier CADUCOR ?
4 Contrle de qualit (quali.xls)

Un fabricant de coque de tlphones portables veut tester la solidit de sa fabrication,


effectue sur deux machines. Il prlve 50 lments au hasard sur la chane de fabrication et
les soumet un essai de chocs. Une machine frappe sur la coque jusqu' rupture de celle ci ;
un bon modle doit rsister plus de 260 chocs.
Les donnes rsultant du test vous sont fournies dans le fichier "quali.xls", ainsi que le
numro de la machine ayant fabriqu la pice.
5. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
6. Formulez le test du fabricant
7. Le produit vous parat satisfaisant au point de vue rsistance?
8. Peut-on faire une diffrence suivant la machine ayant servi la fabrication?
5 La socit LOCVIDEO (fichier Videos.xls)

La socit LOCVIDEO est une entreprise de location de vidos du Sud-Est de la France, il est
principalement implant dans la rgion Lyonnaise, Grenobloise et Marseillaise. Jusqu'
prsent l'approvisionnement des points de ventes se faisait de la mme faon quelle que soit la
ville, au bout d'un an d'existence la direction se demande si elle ne devrait modifier sa
politique. Vous disposez d'un chantillon de la consommation de 1192 clients sur un mois
pour faire vos recommandations.
1. Y a t-il une relation entre le premier ou le second choix de location et la ville?
2. Y a t il une relation entre le sexe et le choix des vidos?
3. Pouvez vous classer les trois rgions en fonction de leur consommation : quelle est la ville
qui consomme le plus de vidos?

Page 156

Tests d'hypothse

4. Que conseilleriez-vous LOCVIDEO?


6 La socit SVC

La socit SVC vend par correspondance des CD-Audio. Pour cela elle procde par
publipostage dans lequel on trouve une description du CD propos, accompagne dune offre
promotionnelle (remise ou cadeau en cas dachat). Le publipostage est envoy aux 120000
personnes figurant dans le fichier clients de la socit.
En 1996, la cinquime symphonie de Beethoven ft propose avec une remise de 10 % en cas
dachat sous huitaine une fois reu le publipostage. Elle ft vendue 18 000 exemplaires.
La direction Marketing dsire renouveler lopration avec la neuvime symphonie de
Beethoven. Elle hsite entre deux formules :
La formule F1 dj utilise pour promouvoir la cinquime symphonie.
La formule F2 offrant un mini dictionnaire de termes musicaux en cas dachat.
Il a t dcid de tester ces deux formules en recourant deux sondages dans le fichier des
120 000 clients : la formule F1 tant propose un premier chantillon et la formule F2 un
second diffrent du premier. Lobjectif des ces deux sondages est destimer la proportion
dacheteurs suivant chacune des deux formules avec un seuil de prcision de 1% 6. La taille
retenue pour chaque chantillon est de 4 900.
Les deux sondages ont donn les rsultats suivants :
Formule F1
Nombre dacheteurs

801

Formule F2
914

1. Vrifier que la taille de lchantillon retenue correspond bien lobjectif de prcision de


1%.
2. La direction marketing en se fondant sur les rsultats du tableau 1 pense que la neuvime
symphonie pourrait se vendre un nombre dexemplaires suprieur celui de la
cinquime. Confirmer ou infirmer cette hypothse.
3. Des deux formules F1 ou F2 laquelle faut-il retenir ?
4. Donner les nombres minimum et maximum de CD de la neuvime susceptibles dtre
vendus.
Remarque : pour traiter ces questions on utilisera
un degr de confiance de 0.95
un risque de type I gal 0.05
7 La socit Votre Sant

La socit Votre Sant est une entreprise de vente par correspondance de produits de beaut
dits naturels . Elle gre un fichier de 350 000 clients et propose chaque mois une offre
promotionnelle accompagne dun cadeau. Le taux de rponse cette offre est gnralement
de 15%, la marge moyenne par rponse de 340F. Mlle C. Claire, nouvellement en charge de
ce fichier, a retenu comme cadeau un abonnement gratuit de six mois, au mensuel Votre
beaut Madame . Elle pense que cela pourrait augmenter le taux de rponse la prochaine
offre ; toutefois cette proposition ne serait rentable que si le taux de rponse dpassait les
6

Le seuil de prcision est la demi-longueur de lintervalle de confiance. Il sagit dun seuil de prcision absolue.

Page 157

Tests d'hypothse

17,5% (avec la mme marge moyenne videmment). Elle envisage de tester la ralit de ces
hypothses sur un chantillon de clientes. La prcision voulue pour son estimation est de
lordre de 2%.
Questions

1. Quelle taille dchantillon doit-elle choisir afin d'atteindre la prcision voulue (avec un
degr de confiance de 0,95) ?
2. Les rsultats dun sondage sur un chantillon de 1225 clientes vous sont donns en
annexe 1.
3. Donner une estimation par intervalle au degr de confiance 0,95 du pourcentage de
rponses positives attendu loffre.
4. Mlle C. Claire se propose de procder au test dhypothse suivant :
H0 <=17,5%
H1 >17,5%

Expliquer pourquoi elle envisage ce test. Indiquer et dterminer la rgion de rejet associ ce
test (risque de type I gal 0,05). Que concluez-vous ?
5. Mlle C. Claire pense que les nouveaux clients (inscrits depuis moins de 6 mois) ont un
taux de rponse suprieur aux anciens. Confirmer ou infirmer cette hypothse.
6. Il sagit dans cette question de dterminer un intervalle de confiance au degr de
confiance 0,95 de la marge de la campagne promotionnelle.
Peut-on considrer que la marge moyenne attendue de cette campagne sera la mme que
pour les campagnes prcdentes. On posera cette alternative sous forme de test et on
prendra un risque de premire espce de 0,05
En dduire une estimation par intervalle de la marge totale attendue.
Annexe 1 Rsultats du sondage

Taille de lchantillon : 1225 individus


Nombre dindividus
Nombre de rponses

Total
1225
258

Anciens Clients

850
193

Rsultats sur la marge

Marge totale
85140 F

Marge Moyenne
330 F

Ecart-type de la marge
165 F

8 Exercice 8 : La socit Bricoplus

La socit Bricoplus a lanc pendant un mois une campagne publicitaire avec bons de
rduction dans la presse rgionale. Le cot de la campagne a t de 1000KF. A la fin du mois
elle a reu 20000 commandes (avec ou sans bon de rduction). Avant de traiter lensemble
des commandes, la socit voudrait avoir une estimation du succs de cette campagne. Pour
cela elle tudie un chantillon de 900 commandes prises au hasard. Les rsultats de cet
chantillon sont donns dans le tableau suivant :
Origine
Nombre

Avec Bon Sans Bon


473
427

Page 158

Total
900

Tests d'hypothse

Valeur moyenne
Ecart-type(Valeur)

308
207,6

293
191,2

300,88
200

1) Peut-on considrer quil y a autant de commandes provenant de la campagne publicitaire


(avec bon de rduction) que de commandes ordinaires (sans bon de rduction) ? (On
prendra un risque de premire espce de 0,05)
2) Le montant moyen des commandes avec bon est-il gal au montant moyen des
commandes sans bon ? (On prendra un risque de premire espce de 0,05)
3) Donner une estimation ponctuelle et un intervalle de confiance 0,95 du chiffre daffaires
du mois.
4) Le directeur financier doute de la performance de cette campagne en terme de rentabilit,
il envisage mme une diminution de profit. Sachant que le Chiffre daffaires mensuel
avant la campagne tait denviron 4500000F et que le taux de marge par produit est de
50%, poser sous forme de test la conjecture du directeur financier. Quen concluez-vous ?
9 La socit ABC

La socit ABC se propose de lancer un nouveau produit dans lensemble des 25000
magasins distribuant sa marque. Elle veut valuer la capacit de production hebdomadaire
ncessaire, pour cela elle a choisi un march test de 400 magasins. Les rsultats obtenus sur
cet chantillon sont les suivants :
Moyenne des ventes par magasin et par semaine : 800 units
Ecart-type estim des ventes : 360 units
1) Donner une estimation ponctuelle, puis un intervalle de confiance 0,95 du volume total
espr des ventes.
2) Quelle taille dchantillon aurait t ncessaire pour atteindre une prcision de 200000
units sur les ventes totales ?

10 Une enqute de satisfaction

Une enqute de satisfaction sur les utilisateurs dune voiture urbaine a montr que sur 1000
personnes interroges 640 se dclarait satisfaits du service aprs vente du constructeur.
Donner un intervalle de confiance au degr de confiance 0,95 du pourcentage de personnes
satisfaites
Peut-on considrer que plus de 60% des utilisateurs de ce service aprs vente sont satisfaits.
La rpartition des personnes satisfaites par tranche dge est la suivante :
Tranche dge
18-35 ans Plus de 35 ans
Nombre de personnes interroges
600
400
Satisfaits
350
290
Peut-on conclure que chez les moins de 35 ans le taux de satisfaction est significativement
plus lev que chez les plus de 35 ans(on prendra un risque de premire espce de 0,05) ?
11 Exercice 11 : La Socit Sogec (d'aprs J. Obadia)

La Socit SOGEC, filiale de la banque HERVA est spcialise dans le crdit la consommation.
En 1998, le montant des crdits accords ses clients tait de 2 4120 000 F et la provision
pour crances douteuses estime 1 206 000 F. Jusqu'en 1997, cette provision tait calcule
aprs un examen exhaustif de tous les comptes clients, permettant de mettre en vidence les

Page 159

Tests d'hypothse

crances douteuses (une crance tant dclare douteuse lorsqu'il est constat deux chances
non payes sur les quatre dernires dues).
En 1998, le chef comptable abandonne cette procdure, prsentant l'argument suivant :
Lorsque l'on examine les donnes des dix dernires annes, on constate que la proportion
de crances douteuses varie, suivant les annes entre 3% et 6%. Aussi afin d'viter un travail
long et fastidieux mon service (3 employs mobiliss pendant 45 jours), il est prfrable
d'estimer la proportion de crances douteuses 5% et dappliquer ce taux au montant global
des crdits accords pendant l'anne. Cela suppose bien sr que la valeur moyenne des
crances douteuses soit gale la valeur moyenne de l'ensemble des crances. Ce qui a t le
cas ces dernires annes .
M. Allais, charg par la maison mre du contrle des donnes comptables de la Socit
SOGEC, demande M. Salmain de raliser un sondage. Ce sondage devrait permettre, aprs
examen d'un chantillon de comptes clients, de vrifier les deux hypothses sur lesquelles
repose la procdure adopte par le chef comptable. M. Salmain considra que l'estimation du
pourcentage des crances douteuses tablie partir de ce sondage n'tait pas suffisamment
prcise (avec un degr de confiance de 0.95). Il procda un autre sondage, permettant
d'obtenir une prcision de l'ordre de 4% (toujours avec un degr de confiance de 0.95). Les
rsultats de ce deuxime sondage sont donns en annexe. M. Salmain avait en main tous les
lments pour estimer la valeur des crances douteuses.
1

Lorsqu'il prsente la nouvelle procdure qu'il a adopte, le chef comptable prcise : Cela
suppose bien sr que la valeur moyenne des crances douteuses soit gale la valeur
moyenne de l'ensemble des crances . Expliquez pourquoi ?

Examen des rsultats du premier sondage

2.1

Le premier sondage permet d'tablir une estimation de proportion des crances


douteuses. Donner cette estimation. Quelle est la prcision obtenue si l'on adopte
un degr de confiance gal 0.95 ?

2.2

En dduire un intervalle de confiance. M. Salmain considre l'estimation des


pourcentages des crances douteuses peu prcise. Pourquoi ?

Examen des rsultats du second sondage


3.1

La taille de l'chantillon retenue est de 323. Justifier ce choix.

3.2

Donner la rgion de rejet de l'hypothse du chef comptable concernant la


proportion de crances douteuses :
H 0 : 0.05
H 1 : > 0.05
Le risque de type I , , est fix 0.05.

3.3

Quelle conclusion concernant la valeur de retenue par le chef comptable faut-il


adopter ?

3.4

Etablir un intervalle de confiance du paramtre d, moyenne des crances


douteuses.

3.5

Tester l'hypothse du chef comptable concernant la valeur moyenne d des


crances douteuses pour l'anne 1992 :
H0 : d = 402
Page 160

Tests d'hypothse

Justifier la formulation de l'hypothse H0. Prciser l'hypothse H1. Conclusion ? (le


risque de premier type I fix 0.05).
3.6

Etablir un intervalle de confiance du paramtre (degr de confiance gal


0.95).

3.7

Dduire des questions 5 et 6, une estimation de la valeur totale des crances


douteuses. Quelle est la prcision obtenue ? En dduire un intervalle de confiance.
(degr de confiance gal 0.95).

Annexe

Rsultats du premier sondage


Taille de la population sonde ................................................................. 60 000
Nombre de crances examines...................................................................... 50
Nombre de crances douteuses dans l'chantillon ............................................ 8
Rsultats du deuxime sondage
Taille de la population sonde ................................................................ 60 000
Nombre de crances examines................................................................... 323
Nombre de crances douteuses dans l'chantillon ......................................... 43
Valeur moyenne des crances douteuses dans l'chantillon ........................ 408
Estimation de l'cart-type de la valeur des crances douteuses ..................... 92
NB : Pour raliser le second sondage, il a t tenu compte des cinquante crances

Page 161

Rgression Linaire

LA REGRESSION LINEAIRE
1 Un exemple (fichier Pubradio.xls)

Une entreprise de produits de grande consommation dsire mesurer l'efficacit des campagnes
de publicit et promotion pour diffrents mdias. Spcialement trois types de mdias sont
utiliss rgionalement, la presse, la radio et la distribution d'extraits de catalogue gratuits. Un
chantillon de 22 villes de mme grandeur a t choisi, villes pour lesquelles diffrents
budgets de publicit ont t attribus aux trois. Aprs une priode d'un mois, les ventes du
produit (en milliers d'euros) ont t enregistres ainsi que les dpenses publicitaires.
Ville
1
2
3
4
5
6
7
8
9
10
11

Ventes
( 000)
894
1032
804
576
840
894
858
1086
810
906
1500

Radio
( 000)
0
0
9
9
13
13
16
16
19
19
19

Journaux Gratuits
( 000)
(00)
19
9
19
3
9
7
9
11
13
12
13
8
16
11
16
17
9
15
9
10
19
15

Ville
12
13
14
15
16
17
18
19
20
21
22

Ventes
( 000)
1452
960
840
1224
1224
1296
1320
1404
1602
1722
1584

Radio Journaux Gratuits


( 000)
( 000)
(00)
19
19
17
23
0
16
23
0
15
26
9
10
26
9
12
29
13
14
29
13
12
33
16
21
33
16
19
33
19
20
33
19
15

La direction commerciale peut-elle utiliser ces donnes pour prvoir les ventes en fonction
des budgets dpenss?
2 La notion de modle en statistique

Un modle statistique met en relation une variable dite variable dpendante ou variable
expliquer et des variables dites indpendantes ou variables explicatives. Le vocabulaire
dpendant, indpendant est plutt anglo-saxon, la terminologie franaise correspond la
notion de variables explicatives et expliquer ; les deux terminologies sont sujettes caution,
dans la mesure o les variables explicatives ne sont pas forcment indpendantes au sens
probabiliste (sur la population munie de la loi uniforme), mais ne sont pas non plus cause des
variations de la variable expliquer. Dans la suite nous conserverons la terminologie
franaise, variable expliquer, variables explicatives. Les variations des variables explicatives
sont simplement supposes influencer les variations de la variable expliquer, le fait d'en tre
la cause ne peut tre prouv statistiquement, mais rsultera d'un raisonnement conomique ou
autre, tranger la statistique.
Un tel modle statistique doit permettre :
D'tablir une relation analytique ou structurelle entre la variable expliquer et les
variables explicatives (gnralement partir d'un chantillon).
D'analyser l'influence simultane et/ou individuelle des variables explicatives sur
la variable expliquer. Dans certains cas d'liminer des variables qui ne
s'avreraient pas influentes ou de prciser les liens de causalit supposs par
ailleurs.
De prvoir la valeur espre de la variable expliquer si les valeurs des variables
explicatives sont connues, et de prciser un intervalle de confiance pour cette
prvision.
Page 162

Rgression Linaire

Dans la suite nous noterons toujours Y la variable expliquer et ( X k )k =1, p les variables
explicatives (au nombre de p) ; si la variable explicative est unique nous la noterons X sans
indice. Toutes ces variables sont dfinies sur une mme population P.
Exemples :
Dans notre exemple P : population des villes o sont distribus les produits
pendant une priode donne
Y = ventes mensuelles des produits en milliers d'euros
X1 = budget mensuel publicitaire radios locales en milliers d'euros
X2 = budget mensuel publicitaire presse locale en milliers d'euros
X 3 = budget mensuel publicitaire pour les gratuits en milliers d'euros
L'objectif est alors de prvoir les ventes mensuelles en fonction des budgets
attribus aux deux mdias.
P : population des mnages en France pendant une priode donne
Y = consommation d'un mnage pendant cette priode
X = revenu du mnage pendant cette priode
Ou encore
Y = consommation d'un mnage pendant cette priode
X = revenu du mnage pendant cette priode
L'objectif pourrait alors tre de prvoir l'impact d'une politique de revenus sur la
consommation ou l'pargne.
P : population des appartements d'un quartier de Paris une priode donne
Y = prix d'un appartement
X1 = surface de l'appartement
X2 = l'existence d'un parking
Etc..
P : population des zones gographiques de reprsentation mdicale pendant une
priode donne
Y = nombre trimestriel de prescriptions d'un mdicament
X1 = dure moyenne de la visite
X2 = nombre d'chantillons distribus
X3 = nombre de visites par mdecins
Etc..
2.1 Relation dterministe/statistique
Une variable Y est dite en relation dterministe avec des variables ( X k )k =1, p s'il existe une

fonction f bien dfinie telle que : Y = f (X 1 , X 2 ,K , X p ) . Ce type de relation associe une et

seule valeur y Y pour des valeurs x = ( x k )1 k p des variables X = ( X k )k =1, p . Un tel modle
appliqu au deuxime exemple du prix d'un appartement signifierait par exemple que tous les
Page 163

Rgression Linaire

appartements de 100m2 avec un parking ont le mme prix de vente. Ceci n'est videmment
pas raliste, dans un mme quartier des appartements de mme surface sont des prix
diffrents, ceci est du des lments tangibles tels que l'orientation, l'tage, la prsence d'un
gardien, ou des lments plus subjectifs regroups souvent sous le terme de charme.
L'exemple prcdent montre que pour une valeur donne des variables explicatives ne
correspond pas une seule valeur de Y, mais tout un ensemble de valeur de Y, qui bien sur
s'appliqueront diffrents individus de la population pour lesquels les variables explicatives
ont les mmes valeurs : un appartement donn aura toujours un prix et un seul, mais le fait de
connatre sa surface et la prsence ou non d'un parking ne suffiront pour que l'on connaisse de
faon dterministe son prix.
On exprimera cette notion en disant que les variables explicatives dterminent une loi de
probabilit de la variable expliquer Y, cette loi sera note Yx. Les paramtres de la loi de Yx
seront des fonctions dterministes de la variable X = ( X k )k =1, p , en particulier la moyenne sera
note x et sera l'esprance de Y conditionne par la valeur prise par les variables
explicatives :

x = E (Y / X = x )
on peut alors crire sans perdre de gnralit que
Yx = ( x ) + x
o x est une variable alatoire de moyenne nulle (obtenue aprs centrage de la variable Yx )
et dont les autres paramtres dpendent thoriquement de la valeur x prise par les variables
explicatives.
Ainsi sur le prix d'un appartement on aurait pour un appartement de 100 m2 avec parking
(cette dernire variable valant 1 pour l'existence d'un parking 0 sinon) :
Y100,1 = (100,1) + 100,1
se dcompose en deux parties, une partie dterministe qui donnera le prix moyen d'un tel
appartement et une partie alatoire cart entre le prix moyen et le prix de l'appartement, qui
prend en compte les autres lments pouvant intervenir dans la fixation du prix. On crira
souvent de manire abusive, le modle sous la forme :
Y = f (X ) + E X

La modlisation statistique consiste spcifier la nature de la fonction dterministe de la


moyenne, et les relations dfinissant les paramtres de la variable alatoire ex en fonction des
valeurs de x. C'est dire de se fixer priori une certaine famille de fonction dpendant de
paramtres qu'il faudra estimer partir de donnes d'un chantillon, il faudra aussi l'aide de
tests valider la forme prdfinie des diffrentes fonctions.
2.2 Exemple sur le prix d'un appartement
Il est possible pour ce problme d'envisager trois modlisations :

1. La prsence d'un parking n'influence pas le prix de l'appartement dans ce cas seule la
surface est un lment dterminant du prix, la fonction dterministe dfinissant la
moyenne est une fonction d'une seule variable :
f ( X 1 , X 2 ) = a + bX 1 d'o Y = a + bX 1 + X

pour une valeur donne de la surface x1, nous aurons alors


Page 164

Rgression Linaire

Yx1 , x2 = a + bx1 + x1
b reprsente le prix du mtre carr dans le quartier (a serait en quelque sorte le cot
d'entre dans le quartier)
2. La prsence d'un parking est un cot fixe donc augmente de faon constante le prix de
l'appartement dans ce cas la fonction dterministe dfinissant la moyenne est une fonction
de deux variables :
f ( X 1 , X 2 ) = a + bX 1 + cX 2 d'o Y = a + bX 1 + cX 2 + X

pour des valeurs donnes x1 et x2, nous aurons alors


Yx1 , x2 = a + bx1 + cx 2 + x1 , x2
b reprsente le prix du mtre carr dans le quartier et c reprsente le prix d'un parking
dans le quartier (a serait en quelque sorte le cot d'entre dans le quartier).
3. On peut aussi envisager que la prsence d'un parking influe aussi sur le prix du mtre
carr, auquel cas nous aurions la fonction dterministe suivante :
f ( X 1 ,0 ) = a + bX 1 en l'absence de parking
f ( X 1 ,1) = a '+b' X 1 en prsence d'un parking

en notant a'=a+c et b'=b+d nous pouvons rcrire ces deux quations sous la forme
unique suivante :
f ( X 1, X 2) = a + bX 1 + cX 2 + dX 1 X 2

ou encore en notant X3 la variable dfinie par X3=X1X2, nous avons un modle linaire
trois variables explicatives :
Y = a + bX 1 + cX 2 + dX 3 + X
pour des valeurs donnes x1 et x2 (x3=x1x2), nous aurons alors
Yx1 , x2 = a + bx1 + cx 2 + dx3 + x1 , x2
A partir d'un chantillon d'appartement, la modlisation statistique nous permettra d'estimer
les coefficients et de tester la validit de chacun des modles sur l'ensemble de la population.
La modlisation fait donc appel aux deux techniques que nous avons prsentes
prcdemment l'estimation et les tests d'hypothse.
3 Le modle de rgression linaire

Nous allons ici faire des hypothses tant sur la partie dterministe, fonctionnelle de la
moyenne conditionne, que sur la partie alatoire ; ces conditions vont nous permettre d'avoir
des outils pour estimer les lments du modle appel modle de rgression linaire.
3.1 Hypothse dterministe du modle de rgression linaire
La premire hypothse du modle de rgression linaire consiste modliser l'esprance
mathmatique conditionnelle par une fonction linaire (ou plus exactement une fonction
affine) :

(x1 , x 2 , K, x p ) = 0 + 1 x1 + 2 x 2 + K + p x p

Remarque : si l'on ajoute la variable "artificielle" X0 gale 1 sur toute la population (donc x0
vaut toujours 1), la formule peut alors s'crire :
Page 165

Rgression Linaire
k= p

(x0 , x1 , x 2 , K, x p ) = 0 x 0 + 1 x1 + 2 x 2 + K + p x p = k x k
k =0

ce qui justifie le nom de linaire.


Dans le cas d'une seule variable explicative, la rgression est dite simple dans tous les autres
cas la rgression est dite multiple. Dans la mesure o nous utiliserons des fonctions
spcialises d'Excel pour la rgression, nous ne ferons pas de distinction entre rgression
simple et multiple.
Les coefficients ( k )1 k p sont appels coefficients de la rgression et sont videmment
inconnus, ce sont des coefficients valables sur toute la population, si l'un d'entre eux j est
nul cela veut dire que la variable associe X j n'a pas d'influence marginale linaire sur les
variations de la variable Y, mais cela ne veut pas dire que la variable X j n'a pas d'influence
sur les variations de Y, cette influence peut tre d'autre nature (logarithmique, exponentielle
etc) ou peut tre cache par des corrlations entre variables explicatives, la part explicative
de la variable X j tant dj prise en compte par d'autres variables. La variable alatoire

conditionne par les valeurs (x1 ,K, x p ) s'crit alors :


k=p

Yx1 ,K, x p = k x k + x1 ,K, x p


k =0

ce qui peut s'crire de manire abusive, sans rappeler les valeurs spcifiques des variables
explicatives :
k= p

Y = k X k + X
k =0

X dsignant une famille de variables alatoires dont les paramtres dpendent des valeurs
prises par les variables explicatives ( X k )1 k p . C'est sur cette dernire famille de loi que vont

porter les autres hypothses du modle de rgression linaire.


3.2 Hypothses probabilistes du modle de rgression linaire.
Trois hypothses sont formules sur la famille de variables alatoires X , ces hypothses sont
ncessaires soit pour l'estimation des paramtres soit pour les tests du modle.

Homoscdasticit : La premire hypothse porte sur la variance des lois de la famille X ,


on suppose que cette variance est constante, indpendante de la valeur prise par les
diffrentes variables explicatives. L'cart type associ sera not . Il est important dans la
pratique de comprendre ce que cela signifie, par exemple pour le prix d'un appartement,
cela voudrait dire que la dispersion des prix est la mme pour les appartement de 20m2 ou
pour les appartements de 150m2. Cette condition peut conduire parfois limiter la
population pour qu'elle soit ralise, on pourrait par exemple se limiter aux appartements
dont la surface est comprise entre 60 et 120m2.
Indpendance : on suppose que les variables x1 ,K, x k et x ' ,K, x ' sont indpendantes, quelles
que soient les valeurs (x1 , K , x p ), (x , K , x
'
1

'
p

) ; cette hypothse est particulirement lorsque


k

l'on traite des donnes indexes par le temps. Par exemple cela signifie qu'un mois de

Page 166

Rgression Linaire

surconsommation n'a pas plus de "chances" d'tre suivie d'un mois de sous consommation
qu'un autre (pas d'effet de stockage).
Normalit : on suppose enfin (et ceci pour les tests particulirement) que toutes les
variables alatoires de la famille X sont normales, donc suivent une loi normale de
moyenne nulle et d'cart type s.
Compte tenu de ces trois hypothses, on pourra alors par abus de langage utiliser une notation
gnrique unique en confondant toutes les lois de la famille X en une seule, et le modle
sera alors not :
k= p

Y = k X k +

o N (0, )

k =0

En dfinitive un modle de rgression linaire comporte p + 2 paramtres estimer, les p + 1


coefficients de rgression ( 0 , 1 , K, p ) et l'cart type de la partie alatoire.
3.3 Estimation des paramtres du modle
Nous prsenterons sous forme gomtrique la mthode d'estimation des coefficients, le lecteur
peu amateur de mathmatiques peut ignorer cette section, puisque les valeurs des estimations
seront donnes par une fonction d'Excel et l'utilisateur n'aura pas les retrouver, ces formules
ne seront d'ailleurs donnes qu'en annexe, nous nous limiterons ici une interprtation
gomtrique, permettant de mieux comprendre les notions de degrs de libert attachs au
modle.

Les paramtres du modle sont estims partir d'un chantillon de taille n, sur lequel sont
releves les valeurs des variables explicatives et de la variable expliquer. On obtient ainsi un
tableau de donnes :
y1
y2
M
yi
M
yn

x11
x 21
M
xi1
M
x n1

x12
x 22
M
xi 2
M
xn 2

L x1k
L x2k
M
M
L xik
M
M
L x nk

L x1 p
L x2 p
M
M
L xip
M
M
L x np

Si le modle de rgression linaire est valide, nous devons avoir les n relations suivantes entre
les valeurs prises par la variable expliquer Y et les variables explicatives ( X k )1 k p :
y i = 0 + 1 xi1 + 2 xi 2 + K + p xip + ei
o ei , appele valeur rsiduelle, correspond la ralisation de la variable alatoire pour la
ime observation.
3.3.1 Critre des moindres carrs
Les valeurs rsiduelles dpendent des valeurs des paramtres du modle ( 0 , 1 , K, p ) , plus
l'amplitude de cette valeur est grande, moins bien l'observation est reprsente par le modle,
il est donc naturel de penser que si le modle de rgression est bien adapt aux donnes sur
l'ensemble des observations les valeurs rsiduelles ne sont pas, en valeur absolue, trop

Page 167

Rgression Linaire

leves, cette dmarche est rapprocher, bien que diffrente mais lie (voir plus loin), de la
mthode du maximum de vraisemblance en estimation.
On cherchera donc des valeurs des coefficients de rgression telles que l'ensemble des
amplitudes des valeurs rsiduelles soit le plus faible possible, pour des raisons historiques de
commodit de calcul analytiques on utilisera la somme des carrs pour mesurer cet ensemble.
Le critre des moindres consiste donc dterminer les valeurs des coefficients qui
minimisent :
h( 0 , 1 , K, p ) = ei2
n

i =1

Ces valeurs seront notes

(b , b ,L, b ), nous aurons alors :


0

h(b0 , b1 , K, b p ) = min h( 0 , 1 ,K , p )
Ce minimum peut tre dterminer en rsolvant le systme de p+1 quations p+1 inconnues
obtenu en, drivant la fonction h chacun des p+1 coefficients (on suppose que ce systme
d'quations une solution unique, ce que nous interprterons gomtriquement au paragraphe
suivant).
Nous noterons dans la suite y i l'estimation de la moyenne correspondant la variable
alatoire de la ime observation :
y i = b0 + b1 xi1 + b2 xi 2 + K + b p xip
et ei l'estimation de la ime valeur rsiduelle : ei = y i y i
3.3.2 Interprtation gomtrique du critre des moindres carrs
Nous allons interprter gomtriquement la mthode des moindres carrs, ce qui nous
permettra d'expliciter certaines proprits des estimations et estimateurs associs. Pour cela
nous allons nous placer dans l'espace des individus, c'est dire que nous allons considrer un
espace vectoriel n dimensions, chaque dimension tant associe un individu de
l'chantillon. Par exemple pour un chantillon de taille 3 nous aurons un espace de dimension
3, c'est ce que nous utiliserons pour les reprsentations graphiques.
Dans cet espace nous pouvons associer chaque variable (plus exactement chaque
chantillon image de chaque variable) un vecteur, que nous noterons avec des lettres
majuscules :

y1
Y = M
y n

x1 p
x11
1

X 1 = M K X p = M plus les deux autres vecteurs X 0 = M


x np
1
x n1

e1
E = M
en

les n relations crites au paragraphe prcdent donnent une seule relation vectorielle :

Y = 0 X 0 + 1 X 1 + 2 X 2 + K + p X p + E

Page 168

Rgression Linaire

Le vecteur 0 X 0 + 1 X 1 + 2 X 2 + K + p X p appartient au plan engendr par les vecteurs

(X

, X 1 ,K, X p ) que nous supposerons indpendants (ce qui revient considrer que le

systme d'quations voqu au paragraphe prcdent a une solution unique), quelles que
soient les valeurs des k, d'autre part le critre des moindres carrs s'interprte comme la
norme (au carr) du vecteur E. Pour satisfaire le minimum de la norme de ce vecteur, il faut
donc projeter Y sur le plan . Les estimations des coefficients de la rgression sont donc les
coordonnes du vecteur Y projection de Y sur le plan . Le vecteur E est alors orthogonal
ce plan (donc tous les vecteurs de ce plan).

3.3.3 Proprits des estimations des moindres carrs


1. La somme des rsidus est gale 0. En effet le vecteur E correspond au minimum de la
norme, critre des moindres carrs, est perpendiculaire au vecteur X0, dont toutes les
coordonnes sont gales 1, donc le produit scalaire de ces deux vecteurs est nul :
n

i =1

i =1

E , X 0 = 0 = ei 1 = ei
2. Les estimations des moyennes y i ont mme moyenne que les observations yi. En effet :
n

ei = 0 = ( yi y i ) = yi y i
i =1

i =1

i =1

donc

i =1

y=

1 n
1 n
y
=
y i
i n
n i =1
i =1

3. Le centre de gravit du nuage de points est dans le plan (sur la droite) de rgression, c'est
dire que l'on a la relation suivante :
y = b0 + b1 x1 + K + b p x p

o y , x1 ,K , x p dsignent les moyennes des variables sur l'chantillon. Ceci rsulte


immdiatement de la somme nulle des rsidus.
4. Le vecteur Y des estimations est dans le plan , donc orthogonal au vecteur E on a
donc la relation suivante :

Page 169

Rgression Linaire
n

Y , E = y i ei = 0 ou encore
i =1

i =1

i =1

i =1

( y i y )ei = y i ei y ei

= 0 car la somme des

rsidus est nulle.


5. On a la dcomposition suivante, appele dcomposition des carrs :
n

(y
i =1

i =1

i =1

2
2
2
y ) = ( y i y ) + ( y i y i )

ce qui rsulte de la proprit 4 et du fait que ( y i y ) = ( y i y i ) + ( y i y ) . Cette


dcomposition peut s'interprter de la faon suivante :
La somme du ct gauche est indicatrice de la dispersion totale initiale, elle est
appele Somme des Carrs Totale :
n

SCT = ( y i y )

i =1

La premire somme du ct gauche, reprsente la dispersion due aux variables


explicative, ce que le modle permet d'expliquer, elle est appele somme des carrs
reconstitue par le modle de rgression, ou plus simplement Somme des Carrs
Explique :
n

SCE = ( y i y )

i =1

La dernire somme donne une indication de la dispersion autour du plan de


rgression, c'est dire de la dispersion non explique par le modle, elle est
appele Somme des Carrs Rsiduelle :
n

SCR = ( y i y i ) = ei2
2

i =1

i =1

En consquence la dcomposition des carrs s'exprime de la faon suivante :


SCT = SCE + SCR

Cette dcomposition exprime que la variabilit des valeurs observes ( y i )1i n mesure
par SCT est la somme des variabilits des valeurs ( y i )1i n reconstitues par le modle de
rgression mesure par SCE, et de la variabilit des rsidus mesure par SCR. En
consquence comme SCT est constant, on peut tre tent de dire qu'il faut rendre SCE le
plus grand possible ; il faut toutefois faire attention que seul l'chantillon est reconstitu
et que nous sommes concerns par l'ensemble de la population, et que cette
"optimisation" ne doit pas tre obtenue n'importe quel prix.
6. L'estimation de la variance commune des variables alatoires , est donne par :
n

s2 =

e
i =1

2
i

n p 1

Dans la mesure o l'estimation se fait partir d'un chantillon de taille n, il ne peut y


avoir plus de n-1 variables explicatives, ceci rsulte de la dimension de l'espace des
individus. Mais de faon plus prcise, quelles que soient les n-1 variables choisies

Page 170

Rgression Linaire

(qu'elles soient conomiquement explicatives ou pas) on arrivera toujours une somme


des carrs rsiduelle nulles.
La somme des carrs totale est donc prise dans un espace n-1 degrs de liberts.
La somme des carrs explique se trouve dans l'espace des variables explicatives,
dans un espace de dimension p, car il ne faut pas prendre en compte le vecteur
constant X0.
La somme des carrs rsiduelle est dans un espace orthogonal l'espace des
variables explicatives et X0, donc dans un espace de dimension n-p-1. Pour avoir
la moyenne sur un axe de la somme des carrs, qui reprsentera une estimation de
la dispersion moyenne inexplique donc de la variance de , il faut donc diviser la
norme carre de E par la dimension de l'espace dans lequel il se trouve.

4. On peut enfin dmontrer les rsultats suivants sur les estimateurs obtenus par la mthode
des moindres carrs :
Les estimateurs des coefficients de rgression sont des combinaisons linaires des
observations de la variable expliquer. Ils suivent donc une loi normale.
Les estimateurs des coefficients de rgression et de la variance de , sont sans biais
et convergents.
Les estimateurs des coefficients de rgression sont les meilleurs estimateurs non
biaiss, linaires, c'est dire que ce sont parmi les estimateurs linaires non biaiss
ceux qui ont la variance minimum.
Les estimateurs des coefficients de rgressions par la mthode des moindres carrs
sont les mme que ceux obtenus par la mthode du maximum de vraisemblance.
Ce n'est pas le cas pour l'estimation de .

Certains de ces rsultats seront dmontrs en annexe, sinon on pourra consulter


3.4 Indices de qualit d'un modle de rgression
Dans la mesure o nous travaillons sur un chantillon et non sur la population toute entire, il
nous faut disposer d'indicateur, permettant de savoir avec quelle confiance on peut tendre les
rsultats la population entire, et avec quelle fiabilit on peut faire des prvisions, partir de
valeurs connues des variables explicatives. Comme nous l'avons vu au paragraphe prcdent
il est toujours possible de rduire l'incertitude zro, sur l'chantillon mais cela n'a aucun
intrt pour la population, c'est un simple effet de saturation mathmatique.

Les logiciels statistiques donnent toujours la mme structure un listing de rgression


linaire, nous suivrons d'ailleurs cette prsentation sous Excel au paragraphe suivant. Cette
prsentation est faite sous trois chapitres : indicateurs rsums, validit globale, validit
marginale.
3.4.1 Rsums de la rgression
Cette rubrique contient trois lments : le coefficient de dtermination, le coefficient de
corrlation multiple, l'cart type des rsidus.

1) Le coefficient de dtermination R2
Le coefficient de dtermination est le pourcentage de la somme des carrs totale expliqu par
le modle. Il est dfini par le rapport :

Page 171

Rgression Linaire

R2 =

SCE
SCT

trs souvent, mais par excs de langage on dit que R2 reprsente le pourcentage de variance
expliqu par le modle. L'excs est double, en effet les sommes des carrs (totale et
explique) ne sont pas des variances, ensuite le rapport ne porte que sur l'chantillon. Plus ce
rapport est proche de 1, meilleure est la reconstitution de la variabilit de la variable
expliquer sur l'chantillon. Comme nous l'avons vu au paragraphe prcdent, en prenant n-1
variables explicatives quelconques on reconstituera toujours 100% la variabilit de
l'chantillon.
Cet indicateur est donc un indicateur biais, il augmentera de faon systmatique avec le
nombre de variables explicatives. Sans qu'il y ait de rgle rationnelle donnant le nombre de
variables explicatives maximum pour un nombre donn d'observations, en pratique il est
recommand de prendre au moins 5 6 observations par variable explicative.
Enfin plus que la valeur du R2, ce qui est intressant, c'est la variation de cette valeur par ajout
de variable, si cette variation est trop faible la variable (ou les variables) ajoute(s) sont sans
intrt pour le modle, comme nous le verrons plus loin.
Le coefficient de dtermination est un indicateur intrinsque d'adquation linaire, un mauvais
R2 n'est pas le signe d'une non influence des variables explicatives choisies, mais le signe
d'une absence de liaison linaire. Si des raisons conomiques poussent croire une
influence des variables explicatives choisies, il faudra alors peut-tre utiliser des
transformations non linaires.
Enfin pour terminer, coefficient de dtermination, ne peut en aucun cas servir choisir une
rgression parmi plusieurs rgression n'ayant pas le mme nombre de variables.

Remarque : certains logiciels utilisent, pour diminuer le biais du au nombre de variables


explicatives, un coefficient de dtermination corrig (ou ajust):
R 2 C = 1 (n 1)(1 R 2 ) (n p 1)

2) Le coefficient de corrlation multiple R


Ce coefficient est simplement la racine du coefficient de dtermination, mais il s'interprte
comme la corrlation entre la srie des valeurs observe ( y i )1i n et la srie des valeurs
calcules par le modle ( y i )1i n . Plus ce coefficient est proche de 1, meilleure est la
reconstitution des donnes par le modle.
3) Estimation de l'cart type des rsidus
Aussi appele Erreur type de la rgression, cet indicateur donne une ide de la dispersion des
valeurs autour de la valeur moyenne estime par la partie dterministe du modle. Plus cette
estimation est faible meilleure est la prvision que l'on pourra faire partir du modle.
Comme nous l'avons plus haut cette valeur est donne par la formule :
n

s2 =

e
i =1

2
i

n p 1

SCR
n p 1

Bien que lie au coefficient de dtermination, cette valeur n'en a pas les dfauts, en effet le
dnominateur corrige l'effet de l'augmentation des variables, cette quantit n'est d'ailleurs pas
dfinie dans le cas de modle satur pour l'chantillon, c'est dire p=n-1 variables.

Page 172

Rgression Linaire

Entre deux modles on aura tendance choisir celui dont l'erreur type est la plus petite.
3.4.2 Validit globale du modle
La question pose ici est la suivante : les donnes observes permettent-elles d'infrer (sur la
population) qu'aucune des variables explicatives ( X k )1k p n'a d'influence sur les variations de

la variable Y. Ou en prenant la contrapose de cette proposition, peut penser qu'au moins unes
des variables ( X k )1 k p a une influence significative (au niveau de la population) sur les
variations de Y. Comme d'habitude, quand nous parlons d'influence, nous sous-entendons le
terme linaire.
Si aucune des variables ( X k )1k p n'avait d'influence sur les variations de Y, ceci signifierait
que seul resterait le terme alatoire autour de la moyenne de la population, le modle serait
alors :
Y = 0 +

0 = moyenne de Y sur la population

Nous pouvons donc poser notre problme sous forme de test d'hypothse, l'hypothse nulle
correspondant la non influence des variables ( X k )1k p .
H0

: 1 = 2 = K = p = 0

H 1 : il existe au moins un indice k tel que k 0

La rgion du rejet de l'hypothse H0 est base sur la statistique dite du "Fisher global". L'ide
du test est de comparer l'apport explicatif moyen des variables choisies par l'analyste avec le
pouvoir explicatif moyen de variables complmentaires totalement arbitraires (correspondant
aux rsidus). Pour cela on va donc faire le rapport entre la diminution de la somme des carrs
due en moyenne chaque variable explicative et la diminution moyenne rsiduelle, c'est
dire l'estimation de l'cart type des rsidus. Si ce rapport n'est pas suffisamment grand
(significativement plus grand que 1), ceci signifiera que les variables explicatives n'ont pas de
pouvoir explicatif plus important que les variables rsiduelles et n'ont donc pas en tre
distingues. On utilisera donc la statistique :
SCE
CME
p
Fc =
=
SCR
CMR
n p 1
CME dsigne le carr moyen expliqu, c'est dire la somme des carrs explique par le
modle, divise par la dimension de l'espace explicatif (p = le nombre de variables
explicatives), CMR dsigne le carr moyen rsiduel, c'est dire la somme des carrs
rsiduelle divise par la dimension de l'espace rsiduel (n-p-1). La rgion critique de rejet de
l'hypothse H0, sera de la forme [ f ,+[ , f tant dtermin en fonction du risque de premire
espce par prob(Fc f ) = .

Pour pouvoir poursuivre la procdure de test, il nous faut connatre la loi de Fc sous
l'hypothse nulle, c'est ici qu'intervient l'hypothse de normalit de la variable . Sous
l'hypothse H0, la statistique Fc suit une loi dite de Fisher-Snedecor (p,n-p-1) degr de
liberts. On peut alors dterminer f soit l'aide de tables, soit par la fonction
INVERSE.LOI.F d'Excel. En pratique, on calcule la valeur fc de la statistique Fc sur
l'chantillon, puis on dtermine le niveau de signification ns = prob(FS ( p, n p 1) > f c ) du

Page 173

Rgression Linaire

test correspondant cette valeur, si ce niveau est infrieur on rejette l'hypothse. Le test
est prsent de faon classique, dans un tableau nomm Analyse de la Variance :
Source de
variation

Degrs de Somme des


libert
carrs

Rgression

SCE

Rsiduelle

n-p-1

SCR

Totale

n-1

SCT

Carr Moyen
CME =

SCE
p

CMR =

SCR
n p 1

Niveau de
signification

fc
fc =

CME
CMR

ns

Nous verrons plus loin comment construire ce tableau sous Excel.


3.4.3 Validit marginale de chaque variable du modle
L'objectif est ici de savoir si le modle n'est pas surdfini, c'est dire qu'aucune des variables
explicatives du modle n'a un l'apport marginal dans l'explication des variations de Y nul. Ceci
revient dire qu'il faut vrifier que pour chacune des variables individuellement (les autres
tant supposes rester dans la rgression) le coefficient n'est pas nul. Le test se pose de la
faon suivante, pour une variable explicative X k et une seule, les autres variables tant
supposes dans le modle :
H0

: k = 0

H1 : k 0

Evidemment l'estimation bk du coefficient n'est pas nul, mais est la valeur prise par un
estimateur sans biais Bk , sur l'chantillon de taille n. Cet estimateur suit une loi normale (si
les rsidus suivent une loi normale), dont l'cart type est inconnu, mais peut tre estim par un
estimateur S (Bk ) , la statistique utilise pour le test sera alors :
Tc =

Bk
S (Bk )

qui sous l'hypothse H0 suit une loi de Student (n-p-1) degrs de libert.
L'hypothse nulle sera rejete si la valeur observe de la statistique est significativement
diffrente de 0, c'est dire si l'estimation du coefficient est assez loigne de 0, compte tenu
de l'incertitude de cette estimation (incertitude exprime par l'cart type). La rgion critique
de rejet de l'hypothse H0.est de la forme ] ,t ]U [t ,+[ , la valeur de t est dtermine en

fonction du risque de premire espce , de faon prcise t est le fractile d'ordre 1 2 de la


loi de Student n-p-1 degrs de libert.

Tous les logiciels statistiques prfrent donner le niveau ns de signification, c'est dire en
notant t c la valeur de la statistique Tc observe sur l'chantillon :
ns = prob( Student (n p 1) > t c ) = 2 prob(Student (n p 1) > t c

si ce niveau de signification est infrieur , on rejette l'hypothse H0.

Page 174

Rgression Linaire

Les lments ncessaires cette validation marginale sont toujours prsents, dans les
logiciels statistiques, dans un tableau donnant les coefficients du modle. Ce tableau la
forme suivante :
Variable

Coefficient

Ecart type (du


coefficient)

X1

b1

s (B1 )

Xp

bp

s (B p )

Constante

b0

s ( B0 )

tc

Niveau de
signification

b1
s (B1 )

ns1

M
bp

ns p

b0
s ( B0 )

ns 0

s (B p )

Remarques :
1. Si plusieurs variables explicatives ne conduisent pas au rejet de l'hypothse nulle,
ceci ne permet pas de penser que tous leurs coefficients sont nuls, c'est dire
qu'aucune d'entre elles n'est influente sur les variations de Y. En effet, la non
influence d'une variable peut rsulter de corrlation entre les variables explicatives,
ter alors unes de variables non influentes significativement peut rendre les autres
significativement influentes. Ne jamais oublier que ce test porte sur une variable
vis vis de toutes les autres.
2. Si la constante n'est pas significative (et elle seule), il est possible d'essayer un
modle sans constante, en forant 0 sa valeur. Nous indiquerons comment
procder dans Excel. Dans ce cas il faut modifier en consquence les degrs de
libert des rsidus qui ne sont plus n-p-1 mais n-p.
4 Utilisation d'Excel

Nous allons indiquer ici comment construire avec Excel les trois tableaux dfinis
prcdemment. La fonction de base permettant de construire ces tableaux est une fonction
matricielle nomme DROITEREG, partir des rsultats de cette fonction, nous indiquerons
les diffrentes formules conduisant gnrer le listing rsultat d'une rgression.
Nous utiliserons le fichier Pubradio.xls, renomm pour ce paragraphe Pubradio1.xls, pour
illustrer notre propos. Ce fichier comporte une premire feuille nomme "Data" contenant les
donnes dans la plage A1:D23. la premire ligne de cette plage contient le nom des variables
(Ventes, Radio, Journaux, Gratuits), dont les valeurs proprement dites sont dans la plage
A2:D23. La colonne A correspond la variable expliquer, les autres colonnes aux variables
explicatives. Nous nous fixerons un risque de premire espce de 5% pour interprter les
rsultats.

Page 175

Rgression Linaire

Les noms donns aux plages que nous utiliserons sont les suivants :
Nom

Contenu

Adresse

Xnom

Nom des variables explicatives

$B$1:$D$1

Xdonnees

Valeurs des variables explicatives

$B$2:$D$23

Ydonnees

Valeurs de la variable expliquer

$A$2:$A$23

Attention : dans Excel les variables explicatives doivent toujours tre dans une zone
rectangulaire (une plage) ne contenant pas de colonnes ou lignes vides. On ne peut pas
slectionner les variables explicatives sur des plages disjointes (mme en utilisant l'utilitaire
d'analyse).
4.1 La fonction DROITEREG
La fonction DROITEREG d'Excel est une fonction matricielle qui donne tous les lments
permettant de construire un listing standard de rgression. La plage contenant les rsultats de
la fonction est constitue (au maximum) de 5 lignes et p+1 colonnes, p dsignant le nombre
de variables explicatives. Les arguments de la fonction sont au nombre de 4 :

La plage contenant les valeurs de la variable expliquer (une seule colonne ou une
seule ligne).
La plage contenant les valeurs des variables explicatives, comme dit plus haut ces
variables doivent tre dans des colonnes (ou lignes) adjacentes.
Un paramtre boolen (Constante) permettant de forcer 0 la constante (auquel
cas la plage de rsultats de la fonction n'a plus besoin de comporter que p
colonnes), si ce paramtre est omis ou vaut VRAI, la constante est incluse dans la
rgression. Pour nous ce paramtre sera toujours omis, dans la mesure o pour le
modle sans constante, les rsultats fondamentaux SCT=SCE+SCM et ei = 0

ne sont plus vrifis, les indicateurs alors utiliss R2, f c , t c ne suivent plus les lois
indiques au paragraphe ci dessus.
Un paramtre boolen indiquant si l'on veut ou non les statistiques, prsentes au
paragraphe prcdent. Si ce paramtre vaut FAUX ou est omis seuls les
coefficients de rgression sont donns en rsultat, la plage de rsultat ne peut alors
contenir qu'une seule ligne. Le paramtre doit tre mis la valeur VRAI
explicitement pour pouvoir crer un listing de rgression.
Attention : Excel ne fait aucune vrification sur la dimension de la plage de rsultats
slectionne au moment de l'entre de la formule, si cette plage est trop petite les rsultats
sont tronqus, par exemple certains coefficients n'apparatront pas s'il manque des colonnes,
en revanche si la plage est trop grande, cela ne pose aucun problme autre qu'esthtique, dans
la mesure o les rsultats sont complts pour remplir la plage par des #NA.

La plage de rsultats est structure de la faon suivante :


La premire ligne contient la valeur des estimations des p coefficients des
variables explicatives (en ordre inverse de leurs colonnes dans la fonction) et le
coefficient constant. La premire valeur correspond au coefficient de la dernire
variable explicative b p , la seconde au coefficient de l'avant dernire variable etc..

Donc on a dans l'ordre les valeurs (b p , b p 1 ,K , b1 , b0 ) .


Page 176

Rgression Linaire

La deuxime ligne donne les estimations des carts typent des estimateurs des
coefficients, dans le mme ordre que les coefficients. Sur cette ligne nous avons
donc (s (B p ), s (B p 1 ), K, s (B1 ), s (B0 )) .

Seules les deux premires lignes ont un nombre d'lments qui dpend du nombre de
variables explicatives, les trois autres lignes comportent toujours exactement deux lments.
La troisime ligne contient le coefficient de dtermination R2 et l'erreur type de la
rgression (estimation de l'cart type des rsidus).
La quatrime ligne contient la valeur de la statistique de Fisher Snedecor globale
(fc) et le nombre de degrs de libert des rsidus (n-p-1 si il y a une constante, n-p
sinon).
Enfin la dernire ligne contient la somme des carrs explique (SCE) et la somme
des carrs rsiduelle (SCR).

Rappel : pour entrer une formule matricielle, il faut slectionner la zone de rsultat (sur notre
feuille $F$1:$I$5), entrer dans la cellule active la formule :
=DROITEREG(Ydonnees;Xdonnees;;VRAI)
puis valider, avec la touche Enter, en maintenant les touches Ctrl et Shift. La formule est
entre dans l'ensemble de la zone sous la forme :
{=DROITEREG(Ydonnees;Xdonnees;;VRAI)}
Voici les rsultats obtenus sur notre exemple :

Notre modle estim s'crit alors :


Ventes =

238,4578 + 23,85 Radio + 32,6294 Journaux 0,6187 Gratuits + e

(ecart types) (112,2421)

(4,5238)

(5,3686)

(10,2281)

(138,0337)

La deuxime ligne donnant les cart types estims des coefficients et du terme alatoire. Avec
les renseignements complmentaires :
R2 = 0,8394

fc = 31,37

SCE = 1 793 130

SCR = 342 959,5

Nous avons ainsi presque tous les lments pour constitutifs du listing, mais les niveaux de
signification (par exemple) n'apparaissent pas clairement ici, l'interprtation des rsultats n'est
donc pas vidente sans calculs supplmentaires. Remarquons que seul manque dans ces
rsultats, pour construire le listing, le nombre de variables explicatives, que nous stockerons
dans une cellule de la feuille de rsultats. Nous allons maintenant construire sur une feuille
nomme "Listing", construire une sortie standard de rgression.
4.2 Listing de rgression
Nous allons ici construire pas pas chacun des lments d'un listing standard de rgression
fourni par des package statistiques. Nous avons nomm "Resreg" la plage contenant les
rsultats de la fonction DROITEREG ci-dessus ($F$1:$I$5). Les lments dont nous aurons
besoin dans cette plage seront obtenus grce la fonction INDEX(Resreg;i;j) qui retourne

Page 177

Rgression Linaire

l'lment l'intersection de la ime ligne (relative) et de la jme colonne (relative) de la plage


Resreg.
La cellule B1 de la feuille "Listing" (nomme "Nvar") contient le nombre de variables
explicatives (ici 3), voici la premire ligne de cette feuille :

4.2.1 Construction du rsum


Ici nous allons donner deux rsultats de la plage Resreg, le coefficient de dtermination et
l'erreur type de rgression, et calculer le coefficient de corrlation multiple. Le coefficient de
dtermination est le premier lment de la troisime ligne de Resreg, l'erreur type le deuxime
lment de la mme ligne. Nous obtenons alors :

Valeurs

Formules

Nous constatons que la rgression semble a priori intressante, dans la mesure ou le


coefficient de dtermination est lev, le modle explique "84% des variations" des ventes,
l'erreur type serait comparer avec l'cart type des ventes qui est de 318,9 ; on a donc une
diminution trs significative de l'incertitude. Toutefois ceci reste trs vague et demande tre
prcis par des tests.
4.2.2 Construction du tableau d'analyse de la variance
Pour construire ce tableau, nous devons prendre au moins trois lments de la plage Resreg :
la somme des carrs explique, la somme des carrs rsiduelle et le nombre de degrs de
libert des rsidus. La valeur de la statistique de Fisher, peut soit tre calcule, soit tre
importe de cette plage. En revanche tous les autres lments sont calculs, en particulier le
niveau de signification, l'aide de la fonction LOI.F d'Excel. Le tableau d'analyse de la
variance, sous forme de formules, se prsente ainsi :

et en valeurs:

Comme ici le niveau de signification de fc est infrieur 5%, nous pouvons rejeter l'hypothse
suivant laquelle aucune des variables explicatives n'est significative. Il nous reste vrifier la
validit marginale de notre modle. Pour cela nous allons construire le tableau des variables
du modle.
Page 178

Rgression Linaire

4.2.3 Le tableau du modle


Pour construire ce tableau, nous avons besoin de prendre les coefficients et les carts types
des estimateurs des coefficients dans la plage de rsultats. Les autres lments sont calculs.
En particulier le niveau de signification du T partiel, doit tre calcul par la fonction d'Excel
donnant la loi de Student, fonction, qui, rappelons le, a trois arguments :
Le tc calcul : rapport entre le coefficient et l'cart type de la variable
Le nombre de degrs de libert des rsidus : repris de la plage "Resreg"
Le fait que le test soit bilatral ou non (ici bilatral =2)

En tenant compte de l'ordre des lments de la plage de rsultats de la fonction DROITEREG,


il est facile de construire le tableau :

Ce qui nous donne les valeurs suivantes :

Nous remarquons sur ce listing que la variable Gratuits, n'est marginalement pas significative,
ceci est peut-tre du une corrlation entre les variables explicatives, nous reviendrons plus
loin sur cette question. Il est d'ailleurs rassurant de constater que cette variable n'est
statistiquement pas significative, car son coefficient ngatif, signifiait qu'une fois les budgets
publicitaires Radio et Journaux fixs, le fait de distribuer des extraits de catalogue gratuit
faisait diminuer les ventes!
Il faudrait donc faire une autre rgression en supprimant cette variable.
La construction de notre feuille listing n'est pas trs difficile, mais nous sommes passs par le
tableau intermdiaires (plage "Resreg") des rsultats de la fonction DROITEREG. Il est
possible de se passer de cette plage, pour cela il suffit dans toutes les formules de remplacer
Resreg par sa valeur c'est dire DROITEREG(Ydonnees;Xdonnees;;VRAI), ce qui donne par
exemple pour le rsum les formules suivantes (classeur Pubradio2.xls) :

L'idal bien sr serait de construire une feuille de gnration automatique de listing de


rgression, cet exercice est laiss au lecteur intress par la modlisation sous Excel, un
exemple en est toutefois donn dans le classeur Listreg.xls. Nous ne dtaillerons pas ici les
formules dans la mesure o nous donnons un add-in de rgression gnrant ce listing.

Page 179

Rgression Linaire

4.2.4 Le listing final


Nb var. explicatives

Rsum
R2
Corrlation multiple
Erreur type

0,83945
0,91621
138,03371

Analyse de la Variance
Source
Rgression
Rsidus
Totale
Modle
Variable
Radio
Journaux
Gratuits
Constante

DL

Somme des
Carrs
3 1793129,948
18 342959,5063
21 2136089,455

Coefficient
23,84999639
32,62938845
-0,61874299
238,4578179

Carr Moyen

Ecart type
4,523786884
5,368631858
10,22809676
112,2421031

fc calcul

Prob F>fc

597709,9828
19053,3059

31,37040815 2,31065E-07

tc calcul

Prob T>|tc|

5,27213085
6,077784678
-0,060494441
2,124495277

5,0808E-07
1,12305E-08
0,951849364
0,035411499

4.3 Calcul des estimations y i et, des rsidus e i

Bien que le modle trouv ne soit pas satisfaisant statistiquement, nous allons indiquer
comment calculer les estimations des moyennes y i et des rsidus ei .
4.3.1 Calcul des estimations y i

Pour calculer ces estimations il est possible d'utiliser une fonction vectorielle d'Excel, la
fonction TENDANCE, cette fonction a la mme contrainte que la fonction DROITEREG, les
variables explicatives doivent tre dans des colonnes adjacentes. La fonction TENDANCE a
quatre arguments (un seul obligatoire)
La plage des valeurs connues de la variable expliquer (Y connus), ce paramtre
est obligatoire.
La plage des valeurs connues des variables explicatives (X connus), si cette plage
est omise, Excel considre que les X sont les valeurs 1,2,.,n.
La plage des X inconnus, si l'on veut prvoir des valeurs de Y .
L'existence d'une constante dans la rgression, qui sera implicitement refaite, par
dfaut la valeur de ce paramtre boolen est Vrai, pour indiquer la prsence d'une
constante.

La formule est entre matriciellement sur une plage unicolonne contenant autant de lignes que
la runion des plages X connus, X inconnus (classeur Pubradio1.xls) :

Page 180

Rgression Linaire
p

Une autre mthode, aussi simple, consiste utiliser la dfinition de y i = b0 + bk xik . On


k =1

entre cette formule dans la premire cellule, puis on la recopie sur l'ensemble de la zone
(classeur Pubradio2.xls) :
=Listing!$B$19+PRODUITMAT(Data!B2:D2;Listing!$B$16:$B$18)

Listing!$B$19 est l'adresse de la constante de rgression


Listing!$B$16:$B$18 est l'adresse des autres coefficients de la rgression
4.3.2 Calcul des rsidus
La formule ei = y i y i , se traduit de faon simple dans la cellule $F$2 par =A2-E2 puis est
recopie vers le bas. Il peut tre utile de calculer les rsidus "standardiss", c'est dire diviss
par leur cart type, dans la mesure o ils sont dj centrs, la formule sera entre dans la
cellule G2 : =F2/Listing!$B$6 et recopie vers le bas, Listing!$B$6 tant l'adresse de l'erreur
type de la rgression.
5 Pratique de la rgression - Analyse d'un listing de rgression Choix d'un modle

Avant de tester un modle de rgression, il est utile de vrifier graphiquement que les
hypothses du modle de rgression linaire, ne sont pas violes de faon vidente. Une fois
cette vrification faite et les changements de variables ventuels effectus, on peut procder
l'laboration de plusieurs modles, et obtenir diffrents listings de rgression.
L'analyse d'un listing de rgression consiste dterminer si un modle est acceptable
statistiquement et conomiquement. Le problme ne se pose que si la rgression est faite sur
un chantillon, et si on envisage d'tendre les rsultats l'ensemble de la population.
5.1 Analyse pralable des donnes Changement de variables
Gnralement on se contente d'une reprsentation graphique des donnes, en mettant en
abscisse les diffrentes variables explicatives et en ordonnes la variable expliquer. On
pourra obtenir diffrents types de graphiques :

figure 1

figure 2

figure 3

figure 4

Les figures 2, 3, 4 montrent des distributions de donnes qui ne satisfont les hypothses du
modle de rgression linaire. Sur la figure 1, en revanche, rien ne semble priori contrarier
ces hypothses (sauf ventuellement la normalit, mais il faut d'abord estimer le modle) : les
donnes semblent bien tre rparties autour d'une droite (hypothse de linarit) et l'paisseur
du nuage de point parat peu prs constante, sans tre systmatiquement d'un ct ou de
l'autre de la tendance linaire.
Les figures 2 et 3 indique clairement une allure non linaire de la moyenne des y pour une
abscisse x donne, on pourra dans les deux cas essayer une transformation puissance
d'exposant suprieur 1 pour la figure 2(par exemple x 2 ) et infrieure 1 pour la figure 3

Page 181

Rgression Linaire

(par exemple x ). Les cas les plus accentus (les plus loin du linaire) tant reprsents par
la fonction exponentielle pour la figure 2 et la fonction logarithmique pour la figure 3.
La figure 4 ne met en cause fondamentalement, la linarit de la moyenne, mais elle montre
clairement que la dispersion autour de cette moyenne n'est pas constante, les donnes ne
respectent pas l'hypothse d' homoscdasticit des rsidus, on peut penser ici que la dispersion
est proportionnelle une puissance (ou au logarithme) de la variable explicative X k
reprsente en abscisse. On pourra alors utiliser le changement de variable pour la variable
expliquer Y a ou Y
.
ln( X )
X
Toutes ces transformations, simples raliser sous Excel, doivent tre valides par un
nouveau graphique et aussi par le calcul des corrlations simples ventuellement (fonction
COEFFICIENT.CORRELATION(valeursY;valeursX)).
Application notre exemple, les trois graphiques sont les suivants :

Radio/Ventes

Journaux/Ventes

Gratuits/Ventes

Les graphiques n'infirment pas les hypothses du modle de rgression, ce qui est confirm en
calculant les corrlations simples entre la variable expliquer et les variables explicatives (la
formule est donne uniquement dans le cas des valeurs de la variable explicative Radio, elle
peut tre recopie pour les autres variables explicatives) :
Formule
Valeur

Radio/Ventes
Journaux/Ventes Gratuits/Ventes
=COEFFICIENT.CORRELATION(Ydonnees;B2:B23)
0,707132
0,539128
0,588683

5.2 Validation d'un modle


La partie rsum ne fournit que des indications gnrales sur le modle sans permettre de
valider ou non statistiquement le modle, elle est surtout utile quand on veut choisir parmi
plusieurs modles.

5.2.1 Validation statistique


La validation statistique se fait en fonction d'un risque de premire espce fix, gnralement
5% ou 1%.

La premire validation est la validation globale, cette validation se fait l'aide du tableau
d'analyse de la variance. Il suffit de vrifier que le niveau de signification de la statistique de
Fisher est infrieur au risque de premire espce. Si ce n'est pas le cas, l'ensemble des
variables explicatives est rejeter, au moins sans transformation nouvelle, l'analyse s'arrte l.
Si le modle est globalement accept, il faut ensuite passer la validation marginale. Sur
notre exemple le niveau de signification est quasi nul, trs infrieur 1%, donc nous validons
globalement notre modle.
Page 182

Rgression Linaire

La validation marginale se fait l'aide du tableau du modle, pour que le modle soit
statistiquement acceptable, il faut que le niveau de signification de chacun des tc soit infrieur
au risque de premire espce. Si ce n'est pas le cas, il est ncessaire d'ter au moins une des
variables explicatives prises en compte, gnralement on enlvera une et une seule des
variables dont l'apport marginal est non significatif.
Sur notre exemple, seule la variable Gratuits n'est pas marginalement significative nous
pouvons alors tester un modle sans cette variable. Le tableau du modle est alors le suivant :
Variable
Radio
Journaux
Constante

Coefficient
23,6460
32,5707
235,1678

Ecart type
2,9346
5,1400
95,5770

tc calcul
8,0577
6,3367
2,4605

Prob T>|tc|
0,0000
0,0000
0,0151

Cette fois toutes les variables sont marginalement significatives et le modle est donc
acceptable statistiquement.

5.2.2 Validation conomique


Une fois le modle accept statistiquement, il est bon de vrifier que les signes des
coefficients sont cohrents avec ce que l'analyste attendait ; sinon des raisons de cette
incohrence sont rechercher conomiquement et non pas statistiquement.

Sur notre exemple, le modle valide statistiquement est cohrent d'un point de vue
conomique, les deux coefficients sont positifs, comme il est naturel de le supposer : la
publicit fait augmenter les ventes. Le modle nous permet d'ailleurs de quantifier cet effet,
budget Radio fix, 1000 de publicit dans les journaux font augmenter les ventes de 32 500
environ, et budget Journaux fix 1000 de publicit la Radio fait augmenter les ventes de
23 600 environ.
Remarque : en comparant les deux listings de rgression (Pubradio2.xls et Pub radio3.xls), on
obtient les rsums suivants :
Modle
3 variables
2 variables

R2
0,83945
0,83941

Erreur Type
138,034
134,37

Comme nous l'avions dit le coefficient de dtermination est plus grand dans le modle trois
variables que dans le modle deux, ce qui est purement mathmatique, mais ne garantit en
rien une meilleure adquation du modle aux donnes; En revanche l'erreur type, estimation
de l'cart type des rsidus est nettement plus faible pour le modle 2 variables que pour le
modle 3 variables, ce qui confirme bien l'inutilit de l'une des variables.
5.3 Analyse des rsidus
Quand un modle est satisfaisant statistiquement et conomiquement, il nous reste vrifier
que les hypothses faites sur les rsidus, la normalit, l'indpendance et l' homoscdasticit.

L'indpendance n'est facilement vrifiable que lorsque les variables sont temporelles, dans ce
cas le plus simple est de reprsenter sur un graphique cartsien le rsidu en t en fonction du
rsidu en t-1 (on peut aussi utiliser la statistique de Durbin-Watson).
5.3.1 Normalit et homoscdasticit des rsidus
Pour vrifier l'indpendance, on pourra utiliser le graphique normal (voir les rappels d'Excel)
ou un histogramme, pour l'homoscdasticit, plutt que de faire un graphique avec chacune
des variables explicatives, il est plus simple de faire un graphique des rsidus (ou rsidus

Page 183

Rgression Linaire

standardiss) en fonction des estimations ( y i )1i n ce qui rsume l'ensemble des graphiques.
Sur le modle retenu pour l'exemple (fichier Pubradio3.xls), les deux graphiques sont les
suivants :

Su le graphique de gauche, les points sont bien aligns sur la diagonale, il n'y a pas lieu de
remettre en cause la normalit des rsidus, sur le graphique de gauche on ne remarque aucune
forme particulire du nuage, qui est bien "quilibr" autour de l'axe des abscisses,
l'homoscdasticit ne semble pas non plus remettre en cause.
5.3.2 La statistique de Durbin-Watson
La statistique de Durbin-Watson sert dtecter des autocorrlations ventuelles entre les
rsidus. Cette statistique est dfinie par :
n

DW =

(ei ei1 )2
i =2

ei2

n 1

n 1

i =2

i =1

i =2

ei2 + ei2 2 ei ei 1
n

i =1

i =1

n 1

pour n grand 2 2

2
i

e e
i=2
n

i i 1

e
i =1

2
i

Si les rsidus ne sont pas corrls, le second terme sera nul en thorie, donc la statistique sera
proche de 2. En revanche si les rsidus sont corrls positivement le second terme sera proche
de -2 et la statistique proche de 0, enfin si les rsidus sont corrls ngativement le second
terme est proche de 2 et la statistique proche de 4. Le problme est de dterminer partir de
quelles valeurs on peut conclure l'existence d'une autocorrlation, ces valeurs sont donnes
dans table en annexe, et ne sont malheureusement pas accessibles directement par une
fonction d'Excel. Sur cette table ne figure que les valeurs correspondant une autocorrlation
positive, le cas d'une autocorrlation ngative se traitant par symtrie par rapport 2. Le test
de Durbin-Watson prsente une importante particularit, par rapport aux autres tests voqus
dans ce chapitre :
La valeur critique est double (pour un risque de premire espce donn) : une valeur en
dessous de laquelle on conclut l'autocorrlation positive et une valeur au-dessus de la
quelle on conclut l'absence d'autocorrlation.

Exemple d'utilisation de la table, dont voici un extrait (pour = 5% ) :

p =1
n

p=2

p=3

dL

dU

dL

dU

dL

dU

1,27

1,45

1,19

1,55

1,10

1,66

M
24

Page 184

Rgression Linaire

M
Si on a fait une rgression (temporelle) deux variables explicatives, partir d'un chantillon
de 24 donnes, soit dw la valeur de la statistique de Durbin-Watson, calcule sur les rsidus.
On conclura de la faon suivante :
Si dw<1,19, on considrera (au risque 5%) qu'il existe une autocorrlation positive entre
les rsidus et donc que le modle de rgression linaire ne peut s'appliquer. Il faudra alors
utiliser d'autres types de modles tels que ceux de Box et Jenkins par exemple.
Si 1,55<dw<4-1,55=2,45 on considrera qu'il n'existe pas d'autocorrlation (positive ou
ngative) entre les rsidus, le modle de rgression linaire est alors applicable.
Si dw>4-1,19=2,81 on considrera (au risque 5%) qu'il y vidence d'une autocorrlation
ngative entre les rsidus et donc que le modle de rgression linaire ne peut s'appliquer
(voir le premier cas).
Dans les autres cas on ne peut conclure!

Un extrait de la table est donne dans le fichier Durbin-Watson.xls


5.4 Choix d'un modle de rgression
En pratique, il est frquent de se trouver face plusieurs modles satisfaisant tant
statistiquement qu'conomiquement, se pose alors le problme du choix du modle. Nous
avons vu que le coefficient n'tait pas un bon indicateur pour choisir entre diffrents modles,
quand le nombre de variables explicatives n'est pas le mme pour tous les modles.

L'indicateur qui nous semble le plus appropri pour choisir un modle est l'erreur type de
rgression, elle donne une indication non biaise sur la dispersion autour de la valeur
moyenne calcule par la partie dterministe du modle. Il est toutefois important de distinguer
entre un modle descriptif et un modle prdictif, si le modle est uniquement descriptif (pour
valider une thorie par exemple), le modle de moindre erreur type s'impose, c'est celui qui
fournira le plus d'indications sur les variations de la variable expliquer. En revanche, si le
modle est usage prdictif, il sera important alors de prendre aussi en compte la facilit
qu'aura le dcideur prvoir la valeur des variables explicatives, on aura alors tendance
privilgier un modle ne faisant intervenir que des variables explicatives sous le contrle du
dcideur.
6 Les variables qualitatives dans le modle de rgression

Trs souvent l'tude des variations d'une variable expliquer peut se faire l'aide de variables
quantitatives, par exemple les ventes d'un produit de grande consommation dans une
population de points de points de ventes peuvent s'expliquer par la rgion, le type de magasin;
le type de promotion du produit etc.. Nous prendrons l'exemple dont les donnes sont dans le
classeur Enseignes.xls : un fabricant distribue des produits de jardinage sous trois enseignes
de magasin (codes de 1 3) et dans quatre rgions diffrentes (codes de 1 4). Il a recueilli
les rsultats de 25 magasins et voudrait dterminer si l'enseigne et/ou la rgion ont une
influence significative sur les ventes :

Page 185

Rgression Linaire
Ventes
Enseigne
(100)
266
2
179
3
178
3
112
1
117
1
107
1
265
3
146
1
279
2
171
1
233
1
365
3

Rgion

Ventes
Enseigne
(100)
103
1
261
3
360
2
324
2
463
2
260
1
215
3
384
2
121
1
125
3
214
1
144
1

3
4
2
1
1
1
4
1
4
1
1
3

Rgion

1
3
2
2
4
1
3
2
1
1
4
2

Il est donc ncessaire de coder convenablement ces variables pour pouvoir les utiliser dans
notre modle de rgression. Il nous faudra ensuite pourvoir dcider si une variable qualitative
a une relle influence sur les variations de la variable expliquer.
6.1 Le codage d'une variable qualitative Les indicatrices.
Une variable qualitative organise les units statistiques en catgories identifies par une
modalit, qu'il est d'usage de coder numriquement de 1 m, m tant le nombre de modalits.
Il n'est pas possible d'utiliser directement ce codage, supposons en effet que ce soit le cas,
nous aurions alors le modle thorique suivant (en ne faisant intervenir que cette variable) :

Yx = 0 + 1 x + o x prend les valeurs 1,2,K, m .

Ce qui impliquerait donc, en notant i la moyenne de la variable Y restreinte la sous


population prsentant la modalit i, :

1 = 0 + 1 , 2 = 0 + 2 1 ,K, i = 0 + i 1 ,K, m = 0 + m 1
ce qui signifie que les modalits sont ordonnes de telle faon que ces moyennes soient
croissantes (si 1 est positif) ou dcroissantes (si 1 est ngatif), et que de plus la diffrence
entre deux moyennes pour de modalits conscutives est constante (=1). Clairement ces
hypothses ont peu de chances de se raliser dans la pratique, il nous faut donc coder
diffremment les variables explicatives qualitatives. Nous devons isoler les influences de
chaque modalit sur les variations de la variable expliquer, il est alors naturel d'introduire
des variables indicatrices de chacune des modalits, c'est dire pour chaque modalit une
variable prenant la valeur 1 si l'individu statistique prsente cette modalit, 0 sinon.
Donc si X1 est une variable qualitative prsentant m modalits on introduira m variables
indicatrices :
pour 1 j m

X 1 j = 1 si X 1 = m ,

X 1 j = 0 sinon

Toutefois ce codage n'est pas encore parfait dans la mesure o les variables ainsi cres ne
sont pas indpendantes, mais sont lies par la relation :
m

X
j =1

1j

=1

ce qui signifie qu'un individu statistique prsente une modalit et une seule. Un modle de
rgression incluant les m variables ne peut donc tre dtermin, puisqu'il suffirait de
Page 186

Rgression Linaire

remplacer l'une des variables par l'oppos de la somme des autres pour avoir un modle
quivalent. Il nous faudra donc liminer l'une quelconque de ces variables pour obtenir un
modle dterminable. Si toutes les variables incluses dans le modle prennent la valeur 0, ceci
signifie que l'individu pris en compte prsente la modalit associe la variable absente de la
rgression.
6.2 Cration des indicatrices sous Excel
La cration des indicatrices se fait simplement sous Excel en utilisant la fonction SI. Pour
l'utilisation des fonctions standard de rgression d'Excel, il est recommand de ne crer que
les m-1 indicatrices utiles dans la mesure o, comme nous l'avons signal plus haut, les
variables explicatives doivent tre dans une plage constitue de colonnes contigus. Nous
donnons plus loin une macro complmentaire qui permet de se passer de cette contrainte.

Dans notre exemple, la variable Enseigne donne naissance trois variables indicatrices,
nomme Enseigne1, Enseigne2, Enseigne3, dont seules les deux premires seront cres sur la
feuille. Les formules sont les suivantes :

Ces formules doivent tre entres pour chaque colonne correspondant une variable
indicatrice, si le nombre de modalits est plus important il est possible d'utiliser le nom des
variables indicatrices pour entrer une seule formule recopie sur la droite et vers le bas, c'est
ce que nous avons fait pour la rgion :

La formule utilise le fait que le dernier caractre du nom (dernier caractre droite) de la
variable indicatrice est gal la modalit associe cette variable.
6.3 Interprtation des coefficients du modle
Nous allons nous placer par le cas d'une seule variable explicative qualitative m modalits
X, reprsentes par m-1 variables indicatrices (X j )1 j m 1 dans la rgression, le modle est

alors le suivant :
Y = 0 + 1 X 1 + 2 X 2 + K + m 1 X m 1 +

Les seules valeurs possibles pour X j sont 1 ou 0, mais une seule des variables au plus est non
nulle, si toutes les variables sont nulles, ce qui correspond l'appartenance la modalit
absente m par exemple, la moyenne m = 0 , si seule la variable indicatrice X 1 est non nulle
la moyenne correspondante est 1 = 0 + 1 , de manire gnrale si seule la variable X j est
non nulle la moyenne correspondant cette modalit est j = 0 + j . Aux coefficients de la
rgression on peut donc associer :

Pour le coefficient constant : la moyenne de la variable Y restreinte la sous


population prsentant la modalit absente. Cette modalit sera la modalit de
rfrence.

Page 187

Rgression Linaire

Pour les autres coefficients : la diffrence des moyennes entre variable Y restreinte
la sous population prsentant la modalit j et la variable Y restreinte la sous
population prsentant la modalit absente.

Le test partiel de Student revient donc vrifier que les moyennes entre une modalit et la
modalit absente sont diffrentes. On a donc une gnralisation du test de comparaison de
deux moyennes, vu dans le chapitre prcdent. Notons cependant que l'hypothse
d'homoscdasticit des rsidus revient ne faire le test qu'en supposant les variances gales
sur chacune des sous populations.
L'estimation b0 est simplement la moyenne des valeurs de Y pour les individus de
l'chantillon prsentant la modalit absente, de mme l'estimation b0 + b j est la moyenne des
valeurs de Y pour les individus de l'chantillon prsentant la modalit j.
Sur notre exemple nous obtenons le tableau du modle suivant :
Variable
Enseigne1
Enseigne2
Constante

Coefficient
-69,76623377
119,1428571
226,8571429

Ecart type
tc calcul
32,35742517 -2,156112033
37,23317714 3,199911109
25,29496283 8,968471091

prob T>|tc|
0,04282314
0,004304405
1,25784E-08

La modalit de rfrence est la modalit 3, les estimations des moyennes des ventes dans les
magasins par enseigne sont les suivantes
Enseigne 3 (constante de la rgression b0 ) : 226,86*100=22 686.

Enseigne 1 (b0 + b1 ) : (226,86-69,77)*100 = 157,09*100=15 709

Enseigne 1 (b0 + b2 ) : (226,86+119,14)*100 = 346,10*100=34 610

Comme tous les tc sont significatifs au risque de premire espce de 5%, on peut donc
considrer qu'il y a une diffrence significative entre les enseignes, qui seront classes dans
l'ordre croissant des ventes : Enseigne 1, Enseigne 3, Enseigne 2.
6.4 Test de l'influence d'une variable qualitative
Si nous introduisons dans le modle prcdent les variables indicatrices de la rgion (des trois
premires rgions) nous obtenons le tableau du modle suivant :

Variable
Enseigne1
Enseigne2
Rgion1
Rgion2
Rgion3
Constante

Coefficient Ecart type tc calcul prob T>|tc|


-21,4655
45,8613
-0,4681
0,6454
121,8364
40,8565
2,9821
0,0080
-66,7396
47,9676
-1,3913
0,1811
-26,3673
43,6228
-0,6044
0,5531
10,7324
47,1958
0,2274
0,8227
235,5585
37,0962
6,3499
0,0000

Il y a dans le modle, plusieurs variables indicatrices non significatives marginalement. Nous


pourrions liminer les unes aprs les autres les variables non significatives marginalement,
mais en faisant cela nous ne tiendrions pas compte du fait que les variables ont une
signification "par bloc".
6.4.1 Principe du test
Comme nous l'avons fait pour une variable quantitative il serait en fait plus intressant de
pouvoir tester l'influence marginale d'une variable qualitative quand d'autres variables sont
dans la rgression. Le problme est ici diffrent dans la mesure o nous serons conduits
tester l'influence marginale d'un groupe de variables (les variables indicatrices associes la

Page 188

Rgression Linaire

variable qualitative) et non plus d'une seule variable. Nous nous intresserons ici au test de
l'influence d'un groupe de m variables explicatives parmi p, que ces variables correspondent
une variable qualitative ou non.
Pour simplifier les notations, et sans rien perdre de la gnralit du propos, nous supposons
que le groupe de m variables dont nous voulons tester l'influence marginale sont les m
dernires X p m +1 , X p m + 2 ,K, X p . Le test se posera alors de la faon suivante :
H0

: p m +1 = p m + 2 = K = p

H 1 : j [1, m] p j 0

Nous serons conduit donc comparer deux modles :


Le modle dit complet, comprenant les p variables explicatives. Nous noterons
respectivement SCEC et SCRC la somme des carrs explique et la somme des
carrs rsiduel de ce modle et RC2 son coefficient de dtermination. SCT
dsignera la somme des carrs totale qui est la mme pour tous les modles.
Le modle dit partiel ne comprenant que les p-m premires variables explicatives.
Nous noterons SCEP la somme des carrs explique de ce modle, RP2 son
coefficient de dtermination.

Le principe du test sera identique celui du test global : si les m variables explicatives
supplmentaires ne sont pas plus intressantes que les variables associes la partie rsiduelle
du modle complet, autant les laisser dans cette partie. Pour juger de l'apport des m variables
explicatives supplmentaires, il suffit de prendre comme indicateur la diminution de la somme
des carrs due leur introduction dans le modle ; pour pouvoir le comparer aux rsidus on
utilisera en fait la diminution moyenne par variable introduite dans le modle. La statistique
que nous utiliserons, appele statistique de Fisher Partiel, sera alors :

(SCEC SCEP )
FP =

m en divisant numrateur et dnominateur par SCT on obtient une


SCRC
(n p 1)

(R

2
C

dfinition quivalente souvent utilise dans la littrature statistique FP =

RP2 )

(1 R )
2
C

(n p 1)

Sous l'hypothse nulle cette statistique suit une loi de Fisher-Snedecor (m,n-p-1) degrs de
libert, comme pour la statistique F globale, on rejette l'hypothse H0 si la valeur observe est
suffisamment grande, la valeur critique F est dtermine en fonction du risque de premire
espce par la formule prob(FS (m, n p 1) > F ) = . Nous utiliserons, avec Excel, le
niveau de signification dfinie en fonction de la valeur observe pour la statistique sur
l'chantillon FPc : ns = prob(FS (m, n p 1) > FPc ) . Si ce niveau est infrieur ,
l'hypothse H0 est rejete.
Remarques :
Dans le cas particulier m = p , on retrouve le test global de la rgression.
Dans le cas m = 1 , on retrouve le test marginal sous une autre forme, on peut en
effet dmontrer les deux rsultats suivant : t c2 = FPc et la loi de Fisher-Snedecor

Page 189

Rgression Linaire

(1,n-p-1) degrs de libert est gale au carr de la loi de Student n-p-1 degrs
de libert.
6.4.2 Tableau d'analyse de la variance
Il est d'usage de prsenter le rsultat du test par un tableau, permettant l'analyse marginale de
deux groupes de variables. Supposons que les p variables explicatives soient divises en deux
groupes Gm et Gp-m de variables contenant respectivement m et p-m variables. Nous noterons
SCEm la somme des carrs explique par le groupe de m variables et SCEp-m celle du groupe
de p-m variables. Le tableau dit d'analyse de la variance se prsente sous la forme suivante :

Source
Complet
Gm

Somme des
Carrs
SCEC

DL

Carr Moyen

SCEC
= SME
p

SCEC-SCEp-m
= Sm

Gp-m SCEC-SCEm
= Sp-m

Rsidus

SCRC

Totale

SCT

pm
n p 1

S m
m

S pm

SM

= SM p m

F
SME
SCRM
SM m
=
SCRM

fg =
m

pm
SCRC
= SCRM
n p 1

f mp

f pm =
p

SM p m

ns =Prob >F

prob(F p ,n p 1 > f g )

prob Fm ,n p 1 > f mp

prob F p m ,n p 1 > f pp m

SCRM

n 1

La premire ligne du tableau correspond l'analyse de la variance du modle complet, elle


permet de tester l'influence globale des variables explicatives, les deux lignes suivantes
permettent de tester l'influence marginale de chacun des groupes de variables Gm et Gp-m. Si
l'un des deux niveaux de signification est suprieur a, ce groupe de variables peut tre t de
la rgression.
6.4.3 Mise en uvre sous Excel
Pour pouvoir facilement tablir le tableau d'analyse de la variance sous Excel, sans avoir
recours des macros, il est ncessaire que les donnes soient disposes convenablement, c'est
dire que les groupes de variables Gm et Gp-m correspondent des plages de la feuille de
calcul (des colonnes contigus) qui sont adjacentes. C'est le cas pour notre exemple, le groupe
de variables des Enseignes (Enseigne1 et Enseigne2) occupe la plage Groupe1=D2:E25, le
second groupe (Rgion1, Rgion2, Rgion3) occupe la plage Groupe2=F2:H25, la plage des
variables du modle complet est donc Complet=D2:H25.

La fonction DROITEREG peut alors tre utilise pour calculer les diffrentes sommes de
carrs :
La somme des carrs explique du modle complet est le premier lment de la
cinquime ligne de la fonction DROITEREG applique au modle complet :
(SCEC=)INDEX(DROITEREG(PlageY;Complet;;VRAI);5;1)
La somme des carrs rsiduelle du modle complet est le premier lment de la
cinquime ligne de la fonction DROITEREG applique au modle complet :
(SCR=)INDEX(DROITEREG(PlageY;Complet;;VRAI);5;2)
La somme des carrs explique du modle Groupe1 est le premier lment de la
cinquime ligne de la fonction DROITEREG applique au modle ne comprenant

Page 190

Rgression Linaire

que les variables du Groupe1 :


(SCEC=)INDEX(DROITEREG(PlageY;Groupe1;;VRAI);5;1)
La somme des carrs explique du modle Groupe2 est le premier lment de la
cinquime ligne de la fonction DROITEREG applique au modle ne comprenant
que les variables du Groupe2 :
(SCEC=)INDEX(DROITEREG(PlageY;Groupe2;;VRAI);5;1)

Les autres formules du tableau d'analyse de la variance ne prsentent aucune difficult, les
voici :

Ce qui donne les valeurs :


Analyse de la variance
Source
Somme des Carrs DL Carr Moyen F
Prob >F
Enseigne-Rgion
150023,4570 5 30004,6914 6,5363 0,00124561
Enseigne
53141,3736 2 26570,6868 5,7883 0,0114532
Rgion
11427,8899 3 3809,2966 0,8298 0,4946877
Rsidus
82627,8764 18 4590,4376
Totale
232651,3333 23
On constate sur ce tableau que la variable Rgion n'a aucun apport marginal significatif,
puisque son niveau de signification est de 50% environ, trs largement suprieur au risque
habituel de 5%.

Comme nous avons vu plus haut que le modle Ventes/Enseigne tait valable statistiquement
nous ne garderons que la variable qualitative Enseigne.
7 La rgression pas pas

Pour un nombre donn p de variables explicatives candidates pour un modle de rgression


linaire, le nombre de modle possible est gal au nombre de parties non vides d'un ensemble
p lments soit 2p-1, pour p=5 cela fait dj 31 modles possibles, parmi lesquels il faudra
choisir un ou plusieurs modles statistiquement et conomiquement valable. Il serait donc
utile d'avoir une mthode systmatique permettant d'obtenir un bon modle.
7.1 Principe de la mthode
Dans la mesure o il n'existe pas de critre rationnel permettant de dire si un modle est
meilleur qu'un autre, il n'est pas ici question d'optimisation, mais simplement d'obtenir un
modle valable statistiquement. Les mthodes pour atteindre ces rsultats sont des mthodes
pas pas reposant sur la statistique t de Student, chaque tape on introduit la variable la plus
marginalement significative ou on retire la variable la moins significative. Nous n'exposerons
ici que la mthode la plus "naturelle", la procdure descendante ou "backward".

La mthode retire chaque tape une variable du modle construit l'tape prcdente. Au
dbut de l'algorithme les p variables sont prsentes dans le modle. Un seuil de sortie est
fix qui correspond la valeur maximale du niveau de signification d'une variable pour qu'elle
soit conserve dans la rgression ( ou ce qui revient au mme une valeur minimale de tc).

Page 191

Rgression Linaire

A l'tape k, si toutes les variables du modle ont un niveau de signification suprieur , la


mthode s'arrte et le modle est conserv ; sinon parmi les variables qui ont un niveau de
signification infrieur , on limine la variable ayant le plus grand niveau de signification et
on itre la procdure.
La procdure s'arrtera donc lorsque l'une des deux conditions suivante sera vrifie :

Toutes les variables sont retires du modle

Les variables prsentes dans le modle ont toutes un niveau de signification


suprieur .

Bien videmment, le modle final dpend de la valeur du seuil retenu, plus ce seuil est faible,
moins il restera de variables dans le modle final.
Cette procdure n'est en rien optimale, elle ne remet jamais en cause l'limination d'une
variable. Or il est possible qu'une variable qui a t sortie du modle au cours des premires
tapes, du fait de sa corrlation d'autres variables du modle, se trouve finalement avoir un
apport marginal significatif par rapport au modle final, dans la mesure o certaines des
variables corrles ont t limines aprs elle.
7.2 Un exemple
Nous avons dj vu une illustration de cette mthode au paragraphe 5.2 pour le premier
exemple, il tait possible de pratiquer cette procdure car les donnes taient bien disposes
pour l'limination de la variable non significative, qui ne sparait l'ensemble des variables
explicatives. Nous allons illustrer cette mthode sur le deuxime exemple, les ventes en
fonction des enseignes et des rgions, en prenant un risque de premire espce =5%.

Le listing de la premire tape est le suivant :


Rgression
Ventes en fonction de Rgion3, Rgion2, Rgion1, Enseigne2, Enseigne1
Valeur de R2
Corrlation mult.
Erreur de la rgression

0,644842455
0,803020831
67,75276803

Analyse de la variance
Source
Rgression
Rsidus
Total

D.L. Somme des Carrs


5
150023,457
18
82627,87636
23
232651,3333

Carr Moyen
30004,69139
4590,437576
10115,27536

fc calcul
6,536346677

Prob F>fc
0,001245608

Coefficient
-21,46545455
121,8363636
-66,73963636
-26,36727273
10,73236364
235,5585455

Ecart type
45,86125854
40,85645638
47,9676374
43,62275818
47,19583919
37,09622249

tc calcul
-0,468052017
2,982059005
-1,391347166
-0,604438459
0,227400632
6,349933488

prob T>|tc|
0,645364908
0,007991
0,181078888
0,553095538
0,822675087
5,54823E-06

Modle Estim
Variable
Enseigne1
Enseigne2
Rgion1
Rgion2
Rgion3
Constante

Le modle est valide globalement mais ne l'est pas statistiquement. Quatre variables
explicatives ne sont pas significatives marginalement, la variable dont le niveau de

Page 192

Rgression Linaire

signification est le plus fort est la variable Rgion 3 qui va donc sortir du modle. La
deuxime tape nous donne les rsultats suivants :
Rgression
Ventes en fonction de Rgion2, Rgion1, Enseigne2, Enseigne1
Valeur de R2
Corrlation mult.
Erreur de la rgression

0,643822146
0,803020831
66,04035955

Analyse de la variance
Source
Rgression
Rsidus
Total

D.L. Somme des Carrs


4
149786,0806
19
82865,2527
23
232651,3333

Carr Moyen
37446,52016
4361,329089
10115,27536

fc calcul
8,586034072

Prob F>fc
0,000391824

Coefficient
-23,97482014
119,9865108
-70,14658273
-30,42086331
241,2239209

Ecart type
43,38880151
39,02647901
44,41616195
38,80812385
26,79060865

tc calcul
-0,552557787
3,074489778
-1,579303111
-0,783878742
9,004047801

prob T>|tc|
0,587008636
0,006239747
0,130770816
0,442774438
2,77329E-08

Modle Estim
Variable
Enseigne1
Enseigne2
Rgion1
Rgion2
Constante

Le modle est valide globalement, mais il reste toujours trois variables non significatives
marginalement (dont le niveau de signification est suprieur 0,05). La variable qui va sortir
du modle est la variableEnseigne1. On obtient l'tape trois :
Rgression
Ventes en fonction de Rgion2, Rgion1, Enseigne2
Valeur de R2
Corrlation mult.
Erreur de la rgression

0,638098553
0,803020831
64,88330069

Analyse de la variance
Source
Rgression
Rsidus
Total

D.L.
3
20
23

Somme des Carrs Carr Moyen


fc calcul
Prob F>fc
148454,4792
49484,82639
11,7545547
0,000116782
84196,85417
4209,842708
232651,3333
10115,27536

Modle Estim
Variable
Enseigne2
Rgion1
Rgion2
Constante

Coefficient
Ecart type
tc calcul
prob T>|tc|
126,9791667
36,27086774
3,500858253
0,002250646
-86,72916667
32,17016733
-2,695950126
0,013900607
-34,41666667
37,46039112
-0,918748193
0,369175469
236,2291667
24,77771973
9,533934892
7,01583E-09

Le modle est toujours globalement acceptable, mais il reste encore une variable explicative
non marginalement significative, on obtient alors le modle final :
Rgression
Ventes en fonction de Rgion1, Enseigne2

Page 193

Rgression Linaire

Valeur de R2
Corrlation mult.
Erreur de la rgression

0,622824534
0,803020831
64,64200868

Analyse de la variance
Source
Rgression
Rsidus
Total

D.L.

Somme des Carrs Carr Moyen


fc calcul
Prob F>fc
2
144900,9583
72450,47917
17,33850211
3,57854E-05
21
87750,375
4178,589286
23
232651,3333
10115,27536

Modle Estim
Variable
Enseigne2
Rgion1
Constante

Coefficient

Ecart type
tc calcul
prob T>|tc|
118,375
34,9106747
3,390796683
0,002756969
-78,125
30,66239699
-2,547909089
0,018728651
227,625
22,85440134
9,95978834
2,07897E-09

Ce modle est la fois valide globalement et marginalement, il est donc acceptable


statistiquement.
Remarques :
Le modle obtenu par rgression pas pas backward n'est pas le mme que celui
obtenu par analyse du F partiel.
La variable explicative Rgion1 n'tait pas significative dans les deux premires
tapes du processus, ceci tait du une forte corrlation entre cette variable et la
variable Enseigne1, c'est ce qui explique le rsultat final : les enseignes sont en fait
un facteur explicatif des variations des ventes. Si la rgion apparat ici c'est
uniquement du un biais qui est la sur reprsentation de l'enseigne 1 dans la
rgion1.
D'un point de vue pratique, la mise en place d'une rgression pas pas est plus
lourde avec Excel, car on n'aura pas toujours la chance comme ici de garder des
variables explicatives dans des colonnes adjacentes, il sera alors ncessaire de
recopier les donnes sur d'autres feuilles. C'est pour cela qu'une macro
complmentaire est propose avec cet ouvrage.
8 La macro complmentaire (add in) ModLinaire.xla

Cette macro complmentaire, permet de faire des rgressions, des rgressions pas pas, et des
calculs de F partiel en s'affranchissant de la contrainte portant sur la localisation des variables
explicatives dans des colonnes adjacentes. Le tableau de donnes doit tre une base de
donnes Excel (voir Rappels Excel), c'est dire que les variables sont associes des
colonnes adjacentes et que le nom des variables se trouve dans la premire ligne.
8.1 Installation de la macro complmentaire
La macro complmentaire est un fichier qui a pour non "Regression.xla". Copier ce fichier
dans un rpertoire de votre disque dur, par exemple "Mes macros". Dans le menu Outils
d'Excel choisir le sous menu Macros complmentaires apparat alors la boite de dialogue
suivante :

Page 194

Rgression Linaire

Cliquer alors sur le bouton parcourir pour aller dsigner le fichier que vous venez de copier, la
macro apparat alors coche dans la liste des macro complmentaires disponibles :

Aprs avoir cliqu sur OK, la macro est installe et le menu Outils mis jour, un sous menu
ModLinaire est cr..
8.2 Utilisation de la macro complmentaire
Pour utiliser la macro complmentaire Regression, il est recommand de choisir une cellule
de la plage de donnes comme cellule active. Dans le menu Outils choisir le sous menu
ModLinaire :

il suffit alors de choisir le sous menu Rgression ou Fpartiel qui fait apparatre une boite de
dialogue.
8.2.1 Boite de dialogue rgression
La boite de dialogue Rgression permet de faire soit une rgression unique soit une rgression
pas pas "backward". Dans un premier temps l'utilisateur doit slectionner la plage de
donnes, ensuite il choisira les variables explicatives et expliquer :

Page 195

Rgression Linaire

La liste de gauche contient les intitules de toutes les variables de la plage de donnes,
correspondant la premire ligne de cette plage. Le bouton
permet de slectionner (ou
"dselectionner") la variable expliquer, cette variable est te de la liste en cas de slection,
et rajoute la liste si elle avait dj t slectionne comme variable expliquer.
Les deux boutons
et
servent respectivement slectionner ou "dselectionner",
une ou plusieurs variables comme variables explicatives, les touches de slection multiple
(majuscule et Ctrl) peuvent tre utilises.
Enfin si la rgression pas pas est choisie, l'utilisateur doit donner la valeur du niveau de
signification maximum accept, seuil de sortie des variables explicatives, cette valeur est par
dfaut de 5%.
Une fois le dialogue valid, les rsultats de la rgression ou de la procdure de rgression pas
pas sont donns sur une nouvelle feuille nomme "Rapport de rgression n".
8.2.2 Boite de dialogue Fpartiel
Le processus est identique, l'utilisateur fixe d'abord la plage de donnes, contenant les
variables explicatives et expliquer. La deuxime partie du dialogue consiste dfinir la
variable expliquer ainsi que les deux groupes de variables sur lequel doit porter le test
partiel :

Page 196

Rgression Linaire

Les diffrentes zones se remplissent comme pour le dialogue de rgression, le listing de


rsultat est cr sur une nouvelle feuille de calcul nomme "Fpartieln", et est prsent sous la
forme suivante :
Tableau d'analyse de la variance - Test Fisher Partiel
Variable expliquer :
Ventes
Pemier groupe de Variables :
Enseigne2, Enseigne1
Deuxime groupe de Variables :
Rgion3, Rgion2, Rgion1
Analyse de la variance
Source
Rgression
Groupe 1
Groupe 2
Rsidus

D.L. Somme des Carrs


5
150023,457
2
138595,5671
3
96882,08333
18
82627,87636

Carr Moyen
30004,69139
69297,78355
32294,02778
4590,437576

Page 197

F Calcul
6,536346677
5,788268848
0,829833008

Prob >F
0,001245608
0,011453192
0,494687671

Rgression Linaire

EXERCICES DE REGRESSION LINEAIRE


1 L'entreprisse Elec (Elec.xls)

L'entreprise Elec vend du matriel lectrique et souhaite valuer l'importance relative de


l'influence de ses vendeurs et des prix sur ses ventes. Pour faire cette valuation, l'entreprise a
rparti ses clients en un certain nombre de zones gographiques. Pour chacune de ces zones,
les variables suivantes ont t mesures :

Les ventes

Le nombre de vendeurs pour la zone

La moyenne des prix facturs par l'entreprise dans cette zone

La moyenne des prix facturs par la concurrence dans cette zone

L'indice des prix dans cette zone; l'indice 100 tant l'inde de la France
mtropolitaine.

Les donnes ont t recueillies sur 18 zones. On prendra pour toutes les questions =0,01
comme risque de premire espce.
1. Reprsenter graphiquement les donnes, le modle linaire vous parat-il appropri?
2. Etude des rgressions une seule variable explicative : toutes les variables sont-elles
individuellement influente sur les variations des ventes? Les rgressions vous semblentelles toutes valides conomiquement (en particulier pour la rgression Ventes / Prix de
l'entreprise)
3. Etudier de la mme faon les rgressions deux variables explicatives? Quelle est pour
vous la meilleure rgression 2 variables pour expliquer les variations des ventes, pour
prvoir les ventes?
4. Que pensez-vous du modle complet? Comment expliquer que certaines variables
individuellement significatives ne le soient plus marginalement? Vrifiez vos assertions
l'aide de rgressions linaires.
5. Appliquer la mthode de rgression pas pas "backward" aux donnes, puis vrifier
l'aide du tes de Fisher partiel qu'il tait possible de passer directement du modle complet
au modle trouv par la mthode pas pas.
6. Sur le modle trouv la question prcdente, procdez l'analyse des rsidus. Quelles
sont les donnes mal reconstitu par le modle (donnes dont le rsidu standardis est
>2) ?
2 Les stylos Runild (Runild.xls)

Dans le cadre d'une tude sur l'efficacit commerciale de l'entreprise Le responsable des
tudes a recueilli les informations suivantes :
La distribution des produits est organise en 40 zones gographiques
Chaque zone est attribue en exclusivit un grossiste assist par une quipe de
reprsentants commerciaux. Le nombre de ces reprsentants est dcid par le
grossiste et peut varier d'une zone l'autre.

Page 198

Rgression Linaire

Chaque trimestre les grossistes sont valus sur une chelle de 1 4. La valeur 4 indiquant
que le grossiste est jug trs bon, la valeur 1 un grossiste jug trs mauvais. Dans chaque zone
la publicit est faite essentiellement par la presse locale et la distribution domicile. Le
classeur Runild.xls donne pour les 40 zones gographiques :
Le volume des ventes mensuelles
Le nombre mensuel de page de publicit
Le nombre de reprsentants de l'quipe commerciale
La note de qualit attribue au grossiste

1) Etude des ventes en fonction des deux variables publicit et nombre de reprsentant.
a) Reprsenter graphiquement les ventes en fonction des deux variables, le modle de
rgression linaire vous semble-t-il adapt?
b) Quelle est l'influence de chacune des variables prise sparment sur les variations des
ventes?
c) Le modle deux variables est-il valide statistiquement et conomiquement?
d) Sachant que le cot mensuel moyen d'un reprsentant est de 2000 et le cot moyen
d'une page de publicit de 850, pour quelle marge unitaire sur le produit est-il plus
intressant d'embaucher un reprsentant ou de faire une page de publicit
supplmentaire.
2) Etude des ventes en fonction de la qualit du grossiste
a) Le charg d'tude considre que la note de qualit est une variable quantitative et
procde une rgression simple sur cette variable. Analyser les rsultats obtenus.
b) Le directeur commercial n'est pas d'accord, il pense que l'on doit considrer cette
variable comme qualitative quatre modalits. Il demande de procder une tude en
prenant la modalit 4 comme modalit de rfrence. Construire le modle et analyser
les rsultats. En prenant un risque a de 0,01 peut considrer que les modalits 3 et 4
sont diffrentes? Qu'en conclure?
c) Quel modle explicatif des variations des ventes en fonction de la qualit du grossiste
vous parat le mieux adapt?
3) Construire le modle qui vous parat le plus pertinent avec les trois variables. Analyser les
rsidus correspondants.
3 Produits frais (fichier pfrais.xls)

On a mis votre disposition les donnes concernant 49 points de ventes (constituant un


chantillon reprsentatif) pour faire une tude sur les ventes de yaourt de diffrentes marques.
Une unit statistique tant constitue dune marque vendue dans un magasin.
Les donnes recueillies concernent les variables suivantes :
Chiffre daffaires du produit en KF
Budget publicitaire rgional du magasin en KF
Distribution en valeur (DV)7 pour la marque dans la zone de chalandise concerne
(entre 0 et 1)
7

La DV est gale au rapport des CA des magasins offrant la marque divise par la somme des CA de tous les
magasins de la zone. La DV donne une ide de la reprsentation, pondre par limportance des magasins, de la
marque dans la zone de chalandise.

Page 199

Rgression Linaire

Prix moyen du Kg de produit dans le magasin pour la marque concerne en F


Marque du produit (code de 1 4)
Rgion du magasin (code de 1 5)
Votre objectif est de dterminer un modle explicatif du Chiffre daffaires.
Etude des variables quantitatives

Dans un premier temps, on nutilisera que les trois variables explicatives quantitatives
(Publicit, DV, Prix moyen). Aprs avoir effectu les 4 rgressions linaires de la variable
Ventes (Chiffre daffaires) en fonction d'au moins deux des variables explicatives, rpondre
aux questions suivantes.
Analyse du modle 3 variables

Quelle est la validit statistique et conomique du modle ?


Analyse des modles deux variables

Analyser rapidement les modles 2 variables explicatives. Quelles remarques pouvezvous faire ? Quel est le meilleur modle 2 variables ? Utiliser ce modle pour faire une
estimation du chiffre daffaires espr avec les donnes suivantes :
Budget Publicitaire 100KF
DV de 0,95
Prix moyen du Kg : 8F
Choix dun modle

Quel est pour vous le meilleur modle ne faisant intervenir que les variables explicatives
quantitatives ? ?
Etude des variables qualitatives

Ici ne sont prises en compte que les variables qualitatives Marque et Rgion. Effectuer les
trois rgressions, ainsi que le tableau danalyse de la variance (test de Fisher partiel).
Etude de chacune des variables individuellement

1- Rappeler comment est traite en rgression une variable qualitative k modalits.


2- La marque a-t-elle une influence significative sur le chiffre daffaires ? Classer les
marques en fonction du chiffre daffaires moyen.
3- La rgion a-t-elle une influence significative sur le chiffre daffaires ? Classer les rgions
en fonction du chiffre daffaires moyen.
Etude des deux variables qualitatives simultanment

1- Quelle est la validit statistique du modle obtenue ?


2- Analyser le tableau de l'analyse de la variance, conservez-vous les deux variables
explicatives ?
3- Quel modle variable(s) explicative(s) qualitative(s) conseillez-vous ?
Etude avec lensemble des variables

En conservant les variables qualitatives et quantitatives juges satisfaisantes aux deux


questions prcdentes, effectuer une rgression comprenant ces trois variables.
4- Que pensez-vous de la validit du modle obtenu ?
5- Quel est le modle retenu finalement ?
Page 200

Rgression Linaire

6- Comment pouvez vous expliquer la non-validit d'une des variables explicatives


(statistiquement et conomiquement) ?
7- Utiliser ce modle pour donner le chiffre daffaires espr pour un produit et un magasin
prsentant les caractristiques suivantes :
Budget Publicitaire 100KF
DV de 0,95
Prix moyen du Kg : 8F
Marque 3
Conclusion :

Quel modle vous semble-t-il le plus adapt pour lexplication et la prvision du chiffre
daffaires ?

Page 201