Vous êtes sur la page 1sur 92

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Statistiques appliques la
gestion

http://astroblog.typepad.fr/ebosia/
http://intranet.escem.fr/qcm/

engagementintgritcuriosithumilit
StatistiquesProbabilits

1
E. Bosia L. Gautier A. Rychalski

Contenu du cours
Introduction
lments de statistiques descriptives
univaries
lments de probabilits
Echantillonnage et estimations
Les tests

Principe gnral
Les tests de corrlation et dassociation
4
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Pour les enseignements de


statistiques

Inutile dacheter un livre, le cours suffit.

http://astroblog.typepad.fr/ebosia/

Vous devrez vous entraner sur le site live QCM

http://intranet.escem.fr/qcm

Vous devez prendre note des exemples et exercices traits


en cours, ils compltent le support pdf.

Si ncessaire, des ouvrages en Mdiathque compltent le


tout.

La base de lapprentissage, cest la rptition


E. Bosia L. Gautier A. Rychalski

Evaluation

En gnral, sous forme de QCM


Pour ce cours
Contrle continu : 30%
Examen final individuel : 70%

Cette anne, a priori, notes, cours,


tables de probabilit, ordinateur sont
interdits le jour de lexamen.
Inutile dapprendre les formules. Un
Vademecum sera fourni
6
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Introduction gnrale

engagementintgritcuriosithumilit
StatistiquesProbabilits

8
E. Bosia L. Gautier A. Rychalski

Vocabulaire de base
Population : ensemble de rfrence auquel
on sintresse
Population mre <> chantillon

Individu ou unit statistique : un lment de


cette population
Individu <> Observation ou rpondant

Caractre :
Aspect particulier dun individu auquel on
sintresse .
On parle de variable

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Le choix dun outil statistique


dpend Du nombre de variables
conjointement traites

Si vous traitez statistiquement une variable,


puis une autre, puis une autre, etc., vous
ralisez des statistiques univaries.
Si vous envisagez des variables deux deux,
vous ralisez des statistiques bivaries
Si vous traitez conjointement plus de deux
variables (p variables), vous mettez en uvre
des mthodes multivaries.
10
E. Bosia L. Gautier A. Rychalski

Le choix dun outil statistique


dpend Des objectifs de
lanalyste
Lorsque vous vous contentez dinterprter les
donnes recueillies, vous pratiquez de la statistique
descriptive.
Si vous cherchez mettre en relation mathmatique
deux ou plusieurs variables, vous tes dans une
dmarche de modlisation et utilisez des mthodes
explicatives.
Ex : on peut tenter de modliser la dpense ralise en une
journe chez Euro-Disney (D) en fonction de lge du chef de
famille (A) et de son nombre denfants (E).
On pourra tenter de construire le modle suivant :
D=aA+bE+c

Schmatiquement, les dmarches descriptives sont


trs utilises en entreprise, les dmarches
explicatives (plus techniques) sont rserves aux
chercheurs.

11

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Le choix dun outil statistique


dpend De lunivers de rfrence
dans lequel on inscrit son travail.

Deux univers se ctoient et se compltent parfaitement


en TQ
Lorsque je dnombre le nombre de filles et de garons
dans cette salle, je suis en univers certain ou
dterministe
Je peux aussi considrer que les gens prsents dans cette
salle reprsentent un chantillon dtudiants de la
promotion. Mon raisonnement statistique et mes calculs
sinscriront donc dans un univers probabiliste ou
alatoire, car jai pioch dans la population un certain
nombre dindividus.
Ce qui est certain (vous concernant) est probable
pour lensemble des tudiants
de la promotion.

12

E. Bosia L. Gautier A. Rychalski

Le choix dun outil statistique


dpend Du type de variables
manipules
Variable qualitative : variable qui ne peut pas
se mesurer mais simplement tre qualifie
ou code. Elle fait lobjet dun dnombrement
par modalit
Ex : sexe, CSP, nationalit, couleur, secteur
dactivit, etc
Variable quantitative : variable qui fait rfrence
une quantit que lon peut mesurer.
Ex : taille, salaire, nombre denfants dun
mnage etc

13

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

En rsum Le choix dun outil


statistique dpend

Du nombre de variables conjointement


manipules (une, deux, p).

De vos objectifs danalyse (description ou


explication).

De lunivers dans lequel vous inscrivez votre


raisonnement (certain ou probabiliste).

Du type de variables manipules (qualitatif ou


quantitatif).
14
E. Bosia L. Gautier A. Rychalski

I- lments de statistique descriptive


univarie

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A Rychalski

15
E. Bosia L. Gautier A. Rychalski

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Statistiques descriptives univaries


Collecte de donnes

Graphiques

Pour les variables QUANTITATIVES


uniquement , calculs complmentaires

Compression de linformation

Tableaux de distribution

E. Bosia L. Gautier A. Rychalski

Les variables qualitatives


Les diffrentes propositions associes un
caractre qualitatif se nomment des
modalits.
Les traitements univaris sont restreints : on
se limite au calcul des effectifs et des
frquences (pourcentages) observs par
modalit.

17
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Les diffrentes variables qualitatives


2 Types distinguer
variable nominale : variable qualitative dont
les valeurs ne peuvent pas tre ordonnes,
hirarchises (ex : couleur des yeux)
variable ordinale : variable qualitative dont
les valeurs peuvent tre ordonnes,
hirarchises (ex : mentions au bac)

18
E. Bosia L. Gautier A. Rychalski

Statistiques univaries : les


variables qualitatives
Quel est votre sport prfr ?
Observations ponctuelles
Rpondant
1
2
3
4
5
6
7
8
n

Rponse
Foot
Jogging
Tennis
Natation
Gym
Natation
Foot
Tennis
..

Tableau de distribution
Modalits
xi
Foot
Jogging
Tennis
Natation
Autres
Total

effectifs frquences
ni
fi
90
32.14%
70
25.00%
50
17.86%
65
23.21%
5
1.79%
280
100%
19
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La synthse par les chiffres et les


graphiques

Le tableau de distribution

Les diffrents graphiques


4

Diagramme barres

0
9

10

11

12

14

15

18

30%
bleu

Diagramme secteurs

50%

rouge
jaune

20%

Diagramme figuratif.
20
E. Bosia L. Gautier A. Rychalski

Les variables quantitatives

Mesurables numriquement.
Exemples : nombre denfants, dpense
tlphonique mensuelle dun mnage,
quantit de vin bue par mois, note obtenue
au partiel de finance, etc.
Une chelle dattitude peut tre assimile
une variable quantitative.
Pas du tout
daccord

Pas
daccord

Moyennement
daccord

Daccord

Tout fait
daccord

On peut se faire une ide de quelquun


aux disques quil/quelle choisit

ICI, on codera la rponse de 1 5 pour faire des calculs


21
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Les diffrentes variables quantitatives


2 Types distinguer
La variable discrte. Elle ne prend que des
valeurs entires (ex : le nombre denfants).
La variable continue. Elle prend toutes les
valeurs possibles, y compris des dcimales
(ex : note obtenue au partiel de finance).

Lorsquune variable continue prend un trop


grand nombre de valeurs, ces valeurs sont
regroupes en classes.
22
E. Bosia L. Gautier A. Rychalski

Statistiques univaries : les variables


quantitatives
Quel ge avez-vous ?
Observations
ponctuelles
Rpondan
t
Rponse
1
14ans
2
20ans
3
18ans
4
8ans
5
22ans

n
..

Paramtres de
Tendance centrale
et de dispersion

Tableau
de distribution

Classes
[0;10[
[10;20[
[20;30[
Total

frquences
effectifs frquences cumules
ni
fi
Fi
18
23%
23%
35
46%
69%
24
31%
100%
77
100%

Ecart
Moyenne type
Variance
C.V.
Mdiane Fractile
Mode
Etendue

Ou plus directement
23
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

10

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Problmes mthodologiques lis


lutilisation des classes

Combien de classes constituer ?

Sont-elles de mme amplitude ou bien


damplitudes ingales ?

Quel est impact de lutilisation des classes


sur les traitements ultrieurs ?

24
E. Bosia L. Gautier A. Rychalski

Quelques exemples de problmes


cognitifs

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

11

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Combien de classes constituer ?


Un trop petit nombre de classes : perte de
vue densemble du phnomne tudi.
Un trop grand nombre de classes : perte
dinformation.
Pour des raisons probabilistes
5 7 classes permettent dtaler la mesure et de
faire apparatre des distributions connues

Pour des raisons de perception cognitive


5 7 classes permettent au rpondant et
lanalyste de sy retrouver
26
E. Bosia L. Gautier A. Rychalski

Lamplitude des classes ?


Lhistogramme ne doit pas tre confondu
avec un diagramme barres juxtaposes
Ensemble de rectangle accols deux
deux avec :
La base de chacun des rectangles correspond la
largeur de la classe, on parle damplitude.
La surface de chaque rectangle est gale
leffectif de la classe ou sa frquence.
On raisonne en termes de densit dobservations :

di =

ni
a i +1 a i

ou d i =

fi
a i +1 a i

27

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

12

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Lamplitude des classes ?


Classes de mme amplitude : effectifs ou frquences directement
comparables
Classes avec amplitudes ingales : les effectifs et les frquences
ne sont plus directement comparables et lhistogramme ne
ressemble plus un diagramme barres juxtaposes
Histogramme : densit des femmes salaries selon la tranche dges
Densit
dobservations

d3
d2
d1
d4
a1 a2

a3

a4

a5

Age

28

s E. Bosia L. Gautier A. Rychalski

Impact de lutilisation des classes sur


les traitements ultrieurs ?
On ne raisonne plus avec les donnes
ponctuelles car on associe chaque
classe un centre de classe qui peut tre
le milieu de la classe ou encore la valeur
moyenne de la classe

29
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

13

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La synthse par les chiffres et les


graphiques
Le tableau de distribution
Effectifs, frquences, frquences cumules.
Amplitude, densit, centre.

Les graphiques

Diagramme barres
Diagramme secteurs
Lhistogramme
La courbe des frquences cumules ou
dcumules
30
E. Bosia L. Gautier A. Rychalski

Si on rsume .
nominale
qualitative
ordinale
variable

Intervalle (chelles)
discrte
quantitative
continue

31
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

14

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Relation entre variables quantitatives


et variables qualitatives

Il est toujours possible de retraiter une


variable quantitative en variable qualitative
alors que linverse nest pas possible.
Ex : si vous mesurez un revenu, rien ne vous
empche de recoder vos rsultats dans les
modalits bien pay , dans la moyenne ,
mal pay . Si vous procdez linverse, vous
allez avoir du mal calculer le revenu moyen de
la population tudie

Cest pour cette raison que les anglo-saxons


privilgient lutilisation de variables
quantitatives.
32
E. Bosia L. Gautier A. Rychalski

Quelle mthodologie d analyse


adopter pour tre efficace ?
Questionnnaire
Questionnnaire11
Collecte de donnes
- Questionnaires
- Base de donnes
Sortir les grandes conclusions
de votre tude

Synthse chiffre
Synthse graphique
Ecrire une phrase
par variable

Ensuite des calculs complmentaires sont possibles pour :


Entrer dans un contexte de justification
Entrer dans un contexte de prcision
Prparer dautres analyses

33

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

15

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Mthodologie pour . les variables


QUALI
Rappel : les traitements univaris sont
trs limits
Justification et prcision supposent que
vous

passiez en univers bivari ou multivari,


intgriez des notions de probabilit votre
travail
34
E. Bosia L. Gautier A. Rychalski

Mthodologie pour . les variables


QUANTI

On peut raisonner en termes de :


Forme : dissymtrie (Skewness ou coefficient
dasymetrie) et daplatissement (Kurtosis),
Ces coefficients vous renseignent sur lallure de la distribution des
observations

Tendance centrale.
Dispersion.

Il est aussi possible


De passer en univers bi ou multivari,
Dintgrer des notions de probabilit votre travail

35
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

16

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Caractristiques de formes : Skewness


et Kurtosis
Calculatoirement, ceci passe par linterprtation des
coefficient dasymtrie (Skewness) et le coefficient de
platicurtie (Kurtosis).
SK = 0

1
SK =
N
1
K=
N

xi x

i =1
N

xi x

i =1
N

Loi de Gauss

SK > 0 distribution tale droite


(elle tire gauche)
SK < 0 distribution tale gauche
(elle tire droite)

4
K = 3 Loi de Gauss
K > 3 Leptocurtie (PIC)
K < 3 Platicurtie

Attention, Excel utilise des fonctions diffrentes


36
(standardises et/ou sans biais) E. Bosia L. Gautier A. Rychalski

Skewness avec Excel


=coefficient.asymtrie()
La fonction renvoie un
paramtre sans biais

37
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

17

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Kurtosis avec Excel


=Kurtosis()
La fonction renvoie un paramtre
sans biais et standardis

Si la Kurtosis est ngative, excs


daplatissement
Si la Kurtosis est nulle, la distribution est
normalement cloche
Si la Kurtosis est positive, excs de pic

38
E. Bosia L. Gautier A. Rychalski

Quest-ce quun paramtre ?

Cest un hyper rsum de votre


distribution.
Il existe des paramtres de
9tendance centrale (ex : la moyenne dcrit M.
Tout le monde),
9dispersion (ex : calculer un cart-type qui
vous indiquera si vos observations sont trs
concentres ou trs disperses autour de la
moyenne).
39
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

18

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Pour les caractres quantitatifs


uniquement (justification & prcision)

Paramtres de
tendance centrale

Moyenne

Mdiane

Mode

Paramtres de
dispersion
Ecart-Type
Variance
Coefficient de
variation
quantiles dordre p
Intervalles inter
quantiles
Etendue
40
E. Bosia L. Gautier A. Rychalski

II- lments de probabilits

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A Rychalski

41
E. Bosia L. Gautier A. Rychalski

19

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Univers diffrents, concepts


similaires.
Univers certain

Variable (sous-entendue

Univers probabiliste

Variable alatoire

statistique)

frquence
La somme des
frquences vaut 1
La moyenne
La variance
L cart-type

Probabilit
La somme des
proba vaut 1
L esprance
La variance
L cart-type
42
E. Bosia L. Gautier A. Rychalski

Pourquoi des probabilits ?


Pour sappuyer sur les rsultats de
modle connu, on transforme
l observation en probabilit. On
passe ainsi du contingent au
thorique.
Parce que l on travaille avec des
chantillons : on pioche et on
rcupre les proprits des lois de
probabilit au cours de diffrentes
phases dexploration des donnes
(estimations, tests)
43
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

20

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Quest-ce quune loi de probabilit ?


Une loi de probabilit est un
MODELE reprsentant "au mieux",
une distribution de frquences ou
deffectifs d'une variable statistique.
Dans la classification des lois de
probabilit, on distingue les lois
discrtes et les lois
continues
44
E. Bosia L. Gautier A. Rychalski

Le cas de variables alatoires discrtes.


La loi de Poisson
La loi binomiale

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A Rychalski

45
E. Bosia L. Gautier A. Rychalski

21

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La loi de Poisson P()

Cest la loi des vnements rares : ds


que lon sloigne de lesprance, les
probabilits dcroissent trs rapidement.
Les arrives un poste de service (ex :
caisse en GMS, page) sont rgies par cette
loi.

P( X = x) = e *

x!

Le paramtre doit tre constant dun essai lautre, cest-dire que les priodes tudies doivent tre homognes.

E( X ) =

46
E. Bosia L. Gautier A. Rychalski

Comment savoir si une distribution


suit une loi de Poisson ?

Analyse graphique de la distribution


observe.
Ex : = 4
0.2500
0.2000
0.1500
0.1000
0.0500
-

10

2 proprits

E( X ) = V ( X ) =
x 1.

x
e
e
P( X = x )
x.( x 1)!
x
!
=
=
=
x 1

x 1
x
P(X = x 1)

e
e
( x 1)!
( x 1)!

47

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

22

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La loi binomiale B(n,p)


Cette loi donne la probabilit dobserver
x succs en n essais indpendants
Deux vnements complmentaires et
mutuellement exclusifs
Deux probabilits
p succs
q=(1-p) checs
50
E. Bosia L. Gautier A. Rychalski

Caractristiques de la loi binomiale


B(n,p)

P(X = x ) = C nx .p x .(1 p) ( n x ) =

E(X)= n.p

V(X) = n.p.q

n!
.p x .(1 p) ( n x )
x!(n x )!

51
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

23

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Exemple
Vous jouez pile ou face. En quoi ce jeu est
il un processus binomial ?
En 10 lancers
Combien de pile attendez-vous ?
Quelle est la probabilit dobserver 5 pile ?
Quelle est la probabilit dobserver entre 4 et 6
pile inclus ?

52
E. Bosia L. Gautier A. Rychalski

Aide aux Rsultats


X
0
1
2
3
4
5
6
7
8
9
10

P(X=x)
0.0010
0.0098
0.0439
0.1172
0.2051
0.2461
0.2051
0.1172
0.0439
0.0098
0.0010

P(x<=X)
0.0010
0.0107
0.0547
0.1719
0.3770
0.6230
0.8281
0.9453
0.9893
0.9990
1.0000
Loi binmiale P(X=x)
0.3000
0.2500
0.2000
0.1500

P(X=x)

0.1000
0.0500
1

10

11

53

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

24

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Rsultat
Lorsquun seul essai est ralis, le jeu de
pile ou face suit une loi de Bernouilli qui
est un cas particulier de la loi binomiale
En 10 lancers
Combien de pile ? E(X) = n.p = 10*0.5 = 5
P(X=5) = C105 .p 5 .(1 p) (5)

10! 1 1
. .
5!(5)! 2 2

= 0.2461

Quelle est la probabilit dobserver entre 4 et


54
6 pile inclus = 0.6563
E. Bosia L. Gautier A. Rychalski

Un sondage avec remise est-il


un processus binomial ?

Dans la population franaise, on sait que p%


des lecteurs sont favorables la politique de
M. Dugenou
Quelle loi de probabilit suit la V.A. nombre de sonds
dun chantillon de taille n se dclarant favorables la
politique de M. Dugenou ?

55
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

25

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Un sondage avec remise est-il

La loi hypergomtrique sapplique dans le cas


dun tirage exhaustif de n lments ou n

tirages sans remise

Ainsi, Un sondage sans remise sera un processus


Hypergomtrique. On montre que pour cette loi :
E[X ] = n.p
n
V[X ] = n.p.q.(1 N )

MAIS SI N est TRES GRAND, on se ramne une loi


binomiale
CL : Pour la population franaise, les cas avec et
sans remise se rejoignent, la probabilit de
slectionner deux fois un rpondant est quasi-nulle 56

E. Bosia L. Gautier A. Rychalski

Le cas des variables alatoires


continues
La loi normale centre rduite
La loi normale
La loi de Student
La loi du Khi

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A Rychalski

57
E. Bosia L. Gautier A. Rychalski

26

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Pralable pour les V.A. continues

Lorsquune variable alatoire est continue,


elle peut prendre une infinit de valeurs et la
probabilit pour que la variable alatoire soit
gale une valeur particulire est nulle :
P(X=x) = 0.
On sintresse alors des vnements du
type : X prend ses valeurs dans un
intervalle I . On remplace ainsi la notion de
probabilit ponctuelle P(X=x) par la notion de
densit de probabilit ou fonction de densit
de probabilit, f(x).
58
E. Bosia L. Gautier A. Rychalski

Pralable pour les V.A. continues


f(x) : densit de probabilit

f(x)

P(x < X < x +dx) = f(x).dx

x x+dx

E. Bosia L. Gautier A Rychalski

f ( x ).dx = 1

x
59
E. Bosia L. Gautier A. Rychalski

27

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Pralable pour les V.A. continues

La fonction de rpartition donne la


probabilit que la V.A soit infrieure une
certaine valeur. On a ainsi :
F(x) = P(X < x)

Graphiquement, une fonction de


rpartition se traduit par une courbe
cumulative des probabilits.

60
E. Bosia L. Gautier A. Rychalski

Pralable pour les V.A. continues


f(x)

F(b) = p(X < b)

x
61
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

28

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Pralable pour les V.A. continues


f(x)

f ( x )dx

F(b) F(a) = p(a < X < b) = a f ( x ).dx

NOTE : P(a < X < b) = P(a X b)

62
E. Bosia L. Gautier A. Rychalski

En rsum
Il existe des fonctions de densit de probabilit
Elles permettent une reprsentation graphique
Elles ne permettent pas de calculer directement une
probabilit ponctuelle car P(X=x)=0

Il existe des fonctions de rpartition qui


permettent de
tracer la courbe des probabilits cumules
calculer des probabilits (sous-entendues

dintervalles)
63
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

29

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La loi normale centre rduite

Fonction de densit
de probabilit
(courbe en cloche)

Fonction de
rpartition (courbe
cumulative)

f (z) =

P( Z < t ) =

1
* e z / 2
2
t
1
* e z / 2 dz
2

La connaissance de la dfinition mathmatique de ces fonctions


nest pas indispensable pour utiliser la loi de probabilit.
Il suffit de se reporter aux tables
64
E. Bosia L. Gautier A. Rychalski

Reprsentation graphique
La fonction de densit de probabilit : f (z) =

1
* e z / 2
2

0.45

0.4

0.35

0.3

0.25

0.2

0.15
-1.5

-1

-0.5

0.5

1.5

65

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

30

STATISTIQUES APPLIQUEES A LA GESTION

P( Z < t ) =

La fonction de rpartition

(c) Escem 2012-2013

t
1
* e z / 2 dz
2

1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-1.5

-1

-0.5

0.5

1.5

66
E. Bosia L. Gautier A. Rychalski

Application la loi normale centre rduite ou


loi de Gauss N(O;1)
V.A. continues
Moyenne = 0
Ecart-type = 1
Symtrie
P(Z < - t) = P (Z > t)

Cette loi est mathmatique Avez vous dj vu des distributions 67


avec 0 de moyenne et 1 dcart type
? L. Gautier A. Rychalski
E. Bosia

E. Bosia L. Gautier A Rychalski

31

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Deux approches classiques

Lapproche
Unilatrale

(1 ) = ?

Quelle est la probabilit dobserver


une valeur infrieure t ?

Lapproche
Bilatrale
Quelle est la probabilit dobserver
une valeur comprise dans un
intervalle symtrique par rapport
la moyenne ?

(1 ) = ?
/2

/2

-t

68
E. Bosia L. Gautier A. Rychalski

Deux approches classiques - suite

Lapproche
Unilatrale
La probabilit dobserver une
valeur infrieure ??? est de 1 -

(1 )

t = ???
U
1

Lapproche
Bilatrale
La probabilit dobserver une
valeur comprise dans un intervalle
symtrique par rapport la moyenne
de bornes ???? est de 1 -

(1 )
/2

- t = ???

/2

t = ???

69

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

32

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Exemple
Z est une V.A centre rduite. A laide des
tables de probabilit, calculez :

P(Z > 1.64)


P(Z < -1.64)
P(- 1 < Z < 2)
P(- 0.43 < Z < 0)
P(Z < t) = 0.95
P(Z < t) = 0.975
P(- t < Z < t) = 0.95

(calculez la valeur de t)
(calculez la valeur de t)
(calculez la valeur de t)
70
E. Bosia L. Gautier A. Rychalski

Rsultat
P(Z > 1.64) = 1- P(Z < 1.64) = 0.051
P(Z < -1.64) = P(Z > 1.64) = 0.051
P(- 1 < Z < 2) = P(Z > - 1) - P(Z > 2)
= P(Z < 1) [1- P(Z < 2)] = 0.818
P(-0.43 < Z < 0) = P(Z > - 0.43) P(Z > 0) = 0.166
P(Z < t) = 0.95

t = 1.645

P(Z < t) = 0.975

t = 1.96

P(- t < Z < t) = 0.95

t = 1.96, - t = - 1.96
71
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

33

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

En rsum de lapproche unilatrale


pour la loi de Gauss N(O;1)

95%

97,5%
99,5%
0
+1,645

+1,96 +2,576

72

E. Bosia L. Gautier A. Rychalski

En rsum de lapproche bilatrale


pour la loi de Gauss N(O;1)

-1,645
-1.96
-2,576

90%

+1,645

95%
+1.96
99%

+2,576
73
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

34

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La loi normale (non centre, non


rduite) : cas gnral

X N( x , )
Fonction de densit
de probabilit
(courbe en cloche)
Fonction de
rpartition (courbe
cumulative)

f (x) =

1
2

P(X < t ) =

1
2

*e

1 x x

2

* e

1 x x

2

dx

74
E. Bosia L. Gautier A. Rychalski

Standardiser une variable

Centrer et rduire = standardiser


Transforme une distribution normale en
une distribution centre rduite N(O;1)
Cette opration permet
Dexprimer des variables dans un ordre de
grandeur similaire
De se rattacher une loi standard qui a
lavantage dtre tabule (il y a moins de
calculs).

75
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

35

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Le centrage et la rduction dune


variable permet de se rattacher
une loi standard
1. On vrifie que la variable tudie X suit une
loi normale
2. On calcule la moyenne et lcart-type de la
variable X.
3. Pour chaque valeur de X, cest--dire xi, on
lui soustrait la moyenne puis on divise le tout
par lcart-type. On obtient ainsi la valeur zi :
zi =

xi x

76
E. Bosia L. Gautier A. Rychalski

Un exemple simple

La variable alatoire note obtenue au


partiel de finance suit une loi normale
de moyenne 12 et dcart-type 3
Quelle est la probabilit quun tudiant
ait obtenu moins de 15/20 ?

77
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

36

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

On standardise
La loi de Gauss est une abstraction, pourtant

On sy rattache en centrant et rduisant la variable


initiale pour le calcul des probabilits.
Si

X a N( x; ) et que lon pose Z =

Alors Z a N (0;1)
Calculer P( X < 15) revient calculer P( Z <

Xx

15 x
)

Avec Z qui suit une loi normale centre rduite.


Solution : P(Z < 1) = 0.841
78
E. Bosia L. Gautier A. Rychalski

On retrouve les proprits prcdentes sur


une loi normale non centre, non rduite

Approche unilatrale

N ( x; )

95%

E. Bosia L. Gautier A Rychalski

x + 1.645.

81

E. Bosia L. Gautier A. Rychalski

37

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Loi normale

Approche unilatrale

N ( x; )
95%

x + 1.96.

97,5%

x + 2.576.

99,5%

x + 1.645.

82

E. Bosia L. Gautier A. Rychalski

Loi normale

Approche bilatrale

90%
95%
x 1.96.

x + 1.96.

99%

x 2.576.

x 1.645.

x + 2.576.

x + 1.645.

83

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

38

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La loi de Student

Schmatiquement, il sagit dune petite loi normale.


Cette loi est symtrique comme la loi normale
Si T St alors
E(T) = 0
pour > 1

V(T) = 2 pour > 2


La dfinition de cette loi fait intervenir le nombre de degrs
de libert (lire nu )
La courbe de densit est diffrente selon le nombre de d.d.l.
manipuls

84
Source: Statistique pour conomistes et gestionnaires , B. Tribout, 2007

E. Bosia L. Gautier A. Rychalski

Les degrs de libert

Le nombre de degrs de libert


Cest le nombre de valeurs non redondantes que
lon doit connatre connaissant un paramtre pour
en dduire automatiquement toutes les autres.
Exemple : le calcul de lcart type dune variable.
Considrons un chantillon de taille n. si lon calcule
les n 1 premiers carts, alors le dernier sera
strictement dtermin du fait que ( x i x ) = 0 . Il y a
ainsi (n 1) donnes indpendantes, libres .

Degrs de libert = d.d.l.= Degrees of freedom = d.f.


Vous devez savoir manipuler les tables de la loi de student.
85
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

39

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Les degrs de libert


Individu n

Lorsque vous disposez


dobservations ponctuelles, le
nombre de d.d.l. est de (n-1)
Caricaturalement si vous interrogez
5 individus, vous avez 4 d.d.l.

Lorsque les observations sont


paires, le nombre de d.d.l est de
(n-2) avec n le nombre de paires

1
2
3
4
5
Total

X note de finance
10
16
1
14
??
10
65

Intention
Individu Age
d'achat
1
23
3
2
33
2
3
26
1
4
45
5
5
55
3
6
62
5
7
77
4
??
8
??
Moyenne 46.63
3.38

86
E. Bosia L. Gautier A. Rychalski

Les degrs de libert


Macavecomporte
Chinon
Bourgueil
Saumur
???
Total

Dans un tri plat, le


nombre de d.d.l. est
de (l-1)
Caricaturalement si
vous connaissez l
lignes, et un
paramtre, vous
pouvez en dduire la
valeur de la dernire

Gar ons

Dans un tri crois, le


nombre de d.d.l. est
de (l -1)*(c -1)

Pour
Contre
Total

Filles
12
??
30

60
30
100

Total
??
??
16

28
18
46

87
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

40

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La loi du Khi de Pearson (1857;1936)

Considrons Z1, Z, variables alatoires


indpendantes qui suivent chacune la loi normale
centre rduite. Alors la V.A Y qui est la somme des
carrs des variables normales centres rduites
suit une loi du khi-deux degrs de libert.

Si Y = Z i2 alors Y 2
i =1
E(Y) = et V(Y) = 2.

Cette loi trouve de nombreuses applications lorsque


lon effectue des comparaisons de proportions, lorsque
lon teste la conformit dune distribution observe
une distribution thorique ou encore lorsque lon teste
lindpendance de deux caractres qualitatifs. Cest ce
que lon appelle les tests du khi-deux.

90

E. Bosia L. Gautier A. Rychalski

La loi du Khi de Pearson (1857;1936)

Sa courbe de densit est diffrente selon le nombre


de d.d.l. manipuls. Plus le nombre de d.d.l.
augmente et plus la courbe se rapproche de celle
dune loi normale.
Une V.A qui suit une loi du 2 ne prend que des
valeurs positives.
0,3

LOI du khi - DENSITE DE PROBABILITE


0,25
0,2

3 d.d.l.
4 d.d.l.

0,15

5 d.d.l.
6 d.d.l.

0,1

7 d.d.l.
0,05
0
0

10

15

20

91

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

41

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Des petites lois la loi normale

De la loi de Poisson la loi normale


- De la loi binomiale la loi normale
- De la loi de Student la loi normale
-

engagementintgritcuriosithumilit
StatistiquesProbabilits

92
E. Bosia L. Gautier A. Rychalski

Loi de Poisson, loi binomiale et loi normale

Conditions :
Lorsque > 20

Approximation :

Conditions :
Si np > 5 et n(1-p)> 5

Approximation :

P( ) = N(; )

B( n; p ) = N ( np; np (1 p ) )

ou (selon les auteurs)


Lorsque n > 5 et que
p
(1 p )
1

*
< 0,3
(1 p )
p
n
93
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

42

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Exemple dapproximation dune loi de Poisson


par loi normale
Loi de poisson - Loi normale
0.06
0.05
0.04
P(X=k)

0.03

Loi normale

0.02
0.01
0
1

9 17 25 33 41 49 57 65 73 81 89 97
94
E. Bosia L. Gautier A. Rychalski

Exemple dapproximation dune loi binomiale


par une loi normale
Loi Binmiale - Loi normale
(n=100 et p=36%)
0.09
0.08
0.07
0.06
0.05

P(X=k)

0.04

Loi normale

0.03
0.02
0.01
0
1

13 19 25 31 37 43 49 55 61 67 73 79 85 91 97
95
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

43

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

De la loi de Student la loi Normale

=5
=10
=50
Loi N

E. Bosia L. Gautier A. Rychalski

Au risque dinsister...

Lorsque n augmente (plus de 30 ou de


50 essais), la V.A. peut tre approche
par une loi normale.

Loi Binomiale
Loi HG
Loi de Poisson
Loi de Student
Etc

Loi normale

Ce sont les Grands nombres

97

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

44

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

III- Echantillonnage et estimations

engagementintgritcuriosithumilit
StatistiquesProbabilits

102
E. Bosia L. Gautier A. Rychalski

Deux catgories de problmes


On connat la valeur de certains paramtres dans
la population mre et on cherche induire des
renseignements sur les valeurs que peuvent
prendre ces paramtres sur lchantillon.
Cest un problme de distribution
dchantillonnage.
Au contraire, on connat la valeur de certains
paramtres dans lchantillon et on cherche
induire des renseignements sur les valeurs que
peuvent prendre ces paramtres dans la
population mre.
Cest un problme destimation.
103
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

45

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Deux catgories de problmes


Que lon peut schmatiser de la faon suivante
(Daprs V. Giard (1995), Statistiques appliques la gestion, p162)

Connu

Inconnu
prvisible

Inconnu
prvisible

Connu

Problme de distribution
dchantillonnage

Problme destimation

104

E. Bosia L. Gautier A. Rychalski

Les problmes de distribution


dchantillonnage

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A Rychalski

105
E. Bosia L. Gautier A. Rychalski

46

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Un exemple pour comprendre


La cote de popularit de la chanteuse Lorie
Fabian est, dans la population franaise ge
de 4 ans et plus de f = 52%.
Constituant un chantillon de 1000 individus,
Combien de partisans de Lorie attendez-vous ?
Quelle est la probabilit que vous observiez une
cote suprieure 54 % dans cet chantillon ?

106
E. Bosia L. Gautier A. Rychalski

Rsultat

Ici, nous sommes en prsence dun processus binomial.


Dans la population franaise, un sondage avec
remise = sans remise . (Voir prcdemment, la loi
binomiale).
La variable alatoire X nombre de sonds dans
lchantillon se dclarant pour Lorie suit une loi
binomiale de paramtres n=1000 ; p=52%
Combien de partisans E(X) = n.p = 1000*0.52 = 520
Une cote suprieure 54 %.... veut dire : P(X > 540)
1. Comme n est grand , on peut considrer que cette
variable alatoire suit une loi normale de paramtres :
B(n; p) ~ N(np; np(1 p) )

Ici B(1000;0.52) = N(np = 520; np(1 p) = 15,8)

107

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

47

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Rsultat - suite
2. Il faut donc centrer et rduire pour se rattacher une loi de
Gauss N(0;1)
Calculer P(X > 540) revient calculer : P( Z >

540 520
)
15,8

Avec Z qui suit une loi de Gauss centre rduite.


Donc : P( Z > 1,26) = 1 P( Z < 1,26) = 0.104

P = 10.4%
108

z = 1,26

E. Bosia L. Gautier A. Rychalski

Autrement dit .

Vous connaissez un paramtre de la population mre (la


proportion de gens favorables Lorie) et savez quen
constituant UN chantillon de 1000 individus slectionns
au hasard, vous avez environ 11 chances sur 100
dobserver une cote de popularit suprieure 54%.

Ce problme de distribution dchantillonnage est idiot


Lorsque lon connat ce qui caractrise la population
mre, on ne se fatigue pas, en Marketing, faire un
sondage !

La situation inverse est beaucoup plus frquente: on


observe un paramtre sur un chantillon et on cherche
induire celui-ci lchelle de la population mre. Cest une
problmatique destimation
On peut estimer des proportions (ou pourcentages)
On peut estimer des moyennes

109

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

48

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Les estimations

- Principe gnral
- Estimer une proportion
- Estimer une moyenne
engagementintgritcuriosithumilit
StatistiquesProbabilits

110
E. Bosia L. Gautier A. Rychalski

Principe gnral
n = taille de lchantillon
f = % observ sur lchantillon
x = moyenne observe de lchantillon
s = cart-type observ sur lchantillon

ESTIMATION

OBSERVATION

p : proportion de la population mre


m : moyenne de la population mre
(Ecart-type de la population mre)
ventuellement
111
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

49

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Principe gnral : exemple de la moyenne

La moyenne dun chantillon (x) peut tre


plus ou moins grande par rapport m
(moyenne de la population mre).
On doit, en estimant m, tenir compte du fait
qu'il y a une marge derreur dans lestimation.
On dfinit donc un intervalle destimation de
m en se fixant un degr de confiance cest ce
que lon appelle un intervalle de confiance.
Ainsi un intervalle de confiance 95% signifie
que dans 95 % des cas, lintervalle contient
la moyenne de la population mre.
IC95%
m
t1

t2

112
E. Bosia L. Gautier A. Rychalski

Estimer une proportion

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A Rychalski

113
E. Bosia L. Gautier A. Rychalski

50

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Estimer une proportion p (chantillon


avec remise)

La variable tudie suit une loi normale.


Dans la population mre, il existe une proportion p
dindividus possdant une caractristique donne.
Comme on ne connat pas p, on pourrait utiliser
simplement la frquence observe f sur lchantillon.
Toutefois, on prend le risque que f ne soit pas la vraie
proportion dans la population mre.
Pour tre plus prcis, on va encadrer cette proportion
en utilisant la frquence observe sur lchantillon :
[f < p < f + ] p [f ; f + ] p [f ]

On doit donc identifier la valeur de puisque f est


connue
On doit aussi prciser la confiance que lon a en
cet intervalle :
P[f < p < f + ] = 1 -

114
E. Bosia L. Gautier A. Rychalski

Finalement

Intervalle de confiance au

niveau 1- pour une


f (1 f )
IC1 ( p ) = f u

1
proportion p inconnue
n
2

(chantillon avec remise)


A utiliser lorsque N inconnu
pour les grands nombres.
f (1 f )
n

est lcart type estim de la proportion f (pour


une mme caractristique, la valeur de f varie
dun chantillon lautre).
Exemple :
est lintervalle de confiance

f (1 f )
IC95% ( p) = f 1.96
95% dune proportion p
n

inconnue
115
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

51

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Exemple
Un sondage a t ralis auprs dun chantillon
alatoire de 500 individus. Les intentions de vote pour
le candidat Dugenou sont de f = 54%
Estimez p laide d un I.C. 95%
Estimez p laide d un I.C. 99%

116
E. Bosia L. Gautier A. Rychalski

Rsultat

Cas n1 : Il y a 95 chances sur 100 pour que p (la


proportion de favorables Dugenou dans la
population mre) soit comprise dans lintervalle :

0.54(1 0.54)
IC95% ( p ) = 0.54 1.96

500

= le rayon de lestimation
95% = (1-) = le niveau de lestimation
Donc p [0.496;0.583]

117
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

52

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Rsultat

Cas n2 : Il y a 99 chances sur 100 pour que p (la


proportion de favorables Dugenou dans la
population mre) soit comprise dans lintervalle :

0.54(1 0.54)
IC99% ( p) = 0.54 2.576

500

= le rayon de lestimation
99% = (1-) = le niveau de lestimation
Donc p [0.482;0.597]

118
E. Bosia L. Gautier A. Rychalski

Premire remarque

Lorsque lon augmente le niveau de confiance


de lestimation (passer de 95% 99%, par
exemple), le rayon de lestimation augmente.

Plus on est fiable dans lestimation de p


moins on est prcis quant la valeur que
peut prendre p
119
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

53

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Seconde remarque

La prcision de lestimation dpend :

f u1
2

f (1 f )

Du niveau de confiance
que se fixe lanalyste

De la variabilit
du paramtre tudi

De la taille de lchantillon

La prcision ne dpend pas de N !!!


120
E. Bosia L. Gautier A. Rychalski

Estimer une proportion p (chantillon


sans remise)

On connat N.
Intervalle de confiance au niveau 1- pour une
proportion p inconnue (chantillon sans
remise).

IC1 ( p ) = f u
1
2

f (1 f ) N n

n
N

Le taux de sondage n/N doit tre suprieur de


lordre de 1/5 1/7.

121
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

54

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Exemple
Un sondage a t ralis auprs dun chantillon
alatoire de 60 tudiants. 18% dentre eux sont
gauchers (N = 400).
Estimez p laide d un I.C. 95%
Estimez p laide d un I.C. 99%

122
E. Bosia L. Gautier A. Rychalski

Rsultat

Cas n1 : Il y a 95 chances sur 100 pour que p (la


proportion dindividus gauchers dans la population mre)
soit comprise dans lintervalle :

0.18(1 0.18) 400 60


IC95% ( p) = 0.18 1.96

60
400

Donc p [0.09;0.29]

Cas n2 : Il y a 99 chances sur 100 pour que p (la


proportion dindividus gauchers dans la population mre)
soit comprise dans lintervalle :

0.18(1 0.18) 400 60

IC99% ( p) = 0.18 2.576

60
400

Donc p [0.062;0.297 ]

123
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

55

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Estimer une moyenne

engagementintgritcuriosithumilit
StatistiquesProbabilits

124
E. Bosia L. Gautier A. Rychalski

Estimer une moyenne

Intervalle de confiance au niveau 1- pour une


moyenne inconnue (chantillon avec remise)
Si peu de sonds on utilise la loi de Student

s'
IC1(m) =X t

1 ;(n1)
n1
2

Sinon, on utilise la loi normale


( partir de n=120 rpondants selon Malhotra in Etudes Marketing avec
Spss , Pearson education)

s'
IC1(m) =X u

1
n1
2

125
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

56

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Exemple
Un sondage a t ralis auprs dun chantillon
alatoire de 101 tudiants de 1re anne. Leur taille
moyenne est de 170 cm avec un cart-type de 30 cm.
Estimez m laide dun I.C. 95%
Estimez m laide dun I.C. 99%

126
E. Bosia L. Gautier A. Rychalski

Rsultat

Cas n1 : Il y a 95 chances sur 100 pour que m (la


moyenne dans la population mre) soit comprise dans
lintervalle :
30

IC95% (m) = 170 1.984


100

Donc m [164;176 ]

Cas n2 : Il y a 99 chances sur 100 pour que m (la


moyenne dans la population mre) soit comprise dans
lintervalle :
30

IC99% (m) = 170 2.626


100

Donc m [162;178]

127
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

57

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

On retrouve notre premire remarque

Lorsque lon augmente le niveau de confiance


de lestimation (passer de 95% 99%, par
exemple), le rayon de lestimation augmente.

Plus on est fiable dans lestimation de p


moins on est prcis quant la valeur que
peut prendre p
128
E. Bosia L. Gautier A. Rychalski

On retrouve notre seconde remarque


La prcision de lestimation dpend :

s'

X
u

1
n1
2

Du niveau de confiance
que se fixe lanalyste

De la variabilit
du paramtre tudi

De la taille de lchantillon

La prcision ne dpend pas de N !!!


129
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

58

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Calibrer la taille dun chantillon

engagementintgritcuriosithumilit
StatistiquesProbabilits

130
E. Bosia L. Gautier A. Rychalski

But de la manoeuvre

Avant la phase terrain, matriser tous les


paramtres des estimations futures dans le
but de pouvoir conclure

Le calibrage seffectue donc avant la phase


terrain, les estimations, aprs.

131
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

59

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Calibrer la taille dun chantillon

Lobjectif dun chantillon est de pouvoir fournir


une estimation prcise des paramtres dune
variable.
plus la taille de lchantillon est grande et plus
le degr de prcision est important
Il ny a pas proportionnalit entre la prcision et
la taille de lchantillon.
Exemple : si vous doublez la taille de votre
chantillon, la prcision ne sera pas multiplie
par 2 mais par moins de 2.
132
E. Bosia L. Gautier A. Rychalski

Calibrer la taille dun chantillon

Le calcul de la taille dun chantillon dpend de 3


lments :
Le niveau de confiance que vous accordez
votre calcul, gnralement 95%
Le paramtre sur lequel vous vous reposez pour
votre calcul : proportion dun caractre tudi ou
moyenne
La marge de prcision de lestimation du
paramtre appele aussi marge derreur. Par
exemple, prendre une marge de prcision de
2% dune proportion signifie que mon rsultat
est connu 2% prs en plus ou en moins
133
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

60

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Taille dun chantillon avec une


proportion

A partir d'une proportion, la taille de l'chantillon (avec


remise) est donne par lexpression suivante :
u
1
n = p o .(1 p o ). 2

po est la proportion connue dans la population-mre


ou la proportion estime.
est la marge de prcision ou marge derreur
La taille dun chantillon ne dpend pas de la taille
de la population mre
134
E. Bosia L. Gautier A. Rychalski

Exemple
Lors dun rcent sondage, vous avez constat que 10%
des lecteurs avaient lintention de voter pour le candidat
Trucmuche.
Vous souhaitez effectuer un nouveau sondage.
Combien devez vous interroger dindividus pour
connatre la proportion p dlecteurs potentiels 4% prs
avec un niveau de confiance de 95% ?
Combien devez vous interroger dindividus pour
connatre la proportion p dlecteurs potentiels 2% prs
avec un niveau de confiance de 95% ?
135
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

61

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Rsultat
Cas n1 : la proportion p dlecteurs potentiels 4%
prs avec un niveau de confiance de 95% ?

1.96
n = 0.1.(1 0.1).
= 217
0.04

On arrondit la valeur suprieure


216.09 -> 217

Cas n2 : la proportion p dlecteurs potentiels 2%


prs avec un niveau de confiance de 95% ?

1.96
n = 0.1.(1 0.1).
= 865
0.02

Pour doubler la prcision, multiplier la taille


de lchantillon par 4.
136
E. Bosia L. Gautier A. Rychalski

Que faire si p est inconnue ?

On majore la taille de lchantillon en sappuyant


sur la valeur de po.(1 po) dans lexpression :
u
1
n = p o .(1 p o ). 2

Le terme po.(1 po) varie entre les valeurs 0 et


0,25 avec une moyenne de 0,175.
Si lon veut majorer la taille de lchantillon, on
utilise la valeur maximum de po.(1 po)
cest--dire 0,25 qui correspond une valeur de
p = 0.5.
137
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

62

STATISTIQUES APPLIQUEES A LA GESTION

Sans remise
(5) Echantillon
sans remise
On connat N
n/N > 1/5 ou 1/7

n0

(c) Escem 2012-2013

N
N + n0 1

u1
p0 q0 2

= no

On reprend le rsultat no dun calibrage avec remise


en le multipliant par un terme qui intgre N, taille de
la population mre.
E. Bosia L. Gautier A. Rychalski

Pourquoi de telles recettes ?


Quelques complments pour comprendre

Les distributions dchantillonnage

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A Rychalski

139
E. Bosia L. Gautier A. Rychalski

63

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Pourquoi de telles recettes ?

La loi normale n est pas prsente dans


ce que lon observe et pourtant, on en
rcupre les proprits

Essayons de la dcouvrir
140
E. Bosia L. Gautier A. Rychalski

Les distributions dchantillonnage


Si population de taille N (infinie, en fait)
Si chantillon de taille n
Combien d chantillons diffrents peuton constituer ???

C
E. Bosia L. Gautier A Rychalski

n
N

Soit un nombre presque infini


141

E. Bosia L. Gautier A. Rychalski

64

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Spculation intellectuelle

Admettons que nous ayons le temps de


constituer cette infinit d chantillons et
d interroger 1 par 1 les individus qui les
composent !!!
Posons leur la question Etes-vous
favorable la politique de M. Dugenou ?

On va collecter une infinit de f (une par chantillon)


142
E. Bosia L. Gautier A. Rychalski

Analysons les f1, f2, ., fn obtenues


Nombre
d chantillons
ayant rendu
f

N ( p;

pq
)
n

f
0%
chantillons
d opposants

E. Bosia L. Gautier A Rychalski

100%
chantillons 143
E. Bosia de
L. partisans
Gautier A. Rychalski

65

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

On peut retrouver facilement les


paramtres de cette loi

Soit X le nombre de
rpondants positifs sur
un chantillon de n individus

Comme n grand et N
infini

Et la proportion de
X
positifs sur un chantillon f =
n
vaut f=X/n

X
X

B ( n; P )
N ( nP; nPQ )
N ( P;

PQ
)
n

On retrouve bien les paramtres de la


distribution dchantillonnage
prcdente
144
E. Bosia L. Gautier A. Rychalski

En bref...
La distribution dchantillonnage des
proportions est la distribution que lon
observerait si lon constituait tous les
chantillons potentiellement ralisables
Elle suit une loi normale

On peut donc jongler avec ses proprits.


145
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

66

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Jonglons un peu !!!

Quelle est la probabilit de constituer un chantillon


qui rendrait une frquence f comprise dans l intervalle ?

p + ou 1.96

pq
n

95%
146
E. Bosia L. Gautier A. Rychalski

Donc :
Probabilit de 95% d observer une valeur f comprise dans
l intervalle

p 1.96

pq
pq
f p + 1.96
n
n

On additionne

+ 1 . 96

pq
n

On soustrait

1.96

pq
n
147

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

67

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Remis dans l ordre, on


obtient :
pq
pq
f 1.96
p f + 1.96
n
n
Probabilit de 95% que la proportion p de la population mre
soit comprise dans un intervalle qui dpend :
De ce que jobserve sur un chantillon f
Dun autre truc qui dpend de la population
mre !

Mon petit jeu avec les proprits de la loi normale


ne mest d aucune utilit Sauf si...
148
E. Bosia L. Gautier A. Rychalski

Je remplace...
pq par
f (1 f )
n
n

Estimateur sans biais

et j obtiens :

f 1.96

f (1 f )
p f + 1.96
n

f (1 f )
n

Je peux donc encadrer l aide d un I.C. 95%


la proportion p qui caractrise la population mre
grce une observation f effectue sur un seul
chantillon probabiliste.
149
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

68

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Etonnant, non ?

150
E. Bosia L. Gautier A. Rychalski

Les diffrents types d chantillons


Non probabilistes

Probabilistes
Cot +++
Robustesse +++

Alatoire
simple
Ech. systmatique
En grappes
ou clustered

Cot --Robustesse ---

L chantillon
de convenance
Echantillon
boule de neige

Les Quotas
Stratifis
151
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

69

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La mthode des quotas

Reproduire des caractristiques de la


population mre dans lchantillon
En gnral sur des variables socio
dmographiques
Age / Sexe . Catgorie PCS ou CSP / niveau dtudes /
statut marital / lieu dhabitation

Lchantillon sera alors reprsentatif


Si les quotas sont correctement construits
et rigoureusement administrs , cela revient
reconstituer une pure pioche donc un
chantillonnage alatoire
On se donnera le droit de faire des estimations
alors que la thorie linterdit

152

E. Bosia L. Gautier A. Rychalski

Une bonne synthse pour


comprendre lchantillonnage et les
estimations

Vous devez vous connecter sur le site


ipsos.fr et lire le contenu de la rubrique
FAQ sondages

153
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

70

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

IV- INTRODUCTION AUX TESTS


- Principe gnral dun test
- Elments de statistiques bi-varies
- Covariation et Corrlation
- Le test de corrlation

- Elments de statistiques bi-varies


- La distance du Khi
- Le test du Khi de Pearson

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A. Rychalski

Principe gnral

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A Rychalski

E. Bosia L. Gautier A. Rychalski

71

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Principe gnral

Une pice de monnaie est elle


quilibre ?
Un lancer ne suffit pas pour rpondre
cette question !
100 lancers seraient bienvenus

La pice tombe 54 fois sur pile. Est-elle


quilibre ?

E. Bosia L. Gautier A. Rychalski

En bref :

Un test se ralise suite une


exprience alatoire
ici 100 lancers

Il permet d accepter (ou de rejeter) une


hypothse
Ho : la pice est quilibre
Ha : la pice n est pas quilibre

Cette acceptation (ou ce rejet)


s effectue en fonction de valeurs
critiques fixes par l analyste
Ici, obtenir entre 40 et 60 pile->Ho
accept
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

72

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Dans le cas prsent :

P(40<=X<=60) = 95,4%
Processus binomial (100;0,5) classique
que l on peut approcher par une loi
normale de paramtres (50;5)

Conclusion :
Ho accept
95,4% est la puissance du test.
4,6% est le seuil du test.

Si vous changez vos valeurs critiques (votre seuil), votre


conclusion peut tre change.
E. Bosia L. Gautier A. Rychalski

En rsum

On cherchera toujours savoir si ce


que lon a observ sur un chantillon
procde du hasard dchantillonnage ou
pas.
Si non, ce qui a t observ sur
lchantillon peut tre gnralis la
population mre.
Tester est plus puissant que raliser une estimation
(les fondements mathmatiques utiliss sont les mmes).
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

73

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Une dmarche en cinq points

1/ Exprience alatoire
Cest le sondage

2/ Formulation des hypothses Ho et Ha


3/ Obtention dune valeur calcule Vc
Il sagit dune opration qui vise rattacher ce que vous
avez observ lors du (ou des) sondage(s) une loi de
probabilit connue (Souvent note Z- attention, ce nest pas
toujours une loi normale)

4/ Application dune rgle de dcision


Vous devez vous fixer un seuil

5/ Conclusion
Acceptation ou rejet de Ho

E. Bosia L. Gautier A. Rychalski

Elments de statistiques bivaries


appliqus au traitement de variables
quantitatives

Covariation et corrlation
- Le test de corrlation
-

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A Rychalski

E. Bosia L. Gautier A. Rychalski

74

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Statistiques bi-varies : pour des


variables quantitatives,
deux notions cl :

Pour description en univers dterministe


avec des variables quantitatives :
La covariation (en perte de vitesse)
La corrlation (pratique, trs utilise)

E. Bosia L. Gautier A. Rychalski

Envisageons trois variables

X1 : La temprature (C) 12H


mesure pendant 100 jours la
terrasse dun caf sur le vieux port de
Marseille,
X2 : Le volume de pastis (en l) vendu
cette mme heure,
X3 : Le volume de chocolat chaud (en l)
vendu cette mme heure.
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

75

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La covariance

Un indicateur de la variation simultane


de deux variables
Cov( X ;Y ) =

1 n
( Xi X ) * (Yi Y )
n i =1

Cet indicateur n est pas trs parlant !

E. Bosia L. Gautier A. Rychalski

Illustration graphique pour 2 observations


l de chocolat
chaud
Moyenne des Y

Moyenne

Moyenne
des X

Temprature
en C

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

76

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La corrlation linaire

Exprime par r, coefficient de


corrlation linaire de Pearson
(Compris entre -1 et +1)
Du mme signe que la covariance
Plus facile interprter

r=

Cov ( X ;Y )
( X ) * (Y )
E. Bosia L. Gautier A. Rychalski

Corrlation positive (R proche de 1)


16
15
14
13
12
11
10
0

10

- Les variables voluent dans le mme sens.


- Le nuage de point ressemble une droite
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

77

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Corrlation ngative (R proche de -1)


16
15
14
13
12
11
10
0

10

- Les variables voluent dans un sens contraire


- Le nuage de point ressemble une droite
E. Bosia L. Gautier A. Rychalski

Corrlation nulle (R=0)


20
18
16
14
12
10
0

10

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

78

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Corrlation faible
2.5
2
1.5
1
0.5
0
-0.5 0.5

2.5

4.5

6.5

8.5

10.5

Une faible corrlation ne signifie pas qu il n existe pas


de relation entre vos variables : celle-ci n est seulement pas
linaire.
E. Bosia L. Gautier A. Rychalski

Basiquement

La corrlation observe sur un


chantillon procde-t-elle du hasard
dchantillonnage ou pas ?
Autrement dit, est-elle extrapolable la
population mre ?

Le test de corrlation va permettre de rpondre


cette interrogation.

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

79

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Le test de corrlation

Concerne des observations paires


Chaque sond a donc rpondu deux
questions.

Analyse la relation entre deux variables


quantitatives.
Rappel : celle-ci est-elle due au hasard
dchantillonnage, ou pas ?

E. Bosia L. Gautier A. Rychalski

Etape 1 : le sondage

Vous avez interrog n=600


personnes et observ une
corrlation de r=0,3 entre
lge du rpondant et
lintention dachat pour le
produit Schlips.
Cette intention tait
mesure sur une chelle en
5 points, 5 correspondant
lintention dachat la plus
leve, 1 la plus basse.

Individu

Age
1
2
3
4
5
6
7
8

etc

23
33
26
45
55
62
77
52
etc

Intention
3
2
1
5
3
5
4
4
etc

Que conclure ? (Duce, non dat)


E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

80

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Etape 2 : les hypothses

Hypothse nulle Ho
r=0
La corrlation observe entre les variables procde du hasard
dchantillonnage. Dans la population mre, ge et intention
dachat sont indpendants.

Hypothse alternative Ha
r<>0
La corrlation entre les variables ne procde pas du hasard
dchantillonnage. Elle est, au seuil de x% significativement non
nulle. Dans la population mre, ge et intention dachat sont
dpendantes, lge influenant positivement lintention dachat.

E. Bosia L. Gautier A. Rychalski

Etape 3 : obtention dune valeur


calcule Vc

Obtenir une valeur


calcule tcalc qui se
rattache une loi de
probabilit connue
Cette valeur t suit une
loi de student (n-2)
ddl. Si le nombre
dobservation est faible,
on se rfre une loi
de student ; si n>30, la
distribution de t est
normale.

t=

r n2
1 r2

tcalc = 7,7

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

81

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Etape 4 : appliquer une rgle de


dcision.

En gnral, le seuil dun test est


par dfaut de 5%
t calc < t
Conserver Ho tant que
1 ; n 2
2

/2

(1 )

Ha

Ho

/2

Ha

1 ; n 2
2
E. Bosia L. Gautier A. Rychalski

Etape 5 : conclusion
Or tcalc = 7,7

t97,5;598 =U97,5 = 1,96

Nous avions moins de 5 chances sur 100


dobserver une telle valeur !
On ne peut conserver Ho -> Ha accepte
r<>0
La corrlation entre les variables ne procde pas du hasard
dchantillonnage. Elle est, au seuil de 5% significativement non
nulle. Dans la population mre, ge et intention dachat sont
dpendantes, lge influenant positivement lintention dachat.

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

82

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Ce test suppose que

Les deux variables manipules soient


normalement distribues.
Ceci est trs important pour les petits
chantillons
Le test nest donc pas distribution free

Ceci passe au moins par :


Par lanalyse des histogrammes
Par lexamen des coefficients de symtrie
et daplatissement
E. Bosia L. Gautier A. Rychalski

Elments de statistiques bivaries


appliqus au traitement de variables
qualitatives : la distance du Khi

- La distance du Khi
- Le test du Khi de Pearson

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A Rychalski

E. Bosia L. Gautier A. Rychalski

83

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

La distance du Khi

La distance entre Paris et Tours est de 250 Km.


Le milieu se situe donc au Km 125
On utilise intuitivement une distance euclidienne qui est la
distance des variables QUANTITATIVES

50 femmes sont prtes acheter votre produit contre


40 hommes.
O situer le milieu ?
Pour quantifier des carts entre effectifs, on utilise la
distance du Khi.
Cest une distance non-euclidienne qui est schmatiquement
la distance des variables QUALITATIVES

E. Bosia L. Gautier A. Rychalski

Exemple sur un tri plat


F obs
PREFERENCE
ROUGE
VERT
BLEU
JAUNE
NOIR
Total

F th

Effectif observ

Thorie

35
15
19
10
21
100

( Fth Fobs )
Fth

Ecart
20
20
20
20
20
100

Khi
15
-5
-1
-10
1

11.25
1.25
0.05
5
0.05

- La distance du Khi permet ici de quantifier les carts


entre ce qui a t rellement observ et ce qui aurait d ltre
si la couleur nimpactait pas la prfrence pour le produit.
- Le khi calcul est le total de tous ces carts.

2
calc

( Fth Fobs )
Fth
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

84

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Le test du Khi de Pearson :


application un tri crois
Association, dpendance ou liaison entre
deux variables

engagementintgritcuriosithumilit
StatistiquesProbabilits

E. Bosia L. Gautier A. Rychalski

Prambule

Quest-ce que le nombre de degrs de


libert dans un tri crois ? (rappel)
Comment utiliser les tables de la loi du
Khi ? (rappel)
Quest-ce quun effectif thorique dans
un tri crois (Fth) et comment le calculer
?
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

85

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Un degr de libert cest ?

Gnriquement : un degr de libert est


un indice de prdictibilit
Dans un tri crois, cest le nombre de
cases que vous devez connatre,
connaissant les totaux, pour pouvoir en
dduire toutes les autres.
d.d.l. ou d.f. = (l-1)*(c-1)

E. Bosia L. Gautier A. Rychalski

Un effectif thorique Fth

Cest leffectif attendu (ou espr)


dans une case dun tri crois en cas
dindpendance des variables.

Fth

c*l

=
n

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

86

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Pause
publicitaire
Aux ditions
Publibook

E. Bosia L. Gautier A. Rychalski

Un exemple de test sur un tableau 2*2

Lors d une tude, deux questions ont


t poses
Q1 : quel est votre cours prfr ?
Q2 : sexe du rpondant

Pouvez-vous complter ce tableau de


rsultats ?

Q1/Q2
Hommes
Femmes

Droit
?
?
310

Marketing
?
?
290

210
390
600

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

87

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

En fait !
Vous venez de construire un tableau d effectifs
thoriques qui correspond l hypothse d indpendance
entre vos deux variables.
Hommes
Femmes

Droit
Marketing
108.5
101.5
201.5
188.5
310
290

210
390
600

D o peut
provenir
ce type
d cart ?

Les rponses au sondage taient


les suivantes :
Droit

Marketing

Hommes

120

90

210

Femmes

190

200

390

310

290

600
E. Bosia L. Gautier A. Rychalski

Deux solutions possibles

Il s agit du hasard d chantillonnage


Il n y a pas que le hasard
d chantillonnage, il y a association (ou
dpendance) entre les variables

Le test du Khi-deux vous permet de rpondre


ces questions. Procdons en 5 tapes.
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

88

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Etape 1 : le sondage

On retrouve le tableau prcdent

Droit
Hommes
Femmes
Total

120
190
310

Marketing Total
90
200
290

210
390
600

Les observations sont paires,


il sagit de statistique bivarie.

E. Bosia L. Gautier A. Rychalski

Etape 2 : les hypothses

Hypothse nulle Ho
Au seuil de %, les variables sexe du
rpondant et prfrence pour un cours sont
indpendantes, non lies, non associes.

Hypothse alternative Ha
Au seuil de %, il existe une association
statistiquement significative entre les variables
(les variables sont dpendantes, lies, associes)

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

89

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Autrement dit
Ho (indpendance)

Les carts entre effectifs observs et effectifs


thoriques sont mettre sur le compte du hasard
dchantillonnage ( cest la pioche )

Ha (association)

Les carts entre effectifs observs et effectifs


thoriques sont trop importants pour procder du
seul hasard dchantillonnage ( Ce nest pas que
la pioche = les variables sont lies )

E. Bosia L. Gautier A. Rychalski

Etape 3 : obtention dune valeur


calcule Khicalc
Observ

Droit

Marketing

Hommes

120

90

210

Femmes

190

200

390

310

290

600

Thorique Droit Marketing


Hommes 108.5
101.5
Femmes 201.5
188.5
310
290

210
390
600

Droit Marketing
1.22
1.30
0.66
0.70
3.88

( Fth Fobs ) 2
calcul =
Fth
2

Hommes
Femmes

Khi calcul = 3,88

Le khi calcul synthtise les carts entre le rel et lobserv. Ce chiffre


na de sens quau-regard de la taille du tableau (le nombre de d.d.l.)
E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

90

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Etape 4 : appliquer un rgle de


dcision

Si jai une forte probabilit dobserver autant


dcarts, je serai tent de dire quils
procdent de la pioche.
Ho sera accepte.

Si jai une faible probabilit dobserver autant


dcarts (moins de %), il sera logique de dire
quils ne procdent pas du hasard
dchantillonnage mais plutt que mes
variables sont associes.
Je ne pourrai plus conserver Ho et serai oblig
daccepter Ha.

E. Bosia L. Gautier A. Rychalski

Autrement dit, la rgle est

Garder Ho tant que

2
calc

2
th

Le Khi thorique
dpend

Ho

Ha

Du seuil du test
(gnralement 5%)
Du nombre de d.d.l.

E. Bosia L. Gautier A. Rychalski

E. Bosia L. Gautier A Rychalski

91

STATISTIQUES APPLIQUEES A LA GESTION

(c) Escem 2012-2013

Etape 5 : conclusion du test

Nombre de D.D.L. = (l-1)*(c-1)=1


Khi thorique (5%) = 3,84
Khi calcul = 3,88
Rgle de dcision (rappel) :
- calcul < thorique Ho accepte
* Dans le cas prsent, Ha accepte (seuil de 5%)
* Jai 5 chances sur 100 daccepter Ha tort
(cest le risque de premire espce)
E. Bosia L. Gautier A. Rychalski

Remarques sur ce test

Les variables sont qualitatives

On peut utiliser dans ce test des variables quantitatives


retraites.

Ce test est distribution free


BREF, CE TEST EST PASSE PARTOUT
Ce test est robuste
Pour un effectif thorique minimum de 5 individus par case
Un test robuste pour les chantillons de taille moyenne

Comme dans un test de corrlation, on peut conclure


l existence d une relation entre deux variables
alors qu une 3 se cache derrire !
Intention d achat & C.S.P. (rle du revenu) ?
Comme dans un test de corrlation, cest lanalyste
de poser le sens de la relation, sil lestime
ncessaire.

3,84 = ?

E. Bosia L. Gautier A Rychalski

E. Bosia L. Gautier A. Rychalski

92