Statistiques 3: L 2 - S E C F S

2010
2011
LICENCE 2 – SCIENCES ECONOMIQUES COURS DE MME FRANÇOISE SEYTE
Statistiques 3
Sylvain PLASMAN - Série 6

Cours pour Licence 2, Semestre 4 Année 2011
1
1
2
LICENCE 2 – SCIENCES ECONOMIQUES COURS DE MME FRANÇOISE SEYTE
Cours de Statistiques 3
Ecrit et paginé par
Sylvain Plasman
Ecrit pour les étudiants de deuxième année de licence en sciences économiques
Remerciements spéciaux à :
Serghei Podorvaniuc,
Katarina Palusekova,
Maria Camila Porras Rivera,
et Victor Pluskwa
Sans qui le cours serait incomplet...
Pour toutes incompréhensions, imperfections ou erreurs éventuelles,
Merci de les signaler sur le forum de la faculté de sciences économiques de l'UM1, à cette
adresse :
http://www.forum-sceco.fr , à défaut de ne pouvoir me contacter directement...
2
3
PRISE DE NOTE PAR : PLASMAN SYLVAIN – SERIE 06 ANNEE 2010 – 2011
Sommaire
Chapitre I P.008
Les lois de la distribution statistique : les modèles continues

I. La loi normale Laplace-Gauss P.008
A. Définition de la loi normale P.008
B. Loi normale réduite centrée P.010
C. Détermination pratique des probabilités : Usage des tables P.012
statistiques
D. Conditions d’application P.015
1. Variable aléatoire normale P.015
2. Théorème central limite P.016
II. Loi du Khi² P.018
A. Définition P.018
B. Tables statistiques P.019
C. Somme du Khi² indépendantes P.020
III. Loi de Student P.020
B. Densité de probabilité de la loi de Student P.021
IV. Loi de Fisher-Snedecor P.021
B. Tables statistiques P.022
Chapitre II P.023
Convergences statistiques
I. Convergence en probabilité P.023
B. Condition de convergence en probabilité P.023
II. Convergence en loi P.024
B. Cas particuliers de convergence en loi P.025
Chapitre III P.027
Echantillonnage
I. Définition P.027
A. Echantillon Théorique Aléatoire Probabilisé P.027
B. Echantillon Théorique ou Observé P.027
3
4
C. Vraisemblance d’un échantillon P.027

D. Notation des caractéristiques théoriques et empiriques P.028
II. Variable d’échantillonnage P.028
A. Etude de P.028
B. Etude de P.028
C. Moment empirique non centré d’ordre P.030
III. Loi de probabilité de variable d’échantillonnage fondé sur P.031
l’hypothèse de normalité : Cas d’un échantillon
A. Loi de P.031
B. Loi de la variance et Théorème de Fisher P.032
C. ?? (Cours interrompu) P.032
IV. Loi de probabilité de variable d’échantillonnage à partir de 2 P.032
échantillons prélevés dans 2 populations
A. Loi de la différence de la moyenne lorsque les variances des P.032
populations sont connues
B. La loi de différence de la moyenne d’échantillon lorsque les P.033
écart-types de population sont inconnus
C. Loi du rapport des variances P.034
D. Loi de la différence de deux proportions d’échantillon P.034
Chapitre IV P.036
L’estimation ponctuelle
I. Notations et définition P.036
II. Les propriétés de l’estimateur P.036
A. Estimateur sans biais (sans distorsion, centré) P.036
B. Estimateur convergent P.037
C. Estimateur efficace (Inégalité de Fréchet Rao Cramer Darmois P.037
– FRCD)
D. Estimateur exhaustif P.038
III. La méthode du maximum de vraisemblance P.038
IV. Les théorèmes de Dugué P.038
Chapitre V P.042
Estimation par intervalle de confiance

I. Principe d’estimation par intervalle de confiance P.042
II. Estimation par intervalle de confiance de paramètre de population P.043
A. Estimation par intervalle de confiance de la moyenne de P.043
population lorsque la variance est connue
B. Estimation par intervalle de confiance de la moyenne de P.045
population lorsque la variance est inconnue
C. Estimation par intervalle de confiance de la variance d’une P.046
population
D. Estimation par intervalle de confiance d’une population P.047
4
5
E. Taille d’un échantillon et précision de l’estimation P.049

1. Détermination de la taille de l’échantillon en fonction de la P.049
précision sur la proportion
2. Détermination de la taille de l’échantillon en fonction de la P.051
précision sur la proportion
III. Estimation par intervalle de confiance de la différence et du rapport de deux P.052
paramètres de deux populations : cas de deux échantillons de population
A. Intervalle de confiance de la différence de moyenne lorsque les P.052
variances de population sont connues
B. Intervalle de confiance de la différence de moyenne lorsque les P.053
variances de population sont inconnues
C. Estimation par intervalle de confiance du rapport des variances de deux P.053
populations
D. Estimation par intervalle de confiance de deux proportions P.054
Chapitre VI P.055
Construction d’un test d’hypothèse : aspect méthodologique

I. Le risque d’erreur P.055
II. Efficacité d’un test P.056
III. Elaboration d’une règle de décision P.056
IV. Typologie du test d’hypothèse P.056
Chapitre VII P.058
Test du Khi deux

I. Test d'adéquation P.058
A. Données du problème P.058
B. Construction du test P.058
1. La formulation de l'hypothèse P.058
2. La fonction discriminante P.059
3. La région critique P.060
4. La règle de décision P.060
C. Considération pratiques P.061
II. Test d'indépendance P.061
A. Données du problème P.061
B. Construction du test P.062
1. La formulation de l'hypothèse P.062
2. La fonction discriminante P.062
3. La région critique et la règle de décision P.064
C. Considérations pratiques P.064
III. Test d'homogénéité P.064
5
6
Chapitre VIII P.066
Test paramétriques
I. Test de significations des paramètres P.066
A. Problématique P.066
B. Test de signification de la moyenne d'une loi normale lorsque P.067
l'écart type de la population est connu
C. Test de signification de la moyenne d'une loi normale lorsque P.069
la variance est inconnue
D. Test de signification de la variance de la loi normale P.070
E. Test de signification d'une proportion P.072
II. Test de comparaison ou d'égalité des paramètres P.073
A. Problématique P.073
B. Test de comparaison des moyennes de deux lois normales P.073
lorsque les variances sont connues
C. Test de comparaison des moyennes lorsque les variances sont P.077
inconnues
D. Test de comparaison de variances de deux lois normales P.079
E. Test de comparaison de deux proportions P.080
III. Test de comparaison sur plus de deux paramètres P.082
A. Test de comparaison de plusieurs moyennes P.082
B. Test de comparaison de plusieurs variances P.089
C. Test de comparaison de plusieurs proportions P.090
6
7
7
8
Chapitre I
Les lois de la distribution statistique : les modèles continus
IV. La loi normale (Laplace-Gauss)
S’applique à une variable statistique qui est la résultante d’un nombre de causes indépendantes
dont les effets s’additionnent et dont aucune n’est prépondérante.
A. Définition de la loi normale
La variable aléatoire est continue,
et sont 2 paramètres : écart-type moyenne
Ex :
Changement de variable
2 2
La valeur de la moyenne détermine la position de la courbe et la courbe de même écart-type se

réduise par dispersion
8
9
La courbe de densité de la probabilité de la loi normale se présente comme une courbe

symétrique uni-modale sur la branche externe tangentiellement à l’axe des abscisses.
Calcul de
La fonction est paire si je change ua-u, la fonction ne change pas. Donc l’intégrale d’une
fonction faire est égale à 2 fois l’intégrale sur la moitié du domaine.
Si impaire :
Changement de variable
2
2
appel : 2
ici 2
2
or
2 2
Même changement de variable
u m
2
9
10
2 2
2 2
Même changement de variable
2 2 2
2 2 2 2 2
2 2
2
2 2
2 2
Rappel : n n
2
2 2
B. Loi normale centrée réduite
10
11
La probabilité que x soit dans l’intervalle in initésimal est égale à
après changement de variable la probabilité que u se trouve dans l’intervalle de u u du est égale à
avec
2
2 2
2
:
2 2 2 2
xe des ordonnées axe de symétrie
11
12
2
’’ –
2 2
’’
2
Médiane :
 Fonction répartition
C. Détermination pratiques des probabilités : Usage des tables statistiques
Toutes les tables de la loi normale se ramènent à celle de la variable normale centrée réduite U
 Table de la densité de probabilité p.2
Cette table donne la densité de probabilité f(u) correspondante aux valeurs positives de la
variable normale centrée réduite
12
13
Pour des calculs de valeurs négatives :
En raison de la symétrie des valeurs de u, la table permet de déterminer les densités

correspondantes à des valeurs négatives de u.
2 2
Pour des calculs valeurs à
On procède par interpolation linéaire lorsque l’on a besoin de calculer des densités
correspondantes à des valeurs u intermédiaires à celle correspondant, grâce à la continuité (loi
normale)
Pour
2
2
13
14
 Tables de fonction de répartition
Cette table donne pour toutes valeurs positives de la variable normale centrée réduite la
valeur correspondante de la fonction de répartition .
Pour , lecture directe
Pour
2 2
Variable léatoire Normale Centrée éduite V NC
2 2 2
2 2
2 2
Cette table permet de trouver la valeur d’une variable aléatoire normale centre réduite en
fonction de la probabilité P de déplacement ou de la probabilité complémentaire
14
15
 Table de la loi normale centrée
La table nous permet de lire directement les valeurs de
 lecture directe de
 lecture dans la table de –

22 2
D. Conditions d’application
1. Variable aléatoire normale
La somme de deux variables indépendantes ayant respectivement pour paramètres

et est elle même une variable aléatoire normale de moyenne
et de variation
2 .
15
16
Rappel :
Rappel :
Conclusion : Ceci est la fonction caractéristique d’une loi centrée réduite
et obéissent à une loi normale de paramètre et de variance
indépendant
2. Théorème central limite
Le théorème central limite donne le comportement asymptotique de la somme de variables

indépendantes.
16
17
Soit une suite de variable aléatoire vérifiant les propriétés suivantes :
 indépendantes
 Leur espérance mathématique est leur variance existe
o
o
 Le rapport de la variance d’un élément particulier de la suite à la somme des variances
tend vers 0 quand n tend vers +
o quand
o Cette condition peut s’interpréter cette façon : la variabilité dû à un facteur de
fluctuation particulier est faible par rapport à la variabilité totale de x dû à
l’ensemble des facteurs
On suppose :
 On suppose que les moyennes sont égales et que les variances soit égales et que ces
variables aléatoires suivent des lois de mêmes natures, de même moyenne et de même
écart-type
 On suppose que les variables aléatoire suivent des lois de même nature, même moyenne
et même écart-type et suivent des lois indépendantes. La somme des est
asymptotiquement normale de moyenne mn et d’écart type sigma racine n :
o
17
18
Les phénomènes qui peuvent être considéré comme engendré par un grand nombre de causes
élémentaires de fluctuation agissant de façon indépendants seront susceptibles d’être
représentés par la loi normale. La loi normale est l’approximation de la loi binomiale lorsque la
taille de l’échantillon tend vers .
ne doit pas être voisin de .
I. Loi du Khi² ( )
A. Définition
 Loi de probabilité
Ӿ² a un degré de liberté : Ӿ
Ӿ 2
Ӿ 2
 Ӿ
18
19
La somme de n variables aléatoire centrée réduite constitue la loi du Khi² à n degré de liberté
 Ӿ
.
2 2
 Ӿ
 Ӿ 2
La loi de distribution du Khi² est une loi de distribution dissymétrique avec étalement sur la
droite, toutefois elle tend à devenir symétrique quand le nombre de degré de liberté qui
augmente.
La variable aléatoire du Khi² à n degré de liberté a été défini comme la somme des carrées de n
variables aléatoires normales centrés réduites, considéré n VANCR indépendantes revient à se
placer en n dimensions. Le nombre de degré de liberté suivit par cette somme correspond au
nombre de dimension de l’espace dans lequel se situe les points représentatifs des valeurs du
Khi².
B. Tables statistiques (p.22)
La distribution du Khi ne dépend que d’un seul paramètre le nombre de degré de liberté.
La table est un tableau à double entrée. En colonne, la probabilité, en ligne, le degré de liberté.
Ӿ Ӿ
La table donne la valeur du Khi ayant la probabilité p d’être dépassé.
En indice, est mise la probabilité qui correspond à la fonction de répartition.
Ӿ Ӿ (Pour 90%, notez .90)
A la lecture directe du tableau :
Ӿ.
Ӿ. 2
La table du Khi² est utilisable jusqu’à
19
20
Lorsque , on admet 2Ӿ 2
C. Somme du Khi² indépendante
Soit
Ӿ
.
Ӿ
Rappel : Ӿ t 2it
t t ind 2it 2it
2 2
2 2
2 2
II. Loi de Student
A. Définition
Rapport entre une loi normale centrée réduite et la racine carrée d’un Khi sur son degré de
liberté.
, les deux variables sont indépendantes

Ӿ
2 2
20
21
2 2 2
B. Densité de probabilité de la loi de Student
. 2
2 2 2
. 2 .
2 2
Grand échantillon, la loi de Student tend vers la loi normale
: Borne inférieure ou supérieure en valeur absolue (dans le cadre du calcul de l'aire de

probabilité en bilatéral).
et
Le principe probabilité et d’être dépassée en valeur absolue c'est-à-dire, la probabilité .

La probabilité vient d’être répartie en deux seuils égaux. Partage entre 2 parties égales
(Bilatéralisme).
Exemple :
. On suppose que la probabilité se répartie équitablement
 On considère un intervalle bilatéral symétrique
à gauche à droite
III. Loi de Fisher-Snedecor
A. Définition
La variable de Fisher-Snedecor est constituée par le rapport de deux Khi² rapportées à leur
degré de liberté (Les Khi² étant indépendants)
21
22
Ӿ
Ӿ
B. Tables statistiques (p.24)
Elle vous donne les valeurs de , la probabilité d’être dépassé
22
23
Chapitre II
Convergence statistiques
Définition :
Une suite numérique converge vers une limite lorsqu’il existe un seuil au delé duquel
les sont proches de la limite. Une suite de variables aléatoires peut converger lorsque
augmente indéfiniment soit vers un nombre certain et donc on parlera de convergence en
probabilité, soit vers une autre variable aléatoire : convergence en loi.
I. Convergence en probabilité
A. Définition
Une suite de variable aléatoires définies sur le même espace fondamentale par ou
ou bien par converge en probabilité vers le nombre certain si
sont deux valeurs qui sont faibles
tend vers
B. Conditions de convergence en probabilité
1ère condition (suffisantes de convergence en probabilité) :
Théorème de Bienaymé-Tchebychev
Définition : Pour une suite de variable aléatoire converge en probabilité vers un nombre
certain et qu’il suffit que l’espérance mathématique de tend vers et que la variance de
tend vers lorsque tend vers
2ème condition
Loi faible de Grands Nombre
Théorème de Bernoulli
répétitions
Soit de l’événement sur les épreuves élémentaires
23
24
Considérons la variable aléatoire Fréquence de réalisation de l’événement ) où :
Caractéristique de :
D’après le théorème de Bienaymé-Tchebychev la fréquence relative d’un événement converge

en probabilité vers la probabilité de cet événement (Théorème de Bernoulli).
3ème condition
Converge (CV) en moyenne quadratique
Une suite de variables aléatoires converge en moyenne quadratique vers si l’espérance

mathématique du carré de l’écart entre et converge vers 0 quand .
Notée :
Conséquence : Si une suite de variables aléatoires converge en moyenne quadratique vers elle
converge aussi en probabilité vers quand
4ème condition
Théorème de Slutsky
Si converge en probabilité vers , alors convergera en probabilité vers
II. Convergence en loi
A. Définition
Etant donnée une variable aléatoire , de fontion de répartition et pour fonction

caractéristique , on dit que la suite « converge en loi » vers lorsque si
converge vers et si la fonction caractéristique converge vers .
Notée :
24
25
Remarque :
Si converge en loi vers , la fonction caractéristique de convergera uniformément vers la

fonction caractéristique de X dans tout intervalle fini de t lorsque tend vers
Si converge uniformément vers alors on peut déduire qu’il y a converge en loi

de vers
B. Cas particuliers de convergence en loi
Première convergence :
Rappel : Ne pas oublier, dans le cas de convergence, de justifier la première loi.
2ème convergence
3ème convergence
4ème convergence
5ème convergence
Degré de Liberté
25
26
6ème convergence
Ӿ 2Ӿ 2
26
27
Chapitre III
Echantillonnage
I. Définition
A. Echantillon Théorique Aléatoire Probabilisé
Soit une variable aléatoire (notée : ) définie dans une population. Elle est caractérisée par
sa loi de probabilité.
On appelle « Echantillon Théorique Aléatoire Probabilisé » de taille (ou échantillons) le

vecteur aléatoire où les obéissent ( ) à une loi et où
B. Echantillon empirique ou observé
L’échantillon empirique est constitué de petites images de
Indépendant Identiquement Distribué Notée IID
C. Vraisemblance d’un échantillon
Cas d’une variable aléatoire discrète : Ӿ
.
Ӿ
Cas d’une variable aléatoire continue : Ӿ
27
28
D. Notation des caractéristiques théoriques et empiriques
Population Echantillon théorique Echantillon empirique
  
  
  
  
  
II. Variable d’échantillonnage
A. Etude de
B. Etude de
: :
appel:
28
29
 Trouver m ( sans constante)
S variable d’échantillon est appelé estimateur avec biais de la variance de population. Le biais
étant égale à . Cependant est dit estimateur sans biais de la variance de population.
Démonstration à savoir refaire on s’en sert de cette démonstration pour montrer que la
variance d’échantillon d’une loi normale possède un biais
29
30
C. Moment empirique non centrée d’ordre
: : :
or
30
31
2
.
 Cas particulier
III. Loi de probabilité de variable d’échantillonnage fondée sur l’hypothèse de normalité : cas
d’un échantillon
Echantillon IID
A. Loi de
(cf. Chap.1.I.D.2., portant sur le théorème central limite)
31
32
Rappel :
B. Loi de la variance et Théorème de Fisher
C. ???
IV. Loi de probabilité de variable d’échantillonnage à partir de 2 échantillons prélevés

dans 2 populations
Hypothèse :
A. Loi de la différence de moyenne lorsque les variances des populations sont connus
32
33
D’ s t Chap.1 I.D.
B. La loi de différence de la moyenne d’échantillon lorsque les écart-types de population

sont inconnus
Ӿ
Ӿ 2
Ӿ
Hypothèse :
Ӿ 2
33
34
C. Loi du rapport des variances
Ӿ
.
Ӿ
Ӿ
.
Ӿ
.
Ӿ
.
Ӿ
.
D. Loi de la différence de deux proportions d’échantillons
34
35
35
36
Chapitre IV
L’estimation ponctuelle
I. Notations et définition
Soit une population caractérisée par une variable aléatoire , cette variable dépend d’un
paramètre . On prélève un échantillon IID é
On appelle « Estimateur de » : un vecteur aléatoire qui est fonction des variables

d’échantillons amenés à remplacer .
II. Les propriétés de l’estimateur
Pour être un bon estimateur doit être :
 Sans biais
 Convergent
 Efficace
 Exhaustif
Toutes les définitions sont à connaître
A. Estimateur sans biais
est dit estimateur sans biais si l'espérance de l'estimateur est égale à sa vraie valeur
(Cf. Chapitre 3, 2.B) Biais
36
37
est asymptotiquement sans biais
B. Estimateur convergent
L’estimateur qui définit une loi est dit convergent si converge en probabilité vers sa vraie
valeur
et
 Convergence d’un estimateur sans biais
Il suffit de montrer que
bsolument convergent
C. Estimateur efficace (Fréchet, Rao, Cramer, Darmois) (FRCD)
Cette inégalité permet de rechercher un estimateur efficace sous des conditions très générales
(Existence de dérivés sous l’opérateur et continuité de la fonction)
et de inconnu
fonction de vraisemblance de l'échantillon
Estimateur ef icace
37
38
Pour démontrer l’efficacité d’un estimateur si cet estimateur est sans biais il suffit de montrer
qu’il atteint la borne de l’inégalité Fréchet ao Cramer Darmois )
D. Estimateur exhaustif
Un estimateur exhaustif s’il résume toute l’information relative aux paramètres disponibles sur
l’échantillon. On recherche alors la famille des estimateurs exhaustifs tels que l’on ait la
décomposition suivante :
exp ou exp
III. La méthode du maximum de vraisemblance
Cette méthode est une méthode d’estimation ponctuelle. Elle permet de déterminer
l’estimateur d’un paramètre inconnu d’une loi définie dans une population. Cette fonction de
vraisemblance se calcule à partir de l’échantillon empirique.
L’estimateur de maximum de vraisemblance de , seul paramètre de la loi de à estimer, est

basé sur le principe suivant :
On recherche l’estimateur , qui rend la fonction de vraisemblance maximale, c'est-à-

dire qui rend la rend la probabilité d’apparition a posteriori de l’échantillon observé maximale.
On appelle « Fonction de vraisemblance » le produit de probabilité ou de densité de probabilité.
V discrète
ou V continue
Pour chercher le maximum de la fonction de vraisemblance, on cherche le
On calcule alors :
On forme l’équation du maximum de vraisemblance.
On suppose , les conditions de deuxième ordre.
38
39
IV. Les théorèmes de Dugué
 La probabilité pour que l’équation du maximum de vraisemblance ait une solution

convergente en probabilité vers la vraie valeur du paramètre tend vers .
 S’il existe un estimateur efficace alors l’équation du maximum de vraisemblance a une

solution unique égale à cet estimateur.
Estimateur ef icace
 S’il existe un estimateur exhaustif toute solution de l’équation du maximum de
vraisemblance est une fonction de l’estimateur exhaustif. De plus la distribution de
l’estimateur exhaustif se déduit de la fonction de vraisemblance.
L’équation du maximum de vraisemblance a pour solution une estimation asymptotiquement

normale et efficace du paramètre.
Exemple : Déterminer l’estimateur du maximum de vraisemblance de la loi de Poisson :
Rappel : Donner l’explication de la méthode du maximum de vraisemblance :
1)
39
40
(Rappeler la loi)
2)
On sait que
Si bsolument convergent
3)
40
41
atteint la borne de l'inégalité de F CD
 Estimateur ef icace
4)
exp ln exp
ln
ln
pour
est exhaustif.
41
42
Chapitre V
Estimation par intervalle de confiance
Il s’agit ici de trouver une estimation par intervalle de confiance d’un paramètre , c'est-à-dire
de construire « une fourchette de valeurs numériques permettant de situer ».
On dispose toujours d’un échantillon IID et d’un estimateur , d’un paramètre inconnu vérifiant
les 4 propriétés du chapitre précédent.
pourrait être ou 2 populations 2 échantillons
 m m


I. Principe d’estimation par intervalle de confiance
Il est possible de trouver 2 valeurs particulières et tel que
Le but est de réécrire cette inégalité en lui cachant le paramètre .
IC
Le principe de l’estimation d’un intervalle de confiance est d’encadrer le paramètre inconnu de

la loi de la population.
Degré de confiance = degré de certitude
 IB (Intervalle Bilatéral)
 2 IBS (Intervalle Bilatéral Symétrique)
 IUD (Intervalle Unilatéral Droit)
 IUG (Intervalle Unilatéral Gauche)
42
43
II. Estimation par intervalle de confiance de paramètre de population
A. Estimation par intervalle de confiance de la moyenne de population lorsque la variance est

connue
Problème :
IB
43
44
ou
On recherche a déterminer l’intervalle de confiance pour la moyenne d’une population sachant

la X suit une loi normale 2 où
1) IBS
2
.
2)
2 .
. 2
2 2
. 2
 IUG(BS)
 IUD (BS)
44
45
B. Estimation par intervalle de confiance de la moyenne de population lorsque la variance est

inconnue
inconnu
Problème :
 IB
 IBS
 IUD
45
46
 IUG
C. Estimation par intervalle de confiance de la variance d’une population
Problème :
 IB
Ӿ Ӿ Ӿ
Ӿ Ӿ
Ӿ Ӿ
Intervalle de convergence de la variance normale
IBS
Ӿ Ӿ Ӿ
Ӿ Ӿ
Ӿ Ӿ
IUD
46
47
Ӿ Ӿ
IUG
BS
Ӿ Ӿ
D. Estimation par intervalle de confiance d’une proportion
Problème :
IB
47
48
On encadre et on retrouve dans les bornes de l’intervalle
3 Méthodes pour retrouver les bornes de l’intervalle de confiance :
 Méthode de l’estimateur
IBS
 Méthode par excès
Max sous contrainte
2
2
IBS
48
49
 Méthode par ellipse
Les points qui satisfont à cette inégalité sont les points intérieurs d’une ellipse dont l’équation
est la suivante :
baque (Voir les tables statistiques)
Intervalle :
et sont lues graphiquement
E. Taille d’un échantillon et précision de l’estimation
Ici on cherche à déterminer en fonction de la précision de l’estimation c'est-à-dire écart entre la

valeur théorique et la valeur estimée la taille de l’échantillon correspondant.
1. Estimation de la taille d’un échantillon en fonction de la précision sur la moyenne
IBS
49
50
Il y a deux façon de calculer la taille de l’échantillon en fonction de la précision souhaitée : en

valeur absolues ou en valeur relative
 Précision en valeur absolue
IBS
Avec inconnu, on passe par la loi de Student.
 Précision en valeur relative
50
51
2. Détermination de la taille de l’échantillon en fonction de la précision sur la proportion
 En valeur absolue
 Précision en valeur relative
III. Estimation par intervalle de confiance de la différence et du rapport de deux paramètres de

deux populations : cas de deux échantillons de population
1ère Population :
51
52
2ème Population :
A. Intervalle de confiance de la différence de moyenne lorsque des variances de populations

sont connues
Problème :
IB
IBS
IUG
IUD
B. Intervalle de confiance de la différence des moyennes lorsque les variances des populations
sont inconnues
inconnu 2
52
53
Problème identique au précédent
Hypothèse :
IB
IBS
C. Estimation par intervalle de confiance du rapport des variances de deux populations
Problème :
IBS
Pour obtenir l’encadrement soit on inverse l’intervalle soit on constitue la loi de Fisher
53
54
D. Estimation par intervalle de confiance de deux proportions
Problème :
IB
IBS
Trois méthodes :
 Par excès :
 Estimateur :
 Abaque :
54
55
Chapitre VI
Construction d’un test d’hypothèse : Aspect méthodologique
D s it d t, sq ’ f si t v sd fi , d s
paramètres de population avec les intervalles de confiance. A partir de ce chapitre, on connait a
priori les paramètres de population, donc on va tester ces valeurs supposées connues.
O d i y t s q ’ t . L t st b td s ’ d q ti d
cette hypothèse à la réalité observable (c'est-à-di s s t ts d is ’ ti ).
IV. Le Risque d’erreur
Deux cas possibles :
 Le cas du test paramétrique :
L v d θ st i is id d t
: Hypothèse antagoniste car on n'accepte pas
 Le cas du test non paramétrique :
O t st ’ y t s id d i
 O d it i isq d’ isq d i s , t
(Probabilité du) Risque de première espèce

rejeter vraie
(Probabilité du) Risque de deuxième espèce
accepter vraie
Décision
du
test
55
56
V. Efficacité d’un test
Les cases et du tableau précédent ne traduisent pas de risque.
 : Seuil de confiance ). La probabilité doit être croissante.
 iss d t st. I s’ git d s d ’ ffi it d t st.

o accepter
o accepter
Un test est considéré comme très précis lorsque sa puissance est grande
VI. Elaboration d’une règle de décision
La démarche qui conduit à la prise de décision se fait en deux étapes :
 D fi i v t ti g st tistiq d’ ti g , fonction discriminante.

(Définir ex-ante).
O d fi it gi itiq t gi d’ t ti :
s d fi i , d à d t d ’ sti t d t inconnu de la
population dont les bornes seront formées à partir des hypothèses.
I t v d t t
On élabore une règle de décision (notée ).
acceptée au risque de première espèce
rejetée au risque de première espèce
 D fi i s ti g d’ ti ( x-post).
O ’i t v d’ t ti t d d isi à ti d’ v
particulière de la statistique retenue.
On dit alors : « J’ t ( j j tt ) ’ y t s au risque de première espèce , et compte

t d ’ ti .»
VII. Typologie du test d’hypothèse
 Tests non paramétriques
56
57
U t st st dit t iq sq ’ t t d t x i ’ y t s st f
termes qualitatifs. 2 types de tests non paramétriques :
o L s t sts d’ d q ti :
O t st is s d’ v i b t i de population .
Lois utilisables : Loi Normale, Loi Binomial, Loi de Poisson, Bernoulli
o L s t sts d’i d d :
O t st ’i d d d d x t s iss s d’ ê ti .
exemple, le rapport accident de la route/âge
Ces deux tests sont calculés avec la loi Khi deux Ӿ
 Tests paramétriques
2 types de tests paramétriques :
o Les tests de signification :
On teste la signification du paramètre
o Les tests de comparaison :
La démarche suivante est la même pour tous les tests énoncés précédemment.
Niveau population :
 Enoncer les hypothèses
 Loi de la variable aléatoire dans la population
Niveau échantillon ex-ante :

 Trouver la fonction discriminante
 R gi itiq t gi d’ t ti f ti d’ isq d i s
 C st ti d ’
 Elaboration de la
Niveau échantillon ex-post :

 Calculer
 Formulation de la décision acceptée ou rejetée
57
58
Chapitre VII
Test du Khi deux
 2 types de tests non paramétriques

Test du Ӿ d’adéquation
Test d’indépendance
I. Test d’adéquation
A. Données du problème
On a un échantillon de taille , prélevé dans une population dans laquelle on a une ; on a un

tableau des effectifs qui est construit en classes ( continue) ou sinon, regroupé en valeur
entières discrète)
continue discrète
Classes Effectifs
La loi de la est soit parfaitement déterminée soit non parfaitement déterminée.

Les sont elles les images de ?
B. Construction du test
Le modèle théorique se situe ex-ante avant le tirage d’échantillon

C’est le prélèvement d’un échantillon qui permettre d’accepter ou de refuser l’hypothèse avec
un risque d’erreur choisi.
1. La formulation de l’hypothèse
dont la loi de probabilité obéit à un paramètre

Les observations sont elles adéquates au modèle, c'est-à-dire les observations obéissent
elles à la loi de ?
On suppose que obéit à la loi
58
59
On va tester o
Pour pouvoir tester cette hypothèse il faut prendre l’estimateur de paramètre de la loi si ces
paramètres ne sont pas connus)
Les estimateurs pris dans le test seront les estimateurs issus de la méthode de maximum de
vraisemblance possédant les 4 propriétés requises.
Comme on suppose cette hypothèse comme vraie, on peut calculer les probabilités rattachées
à chaque classe :
 Dans le cas d’une continue,
 Dans le cas d’une discrète,
Classes Effectifs si vraie
 Si discrète, les sont lues dans les tables

 Si continue,
2. La fonction discriminante
Les données en présence sont :

 Un échantillon aléatoire de talle
 L’effectif de cet échantillon est répartie en classes ; chacune ayant un effectif
 Les probabilités sont calculées sur la base de l’hypothèse
L’adéquation entre et l’observation est mesurée par une distance entre la distribution
empirique et la distribution théorique, c'est-à-dire par une fonction des écarts entre les et
les
La fonction retenue est la suivante :
59
60
Ceci est une statistique d’échantillonnage puisque les sont associés à l’échantillon prélevé.
Cette statistique d’échantillonnage est retenue comme fonction discriminante du test
d’adéquation d’une distribution empirique.
Pearson a démontré que cette statistique convergeait vers un Ӿ dont le degré est , avec
 : nombre de classes
 : nombre de paramètres à estimer (2,1 ou 0)
Ӿ Ӿ avec vraie
Dans un exercice, la présentation du test doit être expliquée
3. La région critique
Ӿ Ӿ
rejeter vraie
Ӿ Ӿ
4. La règle de décision
Ӿ Ӿ acceptée au risque de première espèce
Ӿ Ӿ rejetée au risque de première espèce
60
61
C. Considérations pratiques
Classes Effectifs n vraie
Si on a des clases avec de très faibles probabilités les seront petits aussi donc les vont
augmenter artificiellement la du Ӿ
Pour éviter ce risque, on regroupe les classes qui ont de petits
Le degré de liberté du Ӿ va changer. On était à Ӿ et celui-ci devient : Ӿ

avec nombre de clases après regroupement.
II. Test d’indépendance
Ici on va tester l’indépendance éventuelle de 2 caractères attachés à chaque individu d’une

même population.
A. Données du problème
On a un échantillon aléatoire de taille prélevé dans une population dont les individus
possèdent 2 caractères et
A\B . .
.
. .
. . . .
Nous avons individus qui possèdent à la fois la modalité et

On a . individus qui possèdent la modalité quelque soit la modalité
On a . individus qui possèdent la modalité quelque soit la modalité
61
62
B. Construction du test
1. La formulation de l’hypothèse
: Indépendance entre et
possède modalités
possède modalités
Sur chaque individu on note la valeur du caractère A et B
Dépendance entre et
2. Fonction discriminante
On calcule une distance entre les effectifs observés et les effectifs théoriques correspondant au
cas de l’indépendance.
Le test du Ӿ d’indépendance est donc constitué à partir du calcul de leur distance
Fonction discriminante :
Ӿ Ӿ vraie
 : Effectifs observés
 Effectifs théoriques correspondant au cas de l’indépendance
 Nombre de classes
 Nombre de paramètres à estimer
Recherche de nombre de paramètres à estimer
A\B . .
.
. . .
.
. . . .
. paramètres à estimer
. paramètres à estimer
62
63
Recherche du degré de liberté
Simplification de l’expression du Ӿ
. .
On sait que . et . et . .
. .
. .
. .
. .
. .
. .
. . . .
2
. . . . . .
2 . .
. .
2 . .
. .
63
64
2
. .
. .
Ӿ Ӿ vraie
. .
3. Région critique et règle de décision
C. Considération pratique
A\B . .
.
.
. .
.
. . . .
Ӿ
. .
III. Test d’homogénéité
On a un ensemble d’échantillons relatifs à des observations sur un caractère
64
65
A\B . .
.
.
. . . .
Peut-on considérer que tous ces échantillons sont issus de la même population ?
 Si oui on dira qu’il y a homogénéité dans la population
 Si non on dira qu’il y a hétérogénéité
Y a-t-il homogénéité entre les échantillons vis-à-vis de ?
D’o l’hypothèse qu’on va tester :

: Homogénéité entre échantillons
Indépendance entre et l’appartenance à un échantillon
Dépendance
Ӿ Ӿ vraie
. .
Les explications à faire sont les mêmes que pour l’indépendance
RDD
65
66
Chapitre VIII
Tests paramétriques
2 catégories de test :
 Test de signification
 Test de comparaison
I. Test de signification des paramètres
A. Problématique
On a une dans une population,
est connu
inconnu mais on a une idée de sa valeur
 Ex-ante avant le tirage échantillon théorique :
 Fonction discriminante
 Région critique
 Règle de décision
 Ex-post (après le tirage) échantillon empirique :

 Décision (après la Règle de Décision)
66
67
B. Test de signification de la moyenne d’une loi normale lorsque l’écart type de la population
est connu
est vraie
RDD
Calcul du risque de deuxième espèce
accepter vraie
67
68
vraie
résultat page des tables
 courbe d' ef icacité

 puissance du test
dépend du paramètre
vraie
RDD
68
69
vraie
RDD
rejetée au risque de première espèce vraie
vraie
RDD
rejetée au risque de première espèce vraie
C. Test de signification de la moyenne d’une loi normale lorsque la variance est inconnue
inconnu
69
70
vraie
RDD
Remarque :
D. Test de signification de la variance de la loi normale
70
71
Ӿ Ӿ Ӿ
Ӿ Ӿ
Ӿ Ӿ
RDD
Ӿ Ӿ
Ӿ Ӿ
71
72
E. Test de signification d’une proportion
2 modalités
Indépendance des épreuves
RDD
72
73
II. Test de comparaison ou d’égalité des paramètres
A. Problématique
inconnus
fonction discriminante
Fonction de discrimination Constitution d’un intervalle d’acceptation Règle de décision
B. Test de comparaison des moyennes de deux lois normales lorsque les variances sont connus
IID
connus
73
74
vraie
RDD
accepter vraie
vraie
74
75
Les 2 étant lues sur la table
75
76
RDD
RDD
76
77
RDD
C. Test de comparaison des moyennes lorsque les variances sont inconnues
inconnus
77
78
D s x i ù t st ’ g it d s y s, on doit au préalable tester ’ g it des

variances
2 2
RDD
78
79
D. Test de comparaison de variances de deux lois normales
inconnus
à utiliser si (On veut que )
79
80
à utiliser si
vraie
RDD
E. Test de comparaison de deux proportions
et
événement
2 modalités mutuellement exclusives
événement
+ Indépendance des événements
et
événement
2 modalités mutuellement exclusives
événement
+ Indépendance des événements
80
81
vraie
1) Méthode par excès
2) Méthode par estimations invalide
(Pas eu le temps de tout noter : Il s'agit de la démonstration prouvant que la méthode par estimation
ne peut être utilisé dans ce cas)
Estimateur commun
81
82
III. Test de comparaison sur plus de deux paramètres
A. Comparaison de plusieurs moyennes
Lorsqu’on dispose d’échantillons relatifs à plus de deux populations on pourrait envisager

d’effectuer toutes les comparaisons de moyennes deux à deux. Il faut dans un premier temps
82
83
s’assurer qu’il existe une hétérogénéité des moyennes considérées globalement. On utilise
l’analyse de la variance ) pour comparer les moyennes de plus de deux
populations. On parle d’ à un facteur lorsque les groupes analysés se distinguent par
qu’un seul facteur qualitatif d’ à deux facteurs si les groupes se distinguent par deux
facteurs qualitatifs
 Généralités sur l’
Le problème est le suivant : Il faut comparer les moyennes de plus de deux populations. Il est
incorrect de se contenter de comparer les échantillons deux à deux par un test de Student (si les
écarts types sont inconnus ou de la loi normale si les écarts types sont connus . Si l’
permet de s’assurer que l’ensemble des moyennes n’est pas homogène on peut uniquement
dans ce cas comparer des moyennes deux à deux.
Le principe de l’ est de comparer la dispersion factorielle entre échantillon à la

dispersion résiduelle à l’intérieur des échantillons.
 Notations
est la somme des carrés des écarts
 Equations fondamentales de l’analyse de la variance )
Si on considère un ensemble d’échantillon issu de plusieurs populations, la totale de ce

groupe se décompose :
 La SCE factorielle est du à la dispersion des échantillons les uns par rapports aux autres,
elle permet de calculer une variance interclasse
 La SCE résiduelle est du à la dispersion des observations au sein des différents
échantillons. Elle permet de calculer une variance intraclasse
totale factorielle résiduelle
83
84
 Estimation des
Soit échantillons est un effectif total de
 La Somme des écarts total et la somme des écarts de toutes les observations à la
moyenne générale
avec
 La Somme des carrés des écarts résiduelle est la somme des carrés des écarts au sein de
chaque échantillon (somme cumulée)
 La Somme des carrés des écarts factorielle est la différence entre la Somme des carrés
des écarts total et la Somme des carrés des écarts résiduelle. n’utiliser que pour
vérifier.
 Calcul des variances intra et inter échantillons
A la Somme des carrés des écarts total, on lui associe une variance totale
A la résiduelle on lui associe une variance intra échantillon que l’on appelle aussi carré
moyen résiduel
intra
la SCE factorielle on lui une variance inter échantillon que l’on appelle aussi carré moyen
factoriel
inter
 Le rapport des variances et le test d’
84
85
On effectue un test de Fisher pour comparer les différentes moyennes, la valeur de Fisher
calculée sera notée
obs
Cet estimateur permet de mesurer l’hétérogénéité des échantillons comparés.
intra
inter
nombre d'échantillons de populations
RDD
 Le résumé d’analyse de variance
Source de Degré de Liberté Estimateur de

variations ( ) dispersion
Totale
Factorielle inter
Résiduelle intra
Le test de Scheffé permet de comparer des moyennes deux à deux. On l’utilise après avoir fait le
test de Fisher et si le test de Fisher montre qu’il y a hétérogénéité.
intra
Si vraie
intra
RDD
85
86
2 acceptée au risque de première espèce

2 rejetée au risque de première espèce
On peut aussi utiliser le test de Student de comparaison des moyennes lorsque les écarts types
sont inconnus
Exercice :
On examine la production laitière journalière de 5 vaches de 3 races différentes
La production de lait d’une vache dépend elle de sa race ?
Race 1 Race 2 Race 3

Vache 1 19,6 28,7 34,8
Vache 2 19,4 28,4 32,9
Vache 3 21,9 28,5 35,3
Vache 4 21,2 31,7 31,8
Vache 5 23,6 31 35,7
1)
ace : 2
ace 2 : 2
ace :
2 2 2
2
86
87
2)
résiduelle 2 2
2 2 2 22
3)
Factorielle
2 2 2 2 2
Vérification : Totale résiduelle factorielle
Totale
intra 2
F
inter 2
inter 2
2
intra 2
RDD
87
88
Si acceptée au risque de première espèce
Si rejetée au risque de première espèce
. 2 2
Les 3 races de vaches produisent des lactations moyennes statistiquement différentes
Comme on vient de montrer que l’hypothèse d’homogénéité des moyennes est rejetée on peut
effectuer des comparaisons de moyennes deux à deux.
Test de Scheffé
Sous 2
intra
2 2 2
2 2 2
rejetée et compte tenu de l'échantillon
Source de Somme des Degré de Estimation de

variation carrés des écarts Liberté dispersion
Totale 466,84 14
Factorielle 433,7 2 inter
Résiduelle 33,064 12 intra 2
88
89
B. Test de comparaison de plusieurs variances
Test de Bartlett
 Conditions d’utilisation
 populations inconnues
La distribution de la variable aléatoire dans chacune des populations suit une loi
normale
échantillon aléatoire ind
 Statistiques d’échantillon
Ӿ ln ln
Ӿ Ӿ
 Test
RDD
89
90
Exercice :
2 2
2
2
22
2
2 2
2
2
Ӿ 2 ln 2 ln ln 2 ln 2
Ӿ. Ӿ. 2
acceptée au risque de et compte tenu des échantillons
C. Test de comparaison de plusieurs proportions
Test de Marascuilo
populations échantillons
Effectif empirique
n. .
Effectifs théorique espéré
Ӿ Ӿ
90
91
correspond au caractère dont on dispose pour les échantillons
RDD
Exercice :
On demande à un certain nombre d'étudiants de 3 UF s’il désire prend un cours de statistique à

la prochaine rentrée.
On veut savoir si le pourcentage d’étudiants qui songe à s’inscrire est identique à chaque UF
Réponse / UFR Psycho AES Maths .

Oui 30 32 25 87
Non 60 80 40 180
. 90 112 65 267
30 29,33 0,02
32 36,49 0,55
25 21,18 0,69
60 60,67 0,01
80 75,51 0,27
40 43,82 0,33
Ӿ. Ӿ. 2 Ӿ. 2
acceptée au risque de et compte tenu de l’échantillon
La proportion d’étudiant désirant s’inscrire en cours de Statistique est donc la même dans
chaque UFR.
91
92
Fin du Cours de Statistique 3
Signé par :
(^)(^)
^ ^
(= - =)
(‘’) (‘’)
POOKIPOOKI votre fidèle serviteur …
92
93
93
2010
94
2011
Statistiques 3
94
Sylvain PLASMAN - Série 6

Cours pour Licence 2, Semestre 4 Année 2011

Statistiques 3: L 2 - S E C F S

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistiques 3: L 2 - S E C F S

Transféré par

Droits d'auteur :

Formats disponibles

2010

LICENCE 2 – SCIENCES ECONOMIQUES COURS DE MME FRANÇOISE SEYTE

Sylvain PLASMAN - Série 6

LICENCE 2 – SCIENCES ECONOMIQUES COURS DE MME FRANÇOISE SEYTE

Ecrit pour les étudiants de deuxième année de licence en sciences économiques

Pour toutes incompréhensions, imperfections ou erreurs éventuelles,

http://www.forum-sceco.fr , à défaut de ne pouvoir me contacter directement...

PRISE DE NOTE PAR : PLASMAN SYLVAIN – SERIE 06 ANNEE 2010 – 2011

Les lois de la distribution statistique : les modèles continues

Chapitre III P.027

C. Vraisemblance d’un échantillon P.027

Estimation par intervalle de confiance

E. Taille d’un échantillon et précision de l’estimation P.049

Construction d’un test d’hypothèse : aspect méthodologique

Chapitre VII P.058

Test du Khi deux

Chapitre VIII P.066

IV. La loi normale (Laplace-Gauss)

A. Définition de la loi normale

La variable aléatoire est continue,

et sont 2 paramètres : écart-type moyenne

La valeur de la moyenne détermine la position de la courbe et la courbe de même écart-type se

La courbe de densité de la probabilité de la loi normale se présente comme une courbe

Même changement de variable

Même changement de variable

B. Loi normale centrée réduite

La probabilité que x soit dans l’intervalle in initésimal est égale à

xe des ordonnées axe de symétrie

C. Détermination pratiques des probabilités : Usage des tables statistiques

 Table de la densité de probabilité p.2

Pour des calculs de valeurs négatives :

En raison de la symétrie des valeurs de u, la table permet de déterminer les densités

Pour des calculs valeurs à

 Tables de fonction de répartition

Pour , lecture directe

Variable léatoire Normale Centrée éduite V NC

 Table de la loi normale centrée

La table nous permet de lire directement les valeurs de

 lecture dans la table de –

1. Variable aléatoire normale

La somme de deux variables indépendantes ayant respectivement pour paramètres

Conclusion : Ceci est la fonction caractéristique d’une loi centrée réduite

et obéissent à une loi normale de paramètre et de variance

2. Théorème central limite

Le théorème central limite donne le comportement asymptotique de la somme de variables

Soit une suite de variable aléatoire vérifiant les propriétés suivantes :

ne doit pas être voisin de .

B. Tables statistiques (p.22)

La table donne la valeur du Khi ayant la probabilité p d’être dépassé.

En indice, est mise la probabilité qui correspond à la fonction de répartition.

Ӿ Ӿ (Pour 90%, notez .90)

A la lecture directe du tableau :

La table du Khi² est utilisable jusqu’à

C. Somme du Khi² indépendante

t t ind 2it 2it

II. Loi de Student

, les deux variables sont indépendantes

B. Densité de probabilité de la loi de Student

Grand échantillon, la loi de Student tend vers la loi normale

: Borne inférieure ou supérieure en valeur absolue (dans le cadre du calcul de l'aire de

Le principe probabilité et d’être dépassée en valeur absolue c'est-à-dire, la probabilité .

. On suppose que la probabilité se répartie équitablement

 On considère un intervalle bilatéral symétrique