Vous êtes sur la page 1sur 95

2010

2011

LICENCE 2 – SCIENCES ECONOMIQUES COURS DE MME FRANÇOISE SEYTE

Statistiques 3

Sylvain PLASMAN - Série 6


Cours pour Licence 2, Semestre 4 Année 2011
1

1
2

LICENCE 2 – SCIENCES ECONOMIQUES COURS DE MME FRANÇOISE SEYTE

Cours de Statistiques 3
Ecrit et paginé par

Sylvain Plasman

Ecrit pour les étudiants de deuxième année de licence en sciences économiques

Remerciements spéciaux à :
Serghei Podorvaniuc,
Katarina Palusekova,
Maria Camila Porras Rivera,
et Victor Pluskwa
Sans qui le cours serait incomplet...

Pour toutes incompréhensions, imperfections ou erreurs éventuelles,

Merci de les signaler sur le forum de la faculté de sciences économiques de l'UM1, à cette
adresse :

http://www.forum-sceco.fr , à défaut de ne pouvoir me contacter directement...

2
3

PRISE DE NOTE PAR : PLASMAN SYLVAIN – SERIE 06 ANNEE 2010 – 2011

Sommaire
Chapitre I P.008

Les lois de la distribution statistique : les modèles continues


I. La loi normale Laplace-Gauss P.008
A. Définition de la loi normale P.008
B. Loi normale réduite centrée P.010
C. Détermination pratique des probabilités : Usage des tables P.012
statistiques
D. Conditions d’application P.015
1. Variable aléatoire normale P.015
2. Théorème central limite P.016
II. Loi du Khi² P.018
A. Définition P.018
B. Tables statistiques P.019
C. Somme du Khi² indépendantes P.020
III. Loi de Student P.020
A. Définition P.020
B. Densité de probabilité de la loi de Student P.021
IV. Loi de Fisher-Snedecor P.021
A. Définition P.021
B. Tables statistiques P.022

Chapitre II P.023

Convergences statistiques
I. Convergence en probabilité P.023
A. Définition P.023
B. Condition de convergence en probabilité P.023
II. Convergence en loi P.024
A. Définition P.024
B. Cas particuliers de convergence en loi P.025

Chapitre III P.027

Echantillonnage
I. Définition P.027
A. Echantillon Théorique Aléatoire Probabilisé P.027
B. Echantillon Théorique ou Observé P.027

3
4

C. Vraisemblance d’un échantillon P.027


D. Notation des caractéristiques théoriques et empiriques P.028
II. Variable d’échantillonnage P.028
A. Etude de P.028
B. Etude de P.028
C. Moment empirique non centré d’ordre P.030
III. Loi de probabilité de variable d’échantillonnage fondé sur P.031
l’hypothèse de normalité : Cas d’un échantillon
A. Loi de P.031
B. Loi de la variance et Théorème de Fisher P.032
C. ?? (Cours interrompu) P.032
IV. Loi de probabilité de variable d’échantillonnage à partir de 2 P.032
échantillons prélevés dans 2 populations
A. Loi de la différence de la moyenne lorsque les variances des P.032
populations sont connues
B. La loi de différence de la moyenne d’échantillon lorsque les P.033
écart-types de population sont inconnus
C. Loi du rapport des variances P.034
D. Loi de la différence de deux proportions d’échantillon P.034

Chapitre IV P.036

L’estimation ponctuelle
I. Notations et définition P.036
II. Les propriétés de l’estimateur P.036
A. Estimateur sans biais (sans distorsion, centré) P.036
B. Estimateur convergent P.037
C. Estimateur efficace (Inégalité de Fréchet Rao Cramer Darmois P.037
– FRCD)
D. Estimateur exhaustif P.038
III. La méthode du maximum de vraisemblance P.038
IV. Les théorèmes de Dugué P.038

Chapitre V P.042

Estimation par intervalle de confiance


I. Principe d’estimation par intervalle de confiance P.042
II. Estimation par intervalle de confiance de paramètre de population P.043
A. Estimation par intervalle de confiance de la moyenne de P.043
population lorsque la variance est connue
B. Estimation par intervalle de confiance de la moyenne de P.045
population lorsque la variance est inconnue
C. Estimation par intervalle de confiance de la variance d’une P.046
population
D. Estimation par intervalle de confiance d’une population P.047

4
5

E. Taille d’un échantillon et précision de l’estimation P.049


1. Détermination de la taille de l’échantillon en fonction de la P.049
précision sur la proportion
2. Détermination de la taille de l’échantillon en fonction de la P.051
précision sur la proportion
III. Estimation par intervalle de confiance de la différence et du rapport de deux P.052
paramètres de deux populations : cas de deux échantillons de population
A. Intervalle de confiance de la différence de moyenne lorsque les P.052
variances de population sont connues
B. Intervalle de confiance de la différence de moyenne lorsque les P.053
variances de population sont inconnues
C. Estimation par intervalle de confiance du rapport des variances de deux P.053
populations
D. Estimation par intervalle de confiance de deux proportions P.054

Chapitre VI P.055

Construction d’un test d’hypothèse : aspect méthodologique


I. Le risque d’erreur P.055
II. Efficacité d’un test P.056
III. Elaboration d’une règle de décision P.056
IV. Typologie du test d’hypothèse P.056

Chapitre VII P.058

Test du Khi deux


I. Test d'adéquation P.058
A. Données du problème P.058
B. Construction du test P.058
1. La formulation de l'hypothèse P.058
2. La fonction discriminante P.059
3. La région critique P.060
4. La règle de décision P.060
C. Considération pratiques P.061
II. Test d'indépendance P.061
A. Données du problème P.061
B. Construction du test P.062
1. La formulation de l'hypothèse P.062
2. La fonction discriminante P.062
3. La région critique et la règle de décision P.064
C. Considérations pratiques P.064
III. Test d'homogénéité P.064

5
6

Chapitre VIII P.066

Test paramétriques
I. Test de significations des paramètres P.066
A. Problématique P.066
B. Test de signification de la moyenne d'une loi normale lorsque P.067
l'écart type de la population est connu
C. Test de signification de la moyenne d'une loi normale lorsque P.069
la variance est inconnue
D. Test de signification de la variance de la loi normale P.070
E. Test de signification d'une proportion P.072
II. Test de comparaison ou d'égalité des paramètres P.073
A. Problématique P.073
B. Test de comparaison des moyennes de deux lois normales P.073
lorsque les variances sont connues
C. Test de comparaison des moyennes lorsque les variances sont P.077
inconnues
D. Test de comparaison de variances de deux lois normales P.079
E. Test de comparaison de deux proportions P.080
III. Test de comparaison sur plus de deux paramètres P.082
A. Test de comparaison de plusieurs moyennes P.082
B. Test de comparaison de plusieurs variances P.089
C. Test de comparaison de plusieurs proportions P.090

6
7

7
8

Chapitre I
Les lois de la distribution statistique : les modèles continus

IV. La loi normale (Laplace-Gauss)

S’applique à une variable statistique qui est la résultante d’un nombre de causes indépendantes
dont les effets s’additionnent et dont aucune n’est prépondérante.

A. Définition de la loi normale

La variable aléatoire est continue,

et sont 2 paramètres : écart-type moyenne

Ex :

Changement de variable

2 2

La valeur de la moyenne détermine la position de la courbe et la courbe de même écart-type se


réduise par dispersion

8
9

La courbe de densité de la probabilité de la loi normale se présente comme une courbe


symétrique uni-modale sur la branche externe tangentiellement à l’axe des abscisses.

Calcul de

La fonction est paire si je change ua-u, la fonction ne change pas. Donc l’intégrale d’une
fonction faire est égale à 2 fois l’intégrale sur la moitié du domaine.

Si impaire :

Changement de variable

2
2

appel : 2

ici 2
2

or
2 2

Même changement de variable

u m
2

9
10

2 2
2 2

Même changement de variable

2 2 2

2 2 2 2 2
2 2

2
2 2

2 2

Rappel : n n

2
2 2

B. Loi normale centrée réduite

10
11

La probabilité que x soit dans l’intervalle in initésimal est égale à

après changement de variable la probabilité que u se trouve dans l’intervalle de u u du est égale à

avec

2
2 2

2
:
2 2 2 2

xe des ordonnées axe de symétrie

11
12

2
’’ –
2 2

’’
2

Médiane :

 Fonction répartition

C. Détermination pratiques des probabilités : Usage des tables statistiques

Toutes les tables de la loi normale se ramènent à celle de la variable normale centrée réduite U

 Table de la densité de probabilité p.2

Cette table donne la densité de probabilité f(u) correspondante aux valeurs positives de la
variable normale centrée réduite

12
13

Pour des calculs de valeurs négatives :

En raison de la symétrie des valeurs de u, la table permet de déterminer les densités


correspondantes à des valeurs négatives de u.

2 2

Pour des calculs valeurs à

On procède par interpolation linéaire lorsque l’on a besoin de calculer des densités
correspondantes à des valeurs u intermédiaires à celle correspondant, grâce à la continuité (loi
normale)

Pour

2
2

13
14

 Tables de fonction de répartition

Cette table donne pour toutes valeurs positives de la variable normale centrée réduite la
valeur correspondante de la fonction de répartition .

Pour , lecture directe

Pour

2 2

Variable léatoire Normale Centrée éduite V NC

2 2 2

2 2

2 2

Cette table permet de trouver la valeur d’une variable aléatoire normale centre réduite en
fonction de la probabilité P de déplacement ou de la probabilité complémentaire

14
15

 Table de la loi normale centrée

La table nous permet de lire directement les valeurs de

 lecture directe de

 lecture dans la table de –


22 2

D. Conditions d’application

1. Variable aléatoire normale

La somme de deux variables indépendantes ayant respectivement pour paramètres


et est elle même une variable aléatoire normale de moyenne
et de variation

2 .

15
16

Rappel :

Rappel :

Conclusion : Ceci est la fonction caractéristique d’une loi centrée réduite

et obéissent à une loi normale de paramètre et de variance

indépendant

2. Théorème central limite

Le théorème central limite donne le comportement asymptotique de la somme de variables


indépendantes.

16
17

Soit une suite de variable aléatoire vérifiant les propriétés suivantes :

 indépendantes
 Leur espérance mathématique est leur variance existe
o
o
 Le rapport de la variance d’un élément particulier de la suite à la somme des variances
tend vers 0 quand n tend vers +
o quand
o Cette condition peut s’interpréter cette façon : la variabilité dû à un facteur de
fluctuation particulier est faible par rapport à la variabilité totale de x dû à
l’ensemble des facteurs

On suppose :

 On suppose que les moyennes sont égales et que les variances soit égales et que ces
variables aléatoires suivent des lois de mêmes natures, de même moyenne et de même
écart-type
 On suppose que les variables aléatoire suivent des lois de même nature, même moyenne
et même écart-type et suivent des lois indépendantes. La somme des est
asymptotiquement normale de moyenne mn et d’écart type sigma racine n :
o

17
18

Les phénomènes qui peuvent être considéré comme engendré par un grand nombre de causes
élémentaires de fluctuation agissant de façon indépendants seront susceptibles d’être
représentés par la loi normale. La loi normale est l’approximation de la loi binomiale lorsque la
taille de l’échantillon tend vers .

ne doit pas être voisin de .

I. Loi du Khi² ( )

A. Définition

 Loi de probabilité

Ӿ² a un degré de liberté : Ӿ

Ӿ 2

Ӿ 2

 Ӿ

18
19

La somme de n variables aléatoire centrée réduite constitue la loi du Khi² à n degré de liberté

 Ӿ
.

2 2

 Ӿ
 Ӿ 2

La loi de distribution du Khi² est une loi de distribution dissymétrique avec étalement sur la
droite, toutefois elle tend à devenir symétrique quand le nombre de degré de liberté qui
augmente.

La variable aléatoire du Khi² à n degré de liberté a été défini comme la somme des carrées de n
variables aléatoires normales centrés réduites, considéré n VANCR indépendantes revient à se
placer en n dimensions. Le nombre de degré de liberté suivit par cette somme correspond au
nombre de dimension de l’espace dans lequel se situe les points représentatifs des valeurs du
Khi².

B. Tables statistiques (p.22)

La distribution du Khi ne dépend que d’un seul paramètre le nombre de degré de liberté.

La table est un tableau à double entrée. En colonne, la probabilité, en ligne, le degré de liberté.

Ӿ Ӿ

La table donne la valeur du Khi ayant la probabilité p d’être dépassé.

En indice, est mise la probabilité qui correspond à la fonction de répartition.

Ӿ Ӿ (Pour 90%, notez .90)

A la lecture directe du tableau :

Ӿ.

Ӿ. 2

La table du Khi² est utilisable jusqu’à

19
20

Lorsque , on admet 2Ӿ 2

C. Somme du Khi² indépendante

Soit

Ӿ
.
Ӿ

Rappel : Ӿ t 2it

t t ind 2it 2it

2 2

2 2

2 2

II. Loi de Student

A. Définition

Rapport entre une loi normale centrée réduite et la racine carrée d’un Khi sur son degré de
liberté.

, les deux variables sont indépendantes


Ӿ

2 2

20
21

2 2 2

B. Densité de probabilité de la loi de Student

. 2
2 2 2

. 2 .
2 2

Grand échantillon, la loi de Student tend vers la loi normale

: Borne inférieure ou supérieure en valeur absolue (dans le cadre du calcul de l'aire de


probabilité en bilatéral).

et

Le principe probabilité et d’être dépassée en valeur absolue c'est-à-dire, la probabilité .


La probabilité vient d’être répartie en deux seuils égaux. Partage entre 2 parties égales
(Bilatéralisme).

Exemple :

. On suppose que la probabilité se répartie équitablement

 On considère un intervalle bilatéral symétrique

à gauche à droite

III. Loi de Fisher-Snedecor

A. Définition

La variable de Fisher-Snedecor est constituée par le rapport de deux Khi² rapportées à leur
degré de liberté (Les Khi² étant indépendants)

21
22

Ӿ
Ӿ

B. Tables statistiques (p.24)

Elle vous donne les valeurs de , la probabilité d’être dépassé

22
23

Chapitre II
Convergence statistiques

Définition :

Une suite numérique converge vers une limite lorsqu’il existe un seuil au delé duquel
les sont proches de la limite. Une suite de variables aléatoires peut converger lorsque
augmente indéfiniment soit vers un nombre certain et donc on parlera de convergence en
probabilité, soit vers une autre variable aléatoire : convergence en loi.

I. Convergence en probabilité

A. Définition

Une suite de variable aléatoires définies sur le même espace fondamentale par ou
ou bien par converge en probabilité vers le nombre certain si

sont deux valeurs qui sont faibles

tend vers

B. Conditions de convergence en probabilité

1ère condition (suffisantes de convergence en probabilité) :

Théorème de Bienaymé-Tchebychev

Définition : Pour une suite de variable aléatoire converge en probabilité vers un nombre
certain et qu’il suffit que l’espérance mathématique de tend vers et que la variance de
tend vers lorsque tend vers

2ème condition

Loi faible de Grands Nombre

Théorème de Bernoulli

répétitions

Soit de l’événement sur les épreuves élémentaires

23
24

Considérons la variable aléatoire Fréquence de réalisation de l’événement ) où :

Caractéristique de :

D’après le théorème de Bienaymé-Tchebychev la fréquence relative d’un événement converge


en probabilité vers la probabilité de cet événement (Théorème de Bernoulli).

3ème condition

Converge (CV) en moyenne quadratique

Une suite de variables aléatoires converge en moyenne quadratique vers si l’espérance


mathématique du carré de l’écart entre et converge vers 0 quand .

Notée :

Conséquence : Si une suite de variables aléatoires converge en moyenne quadratique vers elle
converge aussi en probabilité vers quand

4ème condition

Théorème de Slutsky

Si converge en probabilité vers , alors convergera en probabilité vers

II. Convergence en loi

A. Définition

Etant donnée une variable aléatoire , de fontion de répartition et pour fonction


caractéristique , on dit que la suite « converge en loi » vers lorsque si
converge vers et si la fonction caractéristique converge vers .

Notée :

24
25

Remarque :

Si converge en loi vers , la fonction caractéristique de convergera uniformément vers la


fonction caractéristique de X dans tout intervalle fini de t lorsque tend vers

Si converge uniformément vers alors on peut déduire qu’il y a converge en loi


de vers

B. Cas particuliers de convergence en loi

Première convergence :

Rappel : Ne pas oublier, dans le cas de convergence, de justifier la première loi.

2ème convergence

3ème convergence

4ème convergence

5ème convergence

Degré de Liberté

25
26

6ème convergence

Ӿ 2Ӿ 2

26
27

Chapitre III
Echantillonnage

I. Définition

A. Echantillon Théorique Aléatoire Probabilisé

Soit une variable aléatoire (notée : ) définie dans une population. Elle est caractérisée par
sa loi de probabilité.

On appelle « Echantillon Théorique Aléatoire Probabilisé » de taille (ou échantillons) le


vecteur aléatoire où les obéissent ( ) à une loi et où

B. Echantillon empirique ou observé

L’échantillon empirique est constitué de petites images de

Indépendant Identiquement Distribué Notée IID

C. Vraisemblance d’un échantillon

Cas d’une variable aléatoire discrète : Ӿ

.
Ӿ

Cas d’une variable aléatoire continue : Ӿ

27
28

D. Notation des caractéristiques théoriques et empiriques

Population Echantillon théorique Echantillon empirique

  
  
  
  
  

II. Variable d’échantillonnage

A. Etude de

B. Etude de

: :

appel:

28
29

 Trouver m ( sans constante)

S variable d’échantillon est appelé estimateur avec biais de la variance de population. Le biais
étant égale à . Cependant est dit estimateur sans biais de la variance de population.

Démonstration à savoir refaire on s’en sert de cette démonstration pour montrer que la
variance d’échantillon d’une loi normale possède un biais

29
30

C. Moment empirique non centrée d’ordre

: : :

or

30
31

2
.

 Cas particulier

III. Loi de probabilité de variable d’échantillonnage fondée sur l’hypothèse de normalité : cas
d’un échantillon

Echantillon IID

A. Loi de

(cf. Chap.1.I.D.2., portant sur le théorème central limite)

31
32

Rappel :

B. Loi de la variance et Théorème de Fisher

C. ???

IV. Loi de probabilité de variable d’échantillonnage à partir de 2 échantillons prélevés


dans 2 populations

Hypothèse :

A. Loi de la différence de moyenne lorsque les variances des populations sont connus

32
33

D’ s t Chap.1 I.D.

B. La loi de différence de la moyenne d’échantillon lorsque les écart-types de population


sont inconnus

Ӿ
Ӿ 2
Ӿ

Hypothèse :

Ӿ 2

33
34

C. Loi du rapport des variances

Ӿ
.
Ӿ

Ӿ
.
Ӿ
.

Ӿ
.
Ӿ
.

D. Loi de la différence de deux proportions d’échantillons

34
35

35
36

Chapitre IV
L’estimation ponctuelle

I. Notations et définition

Soit une population caractérisée par une variable aléatoire , cette variable dépend d’un
paramètre . On prélève un échantillon IID é

On appelle « Estimateur de » : un vecteur aléatoire qui est fonction des variables


d’échantillons amenés à remplacer .

II. Les propriétés de l’estimateur

Pour être un bon estimateur doit être :

 Sans biais
 Convergent
 Efficace
 Exhaustif

Toutes les définitions sont à connaître

A. Estimateur sans biais

est dit estimateur sans biais si l'espérance de l'estimateur est égale à sa vraie valeur

(Cf. Chapitre 3, 2.B) Biais

36
37

est asymptotiquement sans biais

B. Estimateur convergent

L’estimateur qui définit une loi est dit convergent si converge en probabilité vers sa vraie
valeur

et

 Convergence d’un estimateur sans biais

Il suffit de montrer que

bsolument convergent

C. Estimateur efficace (Fréchet, Rao, Cramer, Darmois) (FRCD)

Cette inégalité permet de rechercher un estimateur efficace sous des conditions très générales
(Existence de dérivés sous l’opérateur et continuité de la fonction)

et de inconnu

fonction de vraisemblance de l'échantillon

Estimateur ef icace

37
38

Pour démontrer l’efficacité d’un estimateur si cet estimateur est sans biais il suffit de montrer
qu’il atteint la borne de l’inégalité Fréchet ao Cramer Darmois )

D. Estimateur exhaustif

Un estimateur exhaustif s’il résume toute l’information relative aux paramètres disponibles sur
l’échantillon. On recherche alors la famille des estimateurs exhaustifs tels que l’on ait la
décomposition suivante :

exp ou exp

III. La méthode du maximum de vraisemblance

Cette méthode est une méthode d’estimation ponctuelle. Elle permet de déterminer
l’estimateur d’un paramètre inconnu d’une loi définie dans une population. Cette fonction de
vraisemblance se calcule à partir de l’échantillon empirique.

L’estimateur de maximum de vraisemblance de , seul paramètre de la loi de à estimer, est


basé sur le principe suivant :

On recherche l’estimateur , qui rend la fonction de vraisemblance maximale, c'est-à-


dire qui rend la rend la probabilité d’apparition a posteriori de l’échantillon observé maximale.

On appelle « Fonction de vraisemblance » le produit de probabilité ou de densité de probabilité.

V discrète

ou V continue

Pour chercher le maximum de la fonction de vraisemblance, on cherche le

On calcule alors :

On forme l’équation du maximum de vraisemblance.

On suppose , les conditions de deuxième ordre.

38
39

IV. Les théorèmes de Dugué

 La probabilité pour que l’équation du maximum de vraisemblance ait une solution


convergente en probabilité vers la vraie valeur du paramètre tend vers .

 S’il existe un estimateur efficace alors l’équation du maximum de vraisemblance a une


solution unique égale à cet estimateur.
Estimateur ef icace
 S’il existe un estimateur exhaustif toute solution de l’équation du maximum de
vraisemblance est une fonction de l’estimateur exhaustif. De plus la distribution de
l’estimateur exhaustif se déduit de la fonction de vraisemblance.

L’équation du maximum de vraisemblance a pour solution une estimation asymptotiquement


normale et efficace du paramètre.

Exemple : Déterminer l’estimateur du maximum de vraisemblance de la loi de Poisson :

Rappel : Donner l’explication de la méthode du maximum de vraisemblance :

1)

39
40

(Rappeler la loi)

2)

On sait que

Si bsolument convergent

3)

40
41

atteint la borne de l'inégalité de F CD

 Estimateur ef icace

4)

exp ln exp

ln

ln

pour

est exhaustif.

41
42

Chapitre V
Estimation par intervalle de confiance

Il s’agit ici de trouver une estimation par intervalle de confiance d’un paramètre , c'est-à-dire
de construire « une fourchette de valeurs numériques permettant de situer ».

On dispose toujours d’un échantillon IID et d’un estimateur , d’un paramètre inconnu vérifiant
les 4 propriétés du chapitre précédent.

pourrait être ou 2 populations 2 échantillons

 m m

I. Principe d’estimation par intervalle de confiance

Il est possible de trouver 2 valeurs particulières et tel que

Le but est de réécrire cette inégalité en lui cachant le paramètre .

IC

Le principe de l’estimation d’un intervalle de confiance est d’encadrer le paramètre inconnu de


la loi de la population.

Degré de confiance = degré de certitude

 IB (Intervalle Bilatéral)
 2 IBS (Intervalle Bilatéral Symétrique)
 IUD (Intervalle Unilatéral Droit)
 IUG (Intervalle Unilatéral Gauche)

42
43

II. Estimation par intervalle de confiance de paramètre de population

A. Estimation par intervalle de confiance de la moyenne de population lorsque la variance est


connue

Problème :
IB

43
44

ou

On recherche a déterminer l’intervalle de confiance pour la moyenne d’une population sachant


la X suit une loi normale 2 où

1) IBS

2
.

2)

2 .

. 2

2 2
. 2

 IUG(BS)

 IUD (BS)

44
45

B. Estimation par intervalle de confiance de la moyenne de population lorsque la variance est


inconnue

inconnu

Problème :

 IB

 IBS

 IUD

45
46

 IUG

C. Estimation par intervalle de confiance de la variance d’une population

Problème :

 IB

Ӿ Ӿ Ӿ

Ӿ Ӿ

Ӿ Ӿ

Intervalle de convergence de la variance normale

IBS

Ӿ Ӿ Ӿ

Ӿ Ӿ

Ӿ Ӿ

IUD

46
47

Ӿ Ӿ

IUG

BS

Ӿ Ӿ

D. Estimation par intervalle de confiance d’une proportion

Problème :

IB

47
48

On encadre et on retrouve dans les bornes de l’intervalle

3 Méthodes pour retrouver les bornes de l’intervalle de confiance :

 Méthode de l’estimateur

IBS

 Méthode par excès

Max sous contrainte

2
2

IBS

48
49

 Méthode par ellipse

Les points qui satisfont à cette inégalité sont les points intérieurs d’une ellipse dont l’équation
est la suivante :

baque (Voir les tables statistiques)

Intervalle :

et sont lues graphiquement

E. Taille d’un échantillon et précision de l’estimation

Ici on cherche à déterminer en fonction de la précision de l’estimation c'est-à-dire écart entre la


valeur théorique et la valeur estimée la taille de l’échantillon correspondant.

1. Estimation de la taille d’un échantillon en fonction de la précision sur la moyenne

IBS

49
50

Il y a deux façon de calculer la taille de l’échantillon en fonction de la précision souhaitée : en


valeur absolues ou en valeur relative

 Précision en valeur absolue

IBS

Avec inconnu, on passe par la loi de Student.

 Précision en valeur relative

50
51

2. Détermination de la taille de l’échantillon en fonction de la précision sur la proportion

 En valeur absolue

 Précision en valeur relative

III. Estimation par intervalle de confiance de la différence et du rapport de deux paramètres de


deux populations : cas de deux échantillons de population

1ère Population :

51
52

2ème Population :

A. Intervalle de confiance de la différence de moyenne lorsque des variances de populations


sont connues

Problème :

IB

IBS

IUG

IUD

B. Intervalle de confiance de la différence des moyennes lorsque les variances des populations
sont inconnues

inconnu 2

52
53

Problème identique au précédent

Hypothèse :

IB

IBS

C. Estimation par intervalle de confiance du rapport des variances de deux populations

Problème :

IBS

Pour obtenir l’encadrement soit on inverse l’intervalle soit on constitue la loi de Fisher

53
54

D. Estimation par intervalle de confiance de deux proportions

Problème :

IB

IBS

Trois méthodes :

 Par excès :
 Estimateur :
 Abaque :

54
55

Chapitre VI
Construction d’un test d’hypothèse : Aspect méthodologique

D s it d t, sq ’ f si t v sd fi , d s
paramètres de population avec les intervalles de confiance. A partir de ce chapitre, on connait a
priori les paramètres de population, donc on va tester ces valeurs supposées connues.

O d i y t s q ’ t . L t st b td s ’ d q ti d
cette hypothèse à la réalité observable (c'est-à-di s s t ts d is ’ ti ).

IV. Le Risque d’erreur

Deux cas possibles :

 Le cas du test paramétrique :

L v d θ st i is id d t

: Hypothèse antagoniste car on n'accepte pas

 Le cas du test non paramétrique :

O t st ’ y t s id d i

 O d it i isq d’ isq d i s , t

(Probabilité du) Risque de première espèce


rejeter vraie
(Probabilité du) Risque de deuxième espèce
accepter vraie

Décision

du
test

55
56

V. Efficacité d’un test

Les cases et du tableau précédent ne traduisent pas de risque.

 : Seuil de confiance ). La probabilité doit être croissante.

 iss d t st. I s’ git d s d ’ ffi it d t st.


o accepter
o accepter

Un test est considéré comme très précis lorsque sa puissance est grande

VI. Elaboration d’une règle de décision

La démarche qui conduit à la prise de décision se fait en deux étapes :

 D fi i v t ti g st tistiq d’ ti g , fonction discriminante.


(Définir ex-ante).

O d fi it gi itiq t gi d’ t ti :

s d fi i , d à d t d ’ sti t d t inconnu de la
population dont les bornes seront formées à partir des hypothèses.

I t v d t t

On élabore une règle de décision (notée ).

acceptée au risque de première espèce

rejetée au risque de première espèce

 D fi i s ti g d’ ti ( x-post).

O ’i t v d’ t ti t d d isi à ti d’ v
particulière de la statistique retenue.

On dit alors : « J’ t ( j j tt ) ’ y t s au risque de première espèce , et compte


t d ’ ti .»

VII. Typologie du test d’hypothèse

 Tests non paramétriques

56
57

U t st st dit t iq sq ’ t t d t x i ’ y t s st f
termes qualitatifs. 2 types de tests non paramétriques :

o L s t sts d’ d q ti :
O t st is s d’ v i b t i de population .
Lois utilisables : Loi Normale, Loi Binomial, Loi de Poisson, Bernoulli
o L s t sts d’i d d :
O t st ’i d d d d x t s iss s d’ ê ti .
exemple, le rapport accident de la route/âge

Ces deux tests sont calculés avec la loi Khi deux Ӿ

 Tests paramétriques
2 types de tests paramétriques :
o Les tests de signification :
On teste la signification du paramètre

o Les tests de comparaison :

La démarche suivante est la même pour tous les tests énoncés précédemment.

Niveau population :
 Enoncer les hypothèses
 Loi de la variable aléatoire dans la population

Niveau échantillon ex-ante :


 Trouver la fonction discriminante
 R gi itiq t gi d’ t ti f ti d’ isq d i s
 C st ti d ’
 Elaboration de la

Niveau échantillon ex-post :


 Calculer
 Formulation de la décision acceptée ou rejetée

57
58

Chapitre VII
Test du Khi deux

 2 types de tests non paramétriques


Test du Ӿ d’adéquation
Test d’indépendance

I. Test d’adéquation
A. Données du problème

On a un échantillon de taille , prélevé dans une population dans laquelle on a une ; on a un


tableau des effectifs qui est construit en classes ( continue) ou sinon, regroupé en valeur
entières discrète)

continue discrète
Classes Effectifs

La loi de la est soit parfaitement déterminée soit non parfaitement déterminée.


Les sont elles les images de ?

B. Construction du test

Le modèle théorique se situe ex-ante avant le tirage d’échantillon


C’est le prélèvement d’un échantillon qui permettre d’accepter ou de refuser l’hypothèse avec
un risque d’erreur choisi.

1. La formulation de l’hypothèse

dont la loi de probabilité obéit à un paramètre


Les observations sont elles adéquates au modèle, c'est-à-dire les observations obéissent
elles à la loi de ?

On suppose que obéit à la loi

58
59

On va tester o

Pour pouvoir tester cette hypothèse il faut prendre l’estimateur de paramètre de la loi si ces
paramètres ne sont pas connus)
Les estimateurs pris dans le test seront les estimateurs issus de la méthode de maximum de
vraisemblance possédant les 4 propriétés requises.
Comme on suppose cette hypothèse comme vraie, on peut calculer les probabilités rattachées
à chaque classe :
 Dans le cas d’une continue,
 Dans le cas d’une discrète,

Classes Effectifs si vraie

 Si discrète, les sont lues dans les tables


 Si continue,

2. La fonction discriminante

Les données en présence sont :


 Un échantillon aléatoire de talle
 L’effectif de cet échantillon est répartie en classes ; chacune ayant un effectif
 Les probabilités sont calculées sur la base de l’hypothèse

L’adéquation entre et l’observation est mesurée par une distance entre la distribution
empirique et la distribution théorique, c'est-à-dire par une fonction des écarts entre les et
les

La fonction retenue est la suivante :

59
60

Ceci est une statistique d’échantillonnage puisque les sont associés à l’échantillon prélevé.
Cette statistique d’échantillonnage est retenue comme fonction discriminante du test
d’adéquation d’une distribution empirique.

Pearson a démontré que cette statistique convergeait vers un Ӿ dont le degré est , avec
 : nombre de classes
 : nombre de paramètres à estimer (2,1 ou 0)

Ӿ Ӿ avec vraie

Dans un exercice, la présentation du test doit être expliquée

3. La région critique

Ӿ Ӿ

rejeter vraie

Ӿ Ӿ

4. La règle de décision

Ӿ Ӿ acceptée au risque de première espèce

Ӿ Ӿ rejetée au risque de première espèce

60
61

C. Considérations pratiques

Classes Effectifs n vraie

Si on a des clases avec de très faibles probabilités les seront petits aussi donc les vont
augmenter artificiellement la du Ӿ

Pour éviter ce risque, on regroupe les classes qui ont de petits

Le degré de liberté du Ӿ va changer. On était à Ӿ et celui-ci devient : Ӿ


avec nombre de clases après regroupement.

II. Test d’indépendance

Ici on va tester l’indépendance éventuelle de 2 caractères attachés à chaque individu d’une


même population.

A. Données du problème

On a un échantillon aléatoire de taille prélevé dans une population dont les individus
possèdent 2 caractères et

A\B . .
.

. .

. . . .

Nous avons individus qui possèdent à la fois la modalité et


On a . individus qui possèdent la modalité quelque soit la modalité
On a . individus qui possèdent la modalité quelque soit la modalité

61
62

B. Construction du test

1. La formulation de l’hypothèse

: Indépendance entre et

possède modalités

possède modalités

Sur chaque individu on note la valeur du caractère A et B

Dépendance entre et

2. Fonction discriminante

On calcule une distance entre les effectifs observés et les effectifs théoriques correspondant au
cas de l’indépendance.
Le test du Ӿ d’indépendance est donc constitué à partir du calcul de leur distance

Fonction discriminante :

Ӿ Ӿ vraie

 : Effectifs observés
 Effectifs théoriques correspondant au cas de l’indépendance
 Nombre de classes
 Nombre de paramètres à estimer

Recherche de nombre de paramètres à estimer

A\B . .
.

. . .

.
. . . .

. paramètres à estimer
. paramètres à estimer

62
63

Recherche du degré de liberté

Simplification de l’expression du Ӿ

. .
On sait que . et . et . .

. .

. .

. .

. .

. .

. .

. . . .
2
. . . . . .

2 . .

. .

2 . .
. .

63
64

2
. .

. .

Ӿ Ӿ vraie
. .

3. Région critique et règle de décision

Ӿ Ӿ acceptée au risque de première espèce

Ӿ Ӿ rejetée au risque de première espèce

C. Considération pratique

A\B . .
.

.
. .

.
. . . .

Ӿ
. .

III. Test d’homogénéité

On a un ensemble d’échantillons relatifs à des observations sur un caractère

64
65

A\B . .
.

.
. . . .

Peut-on considérer que tous ces échantillons sont issus de la même population ?
 Si oui on dira qu’il y a homogénéité dans la population
 Si non on dira qu’il y a hétérogénéité

Y a-t-il homogénéité entre les échantillons vis-à-vis de ?

D’o l’hypothèse qu’on va tester :


: Homogénéité entre échantillons
Indépendance entre et l’appartenance à un échantillon
Dépendance

Ӿ Ӿ vraie
. .

Les explications à faire sont les mêmes que pour l’indépendance

RDD

Ӿ Ӿ acceptée au risque de première espèce

Ӿ Ӿ rejetée au risque de première espèce

65
66

Chapitre VIII
Tests paramétriques

2 catégories de test :

 Test de signification
 Test de comparaison

I. Test de signification des paramètres

A. Problématique

On a une dans une population,

est connu

inconnu mais on a une idée de sa valeur

 Ex-ante avant le tirage échantillon théorique :

 Fonction discriminante
 Région critique
 Règle de décision

 Ex-post (après le tirage) échantillon empirique :


 Décision (après la Règle de Décision)

66
67

B. Test de signification de la moyenne d’une loi normale lorsque l’écart type de la population
est connu

est vraie

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

Calcul du risque de deuxième espèce

accepter vraie

67
68

vraie

résultat page des tables

 courbe d' ef icacité


 puissance du test
dépend du paramètre

vraie

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

68
69

vraie

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce vraie

vraie

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce vraie

C. Test de signification de la moyenne d’une loi normale lorsque la variance est inconnue

inconnu

69
70

vraie

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

Remarque :

D. Test de signification de la variance de la loi normale

70
71

Ӿ Ӿ Ӿ

Ӿ Ӿ

Ӿ Ӿ

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

Ӿ Ӿ

Ӿ Ӿ

71
72

E. Test de signification d’une proportion

2 modalités

Indépendance des épreuves

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

72
73

II. Test de comparaison ou d’égalité des paramètres

A. Problématique

inconnus

fonction discriminante

Fonction de discrimination Constitution d’un intervalle d’acceptation Règle de décision

B. Test de comparaison des moyennes de deux lois normales lorsque les variances sont connus

IID

connus

73
74

vraie

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

accepter vraie

vraie

74
75

Les 2 étant lues sur la table

75
76

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

76
77

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

C. Test de comparaison des moyennes lorsque les variances sont inconnues

inconnus

77
78

D s x i ù t st ’ g it d s y s, on doit au préalable tester ’ g it des


variances

2 2

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

78
79

D. Test de comparaison de variances de deux lois normales

inconnus

à utiliser si (On veut que )

79
80

à utiliser si

vraie

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

E. Test de comparaison de deux proportions

et

événement
2 modalités mutuellement exclusives
événement

+ Indépendance des événements

et

événement
2 modalités mutuellement exclusives
événement

+ Indépendance des événements

80
81

vraie

1) Méthode par excès

2) Méthode par estimations invalide

(Pas eu le temps de tout noter : Il s'agit de la démonstration prouvant que la méthode par estimation
ne peut être utilisé dans ce cas)

Estimateur commun

81
82

III. Test de comparaison sur plus de deux paramètres

A. Comparaison de plusieurs moyennes

Lorsqu’on dispose d’échantillons relatifs à plus de deux populations on pourrait envisager


d’effectuer toutes les comparaisons de moyennes deux à deux. Il faut dans un premier temps

82
83

s’assurer qu’il existe une hétérogénéité des moyennes considérées globalement. On utilise
l’analyse de la variance ) pour comparer les moyennes de plus de deux
populations. On parle d’ à un facteur lorsque les groupes analysés se distinguent par
qu’un seul facteur qualitatif d’ à deux facteurs si les groupes se distinguent par deux
facteurs qualitatifs

 Généralités sur l’

Le problème est le suivant : Il faut comparer les moyennes de plus de deux populations. Il est
incorrect de se contenter de comparer les échantillons deux à deux par un test de Student (si les
écarts types sont inconnus ou de la loi normale si les écarts types sont connus . Si l’
permet de s’assurer que l’ensemble des moyennes n’est pas homogène on peut uniquement
dans ce cas comparer des moyennes deux à deux.

Le principe de l’ est de comparer la dispersion factorielle entre échantillon à la


dispersion résiduelle à l’intérieur des échantillons.

 Notations

est la somme des carrés des écarts

 Equations fondamentales de l’analyse de la variance )

Si on considère un ensemble d’échantillon issu de plusieurs populations, la totale de ce


groupe se décompose :

 La SCE factorielle est du à la dispersion des échantillons les uns par rapports aux autres,
elle permet de calculer une variance interclasse
 La SCE résiduelle est du à la dispersion des observations au sein des différents
échantillons. Elle permet de calculer une variance intraclasse

totale factorielle résiduelle

83
84

 Estimation des

Soit échantillons est un effectif total de

 La Somme des écarts total et la somme des écarts de toutes les observations à la
moyenne générale

avec

 La Somme des carrés des écarts résiduelle est la somme des carrés des écarts au sein de
chaque échantillon (somme cumulée)

 La Somme des carrés des écarts factorielle est la différence entre la Somme des carrés
des écarts total et la Somme des carrés des écarts résiduelle. n’utiliser que pour
vérifier.

 Calcul des variances intra et inter échantillons

A la Somme des carrés des écarts total, on lui associe une variance totale

A la résiduelle on lui associe une variance intra échantillon que l’on appelle aussi carré
moyen résiduel

intra

la SCE factorielle on lui une variance inter échantillon que l’on appelle aussi carré moyen
factoriel

inter

 Le rapport des variances et le test d’

84
85

On effectue un test de Fisher pour comparer les différentes moyennes, la valeur de Fisher
calculée sera notée

obs

Cet estimateur permet de mesurer l’hétérogénéité des échantillons comparés.

intra
inter

nombre d'échantillons de populations

RDD

acceptée au risque de première espèce

rejetée au risque de première espèce

 Le résumé d’analyse de variance

Source de Degré de Liberté Estimateur de


variations ( ) dispersion
Totale
Factorielle inter
Résiduelle intra

Le test de Scheffé permet de comparer des moyennes deux à deux. On l’utilise après avoir fait le
test de Fisher et si le test de Fisher montre qu’il y a hétérogénéité.

intra

Si vraie
intra

RDD

85
86

2 acceptée au risque de première espèce


2 rejetée au risque de première espèce
On peut aussi utiliser le test de Student de comparaison des moyennes lorsque les écarts types
sont inconnus

Exercice :
On examine la production laitière journalière de 5 vaches de 3 races différentes
La production de lait d’une vache dépend elle de sa race ?

Race 1 Race 2 Race 3


Vache 1 19,6 28,7 34,8
Vache 2 19,4 28,4 32,9
Vache 3 21,9 28,5 35,3
Vache 4 21,2 31,7 31,8
Vache 5 23,6 31 35,7

1)

ace : 2

ace 2 : 2

ace :

2 2 2
2

86
87

2)

résiduelle 2 2

2 2 2 22

3)

Factorielle

2 2 2 2 2

Vérification : Totale résiduelle factorielle

Totale

intra 2

F
inter 2

inter 2
2
intra 2

RDD

87
88

Si acceptée au risque de première espèce

Si rejetée au risque de première espèce

. 2 2

Les 3 races de vaches produisent des lactations moyennes statistiquement différentes

Comme on vient de montrer que l’hypothèse d’homogénéité des moyennes est rejetée on peut
effectuer des comparaisons de moyennes deux à deux.

Test de Scheffé

Sous 2
intra

2 2 2

2 2 2

rejetée et compte tenu de l'échantillon

Source de Somme des Degré de Estimation de


variation carrés des écarts Liberté dispersion
Totale 466,84 14
Factorielle 433,7 2 inter
Résiduelle 33,064 12 intra 2

88
89

B. Test de comparaison de plusieurs variances

Test de Bartlett

 Conditions d’utilisation

 populations inconnues
La distribution de la variable aléatoire dans chacune des populations suit une loi
normale
échantillon aléatoire ind

 Statistiques d’échantillon

Ӿ ln ln

Ӿ Ӿ

 Test

RDD

Ӿ Ӿ acceptée au risque de première espèce

Ӿ Ӿ rejetée au risque de première espèce

89
90

Exercice :

2 2

2
2

22
2

2 2
2
2

Ӿ 2 ln 2 ln ln 2 ln 2

Ӿ. Ӿ. 2

acceptée au risque de et compte tenu des échantillons

C. Test de comparaison de plusieurs proportions

Test de Marascuilo

populations échantillons

Effectif empirique
n. .
Effectifs théorique espéré

Ӿ Ӿ

90
91

correspond au caractère dont on dispose pour les échantillons

RDD

Ӿ Ӿ acceptée au risque de première espèce

Ӿ Ӿ rejetée au risque de première espèce

Exercice :

On demande à un certain nombre d'étudiants de 3 UF s’il désire prend un cours de statistique à


la prochaine rentrée.

On veut savoir si le pourcentage d’étudiants qui songe à s’inscrire est identique à chaque UF

Réponse / UFR Psycho AES Maths .


Oui 30 32 25 87
Non 60 80 40 180
. 90 112 65 267

30 29,33 0,02
32 36,49 0,55
25 21,18 0,69
60 60,67 0,01
80 75,51 0,27
40 43,82 0,33

Ӿ. Ӿ. 2 Ӿ. 2

acceptée au risque de et compte tenu de l’échantillon

La proportion d’étudiant désirant s’inscrire en cours de Statistique est donc la même dans
chaque UFR.

91
92

Fin du Cours de Statistique 3

Signé par :

(^)(^)
^ ^
(= - =)
(‘’) (‘’)
POOKIPOOKI votre fidèle serviteur …

92
93

93
2010
94
2011

Statistiques 3

94

Sylvain PLASMAN - Série 6


Cours pour Licence 2, Semestre 4 Année 2011

Vous aimerez peut-être aussi