Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Statistique inferencielle
Concepts et exercices
Présente par :dr Djaballah Mustapha
MC(A)
Introduction :
L'incertitude demeurait dans les domaines de l'économie, des affaires et d'autres sciences
sociales et naturelles. Il est divisé en une statistique descriptive et une statistique explicative:
la première est de résumer et de décrire un groupe de
L'analyse statistique récente pour apprendre la généralisation des échantillons dans les
communautés, vous devez d'abord savoir comment générer des échantillons à partir d'une
population .Pour que le raisonnement statistique soit valide, il doit être basé sur un échantillon
qui reflète pleinement les caractéristiques et les caractéristiques de la population .
Ce qui l'a tiré. L'échantillon est représenté, si l'échantillonnage est aléatoire, où il est pour
chaque individu l a population a la même opportunité d'entrer dans l'échantillon.
Puisque la probabilité d'erreur réside dans l'inférence statistique, les estimations et les tests
des caractéristiques de la société sont donnés avec l'opportunité ou la possibilité d'erreur dans
ces estimations. D'où la théorie de la probabilité est un élément essentiel de l'inférence
statistique. L es statistiques inductives sont le processus d'inférence de la société à partir des
informations fournies par les échantillons.
1
I- La variable aléatoire et distributions statistiques
La Variable aléatoire :
Une variable aléatoire X est une variable associée à une expérience ou à un groupe
d'expériences aléatoires et servant à caractériser le résultat de cette expérience ou de ce
groupe d'expériences.
Une variable aléatoire est discrète si elle varie de façon discontinue, la variable ne peut
prendre que des valeurs entières.
Exemple :
Soit X la variable aléatoire qui caractérise le résultat de l'expérience aléatoire "jet d'un
dé homogène".
X est une variable aléatoire discrète, elle peut prendre les valeurs entières 1, 2, 3, 4, 5, et 6.
la température qu'il fera demain à 10h, le nombre de clients qui entreront dans une
épicerie entre 14 et 17h, etc...
À chacune des valeurs x que peut prendre une variable aléatoire X, correspond une probabilité
p(x), c'est la probabilité que la variable aléatoire X prenne la valeur x :
p(x) = p(X = x)
L’ensemble des valeurs admissibles x et des probabilités correspondantes p(x) constitue une
distribution de probabilité discontinue. La relation entre x et p(x) est appelée loi de
probabilité.
Pour toutes les distributions de probabilités dont les valeurs x correspondent à des événements
complémentaires, le total des probabilités est égal à 1.
p ( x) 1
La distribution cumulée des probabilités est appelée fonction de répartition :
2
x
F (x) = p (X x) = p( x) où 0 F(x) 1
Exemple :
Soit X la variable aléatoire qui caractérise le résultat de l'expérience aléatoire "jet d'un dé
homogène".
X est une variable aléatoire discrète, elle peut prendre les valeurs entières 1, 2, 3, 4, 5, et 6
avec la probabilité constante 1/6.
Distribution de probabilité de X
x p(x) F(x)
1 1/6 1/6
2 1/6 2/6
3 1/6 3/6
4 1/6 4/6
5 1/6 5/6
6 1/6 6/6
Total 1
Esperance mathematique :
L’espérance mathématique (ou moyenne théorique) d’une variable aléatoire discrète X est
définie par :
E X X pi xi
i
La variance :
3
théorique d’une variable aléatoire discrète X est définie par :
2 X X X pi xi pi xi 2 2
2 2
i i
X p x
2
i i
i
Lorsque X est une variable aléatoire continue la loi de probabilité (continue) associée est
définie par une fonction positive f X appelée densité de probabilité, telle que
b
P a X b f X t dt
a
La probabilité d’un intervalle se présente dans ce cas continu comme une aire sous la courbe
représentative de f X .
y
y=f(x)
P([a,b[)
a b
4
y
FX t
y=f(x)
b a
On a : P a X b fX x dx f x dx F b F a
X X X
Esperance mathématique :
E( X ) x f ( x)dx
Exemple :
Soit une variable aléatoire continue X définie par la fonction de densité de probabilité :
1 si 0 x 1
f (x)
0 sinon
1 1
x² 1
E ( X ) x dx ]
0 2 0 2
Variation :
Comme pour la moyenne, la variance d'une variable aléatoire conserve la même définition que la
variance d'une variable statistique. C'est l'espérance mathématique des carrés des écarts par rapport à
l'espérance.
5
: V(X) = E[(X - E(X))²] = ( x E ( X ))² f ( x)dx
V(X) = E[(X - E(X))²] = E[X² - 2XE(X) + E(X)²] = E(X²) - 2 E(X) E(X) + E(X)²
La variance est donc égale à la différence entre l'espérance mathématique des carrés et le carré de
l'espérance mathématique.
intégrable sur ;
vérifiant
6
la courbe représentant la fonction de densité de probabilité f(x) est caractérisée par son allure en forme
de cloche comme le montre la figure suivante :
cette courbe symétrique (axe de symétrie d'équation x=µ) présente un maximum au point d'abscisse m
et d'ordonnée . On trouve une asymptote parallèle à l'axe des abscisses lorsque et deux points
d'inflexion aux abscisses µ ± σ .
Il existe autant de courbes possibles que l'on peut définir de distributions théoriques, c'est à dire une
infinité. La forme de la courbe est déterminée par les valeurs que l'on assigne aux constantes µ et σ
.Pour une valeur constante de σ, la courbe sera d'autant plus aplatie que sera grand. Le fait de faire
varier uniquement l'écart type génère ainsi une homothétie géométrique.
La fonction de répartition :
FX(x) =Pr(X< x)
FX est croissante.
Elle est partout continue à droite. et admet en tout point une limite à gauche, égale à .
7
Principales distributions de probabilité :
Dans cette partie en voir trois distributions discrètes : la distribution binomiale, la distribution
géométrique et la distribution de Poisson. Puis il aborde deux distributions continues : la distribution la
distribution normale. Student khe-deux et Fisher Il importe de bien comprendre quelles sont les
situations concrètes que l’on peut modéliser `a l’aide de ces distributions. Viennent enfin trois
distributions théoriques dont la fonction n’est pas de modéliser mais de servir d’outils dans les
problèmes d’estimation et de test.
La distribution normale :
la loi normale des erreurs constitue l’une des généralisations les plus ´étendues de la philosophie
naturelle dans l’histoire de l’humanité elle est un outil précieux pour la recherche en sciences
physiques et sociales ainsi qu’en médecine, en agriculture et en génie. Elle est indispensable `a
l’analyse et `a l’interprétation des données obtenues par l’observation ou l’expérience.
Si la variable est une variable aléatoire x avec une distribution normale, sa plage est x
1 ( x )
1
la fonction de densité f ( x) 2 e 2
dx
8
Cette courbe est symétrique des deux côtés de la moyenne
La moyenne
La variance 2
L écart- type
D après cette distribution est continue, cette zone (probabilité) est calculée en trouvant l'intégration
Cette intégration est difficile à calculer, et donc les statisticiens ont eu recours au travail du
transformateur mathématique , car cette formule nous donne un nombre infini des distribution
normales selon la les valeurs de moyennes et variance pour chaque cas on peut utiliser la
distribution de probabilité dans le calcul de telles possibilités, et ce changement est: la distribution
normale standard ou la variable aléatoire x est devenue une valeur centre et réduite z
x
z Cette variable a une fonction de densité qui prend la forme suivante:
x2 x2
1 1 ( z )2
p( x1 x x2 ) f ( x)dx e 2 dx
x1 x1 2
f est une fonction paire, l’axe des ordonnées est axe de symétrie de la courbe de Gauss.
Illustration graphique :
9
0 2 1
- Exercice 1
1- P (-1<T<2) = (2)- (-1)= (2)- (1- (1)) = (2) + (1) -1= 0.9772+ 0.8413 – 1= .8185
2- P (-z<T<z) = 2 (z)- 1 ; on cherche h tel que 2 (z)- 1 = 0.95 ; alors (z) = 0.975 z=1.96
Exercice2
Si le revenu annuel de la famille suit d une distribution normale en moyenne 80 000, lavariance
est de 900. Ce qui est requis:
Solution :
10
la valeur des paramètres de la distribution de probabilité du revenu annuel. En supposant qu'une
variable aléatoire reflète le revenu annuel, elle suit la distribution normale, et ses paramètres sont:
E( x) 80000 Var ( x) 2 900 donc x ~ N (80,900)
x 80000
P( x x1 ) p z 1 0.975 la probabilité de 0.975 dans la distribution z est
30
1.96
x1 80000
1.96 , donc x1 30(1.96) 80000 138800
30
La distribution T de Student :
Si x est une variable aléatoire a une fonction de densité donnée par la formule suivante
v 1
2
f (t ) (1 t ) 2
v
On dit que x suit la loi student avec les degrés de liberté v qui est considéré comme paramètre cette
distribution joue un rôle dans les petits enchantions (n<30) avec une variance inconnue
11
Moyenne µ =0
variance S²= n /n-2 ; n<2
Ecart –type
S= n/n2
Le graphe suivant montre la forme de la courbe de distribution pour différents degrés de liberté
D après ce graphe on admette que la distribution est symétrique autour de zero (la moyenne) il tend
vers l aplatissement dans les grands échantillons Pour mieux comprendre nous avons quelques
théorèmes a citer
Et nous exprimons la valeur de la variable aléatoire qui suit la distribution T par le symbole
T(α ; v ) a cote de la droite de cette valeur avec v degré de liberté on peut trouver la probabilité
.de variable aléatoire qui suit la distribution student (voir annexe 04)
12
Les applications de t –student :
3. Tester l'indépendance.
5. Test de corrélation.
Exemple :
Cherchons dans les tables la valeur réduite en dessous de laquelle on trouve 95% des individus :
Dans le cas d'une distribution de Student avec v=40 degrés de liberté : t40;0,95 = 1,684
Dans le cas d'une distribution de Student avec v=20 degrés de liberté : t20;0,95 = 1,725
Dans le cas d'une distribution de Student avec v=10 degrés de liberté : t10;0,95 = 1,812
Dans le cas d'une distribution de Student avec v=5 degrés de liberté : t5;0,95 = 2,015
La distribution Chi-deux :
(x )
Donc z ~ ( 0 ,1 )
On peut définir les valeur carres de z comme une distribution 2 ddl =n-1 par la
fonction de répartition suivante
Théorèmes :
13
1- Soit x1 . x2…….xn des variables aléatoires indépendantes normales les valeurs carres
pendent la forme suivante
2-Soit U1. U2 ….Un des variables aléatoires indépendantes qui suivent la loi 2
n n
La moyenne µ=
La variance ² 2
L écart -type 2
14
On peut admettre que la forme de la distribution se varie selon les degrés de liberté
3- Test d'indépendance.
Exemple :
////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
////
X /
Donc la proportion F 1 1 entre les deux distributions est définie comme distribution
X 2 / 2
de Fisher par les paramètres 1 2 deux derges de liberté pour le nominateur
15
dénominateur respectivement la fonction de densité de probabilité est donne par a formule
suivante
La variable aléatoire qui suit une distribution F est exprime comme suite
16
Exercices non résolues :
////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
/////////
II échantillonnage :
Si l'étude statistique est complète, nous sommes dans le cas du recensement, mais ce dernier
présente quelques inconvénients:
-Coût élevé
-Le temps requis pour obtenir les données, nous n'avons parfois qu'une étude partielle on
sélectionnant un échantillon.
La qualité de l'information partielle est liée à la méthodologie utilisée, et quelle que soit la
méthode utilisée pour sélectionner l'échantillon
L'erreur d'échantillonnage fait référence au fait que l'information est partielle et que deux
questions peuvent être posées:
* Comment les différents paramètres sont-ils évalués le plus efficacement à partir du chargeur
d'échantillons?
Ces échantillons sont sélectionnés selon un plan statistique dans lequel le chercheur n'a pas
Un rôle où la sélection est faite en utilisant certaines méthodes dans lesquelles le hasard joue
le premier rôle dans le choix de l'individu
17
Leur sélection de manière scientifique appropriée et appropriée peut assurer un haut degré de
représentation de population Tirée d'eux, c'est donc le principal moyen dans le cas de la
recherche scientifique précise. Des types les plus importants d'échantillon
Un échantillon aléatoire simple donne des chances égales aux individués pour entrer dans
l'échantillon, mais ces individués Le vocabulaire contenu dans le cadre qui entrer dans
l'échantillon sera aléatoirement. La sélection est faite manuellement par des cartes en taille et
en couleur, ou par des tableaux numériques ou par ordinateur Il est nécessaire de définir le
vocabulaire de la société dans son intégralité et c'est la définition sous la forme d'une liste) ou
carte (comprend tout les individués de la population et cette liste est appelée le cadre, et peut
être la sélection seulement à partir des individués présentes par ce cadre ; les individués
contenu dans le cadre .dans ce type d'échantillons, les conditions suivantes sont requises:
Ex :
échantillon aléatoire de 5 travailleurs sur 80 dans une usine peut d'abord se voir attribuer un
nombre de 1 a 80 pour chaque travailleur, puis commencer à un point d'un plan, soit à partir
de la troisième colonne, et la ligne 11 dans le tableau des nombres aléatoires nous lisons 5
chiffres horizontalement ou verticalement (avec suppression de tous les nombres supérieurs à
80) par exemple en lisant verticalement on obtient les chiffres suivants : 41 ; 23 ; 77 ;42 ; 66
Le chercheur utilise ceci quand la société d'étude est très grande et dispersée sur de grandes
régions qui coûtent beaucoup du temps et des efforts pour se déplacer entre eux lors de la
collecte des données, même en l'absence d'un cadre qui comprend tout l individu
La population ne peut pas être directement choisie. Par conséquent, le chercheur a recours à
'échantillonnage par étapes multiple consécutifs. Dans la première étape, la population est
divisée en un nombre spécifique de grandes unités d'échantillonnage (UPE)
Certains d'entre eux sont sélectionnés verticalement puis suivis en tant que seconde étape pour
diviser les unités sélectionnées de la première phase à la première les unités sont plus petites
que la taille et certaines d'entre elles sont choisies bilatéralement. Ainsi, les étapes de division
et de sélection sont suivies, Le nombre de ces étapes n'est pas constant mais dépend de la
nature de la population étudiée et du potentiel du chercheur. dans la dernière étape le
chercheur atteint les unités d'échantillonnage qui seront recueillies par les données de
recherche et appelé les UPE.
18
Par exemple, pour étudier le niveau d'éducation de la dernière étape de l'enseignement
secondaire, nous suivons les étapes suivantes:
3- L'échantillonnage systématique :
Cette méthode consiste à dresser la liste de tous les éléments de la population visée et de
déterminer le rapport suivant:
Ex2 :
Par exemple, si nous avons une population de 2000 individus, et nous voulons choisir un
échantillon de 100 individus, nous divisons cette population aux intervalles réguliers, la
durée de chaque période est 2000 :100= 20 individu entre la première période (1 - 20 ) on
choisi un individu aléatoirement qui soit 14 les nombre de cet échantillon seront détermines
par les résultats des individus
4- L'échantillonnage stratifiée
19
Femmes: 116 ==> 58% de la population
Hommes: 50 * 42% = 21
Femmes: 50 * 58% = 29
Dans le cas de l'échantillonnage non probabiliste, puisqu'on choisit arbitrairement des unités,
il n'existe aucune façon d'estimer la probabilité pour une unité quelconque d'être incluse dans
l'échantillon. Également, comme la méthode en question ne fournit aucunement l'assurance
que chaque unité aura une chance d'être incluse dans l'échantillon, on ne peut estimer la
variabilité de l'échantillonnage ni identifier le biais possible.
20
l'échantillonnage non probabiliste afin de tester ses questionnaires et aux fins de certaines
études préliminaires durant le stade d'élaboration d'une enquête.
l'échantillonnage volontaire;
l'échantillonnage au jugé;
Échantillonnage volontaire :
Comme l'expression le laisse entendre, ce type d'échantillonnage intervient lorsque des gens
offrent volontairement leurs services pour l'étude dont il est question. Il serait, par exemple,
difficile et contraire à l'éthique dans le cadre d'expériences psychologiques ou d'essais de
produits pharmaceutiques (de tests de médicaments) de recruter au hasard pour y participer
des gens du grand public. En pareils cas, on prélève l'échantillon à partir d'un groupe de
volontaires. Il arrive parfois qu'un chercheur offre de l'argent à des gens pour les inciter à
participer à son étude. En échange, les volontaires acceptent la possibilité d'avoir à se prêter à
des processus longs, exigeants ou quelques fois désagréables.
Le fait d'échantillonner des participants volontaires plutôt que la population en général peut
introduire des biais marqués. Souvent, à l'occasion des sondages d'opinion, seuls les gens qui
se soucient assez fortement d'une façon ou d'une autre de la question étudiée ont tendance à y
21
répondre. La majorité silencieuse n'y répond généralement pas, ce qui entraîne un important
biais sur le plan de la sélection.
Échantillonnage au jugé
Les statisticiens utilisent souvent cette méthode dans le cadre d'études préparatoires comme
des tests préalables de questionnaires et des discussions en groupe. Ils préfèrent également
avoir recours à cette méthode à l'intérieur du cadre de laboratoires où le choix des sujets des
expériences (comme des animaux, des êtres humains et des végétaux) reflète les croyances ou
les convictions antérieures de l'enquêteur au sujet de la population.
La réduction du coût et du temps qu'exige l'acquisition de l'échantillon est l'un des avantages
de l'échantillonnage au jugé.
L'échantillonnage par quotas est l'une des formes les plus courantes d'échantillonnage non
probabiliste. Il s'effectue jusqu'à ce qu'un nombre précis d'unités (de quotas) pour diverses
sous-populations ait été sélectionné. Puisqu'il n'existe aucune règle qui régirait la façon dont il
faudrait s'y prendre pour remplir ces quotas, l'échantillonnage par quotas est réellement un
moyen de satisfaire aux objectifs en matière de taille d'échantillon pour certaines sous-
populations.
Les quotas peuvent être fondés sur des proportions de la population. Si une population, par
exemple, compte 100 hommes et 100 femmes et s'il faut en prélever un échantillon de 20
personnes pour qu'elles participent à un concours de dégustation de colas, il se peut que vous
vouliez diviser l'échantillon en proportions égales entre les sexes, ce qui donnerait 10 hommes
et 10 femmes. On peut penser que l'échantillonnage par quotas est préférable à d'autres formes
d'échantillonnage non probabiliste (comme l'échantillonnage au jugé), parce qu'il impose
l'inclusion dans l'échantillon de membres de différentes sous-populations.
L'échantillonnage par quotas est un peu similaire à l'échantillonnage stratifié parce que dans
son cas également les unités semblables sont regroupées. Toutefois, il en diffère, cependant,
sur le plan du mode de sélection. Dans le cas d'un échantillonnage probabiliste, on sélectionne
les unités au hasard, tandis que dans celui d'un échantillonnage par quotas, on laisse
22
habituellement à l'intervieweur le soin de déterminer qui sera échantillonné. Cela peut donner
lieu à des biais de sélection. Les responsables d'études de marché utilisent donc souvent
l'échantillonnage par quotas (pour des enquêtes ou des sondages téléphoniques, en
particulier), plutôt que l'échantillonnage stratifié, parce qu'il est relativement peu coûteux et
facile à administrer et a la propriété souhaitable de respecter les proportions de la population.
L'échantillonnage par quotas camoufle toutefois des biais pouvant être significatifs.
Comme dans le cas de toutes les autres méthodes d'échantillonnage non probabiliste, il faut
supposer pour l'échantillonnage par quotas que les personnes sélectionnées sont semblables à
celles qu'on ne sélectionne pas, afin de formuler des inférences au sujet de la population. Des
Nous supposons que nous avons pris la taille n de l'échantillon d'une population , puis nous
avons tiré quelques paramètres statistiques telles que la moyenne, la variance, ... Chacune de
ces paramètres est une variable aléatoire . La distribution est appelée distribution
d'échantillon. Par exemple, nous disons que la distribution d'échantillonnage de la moyenne
arithmétique est la distribution de toutes les moyennes arithmétiques des échantillons prélevés
dans la même société. La distribution d'échantillonnage de la variance est la distribution de
toutes les différences calculées à partir d'échantillons de même taille n
D echantionnage echantionnage
des moyennes des variances
taille N n / /
moyenne X X µs²
Ecart -type S X s²
variance ² S² ²X ²s²
Proportion π p / /
23
Si nous prenons des échantillons d'une population de la taille N et estimons une moyenne
pour chaque échantillon, nous constatons que la plupart de ces moyennes X sont différentes
les unes des autres, et la distribution de probabilité des moyennes de l'échantillon est appelée
«distribution probable de la moyenne». X Cependant, la distribution
d'échantillonnage de la moyenne a également une moyenne, exprimée par le symbole, un
écart-type ou une erreur-type. X
n
Théorème 1 :
X
N n
X ou X
n n N 1
Sachant que cette formule est utilisée pour les populations illimites de taille N lorsque
l échantillon n 0.05 N
Théorème 2 :
En simulation, la situation typique est celle où on exécute un très grand nombre de fois une boucle, en
calculant à chaque passage des réalisations de variables aléatoires indépendantes. Le résultat attendu
est en général l'estimation d'une espérance. Pas plus en simulation qu'en physique ou en biologie on ne
donnera un résultat sans indication sur sa précision. C'est le théorème central limite qui permet de
calculer cette précision.
Soit ( Xn) :n N une suite de variables aléatoires indépendantes de même loi, d'espérance
et de variance ²
24
X X
Et z
N( 0; 1)
X
La loi de z converge vers la loi normale N(0 ;1) , c'est-à-dire que pour tout a<b
Le résultat précédent est très important surtout dans les applications scientifiques et la théorie de la
limite centrale indique que dans le cas de grands échantillons, la moyenne X est soumise à la
2
distribution normale des coefficients X et , d une population mère. Ainsi, pour de grandes
n
valeurs n, la relation est réalisée
bien sur il existe une valeur z qui suit la même loi mais cette fois si c est la loi normal centre
et réduite ou bien la loi normale standard nous voila donc z ~ N (0,1)
si la variable aléatoire x qui suit une distribution selon central limite ,la distribution de la
2
moyenne est toujours dans la même distribution X ~ N ( , ) 2
X ~ N ( , )
n
X X
la valeur de z est z
N(0;1)
X
Corrige :
2
On sait que X ~ N ( , ) 2
X ~ N ( , )
n
Donc
12
X ~ N (20;12) X ~ N (20, )
36
si N>0.05n
25
N n
par exemple si n=64 on utilise le coefficient de la remise
N 1
N n 12 900 64 12 836
X (1.5)(0.96) 1.44
n N 1 64 900 1 8 899
S²
n ≥ 30), la moyenne d échantillon prélevé est X ~ N ( , )
n
s2
(x i x)2
la valeur réduite de z est : n1
X X
z
N(0;1)
SX
Corrige :
S2
X ~ N ( , S )2
X ~ N ( , )
n
12
X ~ N (20;12) X ~ N (20, )
25
donc la distribution d’échantillonnage de la moyenne est une loi normale quelle que soit la
valeur n de la taille des échantillons
n<30
26
si la distribution d échantillon suit une loi normale est la variance est inconnue avec
une taille d échantillon strictement inferieur a 30
la moyenne dans ce cas suit la loi student avec v =n-1 degré de liberté
S2
X ~ N ( , S 2 ) X ~ N ( , )
n 1
Et s 2
(x i x)2
T
X
t( v =n-1)
n1 S / n 1
Exemple :
Soit x N ( 8.5 , ²)
Corrige
X
(x ) i
72
8
n 9
S²
(x i x)2
n 1 =2
Voila donc la fonction de répartition
X 8.5
t
t (9 1)
1.414 / 8
27
la distribution de T est symétrique au zéro donc pr(t<-3) =pr(t> 3)
12 22
² = ² X1 ² X 2
n1 n2
Exemple :
n1= 30 n2= 35
28
( x1 x2 ) ( 1 2 )
z ~ N ( 0 ,1 )
12 22
n1 n2
( X 2 X 2 ) 10 10 12
Pr ( x1 x2 ) > 12 =pr(
1.29 1.29
10 12
pr ( z )
1.29
pr ( z 1.76)
=0.9608
2- les 2 variances sont inconnues mais n1>30 ;n2>30
A condition que la variance de la population ² doit avoir une bonne estimation par la
variance
( x1 x2 ) ( 1 2 )
z ~ N ( 0 ,1 )
S12 S2
2
n1 n2
3- les 2 variances sont inconnues et au moins la taille de l'un des deux échantillons est
petite :
Afin de déduire a relation que nous utiliserons dans ce cas, nous allons d'abord calculer la
distribution de la différances entre les deux moyennes selon la central limite
29
( x1 x2 ) ( 1 2 )
z ~ N ( 0 ,1 )
S12 S2
2
n1 n2
( n 1) s2
~ 2 ( n 1)
2
( n1 1 ) s 21 ( n 2 1) s 2 2
~ 2 ( n1 1 ) ~ 2 ( n 2 1)
21 et 22
( n1 1 ) s 21 (n2 1) s ²2
2
21 ²2 n1+n2-2
( n1 1) S 12 ( n2 1) S 22
S
2
n1 n2 2
p
( X 1 X 2 ) ( 1 2 )
t ~ t (n1 n2 2)
S p n11 n12
S²p(1/n)= S²x
( X 1 X 2 ) ( 1 2 )
t ~ t (n1 n2 2)
S ² X 1 X 2
30
( n1 1) S 12 ( n2 1) S 22
S 2p
n1 n2 2
Exemple : supposons que n1= 20 avec S²1=30 et n2=18 avec S²= 25 µ1=300 .µ2=200
constatons toujours hypothèse d homogénéités des variances des population
Calcules la probabilité pr
> 215
Corrège :
t(36)
=770 .14
1 1
)
2
S ( x1 x2 )
770.14(
20 18 =81.29
=
( X 1 X 2 ) (300 200)
t ~ t (38 2)
81.29
215 200
Pr t( ) (Voir le tableau de student )
> 215= 81. 29 pr(t>1.6637 =0.05
les degrés de liberté sont calcules selon la formule ci-dessous car nous avons deux
31
Exemple :
si X 1~ N (1, 21)
X 2 ~ N ( 2 2 2)
- calcule la probabilité pr
>53 sachant que N1=300 N2= 350
corrige :
32
La probabilité est donc
On a : pour la population cette proportion P est estimée par celle une proportion
Sa variance est
si n ≥ 30, np ≥ 15 et nq ≥ 15, on peut approcher la loi binomiale par la loi normale de même espérance
et de même ´ variance . Donc F est devenue une variable centre et réduite z suit approximativement
la loi normale
Exemple :
Selon une ´étude sur le comportement du consommateur, 25% d’entre eux sont influences par
la marque, lors de l’achat d’un bien. Si on interroge 100 consommateurs pris au hasard, quelle
est la probabilité pour qu’au moins 35 d’entre eux se déclarent influences par la marque ?
33
Corrige
n q = 100 × 0.75 = 75. Ces deux quantités étant supérieures a 15, on peut considérer que z
suit
pq
z
N ( p; ) z
N ( 0.25;0.0433)
n
qui suit la loi N (0, 1). il vient P(z> 0.35) = P(z> 2.31) = 0.5 − P(0 < T < 2.31) = 0.5 − 0.4896
= 0.0104.(voir annexe 01)
Conclusion il y a environ une chance sur 100 pour que plus de 35 consommateurs
34
Exemple :
Si vous savez que le taux d échec dans l école A est 0.3 et dans l école B est 0.2 si nous tirons
deux enchantions de l école A n1=100 élèves et l école B n2= 200 élèves
Calculer la probabilité que la différence entre les deux taux soit supérieure à 6%
Corrige :
La repartions des différence des deux proportions avec une moyenne et une variance est
La distribution de la variance :
35
( n 1) s 2
~ 2 ( n 1)
2
Corrige : Où cela
Notez que la valeur de 31.67 n'est pas dans la table de distribution ( ) et que nous prenons
2
Cette répartition est considérée comme lune des importantes notamment on se qui concerne l
homogénéité des populations a laide de calculer la proportion entre les variances
36
Après avoir simplifié le cote gauche de la fraction on obtient
Exemple :
Calculez la probabilité la proportion des 2 variances qui est inferieur ou égale 0.8
Corrige :
Ou cela
37
Exercices non résolues :
. Tracer les longueurs de tous les jeunes dans une ville de distribution normale avec une
moyenne de 170 cm, et la variation de 36, si nous nous retirons un échantillon aléatoire de 25
jeunes hommes, quelle est la probabilité que la durée moyenne de l'échantillon est supérieure
à 172 cm? 0,0475
2. Si tout le personnel d'une grande entreprise avec le centre de mon compte est égal aux
salaires de 26 953 dinars, avec un écart-type 4573, si nous nous retirons de cette société un
échantillon aléatoire de 49 employés, quelle est la probabilité que le milieu de l'arithmétique
est inférieure à 26.000 dinars? 0,0721
P (m_1-m_2-200) 0.8413
2. Si nous avons deux sociétés ont la même moyenne arithmétique, et nous nous éloignons de
chaque échantillon aléatoire comprend 10 la société de vocabulaire, nous avons constaté que
la première variance de l'échantillon est égal à 9, et la variation du deuxième échantillon est
égal à 6, et était Alaantan indépendant, quelle est la probabilité que la différence entre la
moyenne du premier échantillon et la moyenne d'échantillon Le second est supérieur à 2 dans
les cas suivants:
A - Les disparités entre les deux communautés sont égales. 0,10 b) Les disparités entre
les deux communautés ne sont pas égales. 0
3. Les étudiants universitaires Les poids piste une distribution de gaz naturel avec une
moyenne de 72 kg, si l'on a tiré un échantillon aléatoire d'entre eux et a constaté que l'écart-
38
type est égal à 7 kg, quelle est la probabilité que le poids moyen de l'échantillon est supérieur
à 70 kg dans les conditions suivantes:
Si le taux d'analphabétisme des personnes âgées de plus de 25 ans dans une ville est de
12,60% et choisi dans cette ville un échantillon aléatoire de 50 personnes de plus de 25 ans,
quelle est la probabilité que le taux d'analphabétisme dans l'échantillon soit inférieur à 10% ?
0,2912
- Un échantillon aléatoire de taille 12 de la population normale a été retiré, son écart type est
de 5.
2. Deux échantillons aléatoires, respectivement 10 et 12, ont été prélevés dans deux groupes
naturels, respectivement dans les déviations 2 et 4.
IV - L estimation statistique
Le concept d'estimation :
c est le processus par lequel on peut représenter une population par un échantillon aléatoire
et de voir les décisions que test de l'échantillon, puis calculer les mesures à effectuer et la
diffuser à la population. Toute distribution de probabilité contient des paramètres qui
déterminent sa forme. Distribution binomiale dépend de p (taux de réussite), n (le nombre de
39
des expériences) Dans la distribution de Poisson dépend forme du paramètre λ (taux de succès
dans une période donnée), mais dans la distribution normale dépend former que la distribution
μ (moyenne), σ (écart-type σ² (variance) généralement ces paramètres ne sont pas connus,
et dans ce cas il est nécessaire d'estimer ces paramètres.
Il existe deux méthodes de base pour estimer les paramètres d’une société inconnue:
1- l’absence de biais :
La première qualité d’un bon estimateur est l’absence d’erreur systématique ou de biais. Cette
qualité implique que la vraie valeur doit être retrouvée en moyenne :
a- pour la moyenne :
Tout estimateur qui satisfait cette condition est dit sans biais ou non biaisé.
b- la variance minimale :
Une deuxième qualité d’un bon estimateur est de posséder une précision suffisante. Cette
précision peut être mesurée par le moment d’ordre deux par rapport à
on considère
40
Mais l estimateur est considéré non biaise pour la variance
de population car on peut démontrer que
.
2) convergence en probabilité
un estimateur converge en probabilité vers si :
Ce ci signifie que l’écart entre le paramètre calculé à partir de l’échantillon et la vraie valeur
du paramètre de la population est très faible quand la taille de l’échantillon est grande. Cet
écart peut être mesuré par la variance. Ainsi on parle de convergence en probabilité si :Un
estimateur qui converge en probabilité est dit consistant.
3 ) Efficacité :
:
Soit ˆ 1 ˆ 2deux estimateurs de 1 2 respectivement on peut dire que ˆ 1est
plus efficace que ˆ 2 si
41
Prenant par exemple la destitution de Bernoulli qui représente un cas particulier de la loi
binomiale si n=1 sa fonction de densité est
4- La suffisance :
L estimateur est dit suffisant s'il contient la totalité ou la plupart des observations de l'échantillon, de
sorte qu'il n'y a pas de d'autres estimations peuvent inclure toutes les observations
La moyenne arithmétique de l’échantillon retiré d’une population normale est estimée par rapport à la
médiane et le mode
a)Estimation ponctuelle:
42
Une estimation ponctuelle de σ ( écart type inconnu de la population )
σ
par l’erreur standard de la moyenne : σx
n
En considérant l’échantillon comme aléatoire et simple la moyenne globale est donnée par :
x _
n
et l’erreur standard est donnée par : x avec
i
V ( x)
n n n 1
i
x Avec une erreur standard x
i
ni
L’estimation par intervalle de confiance consiste à déterminer autour de la valeur estimée un intervalle
dont on a de fortes chances de croire qu’il contient la vraie valeur du paramètre recherché.
La probabilité α pour que l’intervalle de confiance ne contienne pas la vraie valeur peut être répartie
différemment de part et d’autre des bornes de l’intervalle de confiance. Écrivons donc α = α1 +α2 où
plafond.
43
- quand on ne veut pas dépasser un seuil maximal, on prend α1 =0 et α2 = α et on
σ
µ =X Zα
2 n
L e tableau ci-dessous indique les valeurs critiques de Z la fonction de réparation qui suivent une loi
normale centrée et réduite
niveau de 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%
confiance
dans ce cas et a partir de ce qui précède on peut estimer la moyenne de population µ par l intervalle de
confiance suivant :
1 - =0.95 =0.05 (5%) a partir de la distribution normal qui est une distribution symétrique on
peut utiliser donc /2 On constate le même intervalle de confiance dans ce cas Z/2 =1.96
Exemple :
Dans une station service, on suppose que le montant des chèques essence suit une loi normale de
paramètres µ et σ. On considère un échantillon de taille n = 64 et on obtient une moyenne de 130 DZ
et un écart-type de 25 DZ
44
Donner une estimation de µ par intervalle de confiance au niveau de confiance de 95%.
Corrige :
x = 130
Un intervalle dans lequel on soit «sûr» à 95% que la moyenne de la population µ Fréquence entre
128 .775 et 130.625
A- si n > 30 :
Tant que la variance de la population 2 est inconnue elle doit être estime par une
variance d un échantillon S² sachant que
si n < 30 :
Dans ce cas, la moyenne d’un échantillon peut toujours être considérée comme une variable T de
Student à (n-1) degré de liberté. La valeur Z sera remplacée par la valeur T à (n-1) degré de liberté.
2 2
s
L’intervalle de confiance est alors : X Tα
2 n-1
45
On peut remarquer dans ce cas pour une moyenne qui suit la distribution student
Exemple :
Soit l échantillon X : 10 ;9 ;11 ; 6 ;7 ;8 ;10 ;8 ;9 ;7 tire dans une population suit une distribution
normale
Donner une estimation par intervalle de confiance pour l’écart type avec α = 5%
Corrige :
Dans ce cas les estimations ponctuelle de la moyenne et la variance ainsi l écart type sont
X
X 8.5
n s²=2.49 s=1.58
C est vraie que la variance 2 est inconnue avec un échantillon inferieur a 30 (n=10)
La distribution donc est student T (n-1) =0.05 /2 ; 10-1= t( 0.025 ; 9)= 2.26 voir le tableau
2
Autrement dit, il y a 5% de risque que la moyenne réelle soit hors l intervalle de 7.31 et 9.69
Dans le cadre d’échantillonnage avec une méthode aléatoire, plus la taille de l’échantillon est grande,
plus l’analyse sera précise. Ce qui parait logique. Mais la proportionnalité n’est pas vrai. L’analyse ne
sera pas 2 fois plus précise, si votre échantillon est 2 fois plus important.
Il est important d’appréhender le fait que la taille de l’échantillon n’est pas en lien avec la taille de la
population mère (ou très peu).
46
La détermination de la taille de l’échantillon est donc une étape importante avant toute enquête, qui est
l’occasion d’arrêter la précision de l’analyse (souvent en fonction du budget alloué …).
Il existe 2 approches pour calculer la taille d’un échantillon(la deuxième méthode s'appliquera plus
tard)
A partir d’une moyenne, on peut calculer la taille de l’échantillon à partir de cette formule :
d= marge d’erreur.
Exemple :
un enseignant a noté avec son expérience que la note moyenne des élèves dans la statistique
75 est un signe et un écart-type 9 points. Si l'enseignant souhaite développer la méthode
d'enseignement et estimer la moyenne des notes selon la nouvelle méthode, 95% tel qu’ il
soit sure que l'erreur dans l'estimation n est Pas plus de 3 points, combien d'étudiants
doivent les soumettre à cette expérience
Corrige : on sait que Z =1.96 ; d=3 Compensation directe dans l'équation précédente
2
47
Exemple :
un échantillon aléatoire de taille n= 9 a été tire sur une population normale et un échantillon
aléatoire de n=10 a été prélevé sur population normale indépendante de la première, à laquelle
une moyenne arithmétique de X1= 32 X2=47 trouvez :
Corrige :
48
L intervalle de confiance 90%
Z=1.64
dans ce cas on peut estimer les deux variances de populations par le remplacement de
et par S²1 et S²2 et l intervalle de confiance devient
cette condition on peut distinguer deux cas : n1<30 et n2<30 ; n1<30 ou n2 <30
l intervalle de confiance et :
Corrige :
les deux variances ²1 ; ²2 sont inconnues on doit les remplacer par les variances des
échantillons S²1= 7.618 S²= 11 .628 selon le tableau de student =2.131
49
Estimation dune proportion :
Avant de noter cette estimation il est d abord avoir comprendre les notions suivantes :
1- La proportion théorique :
On considère par exemple l'expérience suivante consistant à lancer plusieurs fois un dé et à noter
si la face supérieure affichée est un( 4) ou un autre nombre .l a valeur supposée et théorique de la
1
probabilité d'obtenir un (4) est . Donc p=1/6
6
Voila un autre célèbre exemple c’est de lancer une pièce de monnaie une seul fois la proportion
théorique est p= 1 /2 = 0.5 donc 0 < P < 1
2- La fréquence observée :
Soit k le nombre de fois où un caractère donné est présent dans un échantillon tiré au hasard
d’effectif n Soit p la proportion inconnue du caractère étudié dans la population
ou E(F)= P
Par exemple :
On suppose que 22% des plaques de freins produites par l’entreprise des véhicules sont
défectueuses.
On prélève un échantillon de taille 200 parmi cette production et on compte le nombre de cartes à puce
défectueuses parmi cet échantillon. Ce nombre est égal à 41.
50
41
Dans ce cas, la fréquence observée f est égale à = 0,205.
200
.Intervalle de fluctuation :
-On utilise un intervalle de fluctuation lorsque la proportion p dans la population est connue ou si l’on
fait une hypothèse sur sa valeur (prise de décision à partir d’un échantillon). La fréquence f observée
dans un échantillon « doit » appartenir à l’intervalle de fluctuation considéré.
Si n > 30 et si np > 5 et n(1 − p) > 5, on virons 95 % des échantillons de taille n fournissent une
fréquence f appartenant à l’intervalle
Dans la loi normale la proportion d échantillon est un bon estimateur de la proportion du population
donc ou E( p^)=P et
Exemple :
Un échantillon de 10 000 personnes sur une population étant donné, on sait que le taux moyen
de personnes à soigner pour un problème de cholestérol élevé est de 7,5%. Donner un
intervalle dans lequel on soit «sûr» à 95%, de trouver le nombre exact de personnes à soigner
sur les 10 000.
Corrige :
51
Un intervalle dans lequel on soit «sûr» à 95% de trouver le nombre exact de personnes à
. Fréquence entre 0.065 et 0.094 autrement dit 65,7% et 94,3%. Donc entre 698 et 802
personnes sur 10000
.Intervalle de confiance :
- On utilise un intervalle de confiance lorsque l’on veut estimer une proportion inconnue p dans une
population à partir de la fréquence f observée dans un échantillon (estimation, par exemple dans le
cadre d’un sondage) estimation d’une proportion inconnue p grâce à un échantillon aléatoire Soit f la
fréquence observée dans un échantillon de taille n on peut faire une estimation ponctuelle en posant p
= f . Cette estimation varie d’un échantillon à l’autre du fait de la fluctuation d’échantillonnage.
Si n > 30 et si nf > 5 et n(1 − f ) > 5, un intervalle de confiance de p au niveau de confiance 0,95 est
Contiennent p. Une fois l’échantillon tiré, l’intervalle de confiance associé est entièrement fixé, il n’y
a plus d’aléatoire à ce stade. Il est donc incorrect de dire que p a une probabilité 0,95 d’appartenir à cet
intervalle (p est inconnu mais pas aléatoire).
Exemple :
Dans le cadre d’une étude sur la santé scolaire vaccination contre les maladies infectieuses
on a interrogé au hasard 500 élèves de différents écoles. 145 d’entre eux déclarent avoir déjà
leurs vaccins a l école
Corrigé :
P est la proportion des écoliers qui on fait leurs vaccins dans toute la population donc p est
un connue On estime p par f la fréquence observée de "oui Jai fait mon vaccin "
f = 145/500 = 0, 29
52
On a tout d’abord n = 500 >30. nf>5 n(1-f)>5 L’estimation par intervalle de fluctuation à
95% est donnée par
p [ 0.245 ; 0.334 ]
Si p est inconnue :
Exemple :
- P est inconnue
Corrige :
Donc n 269
- Donc n 421
53
Estimation de différence deux proportions :
On sait que la variable aléatoire X1 suit une loi binomiale si nous avons tire un
échantillon n> 30 de la même façon se trouve X2 avec n> 30 dans une hypothèse
de l indépendance des deux populations
Exemple :
Un échantillon aléatoire de n1= 100 élèves de l'école A a été trouvé, 27 étaient atteintes de carie
dentaire, un autre échantillon aléatoire d'école B n2=80 et 12 filles atteintes de carie dentaire.
Corrige :
Un intervalle dans lequel on soit «sûr» à 95% de trouver la déférence entre deux proportions
54
Estimation d une variance :
Est
Exemple :
d échantillon S²=11.8
On sais que
55
L intervalle de confiance pour pour le rapport est
L’importance de retrouver cet intervalle de confiance est déterminée en examinant l’existence d’une
homogénéité dans la société. Si ce rapport tend vert 1 les population étaient plus homogènes, avec presque la
même variation
Exemple :
Un échantillon d'une population normale a été retire de taille 10 et variance 9 et un autre échantillon a été retiré
d'une population indépendante de taille 15 et variance 8
Corrige :
Nous avons les données suivantes ; n1=10 S²1= 9 n2=15 S²2=8 = 0.05
Selon le tableau F on a :
56
1- Le contenu des 9 emballages pharmaceutiques d'une usine pharmaceutique était le suivant:
10.1 10,3 9,7, 10, 9,7, 10,2, 9,8. 9,9, 10.3 Kgs . L’intervalle de confiance de 99% de la moyenne en
supposant que la distribution est normale
2. Un échantillon de 50 lignes d’une usine a été amené à une résistance moyenne de 80,2 kg.
Avec un écart type de 6,5 kg, trouvez un intervalle de confiance de 95% pour la résistance de tous les
fils issus de la production.
3. Un échantillon aléatoire de 400 enseignants été pris à l’école secondaire on a trouvé que 80
4. La conception d'une école de médecine pour estimer le pourcentage de la population qui souffre de
problèmes visuel combien de personnes devraient vérifier pour 98% de confiance L'erreur dans
l'estimation de ce pourcentage ne dépasse pas 0.05 dans les cas suivants:
6. trouvez Un intervalle de confiance de 95% pour la moyenne de la population établie dans une
expérience de tirage le premier chantions { 9, 12, 13, 10, 11 , 9 },
7. Trouver l intervalle de confiance de 95% pour le personnel féminin dans les deux pays A e t B
afin de fournir un échantillon Un nombre aléatoire de 300 citoyens de A . si le nombre des femmes
est 140 et un notre nombre des citoyens de 400 dans B si le nombre des femmes est 220
8. Quel est le niveau de confiance adopté dans l’expérience si l intervalle de confiance dune
moyenne est [ 20 ; 30] la taille d échantillon est 16 la variance égale 81 la population est normale
9 quelle est la taille nécessaire pour l'échantillon qui ne doit pas dépasser un intervalle de confiance
de 99% pour estimer une moyenne de2.8 cm si l écart-type est 1.3 cm
10. calculez intervalle confiance de 90% pour un rapport entre deux variance si n1= 10 S²=4 n2=7
L échantillon A B
La taille 100 49
La moyenne 60 65
La variance 4 9
57
-Trouvez l’intervalle de confiance de 90% pour la différance des deux moyennes
12. En utilisant un échantillon de 16 observation a été estimé que la moyenne de population était
d'un niveau de confiance de 95%. 18.25 et 21.75, si je sais que cette communauté est répartie
naturellement avec une variance de 9.
Ouvrages :
58
UE4. Évaluation des méthodes d'analyse appliquées aux sciences de la vie et de la santé.
Valleron (A.J.). 2010. Paris : Elsevier Masson. Collection Pass'Santé. 217p. (STAT69)
La statistique.
Malliavin ((P.) / Coor., Deheuvels (P.), Escoufier (Y.), et al. 2000. Paris : Tec&Doc. 185p. (STAT29)
Regression methods in biostatistics. Linear, logistic, survival, and repeated measures models.
Second edition
Vittinghoff (E.), Glidden (D.V.), Shiboski (S.C.), McCulloch (C.E.) 2012. New-York : Springer.
509p. (STAT70)
Regression modeling strategies with application to linear models, logistic regression, and
survival analysis. Second edition.
59
60