Vous êtes sur la page 1sur 37

Supposant qu'on a deux processus de fabrication du chocolat à

partir d'une seule variété du caroubier dans la société d'industrie


agroalimentaire (Sofadex puratos). On a calculer la moyenne des
produits finis des deux processus et qui est de 100 kg pour le
premier processus est de 106 kg pour le deuxième processus.

À partir ses données on veux savoir si cette différence présente


une signification en terme statistiques ?

o Les statistiques descriptives permettent de décrire l’échantillon

Généralisation des résultats « Inférence statistique »

oObjectif = Etudier une population à partir d’un échantillon

o Analyse des données

Statistique Descriptive Statistique Inférentielle

Estimation Tests d’hypothèses



Analyse des données

Statistique Descriptive Statistique Inférentielle

Estimation Tests d’hypothèses

Estimation: On suppose qu’un paramètre est inconnu d’une population et on cherche à


l’estimer au moyen d’une statistique définie à partir d’un échantillon aléatoire.

Il faut étudier la distribution d’échantillonnage


Il s’agit de distinguer soigneusement  :
✓ Les paramètres de la population comme la moyenne … ;
✓Les  variables aléatoires qui sont indépendantes et identiquement distribuées (on note
i.i.d.). Elles ont toutes la même loi que la variable aléatoire X appelée variable aléatoire
parente. Ces v.a comme la  moyenne aléatoire  dont la valeur est incertaine puisque
aléatoire mais dont la loi de probabilité est souvent connue. 3

Il s’agit de distinguer soigneusement  :

✓ Les paramètres de la population comme la moyenne 

✓Les variables aléatoires (X) des paramètres, comme la moyenne aléatoire dont la valeur


est incertaine puisque aléatoire mais dont la loi de probabilité est souvent connue.

Exemple:

1. Estimation // Estimateur :
Une estimation est la valeur spécifique ou fourchette de valeurs d’un estimateur pour un
échantillon déterminé.
Un estimateur est tout procédé qui permet, à partir d’un échantillon, d’apprécier la valeur
d’un paramètre statistique dans une population.
Pourquoi orienter notre choix vers telle méthode plutôt qu’une autre ?
Ou comment savoir si un estimateur est de meilleur qualité qu’un autre ?
Pour répondre à ces questions, il faut analyser les deux qualités que doit rencontrer un « bon »
estimateur

Estimateur non-biaisée Estimateur convergent


Un estimateur est qualifié Un estimateur est
de non-biaisé si les valeurs convergent si la précision
qu’il prend égales à la de l’estimation augmente
valeur réelle du paramètre avec la taille de échantillon
estimé dans la population. sélectionné.

1. 1 Estimation de la moyenne d’une population :


Exemple de la taille moyenne des arbres fruitiers de plus de 2 ans. Un effectif minimum de 50
observations est nécessaire pour garantir une distribution gaussienne de la variable aléatoire
X.
a. L’échantillon reprend plus de 50 valeurs : N > 50 ;
b. L’échantillon est aléatoire, ceci revient à admettre que des échantillons (de même
taille) ont tous la même chance d’être constitués.

Les deux échantillons distincts A et B sont habituellement caractérisés par des paramètres
différents (par exemple xA ≠ x B ). En effet, ces différences sont exclusivement dues au hasard
et non à un éventuel biais introduit lors de la constitution des échantillons.

La moyenne arithmétique x d’un échantillon fournit la meilleure estimation de la moyenne µ


de la population dont il est extrait.

Intervalle de confiance :
o Au lieu d’estimer le paramètre par une seul valeur, on préfèrera donner un intervalle de
valeurs « plausibles » pour celui-ci.

o On pourra ainsi fixer un niveau de confiance à notre estimation et déterminer le degré de


précision ou la marge d’erreur qui lui est associée.

o Intervalle, déterminé à partir des données d’un échantillon, dans lequel on peut parier que
se situe la vraie valeur de la population cible.
(avec un risque de se tromper acceptable)

o L’intervalle de confiance d’une valeur estimée dépend :


➢ De la variabilité des données;

➢ De la taille de l’échantillon;

➢ Du niveau de confiance (probabilité que la vraie valeur se trouve dans un


intervalle).
7

Intervalle de confiance sur la moyenne :


o Le degré de certitude d’un intervalle de confiance est la probabilité qu’a cet intervalle de
contenir la véritable valeur du paramètre estimé. Il correspond à la proportion
d’intervalles, construits à partir de tous les échantillons possibles, qui renferment la
véritable valeur du paramètre statistique. Le degré de signification est noté 1 − α.

o Forte probabilité que le paramètre se trouve quelque part à l’intérieur de l’I.C.


Intervalle de confiance Valeur de la
statistique calculée
à partir de
1−α l’échantillon

α/2 α/2
Limite inférieure Limite supérieure

« Marge d’erreur ME »
E µ E

La moitié de la largeur de l’intervalle


8





Intervalle de confiance sur la moyenne :


oNous acceptons, donc, de courir un risque de probabilité fixé que de commettre une
erreur sur la précision d’estimation

o On doit connaitre la distribution d’échantillonnage de la moyenne

o La probabilité que l’intervalle de confiance contienne la vraie valeur du paramètre µ est


de 1- α

o Degrés ou coefficient de confiance : 1- α

o Le seuil de confiance est (1- α) * 100%

o Risque d’erreur : α

o On cherche alors les limites de confiance 1 et 2 autour de la moyenne observée sur


l’échantillon, telle que :

P( 1=<µ=< 2) = 1- α ou encore P ( - E =< µ =< + E) = 1- α


9

Intervalle de confiance sur la moyenne :


o ME = E = Marge d'erreur

o α = risque de première espèce 

o α/2 = test bilatéral

o On déduit l'intervalle de confiance suivant:


I= ;

Avec E=

o Lorsque la taille de l’échantillon est grande (n>30) et la variance de la population de X est


connue, on obtient un intervalle de confiance pour µ au seuil de confiance 1- α en utilisant
l’équation suivante:
= =

Calcule de la marge d’erreur (1/2 IC) sur la moyenne (α connu) :

Conditions:

o Pour la moyenne µ si la variance de la population σ2 est connue.

o Si X ∼ N(µ;σ2) ou si X ∼ loi quelconque et n ≥ 30

11

Calcule de la marge d’erreur (1/2 IC) sur la moyenne (α connu) :

Conditions:
Valeur de Z α/2 que l'on retrouve dans la table normale réduite N(0,1)
o Si niveau de risque α = 10 % ou niveau de confiance 90% : Coefficient critique Z α/
2 = 1,645

o Si α = 5 % ou niveau de confiance 95% : Z α/2 = 1,960

o Si α = 1 % ou niveau de confiance 99% : Z α/2 = 2,576

α = 10 % α=5% α=1%

12

Calcule de la marge d’erreur (1/2 IC) sur la moyenne (α connu) :

Conditions:

o Pour la moyenne µ si la variance de la population σ2 est connue.

o Si X ∼ N(µ;σ2) ou si X ∼ loi quelconque et n ≥ 30

Avec ou sans remise Sans remise


N >= 20 ou n/N <= 0.05 N < 20 ou n/N > 0.05

13

Calcule de la marge d’erreur (1/2 IC) sur la moyenne (α connu) :

Exemple:

14
Calcule de la marge d’erreur (1/2 IC) sur la moyenne (α inconnu) :

o Lorsque la taille de l’échantillon est grande (n=>30) et la variance de la population de X est


inconnue, on doit l’estimer à partir de l’échantillon. On obtient un intervalle de confiance
pour µ au seuil de confiance 1- α en utilisant l’équation:

= est la valeur t qui donne une surface de α/2 dans la queue supérieure d’une
distribution t avec n-1 degrés de liberté.

S = est l’écart-type de l’échantillon.

15

Calcule de la marge d’erreur (1/2 IC) sur la moyenne (α inconnu) :

o Si X est une variable aléatoire approximativement gaussienne, alors la v.a. définie par

o Distribuée selon la loi de STUDENT à n−1 degrés de liberté.


o Les propriétés de la distribution de STUDENT y apparaissent clairement :
1. Elle a un aspect général proche de la Normale Centrée et Réduite N(0 ; 1) tout en
affichant une plus grande dispersion ;
2. Sa moyenne vaut 0 ;
3. Son écart-type varie en fonction de l’effectif des échantillons (c’est-à-dire de son
nombre de degré de liberté), mais il est toujours supérieur à 1 et d’autant plus grand que
le ddl est petit ;
4. La distribution de STUDENT converge vers la Normale Centrée et Réduite lorsque la taille
des échantillons augmente; l’identification peut être acceptée pour des effectifs
supérieurs à 50. 16

Calcule de la marge d’erreur (1/2 IC) sur la moyenne (α inconnu) :


Exemple:

17
Application 1:

Considérons un échantillon de 80 plantes (Le Laurier 'Caucasica') dont la moyenne et


l’écart-type sont respectivement : x = 179,315 cm et s = 4,865 cm. Pour un degré de
certitude égal à 95%, la marge d’erreur et l’intervalle de confiance sur la moyenne de la
taille adulte des plantes vaut :

18

2. Tests d’hypothèses

Quatre types de tests d’hypothèse peuvent être rencontrés :


Les tests qui confrontent un paramètre calculé sur l’échantillon à une valeur
pré-établie, un standard. Les plus connus sont certainement les tests portant sur la
moyenne ou sur les proportions ;
Les tests d’adéquation (ou d’ajustement) consistent à vérifier si des données sont
réparties selon une distribution choisie a priori. Dans cette optique, le test d’adéquation à la
loi de Gauss est le plus fréquent, il est un préalable aux tests de comparaison de moyennes ;
Les tests d’homogénéité (ou de comparaison) consistent à vérifier que des
échantillons sont issus de populations qui affichent des paramètres statistiques identiques
(moyennes, pourcentages...) ;
Le tests d’association (ou d’indépendance) consistent à éprouver l’existence d’une
liaison entre 2 variables. Les techniques utilisées diffèrent selon que les variables sont
qualitatives nominales, ordinales ou quantitatives.




2. Tests d’hypothèses

Bien que leur domaine d’application soient différents, la structure générale des tests
d’hypothèse est sensiblement toujours la même. Elle se présente en cinq étapes :
a. La définition des hypothèses

b. La collecte des données (échantillonnage)

c. La détermination du niveau de confiance

d. Le calcul de la statistique du test, c’est elle qui fournit le critère de décision

e. Les conclusions et l’interprétation des résultats


2. 1. Hypothèse nulle et hypothèse alternative


L’hypothèse selon laquelle on fixe à priori un paramètre de la population à une valeur
particulière s’appelle l’hypothèse nulle notée par H0. Sachant bien que l’hypothèse nulle
qui est soumise au test et toute la démarche, s’effectue en considérant cette hypothèse
comme vraie.

N’importe quelle autre hypothèse qui diffère de l’hypothèse H0 s’appelle l’hypothèse


alternative (ou contre-hypothèse) notée par H1. L’hypothèse alternative est la proposition
qui est vraie (respectivement fausse) si l’hypothèse nulle est fausse (respectivement vraie).
L’hypothèse alternative peut comporter plusieurs issues.

Objectif est d’essayer de valider une hypothèse relative à un paramètre de population à


partir d’un échantillon.

21

2. 1. Hypothèse nulle et hypothèse alternative


Exemple : Paniers des huîtres:
- Peut-on dire que le poids moyen des sacs des huîtres est différent de 750g (Poids annoncé)
- On pèse 12 sacs pris au hasard et on observe un poids moyen de 738g et un écart-type de
124g.
➔ On a deux hypothèses contradictoires à tester:
1. Le poids moyen des sacs n’est pas différent de 750g , on parle de H0.
2. Le poids moyen des sacs est différent de 750g , on parle de H1.

➔ Hypothèse :

➔ Loi de la statistique de test sous H0 :

On observe:

➔ Région critique : ???


22


2.2. Mesure observée et la valeur attendue

La différence entre la mesure observée et la valeur attendue peut être attribuée au


hasard de l'échantillonnage. Par conséquent, on accepte toujours l'hypothèse nulle (AH0).
Si la valeur observée n'était pas comprise entre -1,96 et 1,96, l'expérimentateur aurait pu
conclure que la mesure observée était trop différente de la normale ou trop peu probable
sous H0 < 5%. Par conséquent,  il aurait rejeté l'hypothèse nulle (RH0).

➔Région critique :
23

2. 4. Test unidirectionnel et bidirectionnel :


o NB : Il existe une dissymétrie importante dans les conclusions des tests. En effet, la décision
d’accepter H0 n’est pas équivalente à « H0 est vraie et H1 est fausse ». Cela traduit seulement
l’opinion selon laquelle, il n’y a pas d’évidence nette pour que H0 soit fausse. Un test conduit à
rejeter ou à ne pas rejeter une hypothèse nulle jamais à l’accepter d’emblée.
o La nature de H0 détermine la façon de formuler H1 et par conséquent la nature unilatérale
ou bilatérale du test :
✓Test unilatéral : lorsque l’hypothèse alternative se "compose d’une
seule partie".
Exemple : si l’on fait l’hypothèse que la fréquence de guérissant dans
la population de Covid-19 p est supérieure à la fréquence de guérissant
dans la population p0, on pose alors H0 : p = p0 et H1 : p > p0.
Le test sera unilatéral car on considère que la fréquence p ne peut être
que supérieure à la fréquence p0.
Il aurait été possible également d’avoir : H0 : p = p0 et H1 : p < p0
La région critique correspond à une probabilité  α.
24

2.4. Test unidirectionnel et bidirectionnel :

✓ Test bilatéral lorsque l’hypothèse alternative se "décompose en deux parties".

Exemple : si H0 consiste à dire que la population de guérissant


avec une fréquence de Covid-19 p est représentative de la population
globale avec une fréquence de Covid-19 p0, on pose alors : H0 : p =
p0 et H1 : p # p0.
Le test sera bilatéral car on considère que la fréquence p peut être
supérieure ou inférieure à la fréquence p0
La  région critique  correspond à une probabilité    α /2  de part et
d’autre de la courbe.

25

Application :
Un responsable étudie la longueur d’un processus de fabrication d’un produit alimentaire. Dans
l’expérimentation, il trouve que la moyenne théorique µ est de 375 min et la variance est de 225
min.
1. Dans le même cadre, un échantillon a été prélevé à 404,5 min. Ce temps est-elle
anormalement grand par rapport le processus avec α = 5% ?
1.1. Déterminer les hypothèses;
1.2. Convertir la valeur observée en une valeur réduite;
1.3. Trouver le seuil de signification;
1.4. Que peut-on conclure de cette première expérience (Type de test et crédibilité
de l’hypothèse ).
2. Dans le même cadre, on a mesuré un autre échantillon dont le temps de prélèvement est de
409 min. Cette valeur est-elle plus grande que celle attendue par rapport le processus de α =
5% ? Qu'en est-il avec un intervalle de confiance de 99% ?
2.1. Déterminer les hypothèses;
2.2. Convertir la valeur observée en une valeur réduite;
2.3. Trouver le seuil de signification;
2.4.Que peut-on conclure de cette deuxième expérience (Type de test et crédibilité
de l’hypothèse ).
26

4. Signification statistique :

4. 1. Valeur p (p-value)

La valeur p est la probabilité qu’un événement quelconque soit le simple fait du


hasard.
p<0,05 => différence statistiquement significative
p>0,05 => différence non statistiquement significative.
Si le p est >0,05 cela ne signifie pas forcément qu’il n’y a pas de différence entre les
groupes, cela peut aussi être dû à un effectif d’échantillon trop petit pour prouver
une différence.
On parle de valeurs « hautement significatives » si les valeurs de p sont inférieures
à 1 chance sur 100 (p<0,01).

27

8. règle de décision :
o Il existe deux stratégies pour prendre une décision en ce qui concerne un test d’hypothèse :
o La première stratégie  fixe  a priori  la valeur du seuil de signification α et la seconde établit
la valeur de la probabilité critique  αobs a posteriori.

Règles de décision 1 :


Sous l’hypothèse « H0 est vraie » et pour un seuil de signification α fixé
✓Si la valeur de la statistique S calculée (Sobs.) est supérieure à la valeur seuil Sseuil
L’hypothèse H0 est rejetée au risque d’erreur α  et l’hypothèse H1 est acceptée.
✓ Si la valeur de la statistique S calculée (Sobs.) est inférieure à la valeur seuil Sseuil
L’hypothèse H0 ne peut être rejetée.
o Le choix du risque  α ou du niveau de signification est lié aux conséquences pratiques de la
décision. Si les conséquences sont graves, on choisira  α = 1% (0.01) ou 1‰ (0.001), mais si le
débat est plutôt académique, on choisira  α = 5 %  (0.05), il fera le plus souvent l’affaire.

28





8. règle de décision :
o Il existe deux stratégies pour prendre une décision en ce qui concerne un test d’hypothèse :
o La première stratégie  fixe  a priori  la valeur du seuil de signification α et la seconde établit
la valeur de la probabilité critique  αobs a posteriori.

Règles de décision 2:

La probabilité critique  α telle que P(S > Sobs.) =  αobs est évaluée


✓Si αobs > 0,05 l’hypothèse H0 est acceptée car le risque d’erreur de rejeter H0 alors qu’elle
est vrai est trop important.
✓ Si αobs < 0,05 l’hypothèse H0 est rejetée car le risque d’erreur de rejeter H0 alors qu’elle
est vrai est très faible.

29

9. Comparaison de deux échantillons :

o Comparer plusieurs échantillons est un problème qui se rencontre très souvent en pratique.
o Par exemple, parmi les nombreuses questions qu’elle doit se poser par un scientifique
élaborant un nouveau traitement doit trouver une solution aux situations suivantes :
1. Le traitement est-il efficace (c’est-à-dire donne-t-il de meilleurs résultats qu’un
autre) ?
2. Est-il supérieur à d’autres traitements existants ? ...
o Habituellement, la comparaison de plusieurs échantillons se fait sur base des paramètres
statistiques suivants :
A. Les moyennes ;
B. Les variances (c’est-à-dire des dispersions) ;
C. Les pourcentages ;
D. Les distributions (les deux échantillons sont issus de la même population).

30

9. Comparaison de deux échantillons :


oEchantillons indépendants Soit comparer des échantillons qui ont bénéficié du
traitement à d’autres qui ne l’ont pas reçu. Cette méthodologie porte le nom de
« Comparaison d’échantillons indépendants » (les deux échantillons sont sans relation) ;

oEchantillons pairés Soit constituer un échantillon des échantillons et confronter les


mesures, de certaines variables observées « avant » et « après » le traitement. Cette
méthodologie correspond à la « Comparaison d’échantillons pairés (appariés, couplés) ».

Echantillons indépendants Echantillons dépendants 31


9. Comparaison de deux échantillons :

9. 1. Comparaison de deux moyennes

o Comparer plusieurs échantillons est un problème qui se rencontre très souvent en pratique.
o Par exemple, parmi les nombreuses questions qu’elle doit se poser par un scientifique
élaborant un nouveau traitement doit trouver une solution aux situations suivantes :
1. Le traitement est-il efficace (c’est-à-dire donne-t-il de meilleurs résultats qu’un
autre) ?
2. Est-il efficace à d’autres traitements existants ? ...

Cas 1: Échantillons appariés


Deux échantillons sont appariés s’ils sont reliés l’un à l’autre par une relation bi-univoque ;
par exemple, s’ils correspondent à des mesures « avant » et « après » pour un même sujet. Il
est bien évident que deux échantillons appariés ont toujours des effectifs égaux : N = N1 = N2.

32

9. Comparaison de deux échantillons :

9. 1. Comparaison de deux moyennes


Cas 1: Échantillons appariés
Conditions d’application
Dans le cas des grands effectifs (N > 50) et celui des petits effectifs (N ≤ 50) les méthodes
étant identiques aux notations près.
• Les échantillons sont aléatoires ;
• Les échantillons sont appairés ;

Méthodologie
1. Prélever les échantillons (couples 4. Calculer le critère
d’observations) (N1 = N2 = N) ;
2. Évaluer la moyenne xd et l’écart-type sd
pour ces différences;
3. Fixer le risque de première espèce α ; La v.a. Z est distribuée selon une N(0; 1) et la
v.a. T selon une loi de STUDENT à N − 1 ddl. 33

9. Comparaison de deux échantillons :

9. 1. Comparaison de deux moyennes


Cas 1: Échantillons appariés
Méthodologie
5. On rejet l’hypothèse nulle H0 si :
Application 7 :
Un élément X (Enzyme de panification) fait parti de la matière première pour la fabrication des mefines a
été remplacé par un nouveau produit commercialisé par un laboratoire. On a calculé le nombre de pièces
produit dans 12 processus avant et après l’ajout de l’élément X.

Processus A B C D E F G H I J K L
Après x2 200 174 198 170 179 182 193 209 185 155 169 210
Avant x1 191 170 177 167 159 151 176 183 159 145 146 177
Diff d 9 4 21 3 20 31 17 26 26 10 23 33

A partir de ces observations, réalisons un test jugeant de l’efficacité de cet élément X.


34

9. Comparaison de deux échantillons :

9. 1. Comparaison de deux moyennes


Cas 2: Échantillons indépendants
Pour les échantillons indépendants, nous allons distinguer quatre situations :

• Les effectifs sont grands : N1 > 50 et N2 > 50 et les variances des populations sont égales
(homoscédastiques) : σ2 1= σ2 2

• Les effectifs sont grands : N1 > 50 et N2 > 50 et les variances des populations sont
différentes : σ2 1/= σ2 2

• Un au moins des effectifs est petit : N1 ≤ 50 ou N2 ≤ 50 et les variances des populations sont
égales (homoscédastiques) : σ2 1= σ2 2

• Un au moins des effectifs est petit : N1 ≤ 50 ou N2 ≤ 50 et les variances des populations sont
différentes : σ2 1/= σ2 2

35

9. Comparaison de deux échantillons :

9. 1. Comparaison de deux moyennes


Cas 2: Échantillons indépendants
Si les populations ont des variances égales.

1. Prélever deux échantillons d’effectif respectif N1 et N2 (N1 non nécessairement égal à N2);
2. Évaluer leur moyenne (x1 et x2) et leur écart-type (s1 et s2) respectifs;
3. Fixer le risque de première espèce α ;
4. Calculer le critère :

La v.a. Z (N1 > 50 et N2 > 50) est distribuée selon une loi N(0 ; 1) tandis que T (N1 ≤ 50 ou N2
≤ 50) est distribuée selon une loi de STUDENT à N1 +N2 −2 degrés de liberté.
5. On rejette l’hypothèse nulle H0 si

36

9. Comparaison de deux échantillons :

9. 2. Comparaison de deux variances


Application 8 :

Le levain est utilisé dans des pâtes sucrées, l’avantage de cet ingrédient tient essentiellement à l'acidité
apportée par l'acide lactique et l'acide acétique. En se référant à la table suivante, montrer que l’utilisation
du levain réduit significativement le taux d’acidité dans ces pâtes sucrées.

taux d’acidité
Avec 16 15 16 14 16 12 16 18 10 14 12 11 14 13 13 13 16 16 8 16 11

Sans 23 23 24 26 25 26 21 24

A partir de ces observations, réalisons un test jugeant de l’efficacité de ce traitement.

37

Vous aimerez peut-être aussi