Académique Documents
Professionnel Documents
Culture Documents
RAPPELS
La population : est la totalité des unités de n’importe quel genre ayant en commun certaines propriétés justifiant
leur appartenance à la population. La population peut être finie ou infinie et les mesures que l’on utilise pour
décrire une population sont des paramètres
L’échantillon : est un sous-ensemble de la population étudiée et les mesures que l’on utilise pour le décrire sont
appelées des statistiques
La statistique descriptive : repose sur l’observation des phénomènes concrets (passés). Son but est de résumer,
structurer l’information sous forme graphique ou numérique. Elle se fait généralement sur des échantillons
Les données recueillies ne sont pas considérées comme une information complète, mais une information partielle
d’une population. Il est alors naturel de supposer que les données sont des réalisations de variables aléatoires, qui
ont une certaine loi de probabilité. Cette approche nécessite des outils mathématiques plus pointus de théorie des
probabilités
RAPPELS
La population : est la totalité des unités de n’importe quel genre ayant en commun certaines propriétés justifiant
leur appartenance à la population. La population peut être finie ou infinie et les mesures que l’on utilise pour
décrire une population sont des paramètres
L’échantillon : est un sous-ensemble de la population étudiée et les mesures que l’on utilise pour le décrire sont
appelées des statistiques
La statistique descriptive : repose sur l’observation des phénomènes concrets (passés). Son but est de résumer,
structurer l’information sous forme graphique ou numérique. Elle se fait généralement sur des échantillons
Les données recueillies ne sont pas considérées comme une information complète, mais une information partielle
d’une population. Il est alors naturel de supposer que les données sont des réalisations de variables aléatoires, qui
ont une certaine loi de probabilité. Cette approche nécessite des outils mathématiques plus pointus de théorie des
probabilités
RAPPELS
La population : est la totalité des unités de n’importe quel genre ayant en commun certaines propriétés justifiant
leur appartenance à la population. La population peut être finie ou infinie et les mesures que l’on utilise pour
décrire une population sont des paramètres
L’échantillon : est un sous-ensemble de la population étudiée et les mesures que l’on utilise pour le décrire sont
appelées des statistiques
La statistique descriptive : repose sur l’observation des phénomènes concrets (passés). Son but est de résumer,
structurer l’information sous forme graphique ou numérique. Elle se fait généralement sur des échantillons
Les données recueillies ne sont pas considérées comme une information complète, mais une information partielle
d’une population. Il est alors naturel de supposer que les données sont des réalisations de variables aléatoires, qui
ont une certaine loi de probabilité. Cette approche nécessite des outils mathématiques plus pointus de théorie des
probabilités
RAPPELS
La probabilité : est un outil de calcul mathématique permettant de modéliser des phénomènes où le hasard
intervient et d´écrire des expériences aléatoires
Une variable aléatoire X est une fonction qui associe à chaque évènement élémentaire de l’expérience aléatoire
de l’ensemble de départ (Ω) un nombre réel dans l’ensemble d’arrivée (E)
Par convention, on note toujours les variables aléatoires par des lettres majuscules (X) et les valeurs qu’elles
prennent dans une réalisation par des lettres minuscules (xi)
Chaque fois qu’on a une variable aléatoire X, on lui associe sa loi de probabilité. C’est une fonction telle que
f(x) = p(x=xi)
Il existe des lois de probabilités dites usuelles ou théoriques auxquelles l’utilisateur peut se référer en identifiant
le modèle approprié de ses données et utiliser les résultats de la loi choisie
La loi la plus fréquente décrivant les phénomènes naturels est la loi normale
RAPPELS
La probabilité : est un outil de calcul mathématique permettant de modéliser des phénomènes où le hasard
intervient et d´écrire des expériences aléatoires
Une variable aléatoire X est une fonction qui associe à chaque évènement élémentaire de l’expérience aléatoire
de l’ensemble de départ (Ω) un nombre réel dans l’ensemble d’arrivée (E)
Par convention, on note toujours les variables aléatoires par des lettres majuscules (X) et les valeurs qu’elles
prennent dans une réalisation par des lettres minuscules (xi)
Chaque fois qu’on a une variable aléatoire X, on lui associe sa loi de probabilité. C’est une fonction telle que
f(x) = p(x=xi)
Il existe des lois de probabilités dites usuelles ou théoriques auxquelles l’utilisateur peut se référer en identifiant
le modèle approprié de ses données et utiliser les résultats de la loi choisie
La loi la plus fréquente décrivant les phénomènes naturels est la loi normale
RAPPELS
La probabilité : est un outil de calcul mathématique permettant de modéliser des phénomènes où le hasard
intervient et d´écrire des expériences aléatoires
Une variable aléatoire X est une fonction qui associe à chaque évènement élémentaire de l’expérience aléatoire
de l’ensemble de départ (Ω) un nombre réel dans l’ensemble d’arrivée (E)
Par convention, on note toujours les variables aléatoires par des lettres majuscules (X) et les valeurs qu’elles
prennent dans une réalisation par des lettres minuscules (xi)
Chaque fois qu’on a une variable aléatoire X, on lui associe sa loi de probabilité. C’est une fonction telle que
f(x) = P(x=xi)
Il existe des lois de probabilités dites usuelles ou théoriques auxquelles l’utilisateur peut se référer en identifiant
le modèle approprié de ses données et utiliser les résultats de la loi choisie
La loi la plus fréquente décrivant les phénomènes naturels est la loi normale
RAPPELS
La loi normale est très importante en statistique : plusieurs phénomènes ont une loi de probabilité très proche de la
loi normale servant pour les modéliser. De plus, elle est souvent utilisée pour faire des approximations dans le
domaine de l’estimation et des tests d’hypothèses
La fonction de densité de probabilités de la loi normale a la forme d’une « courbe en cloche ». Il existe toute un
ensemble de courbes [A, B] dépendant de m (ou µ ) et σ. La loi est notée N(m, σ) ou (µ, σ)
Il faudrait une table pour calculer les probabilités pour chaque courbe, d’où la notion de loi normale standardisée
La loi standardisée est appelée loi normale centrée réduite, et notée N (0, 1), avec une seule courbe (C)
Donc si X suit N (m, σ), on pose Z = et Z suit N (0, 1)
A B C
RAPPELS
La loi normale est très importante en statistique : plusieurs phénomènes ont une loi de probabilité très proche de la
loi normale servant pour les modéliser. De plus, elle est souvent utilisée pour faire des approximations dans le
domaine de l’estimation et des tests d’hypothèses
La fonction de densité de probabilités de la loi normale a la forme d’une « courbe en cloche ». Il existe toute un
ensemble de courbes (A, B) dépendant de m (ou µ ) et σ. La loi est notée N(m, σ) ou (µ, σ)
Il faudrait une table pour calculer les probabilités pour chaque courbe, d’où la notion de loi normale standardisée
La loi standardisée est appelée loi normale centrée réduite, et notée N (0, 1), avec une seule courbe (C)
Donc si X suit N (m, σ), on pose Z = et Z suit N (0, 1)
A B C
PROPRIÉTÉS DE CALCUL DES PROBABILITÉS DANS LE CAS D’UNE LOI
NORMALE CENTRÉE RÉDUITE
a b
STATISTIQUE DESCRIPTIVE/STATISTIQUE INFÉRENTIELLE
STATISTIQUE INFÉRENTIELLE
En pratique, il est souvent observé que les études statistiques ne se font pas sur l’ensemble de
la population mais sur un échantillon extrait de la population pour plusieurs raisons, notamment :
la taille de la population peut être très importante et le coût de l’enquête serait trop important (coût et
temps);
l’accès à tous les individus de la population est matériellement impossible (population de grande taille ou
indéfinie)
la théorie de l’échantillonnage étudie les liens entre une population et des échantillons de cette population. à
partir d’informations relatives à la loi d’une variable X pour une population donnée, on en déduit le
comportement d’échantillons aléatoires simples relatifs à cette variable
Un bon échantillon doit constituer une image réduite de l’ensemble de la population (représentatif), dans le cas
contraire l’échantillon est biaisé
Différentes méthodes d’échantillonnage sont proposées et qui dépendent notamment de l’objectif de l’étude en
plus d’autres facteurs
la méthode d’échantillonnage a plus simple et la plus importante est l’échantillonnage aléatoire simple où les
tirages sont équiprobables et indépendants les uns des autres. Dans ce cas, les observations deviennent des
variables aléatoires pour lesquelles des lois de probabilités sont associées
THÉORIE DE L’ÉCHANTILLONNAGE
THÉORIE DE L’ÉCHANTILLONNAGE :
REPRÉSENTATIVITÉ DE L’ÉCHANTILLON
Échantillonnage
aléatoire simple
Méthodes les
Échantillonnage plus utilisées
systématique
M. Probabilistes
(aléatoires)
Échantillonnage
stratifié
Échantillonnage en
grappe
Méthodes d’échantillonnge
Échantillonnage de
convenance
Échantilonnage par
quota
M. Non
probabilistes (non
aléatoires)
Échantillonnage
selon le jugement
Échantillonnage de
boule de neige
THÉORIE DE L’ÉCHANTILLONNAGE :
MÉTHODES D’ÉCHANTILLONNAGE PROBABILISTES
chaque individu statistique a la même chance de figurer dans l’échantillon
Dans l’échantillonnage aléatoire simple :
1) On numérote chacune des unités statistiques qui compose
la population de 1 à N
2) On sélectionne aléatoirement le nombre d’unités
statistiques voulues afin de former l’échantillon (ex. À l’aide
d’Excel ou table des nombres au hasard)
Population
K échantillons à n individus
X1 X’’’’1
X2 X’’’’2
X’’1
X3 X’1 X’’’’3
X’’2
. X’2 .
X’’3
Xn X’3 X’’’’n
.
.
X’n
X’’n ………………….
Échantillon 1
Échantillon k
Échantillon 2 Échantillon 3
Chaque échantillon est caractérisé par sa moyenne qui peut être proche ou éloignée de la moyenne de la
population.
On définit alors X une variable aléatoire qui associe la moyenne de l’ échantillon
EXEMPLE
On effectue une étude démographique sur la fécondité chez la femme citadine et on considère la variable
aléatoire X qui désigne le nombre d ’enfants par famille.
On s’intéresse au nombre moyen d’enfants par famille. Pour cela, on prélève 5 échantillons aléatoires
On remarque que le nombre moyen d’enfants par famille prend des valeurs différentes selon l’échantillon
considéré; la moyenne est donc une variable aléatoire
DISTRIBUTION D’ÉCHANTILLONNAGE DE
La distribution d’échantillonnage de correspond à la distribution de probabilité de toutes les valeurs possibles de la moyenne .
on a ainsi les résultats suivants :
L’espérance mathématique de (= moyenne des moyennes de chaque échantillon) est :
D’après le théorème central limite, la distribution d’échantillonnage de la moyenne d’échantillon peut être approchée par une
distribution de probabilité normale, lorsque la taille de l’échantillon (n) devient importante (population considérée comme infinie avec
N>>30). Cela est également vrai dans le cas où l’échantillonnage se fait avec remise pour une population finie.
Le théorème reste valable pour un échantillonnage sans remise mais pour une taille de la population assez grande
Donc X suit approximativement N ( , )
DISTRIBUTIONS D’ÉCHANTILLONNAGE DE LA MOYENNE DES
PROPORTIONS P
L’espérance mathématique de p est :
L’estimation désigne le procédé par lequel on détermine les valeurs inconnues des paramètres d’une population
à partir des données d’un échantillon. (c’est la statistique inférentielle)
Pour cela, il faut passer par des variables aléatoires dont on connait les lois de probabilité. Les informations
fournies par un échantillon ne sont interprétables que si elles sont accompagnées d’informations quantitatives
fixant le degré de confiance qu’on peut leur accorder
L’estimation des paramètres de la population peut se faire de deux manières :
Estimation ponctuelle
Estimation par intervalle de confiance
ESTIMATION PONCTUELLE DES PARAMÈTRES DE LA POPULATION
(MOYENNE, ÉCART TYPE ET PROPORTION)
Soit X une variable aléatoire définie sur la population mère Ω de taille N chez qui on veut estimer la moyenne µ, l’écart
type σ et la proportion p d’individus possédant un caractère donné
On prélève un échantillon E de taille n de cette population et on suppose que l'on a calculé la moyenne µe (m ou x) ,
l'écart-type σe (s) et la proportion f de cet échantillon
Une estimation ponctuelle de la moyenne µ de la population est :
Nous avons encadré x alors que nous cherchons µ, pour ceci on soustrait d’abord µ puis x de l’inégalité et on
obtient :
Dans le cas où l’écart type de la population est inconnu, on le remplace par son estimation ponctuelle à savoir :
ESTIMATION DE LA MOYENNE PAR INTERVALLE DE CONFIANCE
CAS DES PETITS ÉCHANTILLONS (N<30)
Dans le cas d’échantillon de petite taille (n<30), avec une distribution normale ou au moins symétrique des
données dans l’échantillon,
on utilise la variable centrée-réduite t de student pour définir l’intervalle de confiance qui est ainsi :
On cherche un intervalle qui contient la proportion (p) des individus de la population pour un caractère donné avec un seuil de confiance choisi
au préalable C = 1 - α (alpha = seuil de risque)
Comment procéder ? :
On prélève un échantillon E de taille n de cette population et on suppose que l'on a calculé la fréquence (f ) du caractère étudié
D’après le théorème central limite, la variable aléatoire F qui associe la proportion d’individus possédant ce caractère dans l’échantillon suit
approximativement une loi normale N (p, )
L’intervalle de confiance dans lequel on a une probabilité (choisie à l’avance, 0,9 ; 0,95 ; 0,99…) de trouver la proportion p est :
APPLICATION (2)
Une machine coupe des chevilles dont 8% sont inutilisables. On prélève un échantillon de 100 chevilles.
Soit F la variable aléatoire qui associe la proportion de chevilles inutilisables dans l’échantillon
1) Quelle est la loi de probabilité de F
2) Donner un intervalle de confiance de la proportion d’appareils inutilisables au seuil de risque de 3%
TESTS D’HYPOTHÈSES
TESTS D’HYPOTHÈSE
Population
Test d’homogénéité
m1 m2 m3
TESTS D’HYPOTHÈSES
SITUATION DU PROBLÈME
3) On se confronte parfois à comparer les paramètres d’un échantillon avant et après un traitement, ou deux
traitements différents sur des échantillons de la même population, et on se demande si la différence des résultats
observés est significative ou non
Population
Si H0 est acceptée par exemple, cela traduit seulement qu’il n’y a pas d’évidence nette pour que H0 soit fausse
APPLICATION
Quelles sont l’hypothèse nulle et hypothèse alternative dans chacun des exemples suivants ?
1) Un fabricant se vante de proposer des tubes à essai d’une durée de vie supérieure à 2000h de chauffage. a
l’aide d’un échantillon de 100 tubes testés, on estime la durée de vie moyenne à 1975h, avec un écart-type
de 130h, peut-on affirmer, au risque 5%, que le fabriquant a raison ?
2) Un laboratoire pharmaceutique désire étudier les effets secondaires potentiels d’un médicament sur le taux
de cholestérol des patients. cent volontaires sains sont donc choisis pour tester le médicament.
(a) avant l’expérience, le taux de cholestérol moyen de ces volontaires est de 2.02 ± 0.2g/l. le taux de
cholestérol moyen dans la population étant de 2 g/l, vérifier que cet échantillon est représentatif au risque
5%.
(b) (b) après un mois de traitement, seuls 97 volontaires reviennent faire un test. leur taux moyen de cholestérol
est passé à 2.09 g/l avec un écart-type d’échantillon de 0.25g/l. la différence est-elle significative au risque
5% ? au risque 1% ?
FIXATION DU SEUIL DE RISQUE :
ERREUR DE 1ère ESPÈCE (ALPHA), ERREUR DE 2ème ESPÈCE (BETA)
Au seuil de risque alpha choisi, on lit sur la table la valeur de z ou de t selon la taille de l’échantillon
DÉTERMINATION DE LA ZONE D’ACCEPTATION DE H0
CAS D’UN TEST BILATÉRAL
Dans le cas d’une distribution normale, la variable aléatoire X suit la loi normale donc
déterminer la zone d’acceptation de H0 revient à chercher l’intervalle auquel devrait appartenir la moyenne
de l’échantillon avec un seuil de risque prédéfini ( α )
On détermine si la valeur calculée de la moyenne à partir de l’échantillon appartient ou non à cet intervalle
DÉTERMINATION DE LA ZONE D’ACCEPTATION DE H0
& CRITÈRES DE DÉCISION DANS LE CAS D’UN TEST UNILATÉRAL
Dans le cas d’un test unilatéral, le même principe est gardé sauf qu’au lieu de chercher un intervalle d’acceptation de H0, on cherche la
statistique (z) au-delà ou en deçà de laquelle on accepte H0
Si on opte pour un test unilatéral gauche, on cherche la borne (b) tel que P(X < b) = α ⇐⇒ P(Z < )=α
On centre et on réduit
la variable