Vous êtes sur la page 1sur 50

Eléments de statistique

Introduction
Les statistiques, à quoi ça sert ?

Que dit le dictionnaire ?

Statistiques : Branche des mathématiques appliquées qui a pour objet l’étude des
phénomènes mettant en jeu un grand nombre d’éléments.

En économie, les statistiques permettent d’appréhender, à tous les niveaux : mondial,


européen, français, les données économiques.

Les statistiques sont largement utilisées dans les Départements Commercial et Marketing des
entreprises. Elles permettent d’évaluer les besoins du marché, de préparer les opérations de
prospection, des sondages et d’en analyser les résultats.

En France, l’INSEE est chargée de l’établissement des statistiques économiques.

Les missions de l’INSEE sont au nombre de 5 :

Produire - Analyser - Diffuser - Coordonner - Former - Coopérer

L’Institut national de la statistique et des études économiques (Insee) collecte, produit et


diffuse des informations sur l’économie et la société française afin que tous les acteurs
intéressés (administration, entreprises, chercheurs, médias, enseignants, particuliers) puissent
les utiliser pour effectuer des études, faire des prévisions et prendre des décisions.

 

Un peu de terminologie

1 - Population statistique

Une population statistique est ensemble d’objets, d’unités sur lesquels portent des
observations, ou donnant lieu à un classement statistique.

2 - Méthode d’étude d’une population

Deux méthodes peuvent être utilisées pour connaître les caractéristiques d’une population :

Le recensement
Le sondage

Recensement et sondage

Le recensement, utilisable quand la population est peu nombreuse, ou par exemple dans la
cas d’un recencement de la population d’un pays, consiste à relever les caractéristiques de
chaque membre de la population. Il fournit en principe un résultat très proche de la réalité.
On peut alors établir des statistiques sur les différentes caractéristiques relevées.

Le sondage, utilisé quand le recensement est physiquement ou économiquement impossible,


consiste à sélectionner une partie seulement de la population - appelée échantillon - et à
réaliser un relevé des caractéristiques de chaque membre de l’échantillon. On réalise alors une
étude statistique (extrapolation) pour tenter d’approcher la réalité de la population complète.

3 - Notion de variable statistique

L’étude statistique passera par l’observation de l’une des caractéristiques des membres de la
population appelée "variable statistique".

La variables statistique peut être de différents types :

Quantitative quand on peut lui attribuer une valeur numérique (par exemple la taille des
Français),

 

Qualitative quand on ne peut la quantifier (par exemple la couleur des cheveux),

Continue quand elle peut prendre toutes les valeurs incluses dans son intervalle de
variation (exemple le poids des Français),

Discrète lorqu’elle ne peut prendre que certaines valeurs (par exemple le nombre de points
obtenus lorsqu’on jette un dé à jouer).

 

Notions de série statistique 

1 - Présentation des séries statistiques

Une série statistique est constituée par l’ensemble des valeurs relevées sur la variable
statistique considérée. Le résultat se présentera le plus souvent sous la forme d’un tableau.

Notion de classe

Pour faciliter l’analyse statistique, dans le cas où la variable - de type continue - prend un
grand nombre de valeurs, on regroupera les valeurs en classes, chaque classe correspondant à
un intervalle de variation.

Par exemple, pour réaliser une statistique sur la taille des français adultes qui varie de 1,30 à
2,10 m, on pourra regrouper les tailles par intervalle de 5 cm ce qui entraînera la limitation à
17 classes (Voir schéma ci-dessous).

Distribution en classes

Présentation des séries statistiques

Soit un échantillon de 1177 personnes dont on veut caractériser la taille. La façon la plus
simple de représenter les données collectées est le tableau :

 

Présentation en tableau

On peut également présenter les données sous forme de diagramme à barres. On place en
abscisse la valeur de la variable (ici les classes) et des barres verticales de hauteur
proportionnelle au nombre d’éléments de la population associés à la valeur considérée.

Répartition en classes

Le graphique à secteurs (plus communément appelé "camembert") peut également être utilisé
pour une représentation qui montre mieux la répartition relaive des données.

 

Graphique à secteurs (camembert)

2 - Caractéristiques globales des séries statistiques

Il s’agit de caractériser la série statistique dans sa globalité suivant différents critères. On


trouve des caractéristiques de tendances globales (mode, médiane, moyenne) et des
caractéristiques de dispersion de la population (étendue de variation, écart type, etc ...)

1 - Caractéristiques globales

Le Mode

Le Mode est la valeur de la variable statistique rencontrée le plus fréquemment dans la série
statistique. Dans l’exemple précédent le l’analyse statistique de la taille des français, c’est la
classe 9 (1m70 à 1m75) qui recueille l’effectif le plus large (124).

 

Exemple de série unimodale

Attention : certaines séries statistiques peuvent avoir plusieurs modes. On parle alors de série
multimodale.

Par exemple, si l’on fait une statistique sur la taille des chats, puis sur la taille des chiens, on
obtient des séries à un seul mode. A l’inverse, si l’on regroupe les deux populations pour
avoir une statistique sur la taille des animaux de compagnie, on obtient une série à deux
modes comme le montre le schéma ci-dessous.

Exemple de série multimodale

La moyenne arithmétique

La moyenne arithmétique d’une série statistique s’obtient en divisant la somme des valeurs
observées par le nombre de valeurs.

Formule de la moyenne arithmétique simple

 

Dans l’exemple précédent, la valeur moyenne (ici la taille moyenne) est obtenue en
additionnant les tailles centrales des différentes classes : 1,325 + 1,375 + 1,425 + 1,475 + ... +
2,075 + 2,125 et en divisant le résultat par 17 le nombre de classes. On obtient une taille
moyenne de 1,725 c’est à dire le milieu de la classe 9 (1,70 à 1,75.

La moyenne arithmétique pondérée

La moyenne arithmétique précédente (dite "simple") ne tient pas compte le la répartition de la


population en fonction de la valeur de la variable. Elle se situe simplement au milieu de
l’intervalle de variation de la variable.

La moyenne arithmétique pondérée tient compte de l’effectif associé à chaque valeur en


pondérant cette valeur par cet effectif. Ainsi la moyenne pondérée est égale à la somme des
produits de chaque valeur par l’effectif associé divisée par le nombre de valeur selon la
formule suivante :

Formule de la moyenne arithmétique pondérée

Le calcul de la moyenne pondérée est illustrée par le tableau suivant qui reprend l’exemple de
la taille des Français :

Calcul de la moyenne pondérée

La Médiane

La médiane d’une série statistique est la valeur de la variable pour laquelle les effectifs
associés respectivement aux valeurs supérieures et inférieures sont égaux.

 

On peut déterminer graphiquement la valeur de la médiane en traçant les courbes des cumuls
des effectifs respectivement en valeurs croissante et décroissante comme le montre le tableau
et le graphique suivant :

détermination graphique de la médiane


 

 

 

3 - Caractéristiques de dispersion des séries statistiques

2 - Caractéristiques de dispersion

Intervalle de variation

L’intervalle de variation appelé aussi "étendue" est la différence entre la valeur la plus élevée
et la plus faible de la variable statistique. Par définition, la moyenne arithmétique simple se
situe au milieu de l’intervalle de variation.

Dans notre exemple, cette valeur vaut : 2,15 m - 1,30 m = 0,85 m.

On peut ainsi caractériser des séries statistiques en terme de plus ou moins grande étendue de
variation. Néanmoins, il s’agit d’une grandeur beaucoup moins significative que les
caractéristiques qui expriment la dispersion des valeurs par rapport à la valeur moyenne. Cette
dispersion fait l’objet de l’écart moyen et de l’écart type.

Ecart moyen

Pour chacune des valeurs, on évalue l’écart par rapport à la valeur moyenne. On considère la
valeur absolue des écarts car on ne souhaite pas différentier les valeurs inférieures des valeurs
supérieures à la moyenne.

L’écart moyen est la moyenne des valeurs absolues des écarts de l’ensemble des valeurs par
rapport à la moyenne (voir schéma ci-dessous).

On peut évaluer l’écart moyen de la taille des français avec un résultat de 14,63 cm :

 
10 
Exemple de calcul d’écart moyen

Une seconde méthode permet de caractériser l’écart de dispersion. Au lieu d’utiliser des
valeurs absolues, on procède à l’élévation au carré de chaque écart individuel ce qui permet
de rendre positifs tous les écarts. La moyenne de ces écarts sera la variance dont la racine
carré donnera l’écart-type.

Variance et écart -type

La variance d’une série statistique est donc la moyenne arithmétique des carrés des écarts des
valeurs par rapport à la valeur moyenne. Physiquement, la variance correspond au "taux de
variation" de la variable étudiée. L’utilisation du carré des écarts permet d’annuler la
compensation due aux sugnes des écarts. L’écart-type est égal à la racine carré de la variance.
Il s’exprime dans l’unité de la grandeur qu’il caractérise.

La variance et l’écart-type sont donnés par les formules suivantes :

Formules de la variance et de l’écart-type

Le tableau suivant applique à l’exemple précédent le calcul de la variance et de l’écart-type :

 
11 
Exemple de calcul d’écart-type

L’écart-type caractérise la dispersion de la série statistique autour de la valeur moyenne. Plus


l’écart-type est élevé plus la disportion est forte.

Dans la pratique l’écart-type sous-estime légèrement l’écart des données par rapport à la
moyenne notamment pour les tailles de population ou d’échantillon faible. On a un écart-type
et une variance dits "biaisés". On peut corriger ce biais en multipliant l’écart-type biaisé par la
formule suivante :

Lorsque l’on veut comparer la dispersion de deux séries statistiques, il faut prendre garde à
leur valeurs moyennes respectives. On pourra comparer leurs dispersions en "normant" leurs
écarts-types par rapport à leurs moyennes en calculant un coefficient de variation égal à
l’écart-type divisé par la moyenne.

 
12 
Les indices statistiques 
1 - Définitions

Définition de l’indice

On appelle indice un valeur qui mesure l’évolution d’une grandeur dans le temps. Pout
caractériser l’évolution d’une grandeur P qui avait la valeut P0 au temps t0 et qui a la valeur
P1 au temps t1, on calcule le rapport entre P1 et P0 selon la formule :

Indice t1/t0 = (P1 / P0) x 100

La multiplication par 100 permet de fixer une base de 100 à la valeur initiale P0.

On peut considérer l’exemple de l’indice des prix à la consommation dont les variations en
2001, 2002 et 2003 font l’objet du tableau suivant :

Indice des prix à la consommation

Nota : La base 100 avait été fixée à 100 en février 1999.

 
13 
On peut tracer l’évolution de cet indice pendant 3 ans :

Graphique de l’évolution de l’indice

Taux de variation

On peut raisonner également en taux de variation relative (augmentation ou dimunution)


exprimé en % grâce à la formule suivante :

Taux de variation (t1/t0) = (Valeur à t1 - Valeur à t0) / Valeur à t0 x 100

On passe de l’indice au taux de variation ainsi :

Taux = indice - 100

Considérons dans le tableau précédent les valeurs P1 et P2 des indices respectivement en


janvier 2002 (t1) et janvier 2003 (t2) :

Janvier 2002 104,8


Janvier 2003 106,9

Le taux de variation atteint en janvier 2002 est égal à :

[(104,8 - 100) / 100 ] x 100 = 4,8 %

De la même façon en janvier 2003 on atteint un taux de variation de 6,9 %

Changement de base

Si P0 est l’indice de base (100) en février 1999 (t0), on peut écrire :

 
14 
Indice (t1/t0) = (P1 x 100)/P0 (1) Indice (t2/t0) = (P2 x 100)/P0 (2)

Si l’on veut prendre comme nouvelle base janvier 2002, on évalue l’indice de P2 ainsi :

Indice (t2/t1) = (P2 x 100)/P1 (3)

Grâce à (1)et (2) on peut déduire que :

P2 = Indice (t2/t0) x P0 /100

P1 = Indice (t1/t0) x P0 /100

Soit, en remplaçant P1 et P2 dans (3) :

Indice (t2/t1) = (Indice (t2/t0) x P0 /100) x 100) / Indice (t1/t0) x P0 /100

Soit en simplifiant :

Indice (t2/t1) = (Indice (t2/t0)) / Indice (t1/t0) x 100)

Application numérique :

Indice (2003 / 2002) = 106,9 / 104,8 x 100 = 102

On remarque que les taux de variation ne s’additionne pas comme le montre le schéma ci-
dessous :

Changement de base

Attention : les taux de variation ne s’additionne pas. Deux augmentation successives de 20 %


ne donne pas au final une augmentation de 40 % mais de 44 % !

 
15 
2 - Exercices pratiques

Exercice 1 - Comment tenir compte de l’inflation ...

Jean-Claude a été embauché en février 1999. Il a été augmenté de 4 % chaque année au mois
de janvier. On demande quelle a été l’augmentation réelle de son pouvoir d’achat entre le
moment de son embauche et janvier 2003 (juste après son augmentation).

On trouve dans le tableau de l’article précédent les indices des prix qui seront être utiles :

février 1999 : 100

janvier 2003 : 106,9

Jean-Claude a été augmenté 4 fois aux mois de janvier 2000, 2001, 2002 et 2003

Son salaire initial S est devenu : S x 1,O4 x 1,O4 x 1,O4 x 1,O4 = S x 1,16986. Il a donc été
augmenté d’environ 17 % (en euros courants).

Si l’on souhaite ramener ce salaire de 2003, à la valeur réelle qu’il avait en 1999, il faut
prendre 100 comme base en 2003 et calculer l’indice correspondant en 1999, soit.

Indice 1999/2003 = Indice 1999/1999 / Indice 2003/1999 x 100

= 100 / 106,9 x 100 = 93,545

Le salaire de Jean-Claude vaut maintenant (en euros constants) :

(S x 1,16986) x 93,545 / 100 = S x 1,09435

Son pouvoir d’achat réel n’a donc augmenté que de 9,4 %.

Attention : La simple déduction du pourcentage d’inflation 6,9 % de l’augmentation de salaire


16,986 % (10,08 %) ne donne pas une réponse exacte. En effet, comme l’on souhaite tout
ramener en 1999, le pourcentage de variation à prendre en compte est de (100 -106,9) / 106,9
x 100 = 6,4546 %

Intuitivement on comprend mieux la différence en considérant des pourcentages beaucoup


plus élevés. Quand on passe de 100 à 150 on note une augmentation de + 50 %, mais quand
de 150 on redescend à 100, c’est une diminution de seulement 33 % (150 - 100)/150.
Incontournable !

 
16 
Exercice 2 - Calculer une croissance moyenne dans le temps

Vous faites le bilan de votre entreprise sur 5 ans. Vous notez que votre chiffre d’affaire a vu
sa valeur tripler. Vous aimeriez connaître votre croissance moyenne annuelle. On négligera
l’inflation dans cet exercice.

On peut déjà calculer l’indice de variation en 5 ans qui est de 300.

Le taux de variation est de 200 %.

Si C est le taux de croissance moyenne, on peut calculer le taux de croissance au bout de 5 ans
qui est :

(1 + C) x (1 + C) x (1 + C) x (1 + C) x (1 + C) = (1 + C)5.

On a donc (1 + C)5 = 3

D’où 1 + C = 31/5 = 1,246 et C = 0,246

Le taux de croissance moyenne annuelle a donc été de 24,6 %

 
17 
Ajustement statistique
1 - Différentes méthodes d’ajustement

Dans le domaine commercial, on est souvent amené à évaluer une tendance à partir d’un
ensemble de données. On dispose par exemple des chiffres donnant l’évolution du chiffre
d’affaire sur plusieurs années (voir schéma ci-dessous).

Il serait intéressant de déterminer la tendance et éventuellement de caractériser l’évolution par


une formule mathématique qui permettrait de faire des prévisions.

Plusieurs méthodes sont utilisables :

Méthode des points extrêmes

Méthode des doubles moyennes (méthode de Mayer)

Méthode des moindres carrés

 
18 
2 - Méthode des points extrêmes

La méthode des points extrêmes est la plus simple (simpliste ?) des méthodes d’ajustement.
Elle consiste à relier par une droite les deux points les plus extrêmes.

Voir ci-dessous l’exemple de l’évolution du chiffre d’affaire :

Les coordonnées des deux points sont les suivants :

(x1 = 1999 ; y1 = 15 M€)

(x2 = 2004 ; y2 = 55 M€)

On peut déterminer l’équation de la droite qui passe par ces deux points en exprimant
l’alignement d’un troisième point (x ; y) avec les deux points extrêmes.

(y-y1) x (x2-x1) = (y2-y1) x (x-x1) soit en simplifiant :

Formule de la forme y = a.x + b avec a = 8 et b = - 15977

Prévisions :

On peut extrapoler la droite précédente pour avoir une prévision du chiffre d’affaire pour
l’année 2005 :

y = 8 x 2005 - 15977 = 63 M€

On voit immédiatement les limites de cette méthode dont le seul avantage est la simplicité. La
droite n’a que peu de chance d’être "centrée" dans le nuage de points puisqu’elle ne prend en
compte que les coordonnées de deux d’entre-eux.

 
19 
3 - Méthode des doubles moyennes

La méthode des doubles moyennes ou méthode de Mayer consiste à partager les données en 2
groupes d’égale importance, puis à déterminer le point moyen de chacun des groupes. On
trace alors la droite passant par ces deux points.

Les coordonnées des points moyens sont obtenues en moyennant respectivement les abscisses
et les ordonnées des points de chaque groupe.

Le schéma suivant illustre le procédé :

Les coordonnées des deux points-moyens sont :

M1 : x = 2000 ; y = 22,3

M2 : x = 2003 ; y = 38

L’équation de la droite qui passe par ces deux points est la suivante :

y = 4,89 x - 9756,67

La prévision pour le chiffre d’affaire donne donc :

4,89 x 2005 - 9756,67 = 47,8 M€

Cette méthode constitue donc une amélioration par rapport à la méthode des points extrêmes.
Elle est en fait intermédiaire entre cette dernière méthode et la méthode des moindres carrés

 
20 
4 - Méthode des moindres carrés

La méthode des moindres carrés consiste à trouver la droite qui minimise la somme des carrés
des distances entre chaque point et la droite.

Cette méthode est illustrée par le schéma suivant :

Si la droite cherchée a comme équation y = ax+b, on démontre que les coefficients qui
minimisent la somme des carrés des distances sont les suivants :

En reprenant l’évolution du chiffre d’affaire traité précédemment on obtient les résultats


suivants :

 
21 
Ce qui donne le tracé de la droite des moindres carrés correspondante :

Vous trouverez sur ce site un graphique interactif illustrant la méthode des moindres carrés.

Généralisation à d’autres courbes d’ajustement

Lorsque l’on doit traiter des phénomènes non linéaires, on peut utiliser à la place de la droite
des courbes non linéaires telles que les fonctions exponentielles ou les fonctions mettant en
jeu des puissances.

Ajustement exponentiel

Lorsque l’on constate que l’une des variables observées varie de façon géométrique, on ajuste
les données par une fonction exponentielle de la forme y = b.ax. On se ramène alors à un
ajustement linéaire par le biais d’un changement de variable logarithmique :

Log y = Log (b.ax) = Log b + x.Log a.

On peut alors utiliser les formules de l’ajustement linéaire présentées précédemment.

Ajustement par une fonction puissance

Si les deux variables présentent des variations géométriques, on ajuste les données par une
fonction puissance de la forme : y = b.xa

On ramène alors la fonction à un ajustement linéaire par un changement de variable


logarithmique :

Log y = Log (b.xa) = Log b + a.Log x.

On peut alors utiliser les formules précédentes de l’ajustement linéaire.

 
22 
Notions de probabilité 
1 - Introduction

Notion de probabilité

Le calcul des probabilités consiste à mesurer l’apparition ou la non-apparition de certains


événements. Il a une importance fondamentale dans tous les problèmes de prévision : jeux de
hasard, assurances, météorologie, recherche opérationnelle, pronostics électoraux, mécanique
ondulatoire, création de nouveaux produits, etc.

Par exemple, si l’on jette un dé, il n’est pas possible de prédire à coup sûr que le dé va tomber
sur le 6. Par contre, intuitivement, on pressent qu’il y a une chance sur 6 pour que le dé tombe
sur 6.

Pour ce faire, nous avons supposé que chaque position du dé avait la même chance de succès
(on dit que les positions sont équiprobables) et que puisqu’il y a 6 faces à un dé, il y a 1
chance sur 6 que le 6, ou un autre chiffre sorte.

On évalue la probabilité qu’une condition se réalise en divisant le nombre de cas qui sont
favorables à cette condition par le nombre de cas total. cette probabilité s’exprime par un
nombre toujours compris entre 0 et 1.

0 correspond à une probabilité nulle (celle par exemple qu’un dé normal tombe sur un 7),
1 correspond à une probabilité de 100 % (celle par exemple qu’un dé normal tombe sur un
chiffre compris entre 1 et 6).

Evénements dépendants ou indépendants

On considère que deux événements sont indépendants lorsque la réalisation de l’un n’affecte
en rien la probabilité de réalisation de l’autre.

Par exemple, résultats successivement obtenus en jetant un dé. A chaque nouveau jet, les paris
restent ouverts avec la même probabilité qu’avant le jet précédent.

A l’inverse, il existe des événements dont la réalisation affecte la probabilité des autres
événements.

Supposons que l’on tire successivement des cartes dans un jeu de 32 cartes sans remettre les
cartes en place après chaque tirage. Quelle est la probabilité que l’on tire le roi de coeur au

 
23 
premier tirage ? C’est 1/32. Si ce roi n’a pas été tiré, quelle est la probabilité qu’on le tire au
deuxième tirage ? Cela n’est plus 1/32, mais 1/31, etc ...

On parle de probabilité conditionnelle quand on évalue la probabilité d’un événement E2


sachant que E1 s’est réalisé.

Probabilités composées

Les probabilités composées permettent d’évaluer la probabilité d’une combinaison


d’événements dont on connait individuellement les probabilités.

Cas d’événements indépendants

La probabilité qu’un événement E1 se produise et qu’en même temps l’événement E2 se


produise aussi est égale au produit des probabilités de chacun des événements.

Supposons que l’on dispose de deux jeux de 32 cartes, l’un vert l’autre jaune. On les mélange
en les brassant. Quelle est la probabilité de tirer le roi de coeur vert ?

Probabilité de tirer un roi de coeur = 2 rois de coeur / 64 cartes = 1/32

Probabilité de tirer une carte verte = 32 cartes vertes /64 cartes = 1/2

Probabilité de tirer le roi de coeur vert = 1/32 x 1/2 = 1/64

On vérifie qu’en divisant le nombre de cas favorables (un seul roi de coeur vert) par le
nombre de cas possibles (64 cartes) on trouve également 1/64.

Cas d’événements dépendants

La probabilité qu’un événement E1 et E2 indépendants se produisent ensemble est égal à la


probabilité que E1 se produise multipliée par la probabilité conditionnelle que E2 se produise
après que E1 se soit produit.

Par exemple, je dispose dans une urne d’un lot de 2 boules rouges et 4 boules noires. Si les
tirages se font sans remettre les boules dans l’urne, quelle est la probabilité que je tire les 2
boules rouges d’emblée ?

Lors du premier tirage, la probabilité de tirer une boule rouge est de : 2/6 = 1/3. Si j’ai bien
tiré une boule rouge, la probabilité de tirer une autre boule rouge au second tirage est de : 1/5
puisqu’il n’y a plus qu’une boule rouge et 4 boules noires dans l’urne.

La probabilité de tirer successivement 2 boules rouges est donc de : 1/3 x 1/5 = 1/15.

Probabilités totales

Etant donné les probabilités de réalisation des événements E1 et E2, la probabilité que l’un
des deux événements se produise est égale à la somme des probabilités individuelles de ces
événements.

 
24 
Par exemple, la probabilité qu’un jet de dé donne un résultat pair est égal à la somme des
probabilités d’obtenir un 2, un 4 ou un 6.

Ppair = 1/6 + 1/6 + 1/6 = 1/2

Quelques exemples pratiques

Exemple 1 - Sauriez-vous calculer la probabilité de gagner au loto avec les 6 numéros ?

Rappelons qu’il y a 49 numéros dans l’urne du loto.

Au premier tirage, la probabilité que vous ayez un bon numéro est de : 6 / 49. Au deuxième
tirage, la probabilité d’avoir à nouveau un bon numéro est de : 5 / 48 (5 parce qu’il ne me
reste que 5 numéros en jeu, et 48 parce qu’il ne reste plus que 48 boules dans l’urne. Au
troisième tirage, la probabilité d’avoir un bon numéro est de : 4 / 47.

Ainsi on obtient les probabilités suivantes : 6/49, 5/48, 4/47, 3/46, 2/45 et 1/44.

La probabilité composée est le produit de ces 6 probabilités individuelles soit :

P = (6 x 5 X 4 x 3 x 2 x 1) / (49 x 48 x 47 x 46 x 45 x 44) = 1 / 13 983 816

C’est donc bien une chance sur 14 millions !

Si vous êtes intéressé par tout ce qui tourne autour des probabilités autour du loto, consultez le
site personnel suivant :

http://perso.wanadoo.fr/cyberscargo...

Ce calcul un peu laborieux est formalisé par ce qu’on appelle l’analyse combinatoire qui
permet de dénombrer le nombre de combinaisons d’objets.

Soit un lot de n objets distincts et repérables. Combien existe t’il de combinaisons différentes
d’objets pris p par p.

Ce nombre est donné par la formule de combinaison de p parmi n :

Cpn ) = n ! / p ! x (n -p) !

avec n ! = 1 x 2 x 3 x 4 x ... x (n-1) x n

Attention : les combinaisons s’entendent sans tenir compte de l’ordre des p éléments (la
combinaison 1, 2, 3, 4 est la même que la combinaison 2, 1, 3, 4).

 
25 
Dans notre calcul précédent , il s’agissait de calculer le nombre de combinaisons de 6 chiffres
parmi 49 chiffres sans tenir compte de l’ordre dans lequel les boules tombent.

Si l’on a joué une seule combinaison de 6 chiffres, la probabilité d’avoir la bonne est de 1
divisé par le nombre de combinaisons, soit :

C649 ) = 49 ! / 6 ! x (49 -6) ! = 49 ! / 6 ! x 43 ! C649 ) = 49 x 48 x x 43 x 42 x 41 x ... x 3 x 2 x


1) / (6 x 5 x 4 x 3 x 2 x 1 ) x (43 x 42 x ... x 3 x 2 x 1) Soit en simplifiant : C649 ) = (49 x 48 x
47 x 46 x 45 x 44) / (6 x 5 x 4 x 3 x 2 x 1 ) = 13 983 816.

Exemple 2 : le jeu de 421

Quelle est la probabilité de gagner au 421 en 3 jets de dé ?

Le tableau suivant donne le cheminement pour atteindre le succès en 3 coups :

Probabilité de succès au 421 en 3 coups

Au premier lancer de dé, il y a 3 cas qui peuvent conduire au succès : obtenir un 4, un 2 ou un


1 avec pour chacun une probabilité de 1/6 x 3 (une chance par dé).

Au deuxième lancer qui ne met plus en oeuvre que 2 dés, il faut partir des 3 cas favorables
précédents. Dans le premier cas (4), il n’y a plus que 2 cas favorables (obtention d’un 2 ou
d’un 1), avec pour chacun d’eux une probabilité de 1/6 x 2 (une chance par dé).

Au troisième lancer, avec un dé unique, on n’a plus qu’une chance sur 6 d’obtenir le numéro
manquant.

Au total, on dénombre 6 voies possibles pour arriver au suuccès : 4-2-1, 4-1-2, 2-4-1, 2-1-4,
1-4-2 et 1-2-4, avec pour chacun d’eux une probabilité de 1/36, soit globalement une
probabilité de succès de 6/36 = 1/6.

 
26 
2 - Notion de variable aléatoire

Définition

Une variable est une variable aléatoire quand on peut attribuer à chaque valeur que peut
prendre cette variable une probabilité connue.

Comme pour les variables statistiques, les variables aléatoires peuvent être :

discrètes (par exemple les valeurs indiquées par un dé),


continues lorsqu’elles peuvent prendre toutes les valeurs dans leur intervalle de variation.

Caractéristiques

On peut caractériser une variable aléatoire de plusieurs façons :

Par la loi de probabilité

C’est la relation qui associe à chaque valeur de la variable la probabilité attribuée à cette
valeur.

Par l’espérance mathématique

L’espérance mathématique est la moyenne arithmétique des différentes valeurs pondérées par
la probabilité associée.

 
27 
Par la fonction de répartition

La fonction de répartition donne la probabilité qu’une variable soit inférieure à une valeur
donnée.

Exemples de fonction de répartition

On interprête la fonction de répartition des tailles ci-dessus en notant par exemple que 80 %
des Français ont une taille inférieure ou égale à 80 %.

 
28 
3 - Loi normale ou loi de Laplace-Gauss

Présentation

La loi normale a été proposée par Pierre-Simon Laplace (1749-1827) dans son ouvrage :
Théorie analytique des probabilités.

Cette loi caractérise des grandeurs qui se répartissent autour d’une valeur moyenne avec des
probabilités qui diminuent de manière symétrique à mesure que l’on s’éloigne de la moyenne.
C’est donc une courbe en forme de "cloche" comme celle de la répartition de la taille des
Français.

La loi normale se caractérise essentiellement par la moyenne et l’écart-type de la distribution.


Elle se formule mathématiquement assez simplement à partir de ces deux paramètres :

L’allure de la courbe représentant la loi normale est la suivante :

Exemple de loi normale avec moyenne = 12 et écart-type = 3

Loi normale centrée réduite

Pour "centrer" la courbe précédente, et la normer par rapport à l’écart-type, il suffit


d’effectuer le changement de variable suivant qui fixe l’origine des abscisses au droit de la
moyenne :

T = (X - moyenne) /écart-type

On obtient alors la loi normale centrée réduite. On démontre que si une variable aléatoire X
suit une loi normale N (m ; sigma) alors la variable aléatoire T = (X - m)/ sigma suit la loi
normale centrée réduite : N (0 ;1).

 
29 
L’équation de la loi normée réduite devien la suivante :

L’allure de la courbe normée est la suivante :

Loi normale centrée réduite

Cette loi normée sera d’une utilisation beaucoup plus facile et on trouvera des tables qui
permettent d’évaluer facilement les probabilités associées à certains valeurs ou plage de
valeurs de la variable.

On utilisera d’ailleurs plus facilement la fonction de répartition qui calcule la probabilité


qu’une variable ait une valeur inférieure à une valeur donnée.

On a superposé ci-dessous, les courbes de la fonction de répartition et de la loi normale


réduite centrée :

 
30 
Loi normale centrée réduite et fonction de répartition

On note que la courbe de la fonction de répartition coupe l’axe des ordonnées avec la valeur
0,5. La probabilité que la variable ait une valeur inférieure à la moyenne est donc de 50 % ce
qui confirme la symétrie de la loi normale par rapport à la moyenne.

 
31 
4 - Table de la loi normale et utilisation

Propriétés de la loi normale

La loi normale qui rend compte de beaucoup de phénomènes aléatoires est largement utilisée
par l’intermédiaire, notamment, de la fonction de répartition associée.

Le tableau suivant donne les valeurs de cette fonction pour les valeurs supérieures à 0 donc au
delà de la valeur moyenne :

Table des valeurs de la fonction de répartition

La loi normale posséde plusieurs propriétés utilisables lors de son exploitation et qui sont
illustrées par la figure suivante :

 
32 
Propriétés de la fonction de répartition de la loi normale

Propriété 1 : La loi normale est symétrique : il y a autant de valeur inférieure que supérieure
à la moyenne,

Propriété 2 : La probabilité globale étant de 1, la probabilité qu’une valeur soit supérieure à


une valeur donnée (T0) est égale au complément à 1 de la probabilité que cette valeur soit
inférieure à cette valeur,

Propriété 3 : Considérant deux valeurs symétriques par rapport à la moyenne, les


probabilités que la valeur soit inférieure à la valeur négative (- T0) est égale à la probabilité
que la valeur soit supérieure à la valeur positive (+ T0).

Caractéristiques de dispersion de la loi normale

Il est intéressant de caractériser la dispersion de la loi normale en évaluant quelle est la


proportion de valeurs comprises dans une plage centrée sur la moyenne et dont la taille est
exprimée en écart-type.

La figure ci-dessous illustre cette dispersion :

Caractérisation de la dispersion de la loi normale normée réduite

Ainsi il peut être intéressant de garder en tête les chiffres suivants :

68 % des valeurs sont comprises dans la plage ±1 écart-type

95 % des valeurs sont comprises dans la plage ±2 écart-types

 
33 
99 % des valeurs sont comprises dans la plage ±3 écart-types

Exemples d’utilisation de la loi normale

Cela pourra servir à sélectionner, après un sondage, une plage de valeurs pour un contact, un
mailing ou autre en se donnant une probabilité donnée (68, 95 ou 99 %) de couvrir cette
population.

Exemple 1 : Quelle est la probabilité qu’une valeur soit supérieur à 2,57 ?

La table de la fonction de répartition nous donne les probabilités inférieures à une certaine
valeur. On y lit que pour la valeur 2,57, cette probabilité vaut 0,9949. La propriété 2 nous
permet de dire que la probabilité qu’une valeur soit supérieure à 2,57 est : 1 - 0,9949 =
0,0051 soit 0,51 %.

On peut généraliser avec la formule :

p(T>+T0) = 1 - p(T<+T0)

Exemple 2 : Quelle est la probabilité qu’une valeur soit supérieure à la valeur


négative - 0,69 ?

La propriété 3 (symétrie de la loi normale) nous permet d’écrire que la probabilité des valeurs
supérieures à - 0,69 est égale à la probabilité des valeurs inférieures à + 0,69. Nous lisons
dans la table, la probabilité correspondante de 0,7549.

Soit en généralisant :

p(T>-T0) = p(T<+T0)

Exemple 3 : Quelle est la probabilité qu’une valeur soit inférieure à la valeur négative
-0,69 ?

La table précédente ne nous donne que les probabilités associées aux valeurs positives. On
utilisera la symétrie de la loi normale (propriété 3) en écrivant que la probabilité qu’une
valeur soit inférieure à - 0,69 est égale à la probabilité qu’une valeur soit supérieure à +
0,69.

Pour 0,69, la table nous donne une probabilité de 0,7549. La probabilité recherchée est donc
égale à 1 - 0,7549 = 0,2451 soit 24,51 %.

Soit en généralisant :

p(T<-T0) = p(T>+T0) = 1 - p(T<+T0)

Exemple 4 : Quelle est la probabilité qu’une valeur soit comprise entre les valeurs -
0,69 et + 2,57 ?

 
34 
cette probabilité se calcule en retranchant de la probabilité que la valeur soit inférieure à 2,57,
la probabilité que cette valeur soit inférieure à - 0,69.

Les exemples 1 et 3 ont déjà permis de calculer ces 2 probabilités soit :

P = 0,9949 - 0,2451 = 0,7498

Soit en généralisant :

P (T0 à T1) = P(T < T1) - P(T < T0)

Exemple 5 : Quelle est la plage de valeurs que l’on doit retenir pour être sûr qu’une
proportion donnée des valeurs y soit contenue ?

C’est la problématique inverse des exemples précédents. Par exemple, si un fabricant de prêt-
à-porter veut vendre ses produits à 30 % de la population quelle plage de tailles doit-il
couvrir ?

Il suffit de rechercher dans la table de la fonction de répartition, la probabilité correspondante.


Néanmoins, comme la table ne donne que les valeurs au-delà de 50 %, il convient d’effectuer
un petit raisonnement : Nous souhaitons couvrir 30 % de la population centrée autour de la
moyenne, c’est à dire 15 % en deçà et 15 % au-delà de cette moyenne. Cette plage couvre
donc des probabilités de 35 à 65 %. La table nous donne pour 65 % la valeur de la variable
comprise entre 0,38 et 0,39. On prendra la valeur intermédiaire de 0,385 et la plage à
sélectionner ira de - 0,385 à + 0,385 autour de la moyenne.

 
35 
Echantillonnage statistique 
1 - Définitions et théorèmes

Définitions

La plupart du temps, il est impossible économiquement d’étudier une population dans son
intégralité. On procède alors par un sondage sur une partie seulement de la population. C’est
ce que l’on appelle un échantillon.

Echantillonnage aléatoire

Pour qu’un échantillon soit représentatif de la population, il faut que chaque élément de la
population ait les mêmes chances d’appartenir à l’échantillon. On parle dans ce cas
d’échantillonnage aléatoire.

Echantillonnage exhaustif

Lors de l’échantillonnage, si chaque élément extrait est remis dans la population après relevé
de ses caractéristiques, on parle d’échantillonnage non exhaustif. Dans le cas inverse (on ne
remet pas en jeu chaque élément extrait) l’échantillonnage est dit exhaustif.

Remarques :

Une population finie (dénombrable) sur laquelle on procède à un échantillonnage non


exhaustif (on remet les éléments extraits dans la population se comporte comme une
population infinie.

Un échantillonnage exhaustif (on ne remet pas en jeu les éléments extraits) portant sur une
population très grande (vis à vis de la taille de l’échantillon) est considérée comme non
exhaustif.

Théorèmes

Caractéristiques de la moyenne de l’échantillon

1 - Echantillonnage avec remise (non exhaustif)

Soit une population N dont une propriété présente une moyenne m et un écart-type s. On
extrait avec remise en jeu un échantillon aléatoire de taille n parmi cette population.

On démontre que la moyenne de tels échantillons est elle-même une variable aléatoire qui suit
approximativement une loi normale ayant les caractéristiques suivantes :

Moyenne = la moyenne de la population (m),

Ecart-type :

 
36 
On vérifie que plus la taille de l’échantillon (n) est grand plus l’écart-type de la moyenne est
faible, ce qui implique que plus l’incertitude sur la moyenne se réduit et se resserre autour de
la moyenne.

Dans la pratique, on considère que n est grand au-delà de 30. Dans ce cas, on a n1/2 = 301/2 =
5,48

Si l’on considère la loi normale normée réduite de la population (écart-type = 1), l’écart-type
de la moyenne de l’échantillon vaudra : 1/5,48 = 0,18.

La figure suivante compare les distributions de la population initiale et de la moyenne des


échantillons :

Il s’agit d’un écart-type faible qui donnera une bonne précision dans l’évaluation de la valeur
de la moyenne.

2 - Echantillonnage sans remise (exhaustif)

Quand on ne peut remettre les éléments extraits, l’écart-type de la moyenne est obtenu par la
formule :

ATTENTION : dans ce qui précède il ne faut pas confondre l’écart-type (s) de la population
étudiée de l’écart-type de la moyenne calculée sur l’échantillon.

Caractéristiques des proportions

Considérons une population dont une certaine proportion (p) d’éléments possède une certaine
propriété. On aimerait connaître ce qu’il advient de cette proportion dans l’échantillon
prélévé.

 
37 
On démontre que dans tout échantillon aléatoire de taille suffisante avec remise en jeu, la
proportion d’éléments possédant une propriété suit une loi normale ayant les caractéristiques
suivantes :

Moyenne : la proportion initiale,

Ecart-type :

Par exemple, imaginons un échantillon de 100 personnes parmi une population dont 10 %
mesurent plus de 1m80, on obtient un écart-type de la proportion dans l’échantillon égal à :
0,03. Cela signifie que dans une plage à ± 1 sigma autour de la proportion moyenne, c’est à
dire dans l’intervalle [0,07 ;0,13], on trouvera 68 % des valeurs de la proportion.

On note également que la précision augmente quand la taille de l’échantillon augmente mais
en proportion de la racine de cette taille. cela signifie que pour doubler la précision il faut
multiplier la taille de l’échantillon par 4 !

 
38 
2 - Estimation à partir d’un échantillon

Introduction
L’estimation consiste à donner la valeur la plus probable d’une grandeur. C’est le
problème inverse de l’échantillonnage. On dispose de renseignements sur un ou plusieurs
échantillons et on cherche à connaître des informations sur la population-mère.

On peut faire deux types d’estimation :

L’estimation ponctuelle qui consiste à proposer une valeur pour la grandeur


considérée,

L’estimation par intervalle de confiance qui donne la probabilité que la grandeur


soit comprise dans un intervalle donné.

On remarque que la probabilité qu’une estimation ponctuelle soit parfaitement exacte est
... nulle, ou enfin voisine de zéro. Il y a donc lieu quand c’est possible, de préférer
l’estimation par intervalle de confiance

Estimation ponctuelle
1 - Moyenne

D’une manière générale, on considère que la moyenne d’un échantillon prélevé est la
meilleure estimation ponctuelle de la moyenne de la population-mère.

2 - Proportion

de la même façon, on prendra comme estimée ponctuelle de la proportion d’éléments de


la population-mère possédant une certaine propriété, la proportion relevée parmi
l’échantillon.

3 - Ecart-type

On prend comme meilleur estimée de l’écart-type de la population-mère, la valeur


suivante :

Estimation par intervalle de confiance


La valeur à estimer est une variable aléatoire dont on peut estimer les caractéristiques.
La fonction de répartition associée à la loi normale permet d’évaluer l’intervalle à
considérer pour obtenir le taux de confiance recherché.

 
39 
Dans la figure ci-dessus, sur la courbe de gauche, on appelle P(X) la probabilité, lue dans
la fonction de répartition, que la variable ait une valeur inférieure à la valeur X. La
probabilité que la variable soit supérieure à X est naturellement 1 - P(X).

Sur la courbe de droite, on a évalué la probabilité que la moyenne soit comprise dans
l’intervalle [-X :+X]. Cette valeur vaut :

1 - (1 - P(X)) - (1 - P(X)) = 2. P(X) - 1

En inversant la formule, on calcule la valeur qu’il faut lire dans la table de la fonction de
répartition pour que la probabilité que la variable soit dans la plage [-X :+X].

P(plage) = 2 x P(table) - 1

d’où

P(table) = (P(plage) + 1) / 2

Par exemple, si l’on souhaite un taux de confiance de 95 %, la valeur à lire dans la table
est :

(0,95 + 1)/2 = 0,975 ce qui correspond à la plage [-1,96 ;+1,96]

La courbe suivante donne la variation de l’intervalle à considérer en fonction du taux de


confiance requis :

L’estimation consistera à se donner un taux de confiance, à lire sur la courbe précédente


l’intervalle normé à considérer. Il suffira de multiplier ce chiffre par l’écart-type de la
distribution pour obtenir l’intervalle à prendre en compte.

 
40 
1 - Moyenne

1 - Evaluation de l’écart-type de la moyenne à estimer

Dans le cas d’un échantillonnage indépendant (non exhaustif), on obtient l’écart-type par
la formule suivant :

Dans la cas d’un échantillonnage exhaustif, c’est la formule suivante qui s’applique :

2 - Evaluation de l’intervalle à considérer

On se donne alors un taux de confiance qui par lecture dans la courbe précédente nous
donne un coefficient t. On obtient alors l’intervalle à prendre en compte :

Exemple : Soit un échantillon de 100 personnes dont les tailles ont donné une moyenne
de 1m75 et dont l’écart-type des tailles est égal à 0m13. Dans quelle plage de taille doit-
on considérer cette moyenne pour avoir un taux de confiance de 80 % ?

La courbe donnée plus haut nous indique, pour un taux de confiance de 80 %, un


intervalle de : 1,3.

On calcule maintenant l’écart-type de la moyenne dans le cas d’un échantillon


indépendant :

0,13 m / 1OO1/2 = 0,013 m

L’intervalle à prendre en compte est dont le suivant :

[1,75 - 1,3 x 0,013 ; 1,75 + 1,3 x 0,013] soit [1,7331 m ; 1,7669 m]

2 - Proportion

Il s’agit, à partir de l’échantillon, d’estimer la proportion d’éléments de la population qui


ont une propriété donnée.

Estimation ponctuelle
Comme pour la moyenne, on prendra pour valeur estimée d’une proportion dans la
population-mère, la proportion mesurée dans l’échantillon. Ce n’est évidemment qu’une
valeur approchée sur laquelle on ne peut avoir aucun taux de confiance connu.

Estimation par intervalle de confiance


On suit le même cheminement que pour la moyenne :

 
41 
1 - Evaluation de l’écart-type de la proportion à estimer

Dans le cas d’un échantillonnage indépendant (non exhaustif), on obtient l’écart-type par
la formule suivant :

Dans la cas d’un échantillonnage exhaustif, c’est la formule suivante qui s’applique :

2 - Evaluation de l’intervalle à considérer

On se donne alors un taux de confiance qui par lecture dans la courbe précédente nous
donne un coefficient t. On obtient alors l’intervalle à prendre en compte :

Exemple : Dans le même échantillon que précédemment, on a évalué que 10 % des


personnes dépassaient 1m80. Quelle est la proportion estimée pour la population-mère
avec un taux de confiance de 95 % ?

La courbe donnée plus haut nous indique, pour un taux de confiance de 95 %, un


intervalle de : 1,96.

On calcule maintenant l’écart-type de la moyenne dans le cas d’un échantillon


indépendant :

(0,1 x 0,9 / 100)1/2 = 0,00091/2 = 0,03

L’intervalle à prendre en compte est dont le suivant :

[0,1 - 1,96 x 0,03 ; 0,1 + 1,96 x 0,03] soit [0,0412 ; 0,1588]

La proportion dans la population-mère est donc comprise entre 4 et 16 %.

 
42 
3 - Taille d’un échantillon
La taille de l’échantillon a une influence fondamentale sur la précision des estimations
réalisées sur les caractéristiques de la population-mère.

Pour des raisons économiques, il est nécessaire d’utiliser une taille d’échantillon la plus
réduite possible tout en obtenant un taux de confiance suffisant.

3 paramètres doivent être pris en compte pour la détermination d’une taille minimum
d’échantillon :

La marge d’erreur que l’on se donne pour la grandeur que l’on veut estimer,

Le taux de confiance que l’on souhaite garantir sur la mesure,

La proportion connue ou supposée dans la population-mère.

Dans les formules suivantes on appelle :

N : la taille de la population-mère, n : la taille de l’échantillon, e : la marge d’erreur, t :


le coefficient de marge déduit du taux de confiance, p : la proportion des éléments de la
population-mère qui présentent une propriété donnée.

Les taux de confiance les plus utilisés et les coefficients de marge associés sont donnés
dans le tableau suivant :

Cas de l’échantillon indépendant (non exhaustif)

La formule donnant la taille de l’échantillon minimum est la suivante :

Cas de l’échantillon indépendant (non exhaustif)

La formule devient la suivante :

 
43 
L’application des formules précédentes suppose la connaissance de la proportion
d’éléments de la population-mère sur lesquel porte l’étude. deux approches sont
possibles :

Réaliser un pré-sondage sur un échantillon de petite taille pour avoir une


approximation de cette proportion,

Estimer au mieux cette proportion. Dans les formules précédentes, la proportion p est
présente sous la forme de la fonction p.(1-p) dont on a représenté ci-dessous la
variation :

Le terme p.(1-p) varie entre les valeurs 0 et 0,25, avec une moyenne de 0,175. Si l’on
veut avoir un majorant de la taille de l’échantillon, on prend la valeur maximum de p.(1-
p) soit 0,25 correspondant à p = 0,5. Si l’on veut une approche plus fine qui minimise
l’erreur faite sur l’évaluation de la taille, on prend la valeur moyenne soit 0,175 qui
correspond à p = 0,226.

Exemple : Calculer la taille d’un échantillon indépendant pour avoir une marge d’erreur
de 5 % avec un taux de confiance de 95 % sur une population dont on ne connait pas la
proportion.

Le taux de confiance de 95 % nous donne un coefficient de marge t = 1,96. Prenons un


majorant de la taille en prenant p.(1-p) = 0,25. On peut écrire :

n = (1,96)2 x 0,25 / 0,052 = 384

Utilisation d’abaque

On trouve dans la littérature technique différents types d’abaque qui permettent


d’évaluer la taille des échantillons.

Le graphique suivant en donne un exemple :

 
44 
Pour l’utiliser, fixer la valeur de l’erreur admissible (par exemple 0,1), élever une
verticale qui croise les courbes correspondant à différents taux de confiance. Au point
d’intersection avec la courbe choisie (par exemple taux de confiance = 95 %), on trace
une droite horizontale qui croise les courbes correspondant à la proportion dans la
population-mère. Au point d’intersection avec la courbe choisie (par exemple p = 0,2, on
trace une verticale qui va croiser l’axe des abscisses en un point qui donne la taille de
l’échantillon (dans notre exemple 60).

 
45 
Exercices pratiques

Exercice 1 - Etude d’une distribution statistique

Enoncé

Soit un chenil où vivent 4 chiens dont les masses (M)s sont les suivantes :

1 - Quelle est la distribution de fréquence de M ? Calculer la moyenne, l’écart-type et la


variance.

2 - On sélectionne sans remise un échantillon de 2 chiens dans le chenil.

Combien y a t-il d’échantillons différents possibles ?

Caractériser chaque échantillon par sa moyenne et sa variance corrigée.

Quelle est la distribution de la moyenne et de la variance calculées précédentes.

Calculer la moyenne et l’écart-type de cette distribution.

3 - Mêmes questions avec un échantillonnage de 2 chiens mais avec un tirage avec


remise.

 
46 
Corrigé

1 - Distribution statistique

Il convient de corriger l’écart-type biaisé compte tenu de la taille de l’échantillon :

2 - Echantillonnage sans remise (n = 2)

Combien y a t-il d’échantillons différents possibles ?)

Le nombre de combinaisons est donné par la formule suivante (avec p = 2 et n = 4) :

Soit Nombre de combinaisons = 4 !/2 !.(4-2) ! = 24 / 2 x 2 = 6

Caractériser chaque échantillon par sa moyenne et sa variance corrigée.

Le tableau suivant liste les échantillons et calcule pour chacun d’eux la moyenne et la
variance :

Quelle est la distribution de la moyenne et de la variance calculées précédentes.

La distribution statistique de la moyenne est établie ci-dessous :

La distribution statistique de l’écart-type est la suivante :

 
47 
 
48 
Exercice 2 - Estimation de la moyenne

Enoncé Soit un échantillon de la population française de 1000 personnes. La taille


moyenne mesurée sur l’échantillon est de 1m75 avec un écart-type de 0m17.Dans quel
intervalle doit on inclure la moyenne si l’on veut la connaître avec un taux de confiance
de 95 % ?

Corrigé

L’écart-type calculé sur la distribution de la moyenne se calcule par la formule suivante :

Ce qui donne : 0,17 / (1000)1/2 = 0,00538

L’intervalle de confiance à considérer s’obtient par la formule suivante :

Le coefficient multiplicateur (t) vaut 1,96 pour un taux de confiance de 95 %.

Ce qui donne l’intervalle suivant :

[1,75 - (1,96 x 0,00538) ; 1,75 + (1,96 x 0,00538)] soit [1,7445 ; 1,7605]

 
49 
Exercice 3 - Estimation de proportion

Enoncé

Dans un échantillon de 1000 personnes, on estime que 10 % de la population a une taille


supérieure à 1m80. On aimerait savoir avec quel taux de confiance on peut affirmer que
cette proportion est comprise entre 8 et 12 %.

Corrigé

L’écart-type calculé sur une proportion est donné par la formule suivante :

Cet écart-type vaut : ((0,1 x 0,9)/n)1/2 = 0,00949

Le demi-intervalle de confiance vaut : t x écart-type, on peut donc écrire :

t x 0,00949 = 0,02 d’où t = 0,02 / 0,00949 = 2,107

La courbe suivante peut être consultée pour en déduire le taux de confiance :

On lit donc un taux de confiance égal à environ 96 %.

 
50