Académique Documents
Professionnel Documents
Culture Documents
MCV 1122 - Statistiques
MCV 1122 - Statistiques
EC MCV1122.
STATISTIQUES
NIVEAU 1
CLASSE: BTS MARKETING-COMMERCE-VENTE (MCV)
SEMESTRE 1
VOLUME HORAIRE: 30 heures
EQUIPE PEDAGOGIQUE:
NJOCKE (CC) CM 18 h ; TD 00 h
TAKUNCHI (VAC) CM 00 h ; TD 06 h ; TPE 06 h)
OBJECTIFS SPECIFIQUES
1. 4 h 00
2. 4 h 00
3. 4 h 00
4. 8 h 00
TOTAL 24 h 00
INTRODUCTION
Cette introduction est organisée en deux parties qui sont les suivantes :
- Statistique et Economie ;
- Objet de l’analyse statistique.
I) Statistique et Economie
La statistique est une activité qui consiste à recueillir des données relatives à tel ou tel
phénomène, à les présenter, à les exploiter par un traitement adapté et enfin à interpréter les
résultats obtenus ; tout cela dans le but de prendre des décisions les plus rationnelles et les
plus économiques, d’éclairer les actions humaines et de faire progresser la connaissance des
phénomènes étudiés. Il faut distinguer :
*La statistique : c’est une branche de la mathématique, au même titre que l’Algèbre, la
Géométrie, etc. Elle se divise en deux :
- La Statistique descriptive : elle aide à résumer l’information contenue dans une série
d’observations, en élaborant des tableaux récapitulatifs, en construisant des graphiques
convenables et en calculant des caractéristiques significatives ;
- La Statistique mathématique : elle aide à la prise de décisions relatives à des
paramètres inconnus en se basant sur le calcul des probabilités.
Notre époque se caractérise en effet par les progrès de l’information. Les statistiques se
multiplient dans tous les domaines et forment des bases d’analyses quantitatives complexes,
rendues possibles par le développement des calculateurs électroniques. La statistique apparaît
à la fois comme une technique au service des sciences et plus généralement des activités
Dans le domaine économique, la statistique revêt une importance considérable. Même lorsque
les méthodes statistiques ne sont pas conçues à des fins expressément économiques « elles
font partie des outils de l’analyse économique » (Schumpeter).
On voit ainsi que partout où l’on recueille des données, l’analyse scientifique de ces données
fait appel à la statistique, qui s’applique par conséquent à tous les domaines d’investigation
quantitative : études économiques, sociologiques, agronomiques, industrielles, gestion,
marketing, le monde des affaires, etc.
Son champ d’application en Médecine et en biologie est assez vaste. Dans ce cas, on utilise le
terme de bio-statistique.
*Fournir au moyen d’un nombre limité de caractéristiques, une description simple et aussi
complète que possible d’un ensemble (ou population) d’unités (ou éléments) envisagées sous
l’angle d’un caractère donné.
Ainsi, l’on peut se proposer d’étudier les salariés camerounais (ensemble) en fonction du
salaire qui leur est versé (caractère).
Il est évident – mais l’on ne saurait trop insister sur ce point – qu’une telle étude n’aura un
sens précis que si l’on a pris soin, de définir sans ambiguïté :
- L’unité statistique, c'est-à-dire ce que l’on entend par salarié : faut-il y comprendre les
fonctionnaires, les agents rémunérés au pourcentage… ?
Exemples
i. On veut étudier le nombre d’enfants par famille dans la ville de Douala. Nous
devons recueillir des données relatives au nombre d’enfants de familles
concernées. La population est l’ensemble des familles de la ville de Douala ;
un individu dans chaque famille est une unité statistique.
ii. On veut étudier le dosage d’un produit dans le sang des malades suivant le
même traitement. La population est l’ensemble des malades et chaque malade
est un individu ou une unité statistique.
iii. Un médecin veut étudier l’habitude de fumer du tabac des femmes enceintes
qu’il suit dans sa clinique. La population est l’ensemble des femmes enceintes
suivies, chacune d’elles est un individu ou une unité statistique.
*Interpréter les caractéristiques ainsi déterminées en vue d’en tirer les conclusions quant à
l’ensemble étudié.
- D’induire des propriétés d’une collectivité limitée d’unités (ou échantillon), celles de
l’ensemble dont ces unités ont été extraites (problèmes d’échantillonnage) ;
- De rechercher la liaison existant entre deux ou plusieurs séries de données (problèmes
de corrélation).
Ainsi, le statisticien, placé devant les données complexes –et souvent médiocre – fournies par
l’observation des phénomènes, s’attache, en premier lieu, à les schématiser, ce qui implique,
de prime abord, des options délicates, et qui ne peuvent être arbitraires ; il cherche ensuite à
expliquer ces phénomènes –ou, plus exactement à tester des hypothèses explicatives – en
dégageant les relations entre les diverses variables.
L’analyse statistique n’est pas une fin en soi : qu’il s’agisse de schématiser ou d’expliquer,
elle doit toujours œuvrer dans le sens défini par une autre science (biologie, psychologie,
économie, etc.) ; mais dans ce rôle, elle est aussi indispensable pour les examens de
laboratoire en médecine.
Exemple 1
i. X : « nombre d’enfants »
ii. Y : « quantité de produit dans le sang »
iii. Z : « habitude face au tabac ».
Les états tabulés les plus simples à un ou deux caractères, sont présentés dans ce chapitre de
façon plus développée, après avoir introduit une notation commode, les symboles Σ et Π .
I. Notations
x
Si un caractère quantitatif prend les valeurs x 1 , x 2 , 3 , au lieu d’écrire la somme sous la
forme
x 1 + x 2 + x 3 , on écrit :
3
∑ xi x i , i variant de 1 à 3 ».
i=1 qui se lit « somme de
r
∑ x i =x 1+ x 2 +. ..+ x r
i=1
( )
r r r
∑ x i =∑ ( ay i )=a ∑ yi
i=1 i=1 i =1
Tous les
y i étant multipliés par a , a se met en facteur.
*Si tous les termes de la somme sont des sommes de deux, trois, …, termes, la somme est
elle-même la somme de deux, trois,…, termes.
Exemple 2
∀ i , xi = y i + z i + wi
r
∑ x i =( x 1 + x 2 +. . .+ xr )=( y 1 + z1 +w 1 + y 2 + z 2 + w2 + .. .+ y r + z r + wr )
i=1
=( y 1 + y 2 + .. . y r )+( z 1 + z 2 +. . .+ z r )+( w 1 +w 2 +. ..+ wr )
r r r r r
∑ x i =∑ ( y i + z i + wi )= ∑ y i + ∑ z i +∑ wi
i=1 i=1 i=1 i=1 i=1
r r r r
∑ (ax i +by i + czi +.. .)=a ∑ x i +b ∑ y i + c ∑ z i +. ..
i=1 i=1 i=1 i=1
- Applications
r r
∑ ( x i +a )=( x 1 + a)+( x 2+a )+.. .+( x r +a )=ra + ∑ x i
i=1 i=1
r r
∑ ( x i +a )=ra+ ∑ x i
i=1 i=1
Donc
Martin NJOCKE, Docteur en Economie Page 10
r r r r r
∑ ( x i +a ) = ∑ 2
(x 2i +2 ax i +a2 )= ∑ x 2i + ∑ 2 ax i + ∑ a2
i=1 i=1 i=1 i=1 i=1
r r r
∑ ( x i +a ) =∑ 2
x2i +2 a ∑ xi + ra 2
i=1 i=1 i=1
Donc
r r r r
∑ ( x i + y i ) =∑ 2
x 2i +2 ∑ x i y i + ∑ y 2i
* i=1 i =1 i =1 i=1
s’écrit :
3
∏ xi xi i
i=1 et se lit « pi de ( allant de 1 à 3) ».
r
∏ xi =x 1 . x 2 . .. x r
Et plus généralement i=1
- Propriétés
r
∀ i , xi =x : ∏ x i=x r
Si i=1
*
∀ i , xi =ay i
*Si
r
∏ xi =x 1 . x 2 . .. x r =ay 1 . ay 2 . .. ay r =ar y 1 . y 2 . .. y r
i=1
r
∏ xi
i=1
Le calcul du produit s’effectue commodément en passant aux logarithmes. En
effet :
r r
log ∏ x i=∑ log xi
i=1 i=1
puisque le logarithme d’un produit est la somme des logarithmes.
numérique étudiée. Mais pour peu que cette série soit importante, le tableau de chiffres de
On a donc cherché à en présenter les caractéristiques essentielles sous une forme plus
caractéristiques.
II.1.Moyenne simple
Ce qui s’écrit :
Par exemple, si l’on a effectué une série de cinq mesures qui ont donné les résultats
II.2.Moyenne pondérée
− F 1 x1 + F 2 x 2 +. . .+ F n x n F1 F2 Fn
x= = . x 1+ . x 2 + .. .+ . xn
n n n n
Ces coefficients ne sont autre chose que les fréquences relatives de chaque valeur :
f 1 , f 2 , . .. , f n
−
x =f 1 . x1 +f 2 x 2 + .. . f n x n =∑ f i xi
On a donc :
Exemple 2
Considérons maintenant deux sujets A’ et B’ dont les glycémies sont respectivement égales à
La moyenne est encore égale à 1g/l. Et pourtant, la situation est tout à fait différente : dans le
premier cas, les deux valeurs individuelles très voisines de leur moyenne, étaient normales.
Dans le deuxième cas, les deux valeurs individuelles très éloignées de leur moyenne,
On voit par cet exemple caricatural que la moyenne, qui indique l’ordre de grandeur de la
distribution, ne renseigne cependant en rien sur la façon dont les différentes valeurs de cette
Si l’on veut caractériser plus complètement une distribution de fréquences, il est donc
nécessaire d’associer aux indications fournies par la moyenne, un indice qui renseigne sur
II.4.Variance
− −
Si x est la moyenne, l’écart d’une valeur individuelle x à la moyenne est ( x−x ) . Pour
apprécier globalement la dispersion de la distribution, on serait tenté de faire la somme de ces
écarts pour toutes les valeurs de la distribution.
Mais de ces écarts, les uns sont positifs, les autres sont négatifs, de telle sorte que si l’on en
faisait la somme algébrique, les écarts de signe contraire se compenseraient.
−
2
On a donc été amené à envisager les carrés des écarts, soit ( x−x ) , pour lesquels le signe
n’intervient pas. La somme de ces carrés, encore appelés « écarts quadratiques », pour n
n −
∑ ( x−x )2
valeurs de la distribution, qui se symbolise par 1 , donne bien une idée de la
dispersion globale des valeurs de la distribution par rapport à leur valeur moyenne. En effet,
plus les diverses valeurs sont éloignées de la moyenne, donc leurs carrés seront importants et
plus leur somme sera élevée.
Toutefois, si l’on veut pouvoir comparer entre elles des distributions comportant un nombre
différent de valeurs, il convient de rapporter cette somme au nombre de ces carrés, qui est
évidemment égal au nombre n de valeurs de la distribution.
On est ainsi amené à définir un paramètre appelé « variance » (ou encore « dispersion » ou
2
encore « fluctuation »), symbolisé parσ , qui est égal à la somme des carrés des écarts,
divisée par leur nombre:
n−
1
σ = ∑ ( x−x )2
2
n 1
La variance, on le voit, n’est pas autre chose que la moyenne arithmétique des carrés des
écarts. Elle donne donc un indice « moyen » de la dispersion globale de la distribution,
comme la moyenne donnait un indice « moyen » de l’ordre de grandeur de la distribution.
Afin d’avoir un indice de même équation dimensionnelle que la variable, c'est-à-dire qui
puisse s’exprimer dans la même unité que cette dernière, on est amené à considérer la racine
carrée de la variance, qui est homogène avec x et qui constitue l’écart typeσ , encore appelé
√
−
σ=
∑ ( x−x )2
« écart quadratique moyen » : n
L’écart type indique bien la dispersion plus ou moins grande des mesures autour de la
moyenne : plus l’écart type est faible en effet, plus les valeurs sont « resserrées » autour de la
moyenne, et inversement bien entendu, plus l’écart type est important, plus la distribution est
étalée.
Mais la moyenne et l’écart type sont de loin, les deux paramètres les plus importants. Ce sont
eux, en effet, qui traduisent le plus fidèlement la quantité d’information contenue dans les
données de la distribution.
D’autre part, ce sont les indices qui se prêtent le mieux aux calculs permettant de comparer
entre elles des distributions différentes.
*TP 1
Une population est composée de 7 individus pour lesquels la variable x prend les valeurs
suivantes :
i 1 2 3 4 5 6 7
x i 5 7 3 12 17 0 10
7 7 7 7 7
∑ xi ∑ 5 xi ∑ ax i ∑ ( x i−3 ) ∑ (ax i +b )
1) i=1 2) i=1 3) i=1 4) i=1 5) i=1
7 3 x i +1 7 7 7 7
∑ 13 ∑ x 2i ∑ 2 x 2i ∑ ax 2i ∑ ( x 2i −5 )
6) i=1 7) i=1 8) i=1 9) i=1 10) i=1
7 3 x 2i −4
7 7 7 7
∑ ax 2i +b ∑ 5 ∑ i ( x −a )2
∑ ( x i−4 )2 ∑ (ax i +b )2
i=1 12) i=1 13) i=1 14) i=1 15) i=1
11)
*Solution
(1):i ∑ ¿¿
1 2 3 4 5 6 7
( 2) : x i
5 7 3 12 17 0 10 54
(3 ): x 2i
25 49 9 144 289 0 100 616
7
∑ x i =54
1) i=1
7 7
∑ 5 x i =5 ∑ x i= 5 .54=270
2) i=1 i=1
7 7
∑ ax i= a ∑ x i= 54 a
3) i=1 i=1
7 7 7
∑ (ax i +b )=a ∑ xi +∑ b=54 a+7 b
5) i=1 i=1 i=1
( )
7
3 x i +1 1 7 1
7 7
1
∑ 13 =13 ∑ (3 x i +1)=13 3 ∑ x i +∑ 1 =13 [ ( 3 . 54 ) +7 ]=13
6) i=1 i=1 i=1 i=1
7
∑ x 2i =616
7) i=1
7 7
∑ 2 x 2i =2 ∑ x 2i = 2. 616=1232
8) i=1 i=1
7 7
∑ ax 2i =a ∑ x 2i = 616 a
9) i=1 i=1
7 7 7
∑ ( x 2i −5 )=∑ x 2i −∑ 5=616−(7 .5 )=581
10) i=1 i=1 i=1
7 7
∑ ax 2i +b=a ∑ x 2i +b=616 a+ b .
11) i=1 i=1 Attention : le signe ∑ ¿¿ ne s’applique pas à b. Par
contre :
7 7 7
∑ (ax 2i +b )=a ∑ x2i + ∑ b=616 a+7 b
i=1 i=1 i=1
3 x 2i −4 1 7
( )
7 7 7
1 1
∑ 5 5∑ i = (3 x 2
−4 )= 3 ∑
5 i=1
x i ∑ 4 = [ ( 3 . 616 )−(7 . 4 ) ] =364
2
−
5
12) i=1 i=1 i=1
7 7 7 7 7
∑ ( x i−a )2=∑ ( x 2i −2 ax i +a2 )=∑ xi2−2 a ∑ x i + ∑ a 2=616−108 a+7 a2
13) i=1 i=1 i=1 i=1 i=1
7 7 7 7 7
∑ ( x i−4 ) =∑ 2
( x 2i −8 x i +16 )= ∑ x 2i −8 ∑ x i + ∑ 16=616−(8 .54 )+(7. 16 )=296
14) i=1 i=1 i=1 i=1 i=1
*TP 2
1. Créer une série statistique de 10 valeurs pour une variable « note sur 20 à l’examen de
Transformez cette série statistique en une distribution statistique simple non groupée avec
2.
les fréquences absolues et relatives et présentez l’ensemble sous la forme d’un tableau de
données :
6 18 2 0,2
Total 10 1
3. Transformez cette série statistique en une série statistique simple groupée (par
intervalles de 2 points : la borne inférieure vaut 11,5 et la borne supérieure vaut
19,5) avec les fréquences absolues :
j x j : notes n j : fréquences
/20 absolues
1 [11,5 ; 13,5[ 4
2 [13,5 ; 15,5[ 2
3 [15,5 ; 17,5[ 2
4 [17 ,5 ; 19,5[ 2
Total 10
Voici une série statistique de 5 notes sur 10 obtenues à l’examen d’histoire par les 5 élèves
d’une classe.
1 x 1=5
2 x 2 =8
3 x 3 =8
4 x 4 =6
5 x 5 =9
1. Calculez la moyenne de cette série statistique. Notez explicitement le calcul que vous
avez effectué.
*Réponse
−
5+8+ 8+6+ 9 36
x= = =7 ,2
5 5
On peut également faire le calcul de la manière suivante (plus proche de la formule suivante) :
1 1
( 5+8+ 8+6+ 9 )= (36 )=7 ,2
5 5
n
1
x= ∑ x i
n i=1 où :
Pour calculer la moyenne, il faut une notation bien précise :
i : numéro de ladonnée
*Réponse
− 5
1 1 1 1
x= ∑
n i=1
xi = ( x 1 + x 2 + x3 + x 4 + x 5 ) = ( 5+8+8+ 6+9 ) = ( 36 )=7 ,2
5 5 5
*Réponse
1 x 1=5 7
2 x 2 =8 10
3 x 3 =8 10
4 x 4 =6 8
5 x 5 =9 11
− 5
1 1 1 1
x = ∑ xi = ( x 1 + x 2 + x3 + x 4 + x 5 ) = ( 7+10+10+ 8+11)= ( 46 ) =9 , 2
n i=1 5 5 5
Si une constante est ajoutée (ou retranchée), à chaque score, la même constante doit est
n −
1
x±c
= ∑ (
n i=1 i
x ±c )=x ±c
ajoutée (ou retranchée) à la moyenne :
3. Multiplions par une constante (par exemple 2) chaque valeur de la variable. Calculez
la moyenne de la nouvelle variable « notes d’histoire¿ 2 ». Quel est l’effet de cette
multiplication sur la moyenne ?
1 x 1=5 10
2 x 2 =8 16
3 x 3 =8 16
4 x 4 =6 12
5 x 5 =9 18
− 5
1 1 1 1
x = ∑ xi = ( x 1 + x 2 + x3 + x 4 + x 5 ) = ( 10+16+16+12+18 )= ( 72 )=14 , 4
n i=1 5 5 5
Si on multiplie (ou divise)chaque score par une constante, il faut multiplier (ou diviser) la
moyenne par la même constante :
n n
−
1 1
cx = ∑ cx i =c . ∑ x i=c x
n i=1 n i=1
n n
1 1 1 1 − −
x÷c= ∑ (
n i=1 i
x ÷c )= . ∑ x =
c n i=1 i c
. x =x ÷c
1 x 1=5 8
2 x 2 =8 8
3 x 3 =8 8
4 x 4 =6 6
5 x 5 =9 9
*Réponse
−
8+ 8+8+6+ 9 39
x= = =7 , 8
5 5
i X Y X2 Y2 X −Y XY
1 X 1 =3 Y 1 =9
2 X 2=8 Y 2 =3
3 X 3 =4 Y 3 =5
4 X 4 =5 Y 4 =2
5 X 5 =5 Y 5 =1
∑ ¿¿
Calculez les sommes suivantes et placez les formules et les réponses dans le tableau ci-
dessus :
*Solution
i X Y X2 Y2 X −Y XY
1 X 1 =3 Y 1 =9 9 81 -6 27
2 X 2=8 Y 2 =3 64 9 5 24
3 X 3 =4 Y 3 =5 16 25 -1 20
4 X 4 =5 Y 4 =2 25 4 3 10
5 X 5 =5 Y 5 =1 25 1 4 5
∑ ¿¿ 5 5 5 5 5 5
∑ X i=25 ∑ Y i=20 ∑ X 2i =139 ∑ Y 2i =120 ∑ ( X i −Y i )=5 ∑ X i Y i=86
i=1 i=1 i=1 i=1 i=1 i=1
5 5
∑ X 2i =9+64+ 16+25+25=139 ∑ ( X i )2=(25 )2=625
i=1 i=1
5 5
∑ Y 2i =81+ 9+25+ 4+1=120 ∑ ( X i −Y i )=−6+5−1+3+ 4=5
i=1 i=1
5 5 5
∑ X i−∑ Y i=25−20=5 ∑ X i Y i=27 +24+20+ 10+5=86
i=1 i=1 i=1
5 5
∑ X i . ∑ Y i =(25 )(20 )=500
i=1 i=1
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
I. Diagrammes élémentaires
On dit qu’un caractère est qualitatif si l’observation du caractère sur chaque individu de la
population n’est pas un nombre. Le caractère n’est pas mesurable ; les valeurs possibles du
caractère peuvent seulement être constatées.
Exemple 1
i. X : « le sexe »
ii. Y : « la situation matrimoniale »
iii. Z : « la nationalité »
iv. Q : « une couleur », etc.
On partira d’un exemple pour présenter les différentes représentations graphiques qu’on peut
associer à un caractère qualitatif.
Exemple 2
Dans une entreprise, on a observé le caractère X qui est la catégorie socioprofessionnelle. Les
résultats figurent ci-dessous :
C’est le même principe que les histogrammes, mais les classes sont remplacées par les
modalités
M 1 , M 2 ,. . ., M k , séparées les unes des autres. Très souvent, on ordonne les
modalités suivant les fréquences croissantes ou décroissantes.
Lorsqu’on tourne les axes de 90°, le diagramme en colonnes devient le diagramme en barres
horizontales. Les deux représentations s’appellent les tuyaux d’orgue.
0,5
n
0,4
0,3
0,25
0,1
0,0625
Modalités
Cadres Cadres Employés Ouvriers
Supérieurs moyens
Fréquence(
f i)
CS
CM
Modalités
C’est un disque découpé en plusieurs secteurs. Chaque secteur représente une modalité de la
variable X . La surface d’un secteur est proportionnelle à la fréquence de la modalité ou à
l’effectif de la modalité.
Ainsi pour une modalité de fréquence f , on prendra une valeur angulaire de 360 °×f .
Dans notre exemple, on prendra un angle de 22,5° pour les cadres supérieurs, 67,5° pour les
cadres moyens, 90° pour les employés et 180° pour les ouvriers.
C.M
E
C.S
O
Diagramme en secteurs
N.B : Il arrive qu’on utilise souvent un demi-disque à la place du disque. Dans ce cas, pour
On dit qu’un caractère est quantitatif s’il est mesurable (ou repérable), c'est-à-dire que
l’observation du caractère sur chaque individu de la population est un nombre :
- Sile caractère ne peut prendre que des valeurs isolées d’un intervalle de confiance, on
dit que c’est un caractère quantitatif discret. En général, ce sont des valeurs entières.
L’ensemble des valeurs possibles est fini.
Exemple 3
Exemple 4
A chaque modalité
X i est associé à partir du tableau statistique un effectif ni , un effectif
cumulé
N i , une fréquence f i , une fréquence cumulée F i .Pour visualiser ce qu’il y a dans le
tableau statistique, on peut faire les deux représentations graphiques suivantes :
fi
xi
N.B : Pour le diagramme en bâtons des effectifs, on met les effectifs en ordonnée.
Fi
xi
Diagramme cumulatif où
F i représente la fréquence cumulée et x i , la valeur de la
modalité
Lorsque X est un caractère quantitatif continu, les données sont regroupées en classes que
nous noterons
C 1 ,C 2 , . .. , Ck avec :C i=[ ai−1 ; ai [ ; i=1,...k
A la classe
C i , est associé un effectif ni , un effectif cumulé N i , une fréquence f i et une
fréquence cumulée
F i . On peut alors faire des représentations graphiques suivantes :
I.2.2.1. Histogramme
Pour l’histogramme des fréquences, lorsque les classes sont d’égales amplitudes, on met en
fi
Histogramme
Polygone de fréquences
Classes
Remarques
Il sert à préciser l’évolution des fréquences et s’obtient en joignant tous les milieux des
sommets de l’histogramme.
F
…….
i
Histogrammecumulatif
Classes
. Pour les mêmes considérations que le polygone des fréquences, le polygone cumulatif
converge vers une courbe définie en calcul des probabilités et qu’on appelle Fonction de
répartition de X .
Nous allons définir quelques termes que nous rencontrerons tout au long de cet ouvrage.
II.1. Modalités
Ce sont les valeurs possibles d’un caractère quantitatif discret ou d’un caractère qualitatif.
Exemple 5
Les caractères quantitatifs continus peuvent prendre une infinité de valeurs possibles. Pour
étudier ce type de caractère, on regroupe ces valeurs possibles en un certain nombre de
classes.
Exemple 6
a+b
. 2 est le centre de classe.
Les classes qui peuvent être considérées comme modalités du caractère quantitatif continu,
peuvent avoir une amplitude constante ou variable. Le choix du nombre de classes et de leur
amplitude se fait en fonction de l’effectif de la population, de façon à ce que le nombre
d’unités statistiques dans chaque classe soit suffisant pour éliminer les variations accidentelles
qui se produisent lorsqu’on considère de trop faibles effectifs.
C’est le nombre d’individus qui possèdent cette modalité (ou pour lesquels la valeur observée
du caractère se trouve dans la classe).La somme de tous les effectifs est égale au nombre total
d’individus sur lesquels la variable a été observée, soit N.
On suppose que les modalités sont ordonnées.L’effectif cumulé d’une modalité est égal au
nombre d’individus qui possèdent la modalité ou tout autre modalité inférieure à la modalité
en question. L’effectif cumulé d’une classe est égal au nombre d’individus pour lesquels
Elle s’obtient en divisant l’effectif de la modalité (ou de la classe) par l’effectif total N .C’est
un nombre compris entre 0 et 1 et peut s’exprimer en pourcentage lorsqu’on multiplie par
100. La somme de toutes les fréquences est égale à 1.
Elle s’obtient en divisant l’effectif cumulé de la modalité (ou de la classe) par l’effectif total
N.Tous ces résultats sont présentés dans un tableau qu’on appelle tableau statistique :
. . . . .
. . . . .
. . . . .
Ck nk N k =N f k =nk / N F k =1
Total N /// 1 ///
Exemple 7 : le dosage d’un produit dans le sang de malades suivant le même traitement a
donné le tableau ci-dessous :
12,5% des familles ont deux enfants, 30% des familles ont cinq enfants, 2,5% des familles
n’ont aucun enfant, 22,5% des familles ont un nombre d’enfants inférieur ou égal à deux ;
60% de familles des familles ont un nombre d’enfants inférieur ou égal à 4, etc.
En 2000, les recettes du budget d’un Etat se présentaient de la façon suivante (en milliards de
francs) :
*Solution
Le caractère étudié, la nature des recettes du budget de l’Etat, est qualitatif. On peut donc
utiliser, soit une représentation graphique par tuyaux d’orgue, soit une représentation par
secteurs.
Recettes
4001
300
200 2 5
100 3 4 6
1 : TVA ; 2 : Impôt sur le revenu ; 3 : Impôt sur les sociétés ; 4 : Taxe sur les produits
pétroliers ; 5 : Autres Impôts ; 6 : Recettes non fiscales.
Dans la représentation par tuyaux d’orgue, les différentes modalités du caractère (les
diverses sources de recettes du budget de l’Etat) sont figurées par des rectangles dont la base
est constante et dont la hauteur, et l’aire par conséquent, est proportionnelle aux effectifs (le
montant des recettes).
centre
Le graphique est tracé à l’aide d’un rapporteur après que l’on ait calculé l’angle au
relatif à chaque secteur. Par exemple, l’angle au centre du secteur représentatif des recettes de
360 °×348
=149 , 5°
la TVA est égal à :838
149°
70°
17°
69°
30
°°° 23
La valeur centrale est d’un point de vue pratique, la caractéristique la plus importante
puisqu’elle fixe l’ordre de grandeur des observations.
I. Moyennes
− n
1
x = ∑ xi
x 1 , x 2 , …, x n ne présentant aucune répétition est la quantité : n i=1
Exemple 1
−
1 16
x = (2+7+3+0+4 )= =3 , 2
5 5
Valeur de x1 x2 … xi … xr
la variable
Effectif n1 n2 … ni … nr
− r r
1
x= ∑ n x n=∑ ni
n i=1 i i où
est la quantité : i=1
Si les observations sont groupées en classes, on admet que toutes les observations de la classe
Exemple2
[0 ; 6[ 5 3 15
12 9 108
[6 ; 12[
3 15 45
[12 ; 18[
2 21 42
[18 ; 24[ 8 27 216
[24 ; 30[
∑ 30 - 426
− r
1 1
x = ∑ ni c i= (426 )=14 ,2
n i=1 30
I.2.1. Définitions
x
Soient les observations x 1 , x 2 , …, n , et une fonction monotone f assurant les
correspondances :
x1 x2 … xi … xr
f ( x1 ) f ( x2) … f ( xi ) … f ( xr )
n
1
f ( X )= ∑ f ( x i )
¿
¿
x
La moyenne des i par l’intermédiaire de f est le nombre X tel que n i=1
n
1
¿
f ( X )= ∑ n f ( xi )
n i=1 i
ou si la série présente des répétitions :
Outre la moyenne arithmétique, telle que f ( x )=x , diverses moyennes sont utilisées :
'
- Les moments centrés d’ordrer , m r , tels que f ( x )=x r
1
m'r = ∑
n i
ni xir
'
En particulier m 2 =Q
1
f ( x )=
- La moyenne harmonique H , telle que x
1 1 n
= ∑ i
H n i xi
Moyenne harmonique et moyenne géométrique réduisent l’influence des très grandes valeurs,
accroissent celle de très petites valeurs.
k k
1
x= ∑ n i x i =∑ f i x i
N i=1 i=1
( N 1 x 1)+ ( N 2 x 2)
x=
N 1+ N 2
Exemple 3
Dans une première maternité, il y a 100 bébés et le poids moyen d’un bébé est de3,5 kg. Dans
une deuxième maternité, il y a 150 bébés et le poids moyen d’un bébé est de 3,3 kg.
Le poids moyen d’un bébé dans l’ensemble des deux maternités est :
( 100×3 , 5 ) + ( 150×3 ,3 )
x= =3 ,38 kg
100+150
Exemple 4
−
1 27
x = (3+3+3+18 )= =6 , 75
4 4
= (
1 1 1 1 1 1
+ + +
H 4 3 3 3 18
1
= 1+
4
1
18 ) ( )
4×18
H= =3 ,78
D’où 19
1
ln G= (3 ln3+ ln 18 )
4
1 1
ln G= (5 ln3+ln 2 )= ( 5×0 , 4771 ) +0 , 3010=1 , 54
4 4
SoitG=4 , 7
−
x =38 ,75
H=15 ,38
Martin NJOCKE, Docteur en Economie Page 47
G=28 ,1
−
La faible valeur 5 a une influence plus grande sur H et G que sur x .
−
x ≥G≥H
Nous admettrons ce résultat, que l’on peut vérifier sur les exemples précédents.
Exemple 5
x i : variable 1 11 12 1 14 ///
0 3
ni : effectif 4 10 12 8 6 N=40
*Solution
− r
1 1
x = ∑ ni xi = ( 4×10+10×11+12×12+8×13+6×14 )=12 , 05
N i=1 40
Exemple 6
Dans l’exemple 8 du chapitre 2, page 29, le nombre moyen d’enfants par famille est :
− r
1 1
x = ∑ ni x i = ( 0×5+1×15+2×25+3×35+4×40+5×60+6×20 ) =3 ,75≈4
n i=1 200
Exemple 7
par :
1
x= ( 5×2 ,75+22×3 , 25+11×3 ,75+6×4 , 25+4×4 , 75+2×5 , 25 ) =3 ,63 mg/l
50
II.1. Le mode
II.1.1. Définition
Le mode
M 0 d’une distribution est la valeur de la variable statistique pour laquelle la
fréquence est la plus élevée (ou l’effectif le plus élevé).
C’est donc la valeur de la variable qui se rencontre le plus fréquemment. On l’appelle encore
variable dominante.
II.1.2. Détermination
- Lorsque la variable est discrète, le mode est défini sans ambiguïté. Si deux variables
successives de la variable ont la fréquence maximum, il y a un intervalle modal dont
les valeurs extrêmes correspondent à ces valeurs.
- Lorsque la variable est continue, les données étant regroupées en classes, la définition
précédente n’est applicable que sous la condition d’attribuer le mode à la classe elle-
même. On parlera de classe modale et on prend comme valeur du mode, le centre de la
classe.
II.1.3. Propriétés
Le mode est facile à calculer et a une signification assez immédiate. Sa détermination dans le
cas d’une variable continue n’est pas assez précise : elle dépend en partie du découpage retenu
en classes.
Une distribution peut avoir plusieurs modes. Elle est alors plurimodale. En général, une
distribution plurimodale correspond à un mélange de plusieurs séries statistiques (mélange de
populations).
II.2. La médiane
II.2.1. Définition
Considérons une série statistique rangée par ordre croissant ou décroissant. On appelle
médiane de cette série, toute valeur telle que le nombre d’observations qui lui sont inférieures
soit égal au nombre d’observations qui lui sont supérieures.
Pour une variable statistique discrète, la valeur retenue pour la médiane est celle qui
Pour une variable continue, on détermine d’abord la classe médiane [ a ; b[ qui est la
A ( 0 ,5−F c )
M =a+
f
Exemple 8
Exemple 9
Reprenons l’exemple 7, du chapitre 2, page 28, avec X : « quantité d’un produit dans le
sang ». La première fréquence qui dépasse 0,5 est 0,54. La classe médiane est donc
[3 ; 3,5[ .
Martin NJOCKE, Docteur en Economie Page 51
D’après la formule de la médiane, on a :
( 3 , 5−3 )( 0 , 5−0 ,1 )
M=3+ =3 , 45 mg/l
0 , 44
On en déduit que 50% des malades traités ont une quantité du produit dans le sang
inférieure à 3,45 mg/l.
II.2.4. Propriétés
La signification de la médiane devient incertaine dans le cas des séries discrètes présentant
des « sauts » importants, ou dans le cas des séries continues ne comportant que peu
d’observations.
La médiane de la série ordonnée 15, 20, 25, 30, 35 est 25 : deux observations sont inférieures
à 25 et deux observations sont supérieures.
Par contre, la médiane de la série 15, 20, 25, 30, 35, 40 n’est pas évidente :
II.3.1. Quantile
x
Par analogie avec la médiane, on définit le quantile d’ordreq , q , par la relation :
1
q=
2 définit la médiane M.
Les quantiles, dans le cas d’une variable continue, se calculent comme la médiane par
interpolation.
Quartiles : ce sont les quantiles d’ordre 1/4, 1/2, 3/4. On les note q 1 (premier quartile),
q 2 (médiane) et q 3 (troisième quartile). Les quartiles partagent la population en quatre
*TP 1
En réponse à une offre d’emploi visant à recruter une secrétaire sténodactylo, sept candidates
se sont présentées. Le test qui leur est proposé consiste dans la dactylographie d’un texte
Candidate n° 1 2 3 4 5 6 7
Nombre 1 5 4 3 7 6 10
d’erreurs
Chronométrage 11’06 s 12’43s 12’57s 14’16s 15’37s 13’14s 17’23s
(en minutes et
secondes)
1) Déterminer la médiane :
a) De la distribution des erreurs
b) De la distribution des temps de dactylographie.
2) Une huitième candidate se présente en retard et est admise à passer le test. Elle fait 9
erreurs et met 14’28s à dactylographier le texte. Déterminer la médiane :
a) De la nouvelle distribution des erreurs
b) De la nouvelle distribution des temps de dactylographie
*Solution
1) La médiane M d’une distribution est la valeur statistique telle que le nombre des
observations qui présentent une valeur inférieure à celle-ci soit égal au nombre des
observations qui présentent une valeur supérieure.
En d’autres termes, la médiane est la valeur de la variable statistique qui partage en deux
effectifs égaux la série des observations ordonnées suivant les valeurs croissantes ou
décroissantes du caractère.
Lorsque le nombre d’observations est impair (n=2 k +1) , ce qui est le cas ici, la médiane
1, 3, 4, 5, 6, 7, 9, 10
Intervalle médian
La variable étant continue, toutes les valeurs de l’intervalle [13’14s, 14’16s], dit intervalle
médian, répondent à la définition de la médiane. Par convention, on retient parfois dans ce
cas, pour valeur de la médiane, le centre de cet intervalle, soit 13’45s.
*TP 2
*Solution TP 2
1) Le mode
M o d’une distribution est la valeur de la variable statistique qui présente la
fréquence ou l’effectif la(le) plus élevé(e). La variable statistique, le nombre d’appels
téléphoniques par minute, étant discrète, le mode est défini avec précision. On le détermine
directement sur le tableau statistique.
2) La médiane M est la valeur de la variable statistique qui partage en deux effectifs égaux la
série des observations ordonnées suivant les valeurs croissantes ou décroissantes du caractère.
C’est la valeur pour laquelle la fréquence cumulée est égale à 1/2 : F ( M )=1/2 .
La médiane est donc déterminée à partir des fréquences cumulées, ou des effectifs cumulés
dont le calcul est plus simple et est effectué dans le tableau ci-dessus :
Martin NJOCKE, Docteur en Economie Page 56
Nombre de minutes Bureau de Douala Bureau de Yaoundé
(variable
xi ) Effectifs Effectifs Effectifs Effectifs
ni Cumulés ni Cumulés
Ni Ni
0 93 - 71 -
1 261 354 146 217
2 416 770 269 486
3 393 1163 414 900
4 308 1471 414 1314
5 174 1645 233 1547
6 93 1738 145 1692
7 42 1780 73 1765
8 et plus 20 1800 35 1800
Total 1800 - 1800 -
Pour le bureau de Douala, la valeur médiane est comprise entre 2 et 3 ; en d’autres termes, la
valeur 900 (=1800/2), qui divise les effectifs cumulés en deux est comprise entre 770 et 1163.
Cette valeur médiane s’obtient numériquement par interpolation linéaire :
2 770
Me 900
3 1163
M e −2 3−2 1
= ⇔ M e= ( 900−770 ) +2
900−770 1163−770 393
Soit
M e≈2 ,33
Pour le bureau de Yaoundé, la valeur médiane vaut 3 car à cette valeur de la variable,
l’effectif cumulé est égale à 900 (=1800/2).
*Solution TP 3
Pour déterminer le mode de cette distribution, la première étape consiste à vérifier que toutes
les classes ont la même amplitude ; sinon on procède à une correction des effectifs. En
considérant la valeur 0 comme valeur inférieure, on obtient le tableau suivant :
0+0 , 25
M M o= =0 , 125
Soit o , le mode : 2
Pour déterminer la médiane, la correction des effectifs n’est pas indispensable ; elle est
déterminée à partir des fréquences cumulées ou des effectifs cumulés. Soit le tableau ci-
dessous :
La moitié des effectifs est égale à : 67 640/2=33 820 ; cette valeur est comprise dans la classe
[0,50 ; 1,00[, considérée comme classe médiane.
0,50 24 386
Me 33 820
1,00 35 607
Soit
M e≈0 , 92 millions de F.
Les caractéristiques de tendance centrale ne suffisent pas à caractériser une série statistique,
bien que dans l’ensemble, elles donnent déjà une idée sommaire de la façon dont sont
distribuées les données.
Exemple 1
Nous constatons facilement qu’elles ont la même médiane 80, le même mode, la même
moyenne arithmétique80. Cependant, il est clair que les deux séries ne sont pas comparables.
Dans la première, les données sont resserrées autour de la valeur 80 ; dans la deuxième, elles
sont dispersées sur une large étendue. Nous disons simplement que la première a une faible
dispersion et que la seconde a une forte dispersion. Mais nous sentons la nécessité de fixer
cette dispersion par un nombre appelé caractéristique de dispersion ; sa base est en général la
notion d’écart.
I. Caractéristiques de dispersion
Les caractéristiques de dispersion les plus fréquemment utilisées sont : l’étendue, l’intervalle
interquartile, l’écart absolu moyen, l’écart-type. Les deux premières sont dans leur principe du
même type que la médiane, les observations intervenant par leur rang et non par leur valeur.
Les deux dernières font intervenir les écarts de chacune des observations à la moyenne
arithmétique.
Ces paramètres indiquent la mesure dans laquelle les observations s’écartent de la valeur
centrale.
x , x . . . x n , la
Soient y 1 et y 2 respectivement la plus petite et la plus grande des observations 1 2
Pour une distribution symétrique ou asymétrique, on peut obtenir une même valeur de
l’étendue. Par conséquent, l’étendue est une caractéristique imparfaite.
Le quantile d’ordre q est défini par la relation : F ( x q )=q . Les quantiles les utilisés sont les
quartiles et les déciles, et à un degré moindre, les centiles.
L’intervalle interquantile
x q −x 'q permet d’éliminer, au moins en partie, l’influence des très
grandes valeurs. Divers intervalles sont utilisés :
I.1.2.2. Définition
ans son principe, la définition d’un quartile est analogue à celle de la médiane. Il y a trois
D
quartiles
Q1 , Q2 , Q3 .
Q 1 est une valeur telle que 25% des observations lui sont inférieures et 75% lui sont
supérieures.
Q 2 est une valeur telle que 50% des observations lui sont inférieures et 50% lui sont
supérieures.
Ainsi définies, on voit qu’un quart des observations sont inférieures à Q 1 , un quart des
Q
observations comprises entre Q 1 etQ 2 , un quart des observations comprises entre Q 2 et 3 et
F (Q1 )=0 , 25
F (Q2 )=0 , 5
F (Q3 )=0 , 75
Cet intervalle ne tient compte que de l’ordre des observations et écarts entre elles et son calcul
est rapide.
Les quartiles se déterminent de la même manière que la médiane, soit par le calcul, soit à
partir des effectifs cumulés ou des fréquences cumulées.
Dans l’exemple 7, chapitre2, page 28, pour le caractère X : quantité d’un produit dans le
sang :
( 4−3 ,5 )( 0 ,75−0 , 54 )
Q3 ∈[ 3,5 ; 4[ et Q3 =3 , 5+ =3 , 98 mg/l
0 ,22 .
75% des malades traitées ont dans le sang une quantité du produit inférieure à 3,98 mg/l.
25% des malades traités ont dans le sang une quantité du produit inférieure à 3,17 mg/l.
Les quantités du produit dans le sang de 50% des malades varient les unes des autres d’une
valeur maximale de 0,81 mg/l.
1
Le premier décile D 1 est tel que 10 des observations lui sont inférieures et d’une façon
1
générale 10 des observations sont comprises entre deux déciles successifs. En utilisant la
fonction cumulative, on a :
F ( D 1 ) =0 ,1
F ( D 2 ) =0 , 2
F ( D 9 ) =0 , 9
L’intervalle
D9 −D1 qui contient 80% des observations est parfois employé comme mesure
de dispersion.
D5 est égal à la médiane.
Pour des séries comportant suffisamment d’observations, on peut déterminer les centiles
Ci.
et la seconde( 100−i ) % .
F ( C 1 ) =0 , 01
F ( C 2 )=0 , 02
F ( C 99 ) =0 , 99
L’intervalle
C 99−C 1 est l’intervalle inter-centile.
Les caractéristiques de dispersion qui suivent sont construites à partir de la même idée :
mesurer la dispersion d’une série au moyen des écarts entre les observations.
Soit
x 1 ,...,x k ,une sériestatistique etn1 ,..., nk , les effectifs associés. On appelle écart absolu
moyen, la quantité :
n
1
e m ( x )= ∑ |x i−x|
n i=1 dans le cas d’une série simple
n
1
e m ( x )= ∑ ni|x i−x|
n i=1 dans le cas d’observations groupées
L’écart est pris en valeur absolue car les valeurs algébriques peuvent se compenser et donner
une somme nulle qui ne mesurerait en rien la dispersion.
On appelle variance de x l’expression V ( x ) qui revêt l’une des deux formes suivantes selon
que les données ne sont pas ou groupées en classes :
n
1
V ( x)= ∑ ( x i−x ) 2
n i=1 dans le cas d’une série simple.
*Calcul de l’écart-type
A moins que la détermination des écarts ne soit immédiate, on ne les calculera jamais. En
effet, d’après les propriétés de l’opérateur linéaire ∑ :
∑ ni ( x i−x )2=∑ n i x 2i − n x2
Donc :
1
V ( x )= ∑ ni ( x i −x )2 =
∑ ni x i −x2 2
n n
D’où :
Par conséquent :
σ ( x )=
√ ∑ ni xi2 −x 2
n
Pour comparer deux distributions, il faut que les données soient mesurées avec la même unité.
Ainsi la moyenne et l’écart-type d’une série statistique s’expriment avec la même unité que
les mesures réalisées. Par conséquent, deux séries qui ne sont pas exprimées avec les mêmes
unités n’ont pas des moyennes et des écarts types comparables.
σx
Cx=
x si x≠0
Lorsque l’on considère le polygone des fréquences d’une série statistique, les principales
caractéristiques en ce qui concerne la forme sont la dissymétrie et l’aplatissement.
II.1. La dissymétrie
Il est toujours nécessaire de savoir si le polygone des fréquences est symétrique ou non, et s’il
ne l’est pas, de mesurer sa dissymétrie.
Dans une série parfaitement symétrique, mode, médiane et moyenne arithmétique sont
Q
confondus ; les quartiles Q 1 et 3 sont symétriques par rapport à Q 2 qui est la médiane.
Cette propriété est généralement caractéristique de la symétrie. Nous dirons alors que le degré
( Q3 −Q2 ) −( Q2 −Q1 )
CD=
Q 3 −Q1 (Coefficient de YULE)
- SiC D > 0 , alors le polygone des fréquences est étalé vers la droite. On a dans ce cas :
M 0< M < x .
- SiC D < 0 , alors le polygone des fréquences est étalé vers la gauche. On a dans ce cas :
M 0> M > x .
Remarque :
k
1
∑ n ( x −x ) 3
n i=1 i i
F=
σ 3x
On utilise aussi d’autres coefficients de dissymétrie qui se basent sur la position des
caractéristiques de tendance centrale.
x−M 0
P1 =
σx
3 ( x−M 0 )
P2 =
σx
II.2. L’aplatissement
k
1
∑ n ( x −x )4
n i =1 i i
α 4=
Où σ 4x
MESOKURTIQUE.
- C A <0 ⇔α 4 <3 , le polygone des fréquences est plus aplati que la courbe normale :
*TP 1
consommation en carburant d’un nouveau modèle, dans les conditions réelles d’utilisation. Au
cours des 500 tests réalisés sur une autoroute, les résultats suivants ont été obtenus :
*Solution
k
1 236 , 724
e= ∑ ni|c i−x|= =0 , 4731
n i=1 500
*TP 2
Pour son tableau de bord statistique, le directeur d’un office de logements sociaux fait calculer
Actuellement, la distribution des 110 familles inscrites sur la liste d’attente est la suivante :
d’enfants
0 18
1 27
2 27
3 18
4 15
5 5
Total 110
*Solution
k
1 220
x= ∑ ni xi = =2
n i=1 110
moyenne x ; dans la colonne suivante (5), on les élève au carré ; dans la colonne (6), on les
pondère par les effectifs correspondants. Au bas de la colonne (6), on lit :
k
∑ ni ( x i−x )2=222
i=1
k
1 222
V ( x )= ∑ ni ( x i −x )2 = =2 , 02
n i=1 110
1-b) En général, le calcul de l’écart-type par la méthode précédente est long et fastidieux. En
effet, il est exceptionnel que la moyenne arithmétique soit un nombre entier. Les écarts à la
moyenne comportent donc des décimales, ce qui conduit à des calculs laborieux lorsqu’on les
élève au carré.
Pour éviter d’avoir à calculer les écarts à la moyenne, on utilise la formule développée de la
variance :
∑ ni x 2i −n x2
1
V ( x )= ∑
n i
ni x 2i −x2 = i
n
k
1 220
x= ∑
n i=1
ni xi =
110
=2
2
D’où n x =110×(2)2 =440
∑ ni x 2i −n x2
1 662−440
V ( x)= ∑
n i
ni x 2i −x2 = i
n
=
110
=2 , 02
σ x =√ V ( x )=1 , 4
2) L’écart-type est une moyenne particulière : la moyenne quadratique des écarts de chacune
des observations par rapport à la moyenne arithmétique de celles-ci. Il possède la signification
d’une moyenne. Dans le cas présent, l’écart par rapport à la moyenne du nombre des enfants
des familles sur la liste est, en moyenne (quadratique), égal à 1,4. Cet écart moyen était
auparavant égal à 1,9. On peut donc affirmer que la dispersion du nombre d’enfants autour de
la moyenne, qui reste de deux enfants, s’est réduite.
Tranche de salaire
Année d’âge 3000 à 4000 F 4000 à 5000 5000 à 6000 F Ensemble
F
14 ans n11=1266 n12=540 n13 =194 n1 .=2000
15 ans n21=13801 n22=6582 n23 =3017 n2 .=23400
16 ans n31=30620 n32=22660 n33 =13020 n3 .=66300
Ensemble n. 1 =45687 n. 2 =29782 n. 3 =16231 n=91700
Nous pouvons nous poser diverses questions à propos de ce tableau, tout d’abord
considérer l’ensemble des 91700 jeunes gens et voir comment il se repartit en fonction de
l’âge ; nous sommes alors en présence d’une loi à une dimension, que nous savons représenter
et résumer. Il en est de même pour la répartition des jeunes gens suivant le salaire.
Si nous limitons notre examen aux marges du tableau, nous n’utilisons pas l’information
interne. Ainsi, pour utiliser l’information disponible, sommes-nous conduits à définir d’autres
répartitions que les lois marginales.Nous ne nous intéressons pas seulement à la répartition
des jeunes gens suivant les modalités d’un caractère (salaire, âge), mais après avoir fixé une
modalité d’un caractère, nous nous demandons comment les jeunes gens qui appartiennent à
cette modalité se distribuent suivant les modalités de l’autre caractère, comment les jeunes
gens de 14 ans par exemple, se repartissent dans les diverses tranches de revenu, quelle est la
structure par âge des jeunes gens gagnant de 4000 à 5000 F par an. Ces distributions sont
définies par une modalité donnée par un caractère. On parlera donc des lois conditionnelles.
I. Les distributions
ar modalités
C i , i=1,2,...,r et le second s modalités K j , j=1,2,...,s .
C1 n11 n12 … n1 j … n1 s n1 .
C2 n21 n22 … n2 j … n2 s n2 .
Modalités
… … … … … … … …
du premier
Ci ni 1 ni 2 … nij … nis ni .
caractère
… … … … … … … …
Cr n r1 n r2 … n rj … n rs n r.
Total n. 1 n . 2 … n. j … n . s n. .
r s r s
n. j=∑ nij ni .=∑ nij n=n. .=∑ ni .= ∑ n. j
i=1 j =1 i=1 j=1
Loi marginale de X :
xi x1 x2 … xi … xr
Modalités
Fréquences absolues n1 . n2 . … ni . … n r.
14 15 ans 16 ans
ans
2 000 23 400 66 300
Modalités
yj y1 y2 … y j … ys
Fréquences absolues n. 1 n . 2 … n. j … n . s
D’où les moyennes marginales :
r s
1 1
x= ∑ ni. x i y= ∑ n. j y j
n i=1 n j=1
r s
1 1
V ( x )= ∑ ni . ( x i−x ) 2 V ( y )= ∑ n. j ( y j − y )2
n i=1 n j=1
Loi conditionnelle de X si
Y= yj :
xi x1 x2 … xi … xr
Modalités
Fréquences absolues n1 j n2 j … nij … n rj
r
∑ nij=n. j
i=1
Loi conditionnelle de Y si
X =x i :
Modalités
yj y1 y2 … y j … ys
Fréquences absolues ni 1 ni 2 … nij … nis
s
∑ nij=ni.
j=1
D’où les moyennes et les variances conditionnelles, auxquelles il faut ajouter la covariance :
Loi de X si
Y= yj Loi de Y si
X =x i
Moyenn 1
r
1
s
e
x j= ∑n x
n. j i =1 ij i
yi= ∑n y
n i. j=1 ij j
Variance 1
r
1
s
V j ( x )= ∑ nij ( x i−x j ) 2 V i ( x )= ∑ n ij ( y j− y i ) 2
n. j i=1 n.i j=1
*TP 1
x i 8, 7,4 6,1 9
2
y i 15 12,1 16, 12
3
*Solution
Notons
x 3 et y 4 , les deux valeurs inconnues. Puisque les coordonnées du point moyen G
8 , 2+7 , 4 + x 3 +6 ,1+9
x G= =7 , 5 ⇔5×7 ,5=8 , 2+ 7 , 4+ x 3 +6 , 1+ 9
5
⇔ x 3 =5×7 , 5−( 8 , 2+7 , 4 +6 , 1+9 )=6 , 8
*TP 2
Lors d’une étude statistique sur une série double portant sur 12 points, on a obtenu :
*Solution
12
∑ xi
117
x G= i=1 = =9 , 75
12 12
12
∑ yi
22, 2
y G= i=1 = =1, 85
12 12
12
∑ x2i
1421
V ( x )= i=1 −( x G )2 = − ( 9 ,75 )2≈23 ,35
2) On a : 12 12
Donc : σ x =√ 23 ,35≈4 , 83
12
∑ y 2i
46 ,74
V ( y )= i=1 −( y G )2 = −( 1 , 85 )2 ≈0 , 47
De plus : 12 12
σ =
Donc : y √ 0,47≈0,69
TP 3
*
Déterminez les lois marginale et conditionnelle, les espérances et les variances marginales et
conditionnelles de l’âge et du salaire de la distribution suivante :
*Solution
Lois marginales
Age
Age
xi 14 15 16 Total
Fréquence relative
f i . 0,06 0,2 0,69 1
5
1
x=
n
∑ ni. x i
Moyenne :
1 1
V ( x )=
n
∑ n i. ( x i −x )2 = ∑ ni . x 2i −x 2
n
Variance :
D’où le tableau :
xi ni . ni . x i ni . x 2i
14 6 84 1176
15 25 375 5625
16 69 1104 17664
Tota 100 1563 24465
l
Applications numériques :
1 1 24465
V ( x )=
n
∑ n i. ( x i −x )2 = ∑ ni . x 2i −x 2 =
n 100
−( 15 , 63 )2≈0 , 35
Salaire
Salaire
yj 3,5 4,5 5,5 Total
n
Fréquence absolue . j
47 34 19 100
N.B : les variables étant continues, la première ligne du tableau ci-dessus correspond au
centre de classe et s’obtient de la manière suivante :
3+ 4 4 +5 5+6
3 , 5= 4 , 5= 5 , 5=
2 ; 2 ; 2
1
y=
n
∑ n. j y j
Moyenne :
1 1
V ( y )=
n
∑ n. j ( y j − y )2 = ∑ n . j y 2j − y 2
n
Variance :
D’où le tableau :
yj n. j n. j y j n. j y 2j
3,5 47 164,5 575,75
4,5 34 153 688,5
5,5 19 104,5 574,74
Tota 100 422 1839
l
1 422
y=
n
∑ n. j y j =
100
=4 ,22
1 1 1839
V ( y )=
n
∑ n. j ( y j − y )2 = ∑ n . j y 2j − y 2 =
n 100
−( 4 , 22 )2≈0 , 58
- Loi conditionnelle de l’âge sachant que la tranche de salaire est comprise entre 3
et 4 F (loi de X si Y = y 1 )
1
x 1=
n. 1
∑ nij x i
1 1
V 1 ( x )=
n. 1
∑ nij ( x i−x 1 )2 = ∑ nij x 2i −x 21
n. 1
D’où le tableau :
Applications numériques :
1 1 11387
V 1 ( x )=
n. 1
∑ nij ( x i−x 1 )2 = ∑ nij x 2i −x 21 =
n. 1 47
−( 15 , 55 )2 ≈0 , 47
- Loi conditionnelle de l’âge sachant que la tranche de salaire est comprise entre 4
et 5 F (loi de X si Y = y 2 )
1
x 2=
n .2
∑ nij x i
1 1
V 2 ( x )=
n. 2
∑ nij ( x i −x2 )2 = ∑ nij x 2i −x 22
n. 2
D’où le tableau :
Applications numériques :
1 533
x 2=
n .2
∑ nij x i =
34
≈15 ,67
et 6 F (loi de X si Y = y 3 )
1
x 3=
n .3
∑ n ij x i
1 1
V 3 ( x )=
n. 3
∑ nij ( x i −x 3 ) 2= ∑ nij x2i −x 23
n. 3
D’où le tableau :
Applications numériques :
1 299
x 3=
n .3
∑ n ij x i =
19
≈15 ,73
1 1 4711
V 3 ( x )=
n. 3
∑ nij ( x i −x 3 ) 2= ∑ nij x2i −x 23 =
n. 3 19
−( 15 , 73 )2 ≈0 , 51
1
y 1=
n1.
∑ n ij y j
1 1
V 1 ( y )=
n1 .
∑ nij ( y j − y 1 ) 2= ∑ n ij y 2j − y 21
n1.
D’où le tableau :
1 1
y 1=
n1.
∑ n ij y j = ×25≈4 ,17
6
1 1 107 , 5
V 1 ( y )=
n1 .
∑ nij ( y j − y 1 ) 2= ∑ n ij y 2j − y 21 =
n1. 6
−( 4 ,17 )2≈0 ,53
1
y 2=
n2.
∑ n ij y j
1 1
V 2( y )=
n 2.
∑ nij ( y j − y 2 ) 2= ∑ nij y 2j − y 22
n2 .
D’où le tableau :
Applications numériques :
1 1
y 2=
n2.
∑ n ij y j = ×100 ,5≈4 , 02
25
1 1 416 , 25
V 2( y )=
n 2.
∑ nij ( y j − y 2 ) 2= ∑ nij y 2j − y 22=
n2 . 25
− ( 4 , 02 )2 ≈0 , 49
1
y 3=
n3 .
∑ nij y j
1 1
V 3( y )=
n 3.
∑ n ij ( y j− y 3 )2 = ∑ nij y 2j − y 23
n3 .
D’où le tableau :
Applications numériques :
1 1
y 3=
n3 .
∑ nij y j = ×296 , 5≈4 , 30
69
1 1 1315 , 25
V 3( y )=
n 3.
∑ n ij ( y j− y 3 )2 = ∑ nij y 2j − y 23 =
n3 . 69
− ( 4 , 30 )2 ≈0 , 57
Lorsque l’on forme un tableau croisé, l’interdépendance des caractères, si elle n’est pas
établie, est au moins plausible. Les moyennes et les variances conditionnelles sont des
indicateurs précieux de liaison supposée, mais sont souvent en nombre tel que leur concours
pratique est limité. D’autre part, les relations entre les caractères qualitatifs ne peuvent être
de l’intensité de la liaison. Si l’interdépendance est forte, les propriétés optimales des courbes
Il est fréquent sur une population donnée de s’intéresser en même temps à l’âge, à la taille, au
poids, à la situation matrimoniale, etc., des individus qui la composent. De même, pour
qu’un seul caractère ; il faut donc considérer deux, sinon plus. Les méthodes statistiques
Nous nous contentons ici d’aborder l’étude simultanée de deux variables statistiques. Elles
sont présentées généralement sous forme de tableaux statistiques à double entrée. Dans tous
les cas, nous considérons des échantillons appareillés, c'est-à-dire que les deux variables
étudiés auront été observées sur le même ensemble d’individus à un instant fixe ou aux
Lorsque la valeur numérique des observations faites est porteuse d’information, nous devons
en tenir compte pour mesurer le degré de liaison entre les caractères étudiés.
I.1.1.1. Définition
ω
On considère N individus notés i , sur lesquels on observe simultanément deux variables
ω x y
quantitatives X et Y , dont les observations sur i sont respectivement i et i .
N N
1 1
x= ∑ x i y= ∑ y i
La moyenne de X est : N i=1 et celle de Y est : N i=1
N N
1 1
Var ( X )= ∑ ( x i −x )2 Var (Y )= ∑ ( y i − y )2
La variance de X est : N i=1 et celle de Y est : N i=1
N
1
C xy = ∑ ( x i−x )( y i− y )
N i=1
Remarques :
C =C yx . La covariance est un indice symétrique.
Il est clair que xy
C
Si X et Y sont confondues, xy est la variance de cette variable unique.
Si chaque individu
ω i est affecté d’un poids pi , la covariance s’écrit :
N
1
C xy = ∑ p i ( x i−x )( y i − y )
N i=1
Dans le cas particulier où X et Y sont des variables centrées, il vient :
N N
1 1
C xy = ∑
N i=1
x i yi C xy = ∑ p i xi y i
N i=1
ou
N N
1 1
x= ∑ x i y= ∑ y i
Car N i=1 et N i=1
Z=aX +b
T =cY + d
La covariance de Z et T va s’écrire :
N
1
C ZT =
N
∑ ( z i−z )( t i−t )
i=1
N
1
=
N
∑ [ ( ax i +b )−( a x +b ) ][ ( cy i +d ) −( c y +d ) ]
i=1
N
1
=
N
∑ ( ax i−a x )( cy i−c y )
i=1
N
1
=a . c ∑ ( x i−x )( y i − y )
N i=1
=a . c .C XY
Donc C ZT =a . c . C XY
I.1.2.1. Définition
C XY
r XY =
σ X σ Y où σ X et σ Y sont des écarts types respectifs de X et Y .
X 2 5 6 9 13
Y 3 4 8 12 13
2+5+6+ 9+13
x= =7
5
3+ 4+8+ 12+ 13
y= =8
5
9+16+64 +144+169
V (Y )= −( 8 )2 =80 , 4−64=16 , 4
5
σ Y = √V (Y )=√ 16 , 4=4 , 04
σ X σ Y =3 ,74×4 , 04=15 , 1
1
C XY = ( 2×3+5×4 +6×8+9×12+13×13 )−( 7×8 )=14 , 2
5
14 , 2
r XY = =0 , 94
15 , 1
I.1.2.2. Propriétés
I.1.2.2.1. Symétrie
I.1.2.2.2. Signification
*Sir XY =0 , on peut montrer qu’il n’existe aucune forme de liaison linéaire entre X etY . On
dit que ces deux variables sont non corrélées linéairement.
Il est important de noter qu’en dehors de ces valeurs particulières, la liaison linéaire entre X
et Y est d’autant meilleure quer XY est grand. C’est pour toutes ces raisons que l’on utilise
r XY comme mesure de « l’intensité » ou « degré » de liaison linéaire entre deux variables
quantitatives.
r XY mesure la liaison linéaire ; lorsqu’il est nul ou voisin de zéro, cette liaison est
inexistante ; mais il peut dans ce cas exister une liaison fonctionnelle non linéaire, qui peut
même être très forte. Il faudra donc être prudent lorsqu’on interprétera un coefficient r XY
voisin de zéro.
Exemple 2
X
-2 - 0 1 2
1
Y
4 1 0 1 4 −2−1+0+ 1+ 2
x= =0
5
4+1+0+1+ 4
y= =2
5
Z=aX +b et T =cY + d aveca,b,c ,d , des réels quelconques (on suppose simplement ici
2
On sait que l’on a : Var ( Z )=a Var ( X ) etVar(T )=c 2 Var (Y ) .
σ =|a|σ X et σ T =|c|σ Y
On en déduit : Z
C ZT a . c . C XY
r ZT = = =±r XY
De plus, on a : σ Z σT |a||c|σ X σ Y
r ZT etr XY sont donc égaux si a et c sont de même signe, et opposés dans le cas contraire.
appelle respectivement
nij et f ij , l’effectif et la fréquence observés simultanément dans la
nij
Y f =
modalité M iX de X et la modalité M j de Y : ij N
… … … … … …
M iX ni 1 … nij … ni .
… … … … … …
M kX nk 1 … n kj … nk .
∑ ¿¿ n. 1 … n. j … n. .=N
nij M iX M Yj
: nombre d’individus ayant pris simultanément la modalité de X et la modalité
de Y .
ni . M iX
: nombre total d’individus ayant pris la modalité de X .
n. j M Yj
: nombre total d’individus ayant pris la modalité deY .
I.2.1.1. Définition
En faisant référence à cette conception probabiliste des tables de contingence, nous dirons par
définition que deux variables statistiques catégorielles X et Y sont non liées si les variables
aléatoires correspondantes sont indépendantes en probabilité.
Notons{
X = M iX } X
, l’évènement « apparition de la modalité M i de X » et
Y = M Yj }
, {
l’évènement « apparition de la modalité
M Yj de Y ».
D’autre part, on a :
{
p X= M iX } =
ni .
N et {
p Y = M Yj }=
n. j
N
nij ni .×n. j
= ∀ ( i , j ) ∈ I ×J
N N2
Ce sont ces dernières relations que nous prendrons comme définition de l’état de non liaison
entre X et Y .
La mesure de la liaison entre X et Y va se f aire à partir des écarts entre chaque effectif
nij et
ni.×n. j
chaque quantité N que l’on appelle effectif théorique (en cas de non liaison, c'est-à-dire
sous l’hypothèse d’indépendance en probabilité).
Pour éviter des problèmes de signes et pour des raisons mathématiques, ces écarts sont
considérés au carré ; chaque carré est ensuite divisé par l’effectif théorique correspondant
pour obtenir une quantité relative.
( )
k l 2
N n ×n
χ =∑ ∑ 2
n ij− i. . j
Leur somme globale I=1 J =1 ni.×n. j N est appelée le khi-deux de
suivante :
( n2ij
)
k l
χ =N ∑ ∑
2
−1
I =1 J =1 ni . ×n. j
C’est en général cette dernière expression que l’on utilise pour calculer la valeur du khi-deux.
Y M Y1 M Y2 M Y3 ∑ ¿¿
X
M 1X 6 1
3 10
M 2X 0 6
4 10
∑ ¿¿ 6
7
7 20
χ 2 =20 ( 62
+
1
+
32
6×10 7×10 7×10
+0+
62
+
42
7×10 7×10
−1 ≈9 , 714 )
I.2.1.2. Propriétés
Par définition, le khi-deux est toujours positif ou nul. De plus, si on considère une table de
pas borné.
2
Il est clair que si χ =0 , alors X et Y sont indépendantes en probabilité et réciproquement.
Par ailleurs, N , k , l, étant fixés, le khi-deux est par construction d’autant plus grand que la
liaison entre X et Y est forte.
en additionnant leurs effectifs, alors le khi-deux n’est pas modifié si les effectifs de ces deux
lignes (ou de ces deux colonnes) sont non proportionnels, il diminue sinon.
Etant donné deux variables catégorielles, en général, le khi-deux est d’autant plus petit que le
nombre de modalités définies sur ces variables est faible ; inversement, plus on augmente le
Individu ω1 ω2 … ωi … ωN
s
X x1 x2 … xi … xN
Y y1 y2 … yi … yN
i=1 i=1
N
E=∑ ε 2i
ε i est la «distance » des points du nuage à la droite. Par conséquent, i=1
On voit que est
y i =ax i +b
la somme des carrés des distances des points du nuage à la droite d’équation .
La méthode des moindres carrés cherche donc à trouver parmi toutes les droites du plan, celle
qui minimise la quantité E . La droite ainsi obtenue s’appelle : droite de régression linéaire
(ou d’ajustement linéaire) de Y sur X . C’est la droite qui est « globalement la plus proche de
l’ensemble des points du nuage ».
N
E=∑ ( y i −ax i−b )2
La quantité i=1 est fonction de a et b qui minimisent E , on doit résoudre le
système suivant :
{ {
N N
{
∂E ∑ −2( yi−axi−b) xi=0 N ∑ ( yi−axi−b) xi=0 (1)
∂E ∂a =0
⇔ ¿∑ ( yi−axi−b)= 0 (2)
N
¿ ∂b =0 ⇔ ¿ ∑ −2( yi−axi−b )=0i=1 i=1
i=1 i=1
N N N N
∑ ( y i−ax i−b )( x i−x ) = ∑ ( y i−ax i−b ) x i −x ∑ ( y i−ax i−b )=∑ ( y i−ax i−b ) xi
i=1 i=1 i=1 i=1 car
N
∑ ( y i−ax i−b )=0
i=1 d’après l’équation (2) du système.
{
N
N ∑ ( yi−axi−b )(xi−x)=0 (1')
¿ ∑ ( yi−axi−b)=0 (2) i= 1
i= 1
N N
⇔ ∑ y i−a ∑ x i −Nb=0
i=1 i=1
N N
⇔ Nb=∑ y i−a ∑ xi
i=1 i=1
N N
1 a
⇔b= ∑ y i − ∑ x i
N i=1 N i=1
⇔b= y −a x (3 )
N N
∑ ( y i−ax i− y +a x )( x i −x ) =0 ⇔ ∑ [ ( y i − y )−a ( x i−x ) ] ( x i −x )=0
i=1 i=1
N N
⇔ ∑ ( y i − y )( x i−x ) −∑ a ( xi −x )2 =0
i=1 i=1
N N
⇔ ∑ ( y i − y )( x i−x ) = ∑ a ( x i− x ) 2
i=1 i=1
N
∑ ( x i−x )( y i − y ) Cov ( X , Y )
â= i=1 N
= (4)
Var ( X )
∑ ( x i−x ) 2
i=1
^
En remplaçant l’équation (4) dans l’équation (3), la valeur b de b devient :
^ y− a^ x
b=
Pour moyenne
^y i = y
(^) 2
Pour variance V Y =r XY V ( Y ) oùr XY est le coefficient de corrélation linéaire de
X et Y .
En approchant
y i par ^y i , on commet une erreur de spécification ε i= y i − ^y i
La série
ε i ; i=1 , .. ., N est la série des erreurs. On montre que cette série a :
Pour moyenne ε =0
V ( ε ) =(1−r 2XY ) V (Y )
Pour variance
^
On constate alors V ( Y )=V ( Y ) +V ( ε ) où :
V ( Y ) : variance totale
V ( ε ) : variance résiduelle
La régression linéaire de Y sur X est d’autant meilleure que la variance expliquée est grande
par rapport à la variance totaleou que la variance résiduelle est petite par rapport à la variance
totale.
- Si
|r XY |≈0 ⇔V ( Y^ ) =r 2XY V ( Y )≈0 , alors la régression est mauvaise.
- Si
|r XY|≈1 ⇔V ( ε )=(1−r 2XY ) V ( Y )≈0 , alors la régression est bonne.
Remarques
1) Lorsqu’on fait la régression linéaire de Y sur X par la méthode des moindres carrés,
on veut trouver entre Y et X , une relation du type :Y =aX +b .
Quelquefois il est difficile de diviser la série étudiée en deux groupes d’égale importance,
notamment quand le nombre de modalités de la variable est impair.
Par ailleurs résumer chaque sous – groupe à son point moyen comme le fait la méthode de
Mayer peut paraître une approche grossière. Toutefois, cela constitue une première approche
qui peut se révéler suffisante dans certaines études.
*TP 1
Dans une banque, une enquête sur le tabagisme donne les résultats ci-dessous :
Y Hommes Femmes
X
Fumeurs 420 75
Non – Fumeurs 280 225
*Solution
1)
420+75
p1 = =0 , 495
. La proportion de fumeurs est 1000
420
p2 = =0 , 60
. La proportion de fumeurs parmi les hommes est 700
75
p3 = ≈0 ,15
. La proportion de femmes parmi les fumeurs est 420+ 75
Y Hommes Femmes ∑ ¿¿
X
Fumeurs 420 75 495
346,5 148,5
Non – Fumeurs 280 225 505
353,5 151,5
∑ ¿¿ 700 300 1000
N.B : Les effectifs théoriques sont en gras et placés en dessous de chaque effectif observé.
495×700
n1 = =346 , 5
L’effectif théorique associé à l’effectif observé 420 est 1000
495×300
n2 = =148 , 5
L’effectif théorique associé à l’effectif observé 75 est 1000
505×300
n 4= =151 , 5
L’effectif théorique associé à l’effectif observé 225 est 1000
On en déduit que les deux caractères X et Y sont dépendants, plus précisément le fait de
fumer dépend du sexe, autrement dit les hommes et les femmes ne se comportent pas de la
même manière vis-à-vis de la cigarette dans cette banque.
2
N.B : Pour certaines valeurs du χ , il est difficile de choisir entre la dépendance et
l’indépendance de X etY . Seul un test statistique permettra de faire ce choix, mais bien sûr
avec un risque d’erreur.
*TP 2
Lors d’une étude statistique sur une série double portant sur 12 points, on désire étudier la
Cov ( x , y ) 3 ,28
â= = ≈0,14
Var ( x ) 23 , 35
^ y− a^ x=1,85−0,14×9,75≈0 ,485
b=
Cov ( x , y ) 3 , 28
r xy = = ≈0 , 99
σ ( x ) σ ( y ) √ 23 , 35×√ 0 , 47
*TP 3
*Solution
1) Méthode de Mayer :
Y t =at+b
Année
Tonnage
Yt
t
Groupe 1990 1 58
A
1991 2 60
1992 3 62
1993 4 65
∑ - 10 245
Groupe 1994 5 68
∑ - 26 284
{
10
t = =2,5
A ¿ Y A=2454 =61,25 A 4
B {¿
26
284 tB = 4 =6,5
Y B= =71
4
Y =2,4375t +55,16
Par conséquent t
a=
∑ tY t −nt Y
∑ t2−n t 2
Tableau de calcul
t Yt tY t t2
1 58 58 1
2 60 120 4
3 62 186 9
4 65 260 16
5 68 340 25
6 70 420 36
7 72 504 49
8 74 592 64
36
t = =4 ,5
8
Y =66 , 125
*TP 4
x
4,9 4,1 5, 8,6 4,6
5
y 45 7 40 50 25
*Solution
1) y en fonction de x : y=ax+ b
Tableau de calcul
x
y xy
x2 y2
4,9 45 220,5 24,01 2025
4,1 7 28,7 16,81 49
5,5 40 220,0 30,25 1600
8,6 50 430,0 73,96 2500
4,6 25 115,0 21,16 625
'
a=
∑ xy−n x y =1014 ,2−5×5 ,54×33 , 4 =0,0729
∑ y 2−n y 2 6799−5×(33 , 4)2
x=a ' y+b' ⇔ x=a' y+b' ⇔b ' =x−a ' y
b ' =5,54−0,0729×33,4=3,105
D’où x=0 , 0729 y +3 , 105
3) Coefficient de corrélation
Un indice simple ou élémentaire est le rapport entre les valeurs d’un élément (prix, volume,
quantité, nombre de titres, cours…) prises à deux dates différentes. L’une de ces dates sert de
base.
pt
it =
0
p0
p0 : prix à l’époque 0 ;
pt : prix à l’époque t .
pt
It = ×100 It
p0
0 où 0 représente l’évolution du prix du bien entre 0 et t .
A la période 0, l’indice est égal à 100. La base 100 est dite à l’époque 0.
1 10000
it = ⇔i t ×i 0 =1⇔i t ×100×i 0 ×100=10000 ⇔ I t ×I 0 =1000 ⇔ I t =
0
i0 0 t 0 t 0 t 0
I0
t t
Changer de base d’un indice présente un intérêt notamment quand il s’agit de le comparer
avec un indice de base différente. Ainsi, la période de base des indices est identique et la
comparaison possible.
Un indice synthétique groupe des indices simples de même nature. Il permet d’exprimer
l’évolution des prix ou des quantités d’une grandeur (ou panier) formée de plusieurs
grandeurs élémentaires, plusieurs produits par exemple.
Chaque indice simple est affecté d’un « poids » ou coefficient de pondération, différent selon
l’importance que l’on veut accorder à chaque produit. Le coefficient de pondération c ,
correspond à la part du produit i dans le panier :
pi 0 ×qi 0
c i 0= n
∑ pi 0 ×qi 0
- Par rapport à la période de base : i =1
pit ×qit
c it = n
∑ pit ×q it
- Par rapport à la période courante : i=1
Avec
L’indice des prix de Laspeyres est la moyenne arithmétique des indices élémentaires des prix
pondérés par le coefficient de la période de base :
Cette dernière formule est utilisée de préférence pour calculer la valeur de l’indice.
Exemple
Pour trois produits consommés par une famille, la dépense et les prix ont été les suivants
pendant deux périodes :
∑ - - - 607,84 2302,92
62 , 38
c 20= =0 ,103
Œufs : 607 ,84
481 , 41
c 30= =0 ,792
Viande : 607 ,84
p1
I1 = ×100
0
p0
30 , 65
I1 = ×100=516 , 9
5 , 93
Poissons : 0
I 1 =231 , 1
Œufs : 0
I 1 =296 , 6
Viande : 0
L’indice des prix de Laspeyres est la moyenne arithmétique de ces indices pondérés par les
coefficients précédents :
∑ - - - - - 607,8 1902,97
4
1902 , 97
L( p)1 = ×100=313
0
607 , 84
Les prix ont ainsi augmenté de 313 – 100 = 213% entre la période 0 et la période 1.
L’indice des quantités de Laspeyres est la moyenne arithmétique des indices élémentaires des
quantités pondérés par le coefficient de la période de base.
L( q )t =∑ c i 0 ×I ( q )t
0 0
L( q )t =
∑ pi 0×qit ×100
0 ∑ p i 0 ×q i 0
D’après l’exemple précédent, l’indice des quantités vaut :
Remarque :
0 : ∑ pi 0 ×qi 0 .
Au numérateur :
- De l’indice Laspeyres des prix, les quantités de la période 0 sont conservées ; les prix
sont ceux de la période t .
- De l’indice Laspeyres des quantités, les prix de la période 0 sont conservés ; les
quantités sont celles de la période t .
Chaque indice de Paasche est la moyenne harmonique des indices pondérés par les
coefficients de pondération de la période actuelle.
L’indice des prix de Paasche est la moyenne harmonique des indices simples pondérés par les
coefficients de pondération de la période actuelle.
n
1 1
=∑ c it ×
P( p )t i=1 I ( p )t
0 0
n
pit ×qit 1
=∑ n
×
p it
∑ pit ×qit
i=1
×100
i=1 p i0
n p ×q p i0
1
×∑
it it
= n
×
i=1 p it 100
∑ pit ×qit
i=1
n
∑ pi 0×qit
i=1 1
= ×
n 100
∑ pit ×qit
i=1
n
∑ pit ×qit
i=1
= n
×100
∑ pi 0×qit
i=1
Exemple
437 , 38
c 11 = =0 , 190
Poisson : 2302 ,92
Viande :
c 31=0 , 729
L’indice élémentaire des prix de chaque produit est identique. Ainsi, l’indice des prix de
Paasche, moyenne harmonique de ces indices pondérés par les coefficients précédents sera :
P( p )1 =315
D’où 0
L’indice des quantités de Paasche est la moyenne harmonique des indices simples des
quantités pondérés par la période actuelle.
n
∑ pit ×qit
P(q )t = i=1
n
×100
0
∑ pit ×q i0
i=1
Exemple
2302 , 92
P(q )t = ×100=121
0
1902 , 97
Il a été proposé par le théoricien Fischer. Il est la moyenne géométrique des deux indices
Laspeyres et Paasche. Etant une moyenne, sa valeur est comprise entre les deux précédents :
P<F <L
F ( p )= √ L( p)×P( p )
Il intègre les fluctuations des prix des produits frais et de l’habillement ainsi que la hausse
mensuelle des loyers.
L’indice du coût de la construction (ICC) est un indice des prix de la construction de tous les
logements neufs à usage d’habitation. Les prix s’entendent toutes taxes comprises, mais
*TP 1 : évolution des prix de vente en rapport avec l’indice de l’Institut national de la
statistique et des études économiques
Une entreprise produit et vend principalement deux articles A et B dont l’évolution des prix
de vente unitaire hors – taxe et des quantités vendues est donnée ci – dessous avec l’évolution
de l’indice des prix à la consommation.
A B Indice Institut…
Pu q Pu q
199 8,40 100 24 500 100
0 0
199 8,80 140 25,1 620 107,8
3 0
199 9,45 190 26 830 109,7
4 0
1) Sans tenir compte des quantités vendues, comparer les indices d’évolution des prix de
A et B avec celui de l’Institut national de la statistique et des études économiques
(base 100 en 1990).
2) L’entreprise juge préférable de prendre 1993 comme nouvelle base. Indiquer une
relation simple permettant de calculer les nouveaux indices de A et B à partir des
anciens.
*Solution TP 1
Indice Institut…
A 8 ,80 107,8
I 1993/1990 = ×100=104 ,8
8 , 40
9 , 45 109,7
I 1994/1990 = ×100=112 ,5
8 , 40
B 25 ,1 107,8
I 1993/1990 = ×100=104 , 6
24
26 109,7
I 1994/1990 = ×100=108 ,3
24
Pour les deux produits A et B , l’augmentation des prix entre 1990 et 1993 a été moins
importante que celle de l’indice de l’Institut. Pour la période totale 1990 – 1994, le prix du
produit A a augmenté plus que l’indice de l’Institut, le prix du produit B moins.
On sait que
I 93/90 ×I 90 /93=10000 (réversibilité).
1 1
I 90/93 = ×10000= ×10000=95 , 4
Pour A :
I 93 /90 104 , 8
1 1
I 90/93 = ×10000= ×10000=95 , 6
Pour B :
I 93 /90 104 , 6
I 94 /90 112 ,5
I 94 / 93= ×100= ×100=107 , 3
Pour A : I 93 /90 104 , 8
I 94 /90 108 ,3
I 94 / 93= ×100= ×100=103 , 5
Pour B : I 93 /90 104 , 6
n
∑ p94 ×q 90
L( p) 94/90= i=1
n
×100
∑ p 90×q 90
Formule de Laspeyres : i=1
n
∑ p 94×q 94
P( p )94 /90 = i=1
n
×100
∑ p 90×q 94
Formule de Paasche : i=1
Tableau de calcul :
22450
L( p) 94/90= ×100=110, 05
20400
39535
P( p )94 /90 = ×100=110, 19
35880
Pour comparer le coût de la vie dans certaines villes camerounaises, on se fonde sur le budget
type d’un individu. Les prix ( p) et les quantités (q ) consommées de certains biens (exprimés
avec des unités convenables) dans ces villes sont indiqués dans le tableau ci – dessous :
*Solution TP 2
n
∑ pit ×q i0
L( p)= i=1
n
×100
∑ pi 0×qi 0
i=1
1
Cette étude permet d’utiliser des indices calculés dans des espaces différents et non à des périodes différentes.
Leur mode de calcul est identique. Il suffit d’adapter les formules de calcul connues.
∑ ¿¿ 31 25 14 18
Réversibilité ?
Tableau de calcul
n
∑ p B×q D
L( p) B/ D= i=1
n
×100
∑ p D ×q D
i=1
26
= ×100=144 , 44
18
Transférabilité ?
56 , 52×144 , 44
L( p)Y /B ×L( p) B/ D= =81 , 64≠L( p )Y / D=77 , 8
100
Chaque composante peut faire l’objet d’une analyse en vue de réaliser une prévision
économique. L’étude se limite à celle de deux composantes essentielles que sont T et S .
0 Temps
0 Temps
La modulation a une amplitude qui augmente avec le temps : c >b> a .
Les moyennes et les écarts – types calculés sur chaque période augmentent avec le temps. La
représentation graphique des écarts – types en fonction des moyennes montrent un alignement
des points.
Soit une série de valeurs (Y t ) prises par la variable observée sur n périodes. On appelle
Si k est impair :
Y t − p +Y t − p−1 +. ..+Y t +Y t −1 +. . .+ Y t − p k −1
M t= p=
k ;avec 2
Si k est pair :
Y t− p Y
−Y t − p−1 + .. .+ t −p
2 2 k
M t= p=
k ;avec 2.
Exemple
A partir du 3e trimestre de 1993, calculer les totaux mobiles, les moyennes mobiles et les
coefficients saisonniers d’ordre 4.
T3 7 40 - - -
T4 8 56 - - -
- - - - - -
- - - - - -
Pour 1993,
T 3 , le total mobile d’ordre 4 est obtenu de la façon suivante :
n
∑ ti Y i −n t Y
a= i=1n
∑ t 2i −n t2
i=1
b=Y −a t
Elle a pour objet de déterminer la variation des valeurs de la variable d’une période à l’autre,
de mois en mois, de trimestre en trimestre, par exemple.
Pour cela, on calcule des indices ou coefficients saisonniers attachés à une période, à un mois,
à un trimestre particulier.
Y =T + S
III.1. Cas d’un modèle additif
-
St sont récapitulés par période dans un tableau.
Les résultats précédents
-
St
Le coefficient associé à une période est la moyenne arithmétique des
correspondants.
- La somme des coefficients saisonniers dans un modèle additif est nulle. Il est donc
nécessaire d’ajuster les coefficients trouvés pour rendre leur somme égale à zéro.
Y =T ×S
III.2. Cas d’un modèle multiplicatif
La méthode habituellement utilisée pour déterminer les coefficients saisonniers est celle des
rapports à la tendance.
-
T t grâce à l’équation de la droite d’ajustement mise en évidence au
Il faut calculer les
deuxième paragraphe (II), ou bien utiliser les moyennes mobiles si elles sont calculées
à la place de la droite d’ajustement.
Y t (Y observé)
×100
- T t (Y ajusté ) .
Il faut aussi calculer les rapports
- Les rapports sont classés par périodes dans un tableau récapitulatif.
- Le coefficient associé à une période est la moyenne arithmétique des rapports
correspondants.
- La somme des coefficients saisonniers doit être égal à 400 si des coefficients
trimestriels sont recherchés (100 × 12 mois). Il faut donc ajuster les coefficients
trouvés.
Il s’agit d’éliminer l’influence saisonnière pour ne garder que la tendance réelle. Pour chaque
V. Prévisions
L’intérêt de cette analyse des séries chronologiques est de mettre en évidence la saisonnalité
de la variable de façon à réaliser des prévisions plus justes.
Pour les périodes à venir, on calcule les valeurs de la variable en utilisant l’équation de la
tendance. On obtient :
T t =at +b .
Y =T t +C
C
Y =T t ×
100
Sur une nationale, on a relevé le nombre de véhicules passant dans le sens Douala – Yaoundé
au cours des quatre dernières années. Les résultats sont regroupés dans le tableau suivant :
3e trimestre
763000 820000 864000 876000
1) Représentation graphique
Véhicules
en milliers
900
800
700
600
500
400
300
200
100
Trimestres
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Total mobile pour le 1er trimestre 1995 = 763 + 563 + 438 + 665 + 820 = 3249.
La somme des coefficients est égale à – 1. Elle doit être égale à 0. Il faut donc ajouter à
chaque coefficient 0,25 (=1/4), pour obtenir le coefficient saisonnier de chaque période.
Tableau 1
2 578 543,02
1 876 660,08
1 650 713,75
3e trimestre
203,60 219,80 223,60 215,67 215,92
∑ - - - - -1,00 0,00
L’entreprise Félicité a enregistré ses ventes pendant les années N−2 , N−1 et N . Désireuse
de lancer un nouveau produit au début de l’année N +2 , elle a besoin de connaître sa
prévision de chiffre d’affaires pour l’année N +1 . Les ventes trimestrielles (en milliers de
francs) sont les suivantes :
N−2 N−1 N
Trimestre 2840 3020 3290
1
Trimestre 2570 2630 2480
2
Trimestre 2400 2420 2620
3
*Solution
1) Représentation graphique
C A en
milliers
4500
4000
3000
3500
2500
2000
1500
1000
Martin NJOCKE, Docteur en Economie Page 140
500
Trimestres
2) Détermination du modèle de décomposition
T N−2 N−1 N
Y Y2 Y Y2 Y Y2
1 2840 8065600 3020 9120400 3290 10824100
2 2570 6604900 2630 6916900 2480 6150400
3 2400 5760000 2420 5856400 2620 6864400
4 4640 21529600 4260 18147600 3730 13912900
Total 12450 41960100 12330 40041300 12120 37751900
Y 3112, 3082, 3030
5 5
V 802368,75 508518,75 257050
σ 895,75 713,11 507,00
800
700
600
500
400
300
200
Martin NJOCKE, Docteur en Economie Page 141
100
T t =at +b
Tendance linéaire
Année t Y t ×Y t2 Tt Yt Y désaisonnalisé
s ×100
Tt
N−2 1 2840 2840 1 2929,635 96,94 2829
2 2570 5140 4 2956,065 86,94 3070
3 2400 7200 9 2982,495 80,47 2989
4 4640 18560 16 3008,925 154,21 3422
N−1 5 3020 15100 25 3035,355 99,49 3008
6 2630 15780 36 3061,785 85,90 3142
7 2420 16940 49 3088,215 78,36 3014
8 4260 34080 64 3114,645 136,77 3141
N 9 3290 29610 81 3141,075 104,74 3277
10 2480 24800 100 3167,505 78,30 2963
11 2620 28820 121 3193,935 82,03 3263
12 3730 44760 144 3220,365 115,83 2751
Total 78 3690 243630 650 - - -
0
243630−12×3075
a= =26 , 43
t=78/12=6,5 650−12×(6 ,5 )2
D’où
T t =26 , 43 t+2903 ,205
Exemple : t =10 ,
T 10=26 , 43×10+2903 , 205=3167 ,505
Yt
×100
Calcul des rapports à la tendance : T t
Yt 2480
×100= ×100=78 , 30
T
t =10 , t 3167 , 505
Exemple :
Le total des coefficients doit être égal à 400. Il faut donc réaliser un ajustement :
135 , 60
e C 4= ×400=135 , 61
Exemple : 4 trimestre : 399 , 99
5) Dessaisonalisation de la série
Comme le modèle est un modèle de décomposition multiplicatif :
Valeur observée
Valeur désaisonnalisée= ×100
Coefficient saisonnier (cf. tableau 1)
e
Pour t=10=2 trimestre ; d'où le coefficient saisonnier est C 2 =83 , 71
2480
Y désaisonnalisé= ×100=2962, 609007≈2963 milliers de francs
Ainsi, 83 ,71
6) Prévision pour N +1
Calcul de la tendance T , puis application du coefficient saisonnier trimestriel
correspondant :
Le coefficient saisonnier retenu pour une période est alors la moyenne des résultats
précédents.
CORRIGES
Exercice 1
Dans une première maternité, l’observation du poids de 130 bébés une semaine après la
naissance, a donné le tableau ci-dessous :
Poids en kg [1 ; 2[ [2 ; 3[ [3 ; 4[ [ 4 ; 5[
Nombre de 25 55 30 20
bébés
Exercice 2
On se propose de rechercher chez les enfants asthmatiques, une liaison entre l’intensité de
l’asthme et la présence ou l’absence de nausées. Pour chaque enfant, on observe le niveau de
l’asthme. Pour chaque enfant, on observe le niveau de l’asthme et la présence ou l’absence de
nausées. On obtient le tableau ci-dessous :
Exercice 3
Une étude sur l’évolution du cholestérol (en g/l) en fonction de l’âge (années) a donné les
résultats exprimés dans le tableau suivant :
X (années) 20 30 40 50 60
Y (g/l) 2 2, 3 3,5 4
5
Exercice 4
L’observation de la taille d’un échantillon de filles de 12 ans a donné les résultats suivants :
Taille (cm) [100 ;105 [ [105 ;110 [ [110 ;115 [ [115 ;120 [ [120 ;125 [
Effectifs 40 20 10 5 15
Exercice 5
Une étude concernant le niveau intellectuel dans une ville portuaire a été réalisée sur un
ensemble de 200 hommes et 600 femmes. Les résultats sont résumés dans le tableau suivant :
[33 ;38 [ 10 20 20 60
1) Déterminer les proportions d’intellectuels chez les hommes ; chez les femmes et sur
l’ensemble de l’échantillon considéré.
2) Quel est dans l’ensemble de l’échantillon, la proportion des individus dont l’âge est
supérieur ou égal 33 ans.
3) Quel est l’âge moyen chez les femmes et chez les hommes ; ainsi que les écarts types
respectifs.
4) Quel est l’âge moyen de l’ensemble de l’échantillon ?
Exercice 6
1) Déterminer le nombre de patients dont le taux d’hémoglobine est compris dans les
différentes classes ci-dessous :
[5 ; 6 [ [6 ; 7 [ [7 ; 8 [ [ 8 ; 9 [ [ 9 ; 10 [ [10 ; 11 [
, , , , , .
2) Construire le polygone des fréquences puis déterminer le mode, la médiane et la
moyenne. Conclure.
Exercice 7
Sur un axe routier, on enregistre sur une période de 5 jours, le nombre d’accidents. Les
résultats suivants ont été obtenus
Nombre de jours 1 2 3 4 5
Nombre 0 4 1 6 8
d’accidents
Exercice 8
L’agence nationale de protection des végétaux vient d’autoriser la mise en vente d’un produit
afin d’améliorer son évolution. Avant l’utilisation de ce produit, la plante avait une hauteur
moyenne de 1,5 mètre
Après traitement de 170 plantes, les résultats donnant leur taille au bout de 3 mois figurent
dans le tableau ci-dessus :
Exercice 9
Femmes 1 2 3 4 5 6 7 8 9 10
X :taille en cm 150 170 152 168 17 160 185 167 190 172
0
Y : poidsen kg 71 61 74 69 72 70 50 58 65 66
Exercice 10
L’observation de deux caractères sur un échantillon d’habitants d’une ville a donné les
résultats suivants :
Un modèle de caravane coûtait 73000 Francs en 1992. L’indice(base 100 en 1992) est de 162
pour 1997.
1987 1997
Quantités Prix Quantité Prix
s
SC 20000 100 8000 100
1) Calculer les indices synthétiques des prix, des quantités, base 100 en 1987 :
Pondération de Laspeyres ;
Pondération de Paasche.
2) Quelle est la signification du résultat obtenu ?
3) Définir et calculer l’indice des prix en 1997 (base 100 en 1987) selon la méthode de
Fischer.
4) Que signifie en général l’indice des prix d’une année ?
Une entreprise produit trois biens A , B , C dont les prix et les quantités vendues ont évolué
au cours de ces dernières années.
1990 1997
Quantité Prix Quantités Prix
s
A 20000 16 28600 20
B 11000 36 17800 40
C 1200 240 1350 400
1) Calculer les indices de Laspeyres et de Paasche (prix et quantités) entre 1990 et 1997.
2) Conclure sur l’évolution entre ces deux périodes.
Exercice 15 : la bourse
1) Sans tenir compte des transactions effectuées sur les titres, comparer les indices
élémentaires d’évolution du cours de ceux – ci.
2) Pour avoir une vue plus globale de l’évolution de ces titres, calculer les indices
synthétiques des prix, des quantités de l’année 1997 (base 100 = 1996).
a) Pondération de Laspeyres
b) Pondération de Paasche
3) Quelle est la signification du résultat obtenu ?
4) Calculer l’indice de Fisher des quantités et des prix.
Vérifier l’ordre des indices de Paasche, Laspeyres et Fisher sur les résultats trouvés.
Remarque : certaines questions n’ont pas de réponse car la réponse juste n’est pas dans la
liste ou bien des éléments manquent pour répondre. Certaines questions peuvent avoir
plusieurs réponses possibles.
1) Le prix d’un produit augmente de 200 % entre t 1 et t 2 . Quel est l’indice de son prix
en t 2 , base 100 en t 1
a) 200
b) 300
c) 400
t
2) Le prix d’un produit a augmenté de 15 % entre t 1 et t 2 , puis de 30 % entre t 2 et 3 .
t
De combien a – t- il det 1 à 3
a) 45 %
b) Plus de 45 %
c) Moins de 45 %
3) Les indices synthétiques (Laspeyres et Paasche) possèdent la propriété de
transférabilité
a) Vrai
a) p=−18 %
b) p<−18 %
c) p>−18 %
7) Dans l’indice de Paasche des prix, la structure de consommation prise en compte est :
a) Celle de la période courante
b) Celle de la période de base
c) Celle de la période courante au numérateur et celle de la période de base au
dénominateur.
base 100 en
t0 ?
a) A×B
A×B
b) 100
Une firme entreprend une étude statistique de ses coûts de production. Le tableau suivant
résume les données recueillies.
Au cours des trois derniers exercices, le volume des ventes trimestrielles d’une entreprise de
fabrication des tubes fluorescents (en milliers de tubes) a évolué comme suit :
Années N N +1 N +2
1er trimestre 84 103 100
2e trimestre 123 137 167
3e trimestre 165 200 196
4e trimestre 108 124 140
On appelle coefficient saisonnier d’un trimestre donné, la moyenne sur toutes les années
pour ce trimestre des rapports précédents.
Exercice 21 : Bijoux
[7 00 à 1000[ 47 550
∑ 317 000
Exercice 22 : Enfants
On donne ici le nombre d’enfants nés après un certain nombre d’années de mariage, dans une
ville en 1997.
La répartition des salariés d’une branche d’activité en décembre 1997 est la suivante :
Tranches de Moins de [500 , 750 [ [750 , 1000 [ [1000 , 1500[ [2000 , 2500 [
2 500
surfaces (m )
Nombre de 5 25 30 80 50
magasins
L’entreprise Anne – Marie, fabricant de sièges pour automobile, vous communique ses
chiffres d’affaires des deux dernières années.
[100 , 150 [ 14
[150 , 200[ 25
[200 , 250 [ 20
[250 , 300 [ 18
[300 , 350 [ 26
[ 400 , 500[ 10
[500 , 700 [ 4
Exercice 28 : Restauration
La société Z réalise une étude de marché sur la restauration. Elle interroge 450 personnes sur
le nombre de couverts souhaités : 6, 8, 10, 12 ou 16. Elle obtient les réponses suivantes :
[ 40 ; 50 ans [ 360
On supposera que les stagiaires de contrats à durée déterminée ont entre 15 et 65 ans.
2) Réaliser le graphique représentatif des fréquences de cette série ainsi que celui des
fréquences cumulées croissantes.
3) Quelle proportion de travailleurs a moins de 40 ans ? Plus de 25 ans ?
4) Calculer et donner la signification de chacun des paramètres suivants :
Le mode
La moyenne
La médiane
Un commerçant vend des articles sur les marchés de la région. Il vous communique les
statistiques de ses ventes sur les 200 derniers jours.
[250 ; 450 [ 14
[ 450 ; 650 [ 30
[650 ; 750 [ 62
[750 ; 850 [ 48
[ 850 ; 1050 [ 26
[1050 ; 1250 [ 12
L’entreprise Félicité a fait une étude de l’âge de ses technico – commerciaux employés à la
vente des véhicules neufs. Les âges se répartissent de la façon suivante :
Âges 20 – 25 25 – 30 – 35 35 – 40 40 – 45 45 – 50 – 55
30 50
Nombre de salariés 3 9 12 12 6 3 1
Exercice 32 : Recrutement
[1 ; 3 mois [ 78
[3 ; 5 mois [ 44
[5 ; 7 mois [ 4
[7 ; 10 mois [ 8
Une entreprise fabrique en grande quantité des composants électroniques d’un certain type T .
L’objectif est d’étudier la durée de vie de ces composants, en utilisation normale. Pour cela,
on prélève au hasard dans la production, un échantillon de 125 composants ; on les met sous
tension sur un banc d’essai étalonné provoquant leur vieillissement accéléré. Les résultats,
traduits en heures d’utilisation normale, sont consignés dans le tableau suivant :
[60 ; 70 [ 8
[70 ; 80 [ 13
[ 80 ; 90 [ 16
[ 90 ; 100 [ 20
[100 ; 110 [ 26
[110 ; 120 [ 18
[120 ; 130 [ 11
[130 ; 140 [ 7
[140 ; 150 [ 2
Dans cet exercice, pour chaque résultat demandé, donner l’approximation décimale arrondie à
10−2 près.
Martin NJOCKE, Docteur en Economie Page 168
5)
*Livres
- Un site connu pour l’utilisation des graphiques à des fins analytiques : http :
//www.gapminder.org/
- Pour produire directement, facilement et gratuitement des graphiques pour une page
web: http:// andre.massonimath.google.com/intl/fr/apis/chart/
Introduction…………………………………………………………………………………...1
I. Statistique et Economie…………………………………………………………….1
I. Notations…………………………………………………………………………...4
II.4. Variance……………………………………………………………………………….9
II.5. Ecart-type……………………………………………………………………………10
I. Diagrammes élémentaires………………………………………………………...19
I.2.2.1. Histogramme………………………………………………………………………24
II.1. Modalités…………………………………………………………………………….26
II.2.Classes……………………………………………………………………………….27
I. Moyenne…………………………………………………………………………..32
I.2.1. Définitions………………………………………………………………………….34
I.2.2. Propriétés…………………………………………………………………………...35
II.1. Le mode……………………………………………………………………………...38
II.1.1. Définition…………………………………………………………………………..38
II.1.2. Détermination……………………………………………………………………...38
II.1.3. Propriétés…………………………………………………………………………..38
II.2. La médiane…………………………………………………………………………..38
II.2.1. Définition………………………………………………………………………….38
II.2.4. Propriétés…………………………………………………………………………..40
II.3.1. Quantile……………………………………………………………………………41
I. Caractéristiques de dispersion………………………………………………………..48
I.1.2.2. Définition………………………………………………………………………….49
II.1. La dissymétrie………………………………………………………………………..54
II.2. L’aplatissement………………………………………………………………………55
I. Les distributions…………………………………………………………………..60
II.1. Présentation de la
méthode………………………………………………………….......82II.2. Recherche de la
qualité de la régression……………………………………………….......84
V. Prévisions………………………………………………………………………..112
Références bibliographiques………………………………………………………………143