Vous êtes sur la page 1sur 76

Ecole Nationale de Commerce et de Gestion de Kénitra

Statistiques descriptives

Enseignant: Mr. Bouasabah Mohammed

ECOLE NATIONALE
DE COMMERCE ET DE GESTION
-KENITRA- Année universitaire: 2011/2012
Plan du cours
1) Les termes de la statistique.

2) Étude d’une variable quantitative discrète (tendance centrale, dispersion, concentration, forme)

3) Étude d’une variable quantitative continue (tendance centrale, dispersion, concentration, forme)

4) Caractéristiques de concentration.

5) Caractéristiques de forme.

6) Les indices et taux de croissance.

7) Les caractéristiques des distributions à deux caractères.


2
À la fin de ce cours vous serez capables de:

 Tirer à partir d’une série brute de données les différents paramètres statistiques.

 Déterminer les valeurs centrales d’une série et mesurer sa dispersion.

 Représenter et analyser graphiquement une série ou une variable statistique.

 Mesurer l'évolution dans le temps d’un grandeur (prix, quantité d’un produit…..).

 Mesurer la correlation entre deux variables statistiques étudiées simultanément.

3
1) Les termes de la statistique descriptive:
1-1) Introduction :
Statistique

descriptive inférentielle

Statistique descriptive:

Analyse et synthèse numérique et graphique d’un ensemble des données.

But décrire l’information contenue dans les données.

4
Le lien de complémentarité entre statistique inférentielle et statistique descriptive
1-2) Définitions:
Population: Ensemble des éléments sur lesquelles porte l’étude.

!
Remarque: La population doit être définit d’une manière précise, il différent donc de considérer:

 Les étudiants.
Les étudiant de 15 à 23 ans.

Individu (unité statistique): élément sur lequel porte l’étude (=un élément de la population).

Caractère (variable statistique): Ce qu’on observe sur chacun des individus de la population.

6
Il existe deux types de caractères :

Caractères qualitatifs:
Les caractères qualitatifs sont tous les caractères qui ne sont pas représentés par des
nombres. (=non mesurables).

Il existe deux type de caractères qualitatifs:

 Caractère qualitatif ordinal= on peut les ordonner ou les hiérarchiser


 Caractère qualitatif nominal= on peut pas les ordonner.

Caractères quantitatifs:
Les caractères quantitatifs sont représentés par des nombres et sur lesquels les opérations
arithmétiques de base ont un sens.(=mesurable)

Il existe deux types de caractères quantitatifs:

Caractères quantitatifs discrets: qui peuvent prendre un nombre faible et fini de valeurs (Exp:
nombre d’enfants d’une famille, nombre de pièce d’une immeuble….).

Caractères quantitatifs continus: qui peuvent prendre un nombre théoriquement infini de valeurs
dans un intervalle donné (Exp: Age et taille d’une personne, nombre de diamètres d’une pièce…).
Types de caractères
Rappel:

(1) Un outil : L ’OPERATEUR SOMME S

DEFINITION: q
p et q étant 2 entiers relatifs ∑x
i= p
i = x p + x p +1 + ...... + xq

q q q
REMARQUE 1: i est une variable muette ∑ x =∑ x =∑ x
i= p
i
j= p
j
h= p
h

REMARQUE 2: n
Quand il n’y a pas d’ambiguïté sur le domaine de
variation de i, celui-ci peut être omis
∑x = ∑x = ∑x
i =1
i
i
i i

9
Rappel:
(2) Un outil : L ’OPERATEUR SOMME S

PROPRIETE 1: ∑ ka
i
i = k ∑ ai
i

PROPRIETE 2: ∑(a + b ) = ∑ a + ∑b
i
i i
i
i
i
i

PROPRIETE 3 : ∑ k (a + b ) = k∑ a + k∑b
i
i i
i
i
i
i

n
PROPRIETE 4 : ∑ k = nk
i =1

q
PROPRIETE 5: ∑ k = ( q − p + 1) k
i= p

10
2) Étude d’une variable quantitative discrète.
2-1) Définitions:
Série statistique:
 On appelle série statistique les différentes valeurs du caractère étudié (noté xi).
 On appelle effectif d'une population le nombre d'individus de cette population.
 On appelle également fréquence la quantité : (où ni l’effectif de la valeur xi et N
. représente l’effectif total)
Exemple 1:
Les notes sur 20 obtenues lors d’un devoir de mathématiques dans une classe de seconde
sont les suivantes :
10, 8, 11, 9, 12, 10, 8, 10, 7, 9, 10, 11, 12, 10, 8, 9, 10, 9, 10, 11

Population étudiée: Classe des élèves dans une classe de seconde.


Individus: Les élèves.
Effectif total: N=20 élèves.
Caractère étudié: la note obtenue au devoir.
Distribution statistique:
la liste (dans une ligne) des valeurs possibles de la variable est associée à une deuxième
ligne dans laquelle sont repris les fréquences ou l’effectifs. Elle est représentée sous forme
d’une tableau ordonné de données.
11
La distribution statistique définie par les effectifs:
Exemple: 10, 8, 11, 9, 12, 10, 8, 10, 7, 9, 10, 11, 12, 10, 8, 9, 10, 9, 10, 11 (N=20)
Valeurs du caractère (note obtenue) 7 8 9 10 11 12

Effectif (nb d’élève ayant cette note) 1 3 4 7 3 2

La distribution statistique définie par les fréquences:


Valeurs du caractère (note obtenue) 7 8 9 10 11 12

Fréquence en % : 5 15 20 35 15 10

Effectif et fréquence cumulés:


L’effectif cumulé croissant (resp. fréquence cumulée croissante) d’une valeur x est la
somme des effectifs (resp. fréquences) des valeurs y tels que y ≤ x.
L’effectif cumulé décroissante (resp. fréquence cumulée décroissante) d’une valeur
x est la somme des effectifs (resp. fréquences) des valeurs y tels que x ≤ y.
Valeurs du caractère (note obtenue) 7 8 9 10 11 12
Effectif 1 3 4 7 3 2
Fréquence en % 5 15 20 35 15 10
Effectif cumulé croissant 1 4 8 15 18 20
Fréquence cumulée croissante en % 5 20 40 75 90 100
Fréquence cumulée décroissante en % 100 95 80 60 25 10

2-2) Propriété:
Où: N est l’effectif total
12
on a toujours : Et k est le nombre des valeurs du caractère
2-3) Représentation graphique:
Pour les caractères quantitatifs discrets, on utilise le diagramme en bâton, le diagramme à secteur
et le diagramme cumulatif:
a) Diagramme en bâton:
Dans un repère orthogonal, pour chaque valeur de la série statistique on trace un trait vertical
dont la hauteur est proportionnelle à l’effectif.

b) Diagramme à secteur:
On appelle un diagramme à secteur un graphique qui divise un disque en secteurs angulaires
dont les aires sont proportionnels au effectifs de chaque modalité.
Pour une modalité Mi d’effectif ni , l’angle αi correspondante est: (º)
Exemple:( précédent)

13
Diagramme en bâton Diagramme à secteur
c) Diagramme cumulatif (ou fonction de répartition)

Ce diagramme représente les fréquences cumulées en fonction du valeurs du caractère

Exemple:
Valeurs du caractère (note obtenue) 7 8 9 10 11 12
Fréquence en % : 5 15 20 35 15 10
Fréquence cumulée croissantes en % 5 20 40 75 90 100

14
2-4) Les caractères de la tendance centrale (paramètres de position)
A) La moyenne

a-1) La moyenne arithmétique.

On définit la moyenne arithmétique des valeurs xi (i=1,…..n) d’un caractère pour les n
individus d’une population par :

Remarque:
Si le caractère est groupé dans un tableau de données contenant les effectifs ou les fréquences
de chaque valeur du caractère alors :

et Et 0 ≤ k ≤ n

Exemple:
Valeurs du caractère (note obtenue) 7 8 9 10 11 12

Effectif 1 3 4 7 3 2
Fréquence cumulée en % 5% 20 % 40 % 75 % 90 % 100 %

15
a-2) Propriétés de la moyenne

1) Où k est le nombre de valeurs que prend la variable X (0 ≤ k ≤ n)

2) si a et b désignent deux constantes telles que pour toutes les valeurs observées ou tous
les centres de classes xi on a yi = axi + b. alors:
a-3) Moyenne géométrique

On définit la moyenne géométrique des valeurs xi (i=1,…..n) d’effectifs ni d’un caractère pour
les n individus d’une population par :
G= n x1n1 x n2 2 .....x kn k
Utilisée dans le cas de phénomènes multiplicatifs (taux de croissance moyen)

a-4) Moyenne harmonique

On définit la moyenne harmonique des valeurs xi (i=1,…..n) d’effectifs ni d’un caractère pour
les n individus d’une population par : n
H= k ni
∑x
i=1 i

16 Utilisée dans le cas où l’on combine 2 variables sous forme de rapport (km/heure,……)
b) La médiane:

La médiane Mé, correspond au centre de la série statistique classée par ordre


croissant, ou à la valeur pour laquelle 50% des valeurs observées sont supérieures
et 50% sont inférieures.

Pratiquement:

On classe la série Xi (i=1…..N), par ordre croissant:


Si N est impair  N=2m+1 alors Mé=xm+1. m

Si N est pair  N=2m alors Mé=

Exemple 1: 6 6 6 8 9 9 12 13 13 14 17 17 18
Mé= 12

Exemple 2 : 4 5 5 6 6 12 13 13 14 14 18 18 Mé= 12,5


17
c) Le mode:

Le mode d'une série est la valeur ou la modalité qui revient le plus fréquemment dans
la série ou la distribution.

Exemple : Soit la série {8, 4, 4, 3, 4, 3, 8, 2, 5}

Mo= 4
Remarque 1: Une série peut avoir plusieurs modes (série multimodale). Elle est bimodale

Soit la série S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}

Mo= 2 , Mo’= 3

Remarque 2 : Le mode n’existe pas forcément

S={8,6,5,7,3,1}

! Remarque 3: Mettre la série sous forme d’une distribution pour repérer le mode.

18
2-5) Caractéristiques de dispersion
Ces paramètres permettent de mesurer la façon dont les valeurs du caractère sont réparties
autour de la moyenne et de la médiane. On distingue 3 principaux paramètres: variance,
écart-type et l’écart interquartile .
a) La variance:
La variance d’une série statistique xi, i= 1………n est donnée par :
la variance est la moyenne des
carrés des écarts à la moyenne

Exemple: (vu précédemment)

Valeurs du caractère (note obtenue) 7 8 9 10 11 12


Effectif (nb d’élève ayant cette note) 1 3 4 7 3 2

! Remarque: Pour le calcul on utilise la formule de la variance suivante:

ou
19
b) Écart-type:
l’écart-type d’un caractère quantitatif discret est défini alors par : s= V

Propriété
• Si on ajoute à toutes les valeurs d’une série statistique le même nombre b, la variance et
l’écart-type restent inchangés.
• Si les valeurs d’une série statistique sont multipliées ou divisées par un même nombre a,
l’écart-type est multiplié ou divisé par |a|.
Remarque:
On est amené à considérer la racine carrée de la variance pour avoir un résultat exprimé
dans la même unité que le caractère étudié.
c) Ecart interquartile
les quartiles:

Notés Q1, Q2, Q3 les quartiles partagent la population en quatre parties de même effectif.
Etant donné une série statistique de médiane Mé, dont la liste des valeurs est rangée dans l’ordre croissant.

On appelle:
1ér quartile Q1 est la valeur du caractère tel que: 25% des valeurs observées lui sont inférieurs ou égale.
3ème quartile Q3 est la valeur du caractère tel que: 75% des valeurs observées lui sont inférieurs ou égale.

On note que Q2=Mé.


Dans la pratique :

• Si est un entier, le premier quartile Q1 est la valeur qui dans cette liste occupe le rang
et le troisième quartile Q3 est la valeur qui dans cette liste occupe le rang .

• Si n’est pas un entier, le premier quartile Q1 est la valeur qui dans cette liste occupe le
rang immédiatement supérieur à et le troisième quartile Q3 est la valeur qui dans cette liste
occupe le rang immédiatement supérieur à .
Exemple 1 :

6 6 7 8 11 12 12 13 15 17 17 18 N=12 Q1=7 Q2=12 Q3=15


Exemple 2 :

6 6 7 8 8 11 12 12 13 13 15 17 17 18 N=14 Q1=8 Q2=12 Q3=15


L’écart interquartile
L’écart interquartile d'une série statistique est le nombre EII=Q3 – Q1
Remarque:
L’écart interquartile mesure la dispersion des valeurs autour de la médiane ; plus l’écart est
petit, plus les valeurs de la série appartenant à l’intervalle interquartile sont concentrées autour
de la médiane.
21
Remarques:

1) On peut également définir l’intervalle interquartile qui est égale: [Q1 Q3]
2) De même l'étendue ou amplitude d'une distribution est égale à la différence entre la
plus grande et la plus petite valeur de la distribution : Etendue de X = Xmax- Xmin
Exercice d’application

Les étudiants d’un groupe de TD forment une population statistique P dont le caractère
étudié est la note obtenue à un devoir de mathématiques. Ces notes étant entières, la série
statistique S1 ainsi recueillie est discrète :

S1 = {11; 12; 10; 9; 4; 18; 19; 12; 16; 12; 13; 14; 18; 9; 8; 8; 12; 5; 11; 10}

Questions:

• Déterminer la distribution des effectifs de la série S1 ainsi que la fréquence de ses valeurs
et les fréquences cumulées.

• Tracer les diagrammes en bâton et cumulatif.

• Déterminer les paramètres de tendance centrale (médiane, moyenne, mode)

• Déterminer les paramètres de dispersion ( variance, écart-type, intervalle interquartile)


3) Étude d’une variable quantitative continue.
3-1) Introduction et définitions

Même notion que dans le cas discret , la seule différence est que on ne considère pas
Les modalités une par une mais on procède par classe.
Intervalle des valeurs
possibles pour une variable
quantitative continue

Chaque classe possède une certaine amplitude, qui est la longueur de l'intervalle définissant
la classe.

Le rapport entre l'effectif d'une classe et son amplitude s'appelle la densité d'effectif.

Le rapport entre la fréquence d'une classe et son amplitude s'appelle la densité de fréquence (hi).

23
Exemple : Temps passé devant la télévision par 34(N=34) élèves pendant une certaine journée.

! La variable quantitative étudiée est le temps passé devant la télé.

a3=45-30= 15

24
3-2) Représentation graphique:
Pour les caractères quantitatifs continus, on utilise l’histogramme et la courbe cumulative:

a) L’histogramme de fréquence ou d’effectif.

Nous portons en abscisse les classes représentant les modalités et en ordonnées des rectangles
dont les surfaces sont proportionnelles à la fréquence ou à l’effectif.

Remarque:

Si les classes ont la même amplitude les rectangles sont proportionnelles aux hauteurs des barres

b) La courbe cumulative des fréquences (ou polygone des fréquences cumulées).


Le polygone des fréquences cumulées croissantes (resp. décroissantes) est obtenue en portant
les points dont les abscisses représentent la borne supérieur (resp. inférieur) de chaque classe
et en ordonnées les fréquences cumulées croissantes (resp. décroissantes ) correspondantes,
puis en reliant ces points par des segments de droites.

Remarque: De même on définit l’histogramme d’effectif cumulé et le polygone d’effectif cumulé

25
Exemples: (vu précédemment)
Fréquence en %
Histogramme en fréquence

Temps passé devant la télé

Courbe cumulative des fréquences croissantes (polygone des fréquences cumulées croissantes)

26
3-3) Les caractères de la tendance centrale (Paramètres de position)
a) La moyenne

a-1) La moyenne arithmétique.

Pour la moyenne arithmétique d’une variable continue on considère les centres des classes:

Où: 0< N ≤n

: Est le centre de l’intervalle [ [

Exemple:

min
27
b) La médiane:

La médiane se calcule en utilisant le polygone des fréquences cumulées. Il faut repérer


quel segment coupe la droite horizontale d'ordonnée 0.5, puis calculer la médiane par
Interpolation linéaire (ou grâce au théorème de Thalès ).

28
Calcul de la médiane

59 F=0.5=50%

36

Mé = 39,13 min

29 Donc plus de 50% des élèves passent 39 min et 8 seconde devant la télé et 50 % moins
c) Le mode:
Dans le cas continu, le mode se trouve dans la classe ayant le plus grand effectif (la classe modale).
Remarque :
Dans le cas où les classes n’ont pas la même amplitude la détermination de la classe modale se fait
à partir de la densité des fréquences hi.

Détermination du mode
Il se calcule sur l'histogramme des effectifs ainsi :

d1
d2

Remarque:
si les amplitudes entre la classe modale et les classes
adjacentes sont différentes, on calcule les
excédents de densités de fréquence au lieu des
excédents de fréquences ou d'effectifs.

30
0 a Mo b
3-4) Caractéristiques de dispersion
Idem pour un caractère discret mais on prend les centres des classes.
a) Variance.
La variance d’une variable continu X est donnée par :

Où ci est le centre de la classe [xi xi+1[


b) Écart-type:
l’écart-type d’un caractère quantitatif continu est défini alors par : s= V

c) Coefficient de variation
Pour une variable statistique continue X, on appelle coefficient de variation le rapport:

Remarque:

Le coefficient de variation est un nombre sans dimension qui permet de comparer deux
variables statistiques de natures différentes.
31
Exemple: Prix d’une bouteille de jus de mangue.

6.5 F 19.5 F 33 F  S1 

Prix d’une bouteille de jus de kiwi.

2E 3E 5E  S2 

d) L’écart interquartile
d-1).Les quartiles

Pour calculer les quartiles on fait une interpolation linéaire: Pour k=1,2,3

Fréquence cumulée

32
d-2) L’écart interquartile
L’écart interquartile d'une série statistique d’une variable continue est le nombre: Q3 – Q1
Exemple:
( %)

Q1=18.75 min
75

Q3=56.25 min 25

EIQ=Q3-Q1=37.5 min Q1 Q3

33
Exercice d’application
Enoncé :
Au cours d’un TP visant à mesurer expérimentalement la constante d’accélération
de la pesanteur g , 20 étudiants ont chacun obtenu une mesure. La liste de valeurs ainsi
récoltées forme une série statistique continue S2 , car les mesures effectuées pouvaient
a priori conduire à n’importe quel nombre réel autour de 9,81m.s-²(valeur arrondie
au centième souvent retenue pour faire des applications numériques). En réalité, étant
données les incertitudes liées aux appareils de mesure, les résultats obtenus sont tous
des estimations arrondies au millième de la valeur de g .
La série statistique continue S2 est la suivante :

On pourrait considérer cette série comme une série discrète, mais chaque modalité aurait 1
pour effectif, et l’organisation des données sous forme de tableau ou de
graphique ne permettrait pas de dégager une distribution lisible et exploitable.

Avec la série S2 des résultats de mesure de la constante g , on peut, par exemple, regrouper les
modalités selon les classes suivantes :

34
4) Caractéristiques de concentration
L'objectif est de mesurer les inégalités dans la répartition d'une variable à l'intérieur d'une
population.
Pour cela on utilise des moyennes de mesure des inégalités tel que le diagramme de
concentration (courbe de Lorenz) et l’indice de GINI (ou le coefficient de GINI).

En pratique, lorsqu’on s’intéresse à la répartition d’une masse au sein d’une population, on


trace d’abord un graphique de LORENZ afin d’avoir une idée visuelle de l’égalité ou de
l’inégalité de cette répartition. Ensuite, si l’on désire résumer cette inégalité par un chiffre, on
calcule le coefficient (ou indice) de GINI.
On définit les valeurs suivants:

4-1) Valeurs globales

Si ci représentent les centres des classes, ni les effectifs correspondants, alors: les valeurs globales
de la série (ci , ni) sont les quantités gi = ni ci.

4-2) La médiale
La médiale de la série (ci , ni) est la médiane de la série (ci , gi).
35
Exemple:
Répartition des employés d’une entreprise selon leurs salaires mensuels nets.

On suppose que le salaire


Max est 2000 E

Soit le tableau suivant:

36
Calcul de la médiale
La médiale est le niveau de salaire qui divise en deux la masse salariale: les salaires inférieurs
à la médiale représentent la moitié de la masse salariale. C’est la médiane de la série
représentant le cumul de la masse salariale

0,613

0,385

Remarque : médiale ≠ médiane

37
4-3) COURBE DE CONCENTRATION (OU DE LORENZ)
C'est la courbe obtenue en représentant en abscisse les fréquences cumulées croissantes Fi
de la série (ci,ni) et en ordonnée les fréquences cumulées croissantes qi de la série (ci,gi).

(1, 1)

L’allure de la courbe permet


d’avoir une idée sur la
concentration.

(0, 0)

Lecture de la courbe
1°/ Les points extrêmes sont les points (0, 0) et (1, 1) puisque 0 % de la population reçoit 0 % de la masse
salariale et 100 % de la population reçoit 100 % de la masse salariale.

2°/ La courbe est nécessairement convexe vers le bas.

3°/ Enfin, et surtout, la courbure de la courbe de Lorenz peut être interprétée comme un indice d'inégalité.

38
4-3-1) La courbe de concentration (courbe de Lorenz)
La courbe de concentration exige la connaissance pour chaque classe du nombre d’observations
(comme auparavant) et de la somme des valeurs correspondantes.
Si fi représente la fréquence cumulée et qi les sommes des valeurs alors:

La courbe de concentration est:

qi=Q(fi) 0.864

4-3-1) Remarques:
1) La diagonale principale du graphique
0.613
(droite d’équi–répartition) représente
une distribution parfaitement égalitaire:
chaque portion de la population possède
une part égale de la valeur totale de la
0.385
caractéristique.

2) Plus la courbe de concentration s’écarte 0.164

de la droite d’équi–répartition, plus la


distribution est inégalitaire.
0.212 0.466 0.703 0.915
4-4) Indice de Gini

A: la surface comprise entre


La courbe de Lorenz et la droite
d’égalité parfaite.

B: la somme des aires des trapèzes.

L’indice de Gini est défini comme 2 fois la surface comprise entre la droite
d’équi-répartition et la courbe de concentration.

L’indice de Gini est compris entre 0 (absence d’inégalité) et 1 (inégalité extrême).

40 On exprime parfois l'indice de Gini en pourcent en parlant de coefficient de Gini.


Calcul de l’indice de GINI

pi

pi

Rappel :

L’aire du trapèze est:

41
Exemple:
Calcul de l’indice de GINI pour l’exemple précédent :
Si:
Xi est la fréquence cumulative de la classe i, i=1,………..,J
Xo=0 et Xj=1.
Yi est le pourcentage de la masse salariale revenant à la classe i.
Yo=0 et Yj=1.

Alors:

42 G=1-0,8822=0,1178
5) Caractéristiques de forme
Outre les paramètres de position, de dispersion et de concentration, il existe deux autres
classes de paramètres, dits de forme, qui décrivent une série.
Ils mesurent le degré de symétrie d’une part et d’aplatissement, d’autre part.
5-1) La symétrie
Définition : une distribution est symétrique si les valeurs équidistantes
de la valeur centrale ont une fréquence égale ou si xmo = xmé = x

On parle d’asymétrie positive, pour une distribution asymétrique à gauche.


On parle d’asymétrie négative, pour une distribution asymétrique à droite.

Exemple graphique d’une distribution


a) Distribution symétrique b) Etalée à droite c) Etalée à gauche
Remarque:

La mesure de la symétrie se fait également par le calcul des coefficients d’asymétrie.

5-1-1) Coefficient de Fisher


a) Les moments d’ordre r

De manière générale, on définit le moment centré d’ordre r, noté µr de la façon suivante :

0≤k≤n

Pour r = 0 : µ0 = 1.
Pour r = 1 : µ1 = 0.
Pour r = 2 : µ2 = Le moment d’ordre 2 n’est que la variance.

b) Coefficient de Fisher
Le coefficient d'asymétrie de Fisher fait intervenir les moments centrés, il est défini par :

44
c) Coefficient de Yule

Le coefficient d'asymétrie de Yule fait intervenir la médiane et les quartiles, il est défini par :

Y=0 symétrie
Y> 0 la courbe est étalée à droite
Y<0 la courbe est étalé a gauche

d) Coefficient de Pearson

Le coefficient d'asymétrie de Pearson fait intervenir le mode Mo : quand il existe, il est


définie par :

P=0 symétrie
P>0 la courbe est étalée à droite
P<0 la courbe est étalé a gauche

45
5-2) L’Aplatissement

Définition :

une distribution est plus ou moins aplatie suivant que les fréquences des valeurs voisines des
valeurs centrales sont plus ou mois élevées par rapport aux autres.

On parle d’une distribution :

mésokurtique, si cette distribution est similaire à une distribution normale centrée réduite (N(0,1))
leptokurtique, si cette distribution est moins plate que la distribution normale ;
platykurtique, si cette distribution est plus plate que la distribution normale.

Densité de probabilité de N ( ,, s )

=0

S=1

46
5-2-1) Aplatissement d’une distribution

fi
leptokurtique

mésokurtique

platykurtique

xi

a) Coefficient d’aplatissement.

Là encore plusieurs définitions sont possibles:

Coefficient de Pearson

47
Exemple:

On désire étudier l’aplatissement de la distribution du chiffre d’affaire journalier


de 75 épiciers:
Calculons le coefficient β2 de Person sur le relevé des données suivantes:

Chiffre d’affaire (en €) effectifs


[215 235[ 4
N=75
[235 255[ 6
[255 275[ 13
[275 295[ 22
[295 315[ 15
[315 335[ 6
[335 355[ 5
[355 375[ 4

On a:

Et le moment d’ordre 4 est donné par:


48
On peut résumer les différents calculs dans le tableau suivant:

chiffre d’affaire(en €) effectifs ni


225 4 -65,6 74 075 629,16
245 6 -45,6 25 942 428,06 €
265 13 -25,6 5 583 457,48
285 22 -5,6 21 635,89
305 15 14,4 644 972,54
325 6 34,4 8 402 045,34
345 5 54,4 43 789 058,05
365 4 74,4 122 560 841,32
Total 281 020 067,84

Comme s=33,88 €, le coefficient de Pearson est égal à :

Puisque on peut conclure que la distribution du chiffres d’affaires journalier


Dans 75 épiceries est platykurtique (c-à-d plus aplatie que la distribution de la loi normale)
49
6) Les indices
6-1) Indices élémentaires
Un indice est le rapport d’une variable mesurée à deux instants différents.
Un indice est représentatif d’une évolution.
Notation
y1 = valeur de la variable y à la date t1
y0 = valeur de la variable y à la date t0

y1 Indice élémentaire de la variable y à la date t1 par rapport


i1 0 =
y0 à la date de référence t0
Indice élémentaire de la variable y à la date t1 par rapport
I1 0 = i1 0 × 100 à la date de référence t0, base 100.

Propriétés i n/n = 1 Identité.

i 2/1 × i1/2 = 1 Réversibilité.

50 i3/1 = i3/2 × i 2/1 Circularité.


6-2) Indices et taux de variation (ou de croissance)

y1 − y 0 Taux de variation ou taux de croissance de


r1 0 =
y0 la variable y entre la date t0 et la date t1

y1 r=i-1 i=1+r
r1 0 = − 1 = i1 0 − 1
y0

y1 = (1+ r1 0 )y 0 ⇔ y1 = i1 0 y 0 i = 1 + r = coefficient multiplicateur

r=0 ⇔ i=1 Pas d’évolution.

r>0 ⇔ i>1 Croissance.

-100% = -1 < r < 0 ⇔ 0<i < 1 Décroissance.

51
6-3) Indices et taux de variation moyens

y0, y1, ….., yn les valeurs prises par une variable aux dates t0, t1, ….., tn
i1, i2, ….., in les indices élémentaires sur chacune des périodes
y n = i n × y n-1 = i n × i n-1 × y n-2 = ...... = i n × ..... × i 2 × i1 × y0

iG l’indice élémentaire global entre t0 et tn


yn = iG × y0
y n = i × y n-1 = i 2 × y n-2 = ... = i n × y0

i l’indice moyen

i G = i n = i n × ..... × i 2 × i1
i1, i2, ….., ik indices élémentaires sur des périodes de n1, n2, ….., nk unités (jour, mois, année…)

i G = i n = i1n1 × i n2 2 × ..... × i nk k
i = n i1n1 × i 2n 2 × ..... × i kn k
Moyenne géométrique des indices élémentaires
52
6-3) Indices et taux de variation moyens

y0, y1, ….., yn les valeurs prises par une variable aux dates t0, t1, ….., tn
ri11, ir22,, …..,
….., irnnles
lesindices
taux deélémentaires
croissance sur
surchacune
chacunedes
despériodes
périodes
y n = i(1n ×
+ yrnn-1
) × =y n-1
i n ×=i(1 ×ryn )n-2× (1=+......
n-1+ rn-1 )=×i ny×n-2.....
= (1× i+2 ×rn i)1××.....
y0 × (1 + r2 ) × (1 + r1 ) × y 0
riGG l’indice
le taux élémentaire
de croissance global
global entreentre
t0 et ttn0 et tn
ynn = (1
i G +×ryG0) × y 0
= y(1n-1+ r)=2 i×2 y×n-2
y n = (1 + r) y×ny=n-1i × n n
y n-2= ...==...(1=+ir)××y0y 0
r le taux de croissance
i l’indicemoyen
moyen

(1+ rG )= (1+ r) n =i G(1=+i nrn=) ×i n.....


× .....
× (1
× +i 2 r×2 )i1× (1 + r1 )
ri11, ir22,, …..,
….., irkkindices
indicesélémentaires
élémentairessur
surdes
despériodes
périodesde
de nn11,,nn22,,…..,
…..,nnkkunités
unités(jour,
(jour,mois,
mois,année…)
année…)
n
(1+rG )= (1+r) n n
i (1
iG = = 1
+ r2×)innk2 ×.....× (1+ rk )nk
=+i1nr1×) i1n2××(1.....
2 k

i = n i1n1 × i n2 2 × ..... × i nk k
Moyenne Moyenne
géométrique des taux de
géométrique descroissance élémentaires
indices élémentaires
53
Indices usuels

Indice élémentaire des prix P1


i ( P )1 0 =
P0

Indice élémentaire des quantités Q1


i ( Q )1 0 =
(ou des volumes) Q0

Indice élémentaire de valeur V1 P1Q1


i ( V )1 0 = = = i ( P )1 0 i ( Q )1 0
(ou de dépense) V0 P0Q0

Exercice d’application :

 En combien de temps une valeur V qui augmente de 8% par mois double-t-elle ?


 Quel est le taux de croissance annuel moyen d’une production qui double en 4 ans?

54
6-4) Indices synthétiques

Un indice synthétique mesure l’évolution simultanée de plusieurs produits.

Un indice synthétique est une moyenne pondérée des indices élémentaires des
différents produits.

Coefficient de pondération (ou budgétaire) du produit j à la date tn

Vj,n Pj,n Q j,n


α j,n = n
= n

∑V
j=1
j,n ∑P
j=1
j,n Q j,n

n
Remarque : ∑α
j=1
j,n =1

55
6-4-1) Indices synthétiques de LASPEYRES

Indice de Laspeyres des prix

L ( P )1 0 = Moyenne arithmétique des indices élémentaires des prix, base 100, pondérés
par des coefficients de pondération relatifs à la date de référence t0
n 1 seul indice sur 4 doit être modifié
L ( P )1 0 = ∑ α j,0 I ( Pj )1 0
j=1 Comment s’en souvenir ? n
n ∑P j,1 Q j,10
∑P
j=1
j,1 Q j,0 Dépense de la date courante
= j=1
n
= × 100 Dépense de la date de référence
n ∑P j,0 Q j,0
∑P
j=1
j,0 Q j,0 j=1

Dépense de la date courante avec les quantités de référence


= × 100
Dépense de la date de référence

56
6-4-2) Indices synthétiques de LASPEYRES

Indice de Laspeyres des quantités

L ( Q )1 0 = Moyenne arithmétique des indices élémentaires des quantités, base 100,


pondérés par des coefficients de pondération relatifs à la date de référence t0
n
1 seul indice sur 4 doit être modifié
L ( Q )1 0 = ∑ α I(Q )
j=1
j,0 j 10
Comment s’en souvenir ? n
n ∑P j,1 0 Q j,1
∑P
j=1
j,0 Q j,1 Dépense de la date courante
= j=1
n
= × 100 Dépense de la date de référence
n ∑P j,0 Q j,0
∑P
j=1
j,0 Q j,0 j=1

Dépense de la date courante avec les prix de référence


= × 100
Dépense de la date de référence

57
6-4-3) Indices synthétiques de PAASCHE

Indice de Paasche des prix

P ( P )1 0 = Moyenne harmonique des indices élémentaires des prix, base 100, pondérés
par des coefficients de pondération relatifs à la date courante t1

1
P ( P )1 0 = n α j,1
∑I 1 seul indice sur 4 doit être modifié
j=1 (P )
j 10 Comment s’en souvenir ?
n
n

∑ Pj,1Q j,1 Dépense de la date courante


∑P
j=1
j,1 Q j,1
j=1 = n
= × 100 Dépense de la date de référence
n

∑ Pj,0Q j,1 ∑P
j=1
j,0 Q j,0 1
j=1

Dépense de la date courante


= × 100
Dépense de la date de référence avec les quantités courantes
58
6-4-4) Indices synthétiques de PAASCHE

Indice de Paasche des quantités

P ( Q )1 0 = Moyenne harmonique des indices élémentaires des quantités, base 100,


pondérés par des coefficients de pondération relatifs à la date courante t1

1
P ( Q )1 0 = n α j,1
∑I 1 seul indice sur 4 doit être modifié
j=1 (Q ) j 10 Comment s’en souvenir ?
n
n ∑P j,1 Q j,1
∑P
j=1
j,1 Q j,1 Dépense de la date courante
= j=1
n
= × 100 Dépense de la date de référence
n ∑P j,0 1 Q j,0
∑P
j=1
Q j,0
j,1
j=1

Dépense de la date courante


= × 100
Dépense de la date de référence avec les prix courants
59
Exemple:

Supposons qu'une entreprise utilise 2 produits pour fabriquer son propre produit. Elle achète
ces quatre produits à des fournisseurs. Et que les prix évoluent de la façon suivante:

Le tableau ci-dessous donne le prix unitaire des 2 produits aux dates 0 et t.

1) Quelle serait l'évolution du coût d'achat total si les quantités ne changeaient pas
entre 0 et t ?
2) Quelle serait l'évolution de la valeur totale des produits si les prix n'avaient
pas changé et que seulement les quantités avaient changé ?

1) Calcul de l’indice de Laspeyres des prix

60
On enregistre une évolution des prix de + 2,8 % selon la formule de LASPEYRES.
1) Calcul de l’indice de Laspeyres des quantités

Appliquons la formule de LASPEYRES d'évolution des quantités :

On enregistre donc une évolution des volumes du panier de bien de 90,74 % selon la
formule de LASPEYRES.

61
Exercice d’application
Calculer les indices de Laspeyres, de Paasche (prix et quantité) pour 1991 par rapport à 1990 sur
l’ensemble des quatre produits décrits ci-dessous :

1990 : période 0 j=1àn


1991 : période t n=4

1990 1991
Produits Prix Quantités Prix Quantités
Po qo P1 q1
A 9,00 27 9,25 37
B 4,90 31 5,20 40
C 3,65 40 5,00 28
D 8,10 15 7,70 30

62
7) Les caractéristiques des distributions à deux caractères
Jusqu’à présent, nous avons utilisé des méthodes pour résumer les données pour une seule variable
statistique.
Dans ce chapitre, nous étudierons le croisement de deux variables (statistiques bidimensionnelles).
On cherche alors a décider si les deux variables sont liées (l'une est dépondant de l'autre). Si ces
variables sont liées, on tentera ensuite de trouver la relation qui unit vraisemblablement ces
variables.

7-1) Série statistique à deux variables.


On considère une population de N individus sur laquelle on mesure deux caractères pour
lesquels on obtient les valeurs x1,……,xp et y1,………,yq. Chaque couple de mesure (xi , yj)
apparait avec un effectif nij . L'effectif total est donc:

La fréquence d'apparition du couple (xi , yj) est:

Notez qu’on général :


63
On pose:
: c'est l'effectif de yj

: c'est l'effectif de xi

Et Leurs fréquences associées

Remarque:

Le calcul des effectifs partiels ni et nj (i=1,…….p, j = 1,……..,q) permet d’étudier la série des xi
et la série des yj comme des séries à une variable. On les appelle séries marginales et on peut leur
associer tous les paramètres vus précédemment: V (x), s(x), ,V(y), s(y) et

64
a) La covariance.
En dehors de ces paramètres à une variable, il y a dans ce contexte des paramètres
spécifiques à l’étude d'une série à deux variables, en particulier la covariance : qui est
la quantité:

Propriétés :

Cov ( x,y ) > 0 ⇔ x et y varient dans le même sens.

Cov ( x,y ) < 0 ⇔ x et y varient en sens contraire

Cov ( x,y ) = Cov ( y,x )

Cov ( x,x ) = V(x)

Cov ( a x + b y , z ) = a Cov ( x,z ) + b Cov ( y,z )

65
Exemple:

Sur N = 100 automobiles on a compté le nombre x de pneus usés et le nombre y de phares


défectueux:

13

66
b) Fréquence conditionnelle
La fréquence conditionnelle de xi sachant yi est la proportion d’individus présentant la modalité
xi du caractère X par rapport au totale des individus présentant la modalité yi du caractère Y
noté :

On a :

c) Indépendance.
On dit que la variable X est indépendante de la variable Y si la variation de Y n’entrainent pas
de variation de X

Propriétés:
1) Si X est indépendante de Y alors Y est indépendante de X : on dit que X et Y sont
indépendantes.
2) X et Y sont indépendantes si les fréquences conditionnelles de X (resp Y) sachant Y (resp X)
sont égales aux fréquences marginales de X (resp Y).
67
7-2) Ajustement affine par la méthode des moindres carrés.

7-2-1) introduction.

Les études statistiques nous permettent, en général, d’analyser et de prévoir une tendance.
Le but de cet paragraphe est de déterminer s’il existe un lien de dépendance entre deux
caractères que nous étudions simultanément.

7-2-2) Définition:
Le plan est muni d’un repère orthogonal. A chaque couple nous associons le point M de
coordonnées . L’ensemble des points , Mi est le nuage de points associé à la
série statistique double
Nous appelons point moyen du nuage le point G de coordonnées

avec :

7-2-3) La méthode des moindres carrés.


Nous cherchons une fonction f dont la courbe représentative passe « au plus près » des points du
nuage. C’est le problème de l’ajustement.
68
a) Principe:
Nous considérons un nuage de points . . Soit (D) une droite d’équation :

b) Définition 1:
Nous appelons somme des résidus associée à la droite (D) le nombre réel S défini par :

Si Pi désigne le point d’abscisse xi sur la droite (D), nous avons :

c) Définition 2:
Nous appelons méthode des moindres carrés la méthode qui consiste à rechercher les
coefficients a et b tels que la somme S soit minimale. Remarquons que S est une fonction des
deux variables a et b.

69
d) Théorème.

La droite d’équation qui rend minimale la somme des résidus est la droite :
 Qui passe par le point moyen:
 Qui a pour coefficient directeur:

Cette droite, unique, s’appelle droite de régression de y par rapport à x.

Remarque 1 :

Il est possible de définir la droite de régression de x en y : elle passe, elle aussi, par le point
moyen et elle a pour coefficient directeur:

Remarque 2 :
Cependant, il nous faudrait un outil nous permettant de décider d’ajuster un nuage de
points par une droite. C’est l’objet de la définition qui suit.

70
7-2-4) Coefficient de correlation.
Définition
Nous appelons coefficient de corrélation linéaire le nombre réel, noté , r(x,y) tel que:

! le coefficient de corrélation indique uniquement une dépendance linéaire.

Remarques:

• Lorsque la corrélation est forte ( ) le nuage peut être approximé par une droite.

• Lorsque la corrélation est faible, le nuage de points ne peut pas être ajusté par une
. droite, mais il se peut qu’une autre courbe permette un bon ajustement.

71
Quelques formes typiques de nuages
de points en relation avec les valeurs
du coefficient de corrélation pour la
régression linéaire
(Sx et Sy représentent respectivement
l‘écart-type de la variable x et l‘écart-type
de la variable y)
Exemple:
Une entreprise xxx de boites de conserve a étudié l’incidence de sa pression marketing.
Elle enregistre dans 5 zones géographiques les ventes yi (en milliard de boite de conserve) et
les dépenses publicitaire xi en milliers d’euros.

Détermination de la droite de régression linéaire par la méthode de moindre carré.

73
74
10

(D): Y= 2,78 X + 11,2

75
76

Vous aimerez peut-être aussi