Vous êtes sur la page 1sur 32

ROYAUME DU MAROC

Office de la Formation Professionnelle


et de la Promotion du Travail

GUIDE DE SOUTIEN

MODULE TSGH-15
STATISTIQUES DESCRIPTIVES

SECTEUR : TOURISME ET HÔTELLERIE

FILIÈRE : GESTION HÔTELIÈRE

NIVEAU : TECHNICIEN SPÉCIALISÉ

Version : 2019

1
Elaboré par : RACHID abdelkader ISHR Agadir
SOMMAIRE
1. Présentation des données statistiques

2. les constructions graphiques

3. les caractéristiques de tendance centrale

4. les caractéristiques de dispersion

5. la corrélation

ELABORE PAR : RACHID Abdelkader ISHR Agadir

2
COURS 1 : PRÉSENTATION DES DONNÉES STATISTIQUES
INTRODUCTION GENERALE

La statistique est une méthode scientifique qui consiste à collecter des données chiffrées sur des
ensembles nombreux, puis à analyser, à commenter et à critiquer ces données. Le terme « statistique » est
issu du latin « statisticum », c’est-à-dire qui a trait à l’État.

La statistique s’applique à la plupart des disciplines : économie, démographie, agronomie, biologie,


sociologie, linguistique, psychologie, . . .

CHAPITRE 1 : CONCEPTS DE BASE


LA POPULATION
C’est l’ensemble des individus (ou unités statistiques) présentant un caractère commun. Pour
une thématique donnée, la population regroupe toujours la totalité des individus relatifs à cette
thématique (notion d'exhaustivité).
Exemples : les employés d’une entreprise, les produits, les clients d’une entreprise, les ménage…
La population est en général notée P
L'effectif total d'une population est noté N.

L’UNITÉ STATTISTIQUE OU L’INDIVIDU


C’est l’élément de base constitutif de la population à laquelle il appartient. Il est indivisible, par exemple :
un individu, un produit ou une entreprise….

L’ÉCHANTILLON
Lorsque le nombre d’individus est très élevé, l’étude porte sur t un sous-ensemble construit et représentatif
d'une population appelé échantillon.

LE CARACTÈRE OU LA VARIABLE
C’est la (les) caractéristique(s) étudiée de l'individu intégrant la population. Exemple : l’âge, le sexe, le
poids, la taille, la marque, le modèle, l'espèce, le prix, la surface, le chiffre d’affaires etc.

LA MODALITÉ
C’est la valeur qualitative ou quantitative que peut prendre le caractère précédemment défini.
Exemple : sexe féminin ou masculin, prix 400Dh – 500…, client : affaire – tourisme…, etc.
Attention, les modalités sont exhaustives et mutuellement exclusives. Chaque individu doit
pouvoir être classé dans une et une seule modalité.

LES TYPES DE VARIABLES

La variable statistique peut être qualitative ou quantitative

Variable qualitative
Une variable statistique est dite de nature qualitative si ses modalités ne sont pas numériques (ne s’exprime
pas en chiffre). Exemple :
Le sexe ; modalités : féminin, masculin
La profession ; modalités : cadre, employé, ouvrier
L’état matrimonial (situation familiale) : marié, veuf (ve), célibataire, divorcé
Les variables qualitatives sont constituées de deux sous-classes :

3
➢ Les variables qualitatives nominales : ce sont celles dont les modalités ne peuvent
qu’être constatées, nommées. Exemple : Le sexe (masculin, féminin), la nationalité
(Canadienne, Française, Marocaine,..)…
➢ Les variables qualitatives ordinales. ce sont les variables qualitatives dont les
modalités appellent naturellement un ordre dans leur rangement. Exemple : Le niveau
scolaire (primaire, secondaire, collégial, universitaire), la satisfaction des clients
(excellente, bonne, correcte, médiocre…

APPLICATION N°1

On a pris un échantillon de 50 achats de boissons non-alcoolisées achetées dans une grande


surface, en notant par :

CC=Coca-Cola; S=Sprite; CL=Coke-Light; P=Perrier; PC=Pepsi-Cola. On a obtenu


les résultats suivants :

CC S PC CL CC CC PC CL CC CL CC CC CC CL PC CC
CC P P S CC CL PC CL PC CC PC PC CC PC CC CC PC
P PC PC S CC CC CC S P CL P PC CC PC S CC CL

1- Quelle est la variable étudiée ?


2- Quel est le type de cette variable ? pourquoi ?
3- Quelles sont les modalités ?
4- Présenter la série sous forme de tableau des fréquences ?(chapitre suivant)

Tableau des fréquences des boissons non-alcoolisées

X=Boisson Fréquences absolues Fréquences relatives


n

Total N= 1

Variable quantitative

4
Variable est dite quantitative si toutes ses valeurs des modalités sont numériques. Il existe deux types de
variables quantitatives : les variables discrètes et les variables continues.

➢ Variable quantitative discrète (discontinue)


Lorsque les modalités sont des valeurs numériques isolées, comme le nombre d’enfants par
ménage, on parle de variable discrète.
Exemples : Âge, salaire, nombre de chambres par hôtel…

APPLICATION N° 2
Lors d’une enquête de satisfaction de la clientèle, un hôtel a demandé à un échantillon de 60 clients
d’indiquer leur degré de satisfaction vis-à-vis de leur accueil à la réception, sur une échelle de 1 à 5, le 1
correspondant à <<pas du tout satisfait>> 2 <<peu satisfait>> 3 << satisfait>> 4 <<très satisfait>> et le
5 <<Extrêmement satisfait>>. On a obtenu les résultats suivants :

5 4 3 2 4 5 5 2 3 3 4 1 5 5 3 5 5 4 5 4

2 3 2 1 4 5 5 2 3 5 5 4 5 2 5 4 5 5 5 4

4 5 3 2 5 4 3 4 5 5 5 4 3 1 4 5 5 4 5 5

Questions

1- Quelle est la population étudiée ? c’est quoi son unité ?


2- Est-ce qu’on a étudié toute la population ? pourquoi ?
3- Quelles sont les modalités ?
4- Quelle est la variable étudiée ?
5- Quel est le type de cette variable ? pourquoi ?
6- Présenter les séries sous forme de tableau des fréquences ?
Tableau des fréquences

X= Fréquences absolues Fréquences relatives


n

Total N=
7- Présenter les fréquences cumulées croissants et décroissants

➢ Variable quantitative continue


Lorsque la variable, par exemple la taille d’un individu, peut prendre toutes les valeurs d’un
intervalle, ces valeurs peuvent alors être regroupées en classes, et on parle dans ce cas de
variable continue.
➢ Ce découpage en classes nécessite la calcul de l’étendu, le choix des amplitudes, amplitudes constantes
ou variables, nombre de classes.
• L’étendue c'est la différence entre les valeurs extrêmes. Pour la calculer, il suffit de soustraire
la plus grande valeur (maximum) et la plus petite valeur (mininum) de la série.
5
• L’amplitude : c'est la largeur d'une classe. Pour trouver l'amplitude, on prend la valeur de
l'étendue et on divise ce nombre par le nombre de classe voulue. Le nombre de classe doit se
situer entre 5 et 12. On l’écrit comme suit :
• [10-20] 20 inclus ou [10-20[ 20 non incluse.

Application N°3
Dans une entreprise, on a recensé les salariés selon leur âge. Les résultats obtenus sont les suivants :

34 50 44 30 26 24 52 43 44 27
44 23 44 55 50 26 30 32 44 39
43 29 27 33 26 33 44 26 24 22
25 30 34 30 32 37 44 27 24 26
25 28 28 33 39 51 44 28 27 33
27 44 47 36 33 28 34 39 39 41
30 32 36 41 56 28 40 38 26 44
31 49 31 36 44 26 23 24 51 40

TAF
1- Déterminer : la population, l’unité, la variable (caractère)?
2- S’agit –il d’une variable quantitative ou qualitative ? pourquoi,
3- Peut- on présenter cette variable sous forme continue ou discrète ? pourquoi ?
4- Pour présenter les observations cette forme de variable continue, déterminer :
o L’étendue ?
o Le nombre de classe convenables ?
o L’amplitude
5- Présenter les modalités (classes modales)
6- Compter le nombre d’observations par classe
7- Présenter les séries sous forme de tableau des fréquences ?(chapitre suivant)
8- Présenter les fréquences cumulées croissants et décroissants(chapitre suivant)

LES SERIES STATISTIQUES


6
Définition
On appelle série statistique (ou distribution statistique) la suite des valeurs prises par une variable X
sur les unités d’observation. Une série statistique est représentée sur un tableau statistique ou sur
graphique.

LE TABLEAU STATISTIQUE
Le tableau statistique ou Distribution de fréquences présente Les valeurs de la variable X notées x1, . .
, xi, . .xn.
Et d’autres part les effectifs : notés ni
➢ Effectifs (fréquences absolues) :
C’est le nombre d’unités statistiques relatif à une modalité donnée :

Age Effectifs
Xi ni
17-18 200
18-19 350
19-20 50
Effectif N 600

L’effectif : Le nombre d’unités d’observation est noté ni.la somme des effectifs est désigné par N
➢ Fréquence relative :
C’est la part des effectifs d’une modalité.
EX : 200/600=33/100 est la fréquence relative de première modalité

Age Effectifs Fréquences


relatives
17-18 200 0,33
18-19 350 0,58
19-20 50 0,08
Effectif N 600 1,00

➢ L’effectif cumulé
a) Cas d’une variable continue :
ni cumulés ni cumulés
Salaire horaire ni
croissant décroissants
[10-20[ 9 9 65
[20-30[ 13 22 56
[30-40[ 22 44 43
[40-50[ 10 54 21
[50-60[ 7 61 11
[60-70[ 4 65 4
Total N= 65

TRAVAUX PRATIQUES

7
Exercice 1 :
Dans une entreprise de 80 salariés on a enregistré les salaires mensuels suivants :
• 54 salariés gagnent 6 000 dirhams ou plus ;
• 34 salariés gagnent 8 000 dirhams ou plus ;
• 20 salariés gagnent 10 000 dirhams ou plus ;
• 8 salariés gagnent 12 000 dirhams ou plus ;

1. préciser pour cette série : la population, l’unité, la variable ?


2. quel est le type de cette variable ?
2. Présenter ces données dans un tableau avec des classes de même amplitude en
sachant qu’aucun salarié ne gagne plus de 14 000 DH
3. présenter les fréquences absolues relatives
3. présenter les effectifs cumulés croissants et décroissants.

Exercice 2 :
le nombre d’enfants par salarié dans une entreprise se présente comme suit :

2 0 4 2 2 1 3 2 0 1 4 3 2 4 5 1 1 4 2 0
3 0 4 2 1 2 4 3 0 4 3 4 3 3 5 5 1 2 2 1

1. préciser pour cette série : la population, l’unité, la variable ?


2. quel est le type de cette variable ?
3. Quelles sont ses modalités
4. Présenter ces données dans un tableau des fréquences relatives et absolues
5. présenter les effectifs cumulés croissants et décroissants.

REPRÉSENTATION GRAPHIQUE

8
INTRODUCTION
Les graphiques sont des formes qui facilitent la compréhension et interprétation de séries statistiques ou de
résultats sur des traitements de données. Synthétique mais très visuelle et en cela plus facile à aborder et à
interpréter que ne le ferait un tableau de chiffres.
Chaque type de graphique est adapté à une ou plusieurs situations ou façon de représenter
l'information. Selon la nature des données, la nature de variable, le nombre de variables et ce
que l'on souhaite montrer, il sera judicieux de choisir la représentation graphique la mieux
adaptée.

CHAPITRE 1 : LE CAS DES VARIABLES CONTINUES


Quand on a une variable sous forme de classe (une variable continue), on ne peut que faire l’histogramme.
Un histogramme est un diagramme composé de rectangles contigus dont les aires sont propor-tionnelles
aux effectifs (ou aux fréquences) et dont les bases sont déterminées par les intervalles de classes.
Le polygone des fréquences : consiste à joindre le milieux des sommets des rectangles d’un histogramme
par une ligne en zig-zag.
Exemple : Le responsable des ressources humaines d’une entreprise a relevé la distribution
statistique suivante correspondant à l’ancienneté du personnel cadre dans l’entreprise,
exprimée en années :

Solution :

HISTOGRAMME

La courbe des fréquences cumulées (Ogive).


Comme son nom l’indique, elle consiste à tracer le graphique des fréquences cumulées, en mettant les
limites des classes sur l’axe horizontal et les fréquences cumulées sur l’axe vertical, ces dernières se
cumulant à la fin de chacune des classes. Ce graphique aura l’allure d’une courbe croissante

APPLICATION sur l’exemple précédent

9
IV-2. LE CAS DES VARIABLES DISCRETES
Quand on a une variable discrète, on peut faire le diagramme en bâton, et le diagramme en ligne.
Diagramme en bâton
On appelle diagramme en bâtons un graphique qui à chaque modalité d’une variable
quantitative discrète associe un segment (bâton) dont la hauteur est proportionnelle à l’effectif
(ou à la fréquence).
Exemple :
Faites le diagramme en bâtons du nombre de personnes par ménage présentés dans le tableau ci-dessous.
9 ou
Xi 1 2 3 4 5 6 7 8
plus
ni 8000 8100 4500 3500 1500 500 300 200 300

Solution :

IV-3. LE CAS DES VARIABLES QUALITATIVES


1-Diagramme circulaire (camembert)
Un diagramme circulaire est un graphique constitué d’un cercle divisé en secteurs dont les
angles au centre sont proportionnels aux effectifs (ou aux fréquences). De fait, les aires des
secteurs sont proportionnelles aux effectifs. L’angle ai d’une modalité est donné en degré :

10
2-Diagramme en tuyau d’orgue
Un diagramme en tuyaux d’orgue est un graphique qui à chaque modalité d’une variable
qualitative associe un rectangle de base constante dont la hauteur est proportionnelle à
l’effectif (ou à la fréquence). De fait, les aires des secteurs sont proportionnelles aux effectifs.
Les rectangles sont en général disjoints, verticaux ou horizontaux.

Exemple précédent

3-Diagramme en barre multiple


Exemple :

11
12
EXERCICES
1- La distribution des demandeurs d’emploi selon le sexe et la classe d’âge dans une localité est la suivante :

a) Tracer la représentation graphique convenable


b) Tracer les deux courbes de fréquences cumulées croissantes.

2- La distribution des nombres d’accidents de travail par semaine dans une entreprise est la suivante :

Le nombre d’accidents par Fréquences


0
semaine. 4
absolues
1 2
2 10
3 7
4 10
5 4
6 3
Total n=40
3- La distribution suivante présente les arrivées touristiques par nationalité dans une ville :

Nationalités Nombre des arrivées


Allemands 24000
Français 38000
Espagnols 8600
Italiens 18000
Total

- Représenter graphiquement cette distribution sous forme de diagramme circulaire

4- L’évolution du chiffre d’affaires en milliers, par centre de profit pendant 3 ans, dans un hôtel est la suivante :

CA par centre 2016 2017 2018


Chambres 14500 19000 15250
Nourritures 10950 12000 14500
Boissons 8750 9200 10500
Total

- Représenter graphiquement cette distribution sous forme de diagramme en barres multiples

13
LES CARACTÉRISTIQUES DE TENDANCE CENTRALE
Introduction
Les caractéristiques de tendance centrale essayent de donner la valeur la plus représentative d'un ensemble
de valeurs numériques. On distingue trois mesures de tendance centrale :
 Le mode ;
 La moyenne ;
 La médiane.
Tous trois ne décrivent par la même chose et sont, de ce fait, complémentaires dans la description et
l'analyse d'une distribution. Ces statistiques ne se calculent que dans le cas où nous avons à faire à des
variables quantitatives. Dans le cas où nous avons des variables qualitatives, on procède aux fréquences.

I- Le mode
On appelle le mode d’une variable X, la valeur de la variable qui a la plus grande fréquence et on le note
Mo(X). Le mode est une importante mesure de tendance centrale pour les variables qualitatives nominales.
Remarque : Une distribution peut avoir un seul mode et on dit qu’elle est unimodale, ou plusieurs modes et
on dit qu’elle est multimodale.
Exemple 1 : Si on reprend la distribution des boissons non-alcoolisées,

Tableau des fréquences des boissons non-


X=Boisson Fréquences absolues
alcoolisées
CC 19
CL 8
PC 13
P 5
S 5
Total n=50
Alors, le mode de cette variable est Mo(X)=Coca-Cola (CC), cela signifie que dans cet échantillon, la
boisson la plus fréquemment achetée est Coca-Cola avec 19.
Exemple 2 : En reprenant l’exemple des recettes quotidiennes d’un petit magasin, où la variable est
quantitative continue avec des données groupèes en classes, on avait le tableau des fréquences suivant :
X=les recettes Fréquences absolues Fréquences relatives
[10 ; 100[ 5 0,125
[100 ;190[ 3 0,075
[190 ;280[ 11 0,275
[280 ;370[ 6 0,150
[370 ;460[ 10 0,25
[460 ;550[ 3 0,075
[550 ;640] 2 0,05
Total n=40 1,000
Dans le cas d’une variable continue, le mode correspond au centre de la classe modale :
centre de classe = valeur sup + valeur inférieur /2
Classe modale :
Mode est de : =

14
On voit que le mode d’une variable est une mesure de tendance centrale facile à déterminer et s’applique à
tous les types de variables, mais sa portée comme mesure d’analyse est très limitée.

Exemple 3 : Donner le mode des séries des données suivantes

II- La moyenne.
La moyenne arithmétique ou simplement la moyenne est la mesure de tendance centrale la plus connue. Elle
ne s’applique qu’aux variables quantitatives. On va décrire la méthode pour calculer la moyenne d’une
variable quantitative selon que les données sont en vrac, groupées par valeurs ou groupées par classes.

1 : Les données en vrac : la moyenne arithmétique simple


Soit X une variable quantitative dont les valeurs observées sur un échantillon forment une série en vrac
𝑥1 , 𝑥2, … . , 𝑥𝑛 alors la moyenne arithmétique simple de cet échantillon est :

𝑥1 + 𝑥2 + ⋯ . +𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖
̅=
𝒙 =
𝑛 𝑛

Exemple 1 : Le nombre de clients qui se présentent quotidiennement au magasin pendant 1à jours sont les
suivantes :

120 105 90 201 196 65 88 163 103 116

Alors dans cet échantillon le nombre moyen des clients qui se présentent à ce magasin par jour est
donné par la formule suivante :
𝑥1 +𝑥2 +⋯.+𝑥𝑛 120+105+⋯.+116
𝐱̅ = = = 124,7 clients par jour.
𝑛 10

2 : Les données groupées par valeurs : la moyenne arithmétique pondérée


Soit X une variable quantitative discrète dont les données se présentent sous forme d’un tableau où elles sont
classées par valeurs, supposons que la taille de l’échantillon est n et qu’il y a k valeurs différentes pour cette
variable. Alors la moyenne arithmétique pondérée d’un tel échantillon de données est :

∑(𝑣𝑎𝑙𝑒𝑢𝑟) ∗ (𝑠𝑎 𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑎𝑏𝑠𝑜𝑙𝑢𝑒) ∑𝑘𝑖=1 𝑥𝑖 𝑛𝑖


𝐱̅ = =
𝑡𝑎𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙′é𝑐ℎ𝑎𝑛𝑡𝑖𝑙𝑙𝑜𝑛 𝑁

Exemple 1.5.2.2.1 : Reprenons les données de l’exemple où X est le nombre d’accidents de travail par
semaine. On avait le tableau de données suivant :

15
Tableau des fréquences du nombre d’accidents par semaine
Xi Fréquences absolues 𝑛𝑖 𝑥𝑖 𝑛𝑖
0 4 0
1 2 2
2 10 20
3 7 21
4 10 40
5 4 20
6 3 18
Total N=40 121

Alors la moyenne de cet échantillon est égale à :

121
̅=
𝒙 = 3,025 accidents par semaine.
40

1.5.2.3 : Les données groupées par classes.


Pour calculer la moyenne arithmétique pondérée d’une variable continue (en classes) on utilise une formule
approximative, où chaque classe est assimilée à son centre et on utilise la même formule que pour le cas où
les données sont groupées par valeurs. Si on note par 𝒎𝒊, le milieu de la ième classe et qu’on suppose que la
taille de l’échantillon est n et qu’il y a k classes, alors la moyenne de l’échantillon est :

∑𝑘𝑖=1 𝑐𝑖 𝑛𝑖
𝑥̅ =
𝑁
Exemple 1.5.2.3.1 : En reprenant l’exemple 1.4.2.2.1 où X est la recette quotidienne d’un petit magasin, on
avait le tableau suivant auquel on a ajouté une colonne à gauche contenant le milieu des classes :

Reprenant l’exemple des recettes d’un magasin.

X=les recettes 𝑐𝑖 Fréquences 𝑐𝑖 𝑛𝑖


[10 ; 100[ 55 absolues
5 ni 275
[100 ;190[ 145 3 435
[190 ;280[ 235 11 2585
Alors la moyenne de cet [280 ;370[ 325 6 1950 échantillon est :
[370 ;460[ 415 11 4565
[460 ;550[ 505 3 1515
[550 ;640] 595 1 595
Total N=40 11920
∑𝑘𝑖=1 𝑐𝑖 𝑛𝑖 11920
𝑥̅ = = = 298 𝑑ℎ.
𝑁 40
III-La médiane.
La médiane est la valeur de la variable qui divise l’échantillon en deux groupes d’égal effectif. Il y a 50%
des données qui sont inférieures ou égales à la médiane et 50% des données qui sont supérieures ou égales à
la médiane. La médiane se calcule pour des variables qualitatives ordinales et pour des variables

16
̃ . Dans ce qui suit on va décrire les
quantitatives. On note la médiane d’une variable X par Me(X) ou par 𝒙
façons de calculer une médiane dans les différents cas possibles.

1 : Cas de variable discontinue

On doit d’abord ordonner les données par ordre cumulé croissant.

On désigne par n le nombre d’observations.


✓ Si n est pair : la médiane est alors égale à la moyenne des valeurs encadrant le
milieu de la série.
✓ Si n est impair alors il est possible d'identifier simplement la valeur qui partage la
population en deux effectifs égaux. Le rang central étant égal à [(n+1)/2].

Ci-après nous donnerons un exemple pour chacun de ces deux cas.

Exemple de données en vrac: Reprenons les données de l’exemple où la variable est le nombre de clients
qui se présentent quotidiennement au magasin. On avait des données en vrac :

120 105 90 201 196 65 88 163 103 116

En les ordonnant, on aura : 65 88 90 103 105 116 120 163 196 201.

Ici, n=10 (nombre pair)


𝑥(5) +𝑥(6) 105+116
𝑀𝑒(𝑋) = 𝑥̃ = = = 110,5. Ce qui veut dire qu’à partir de cet échantillon, on peut affirmer
2 2
que dans 50% des journées, ce magasin reçoit 110 clients ou moins par jour et dans l’autre 50% des journées,
il reçoit 110 clients ou plus.

2 : Les données groupées par valeurs


Exemple 1: : Reprenons les données de l’exemple, où X est le nombre d’accidents de travail par semaine.
On avait le tableau de données où les modalités de la variable sont groupées par valeurs, qu’on va changer
un peu en ajoutant une donnée supplémentaire :

Nombre d’accidents Fréquences Fréquences


par semaine absolues absolues cumulés
0 4 croissants
4
1 2 6
2 10 16
3 7 23
4 10 33
5 4 37
6 4 41
Total n=41

Ici, n=41 (impaire) Alors :𝑀𝑒(𝑋) = 𝑥̃ = 𝑥41+1/2 = 𝑥(21) =


𝑙 ′ 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛 𝑞𝑢𝑖 𝑜𝑐𝑐𝑢𝑝𝑒 𝑙𝑎 21è𝑚𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛 = 3.

C’est-à-dire que dans cet échantillon, dans 50% des semaines, on observe 3 accidents ou moins par semaine
et l’autre 50% des semaines, on observe 3 accidents ou plus par semaine.

17
1.5.3.3 : Cas de données groupées par classes.

Dans le cas où on dispose d’un tableau de fréquences complet (incluant les fréquences cumulées) des données
groupées par classes. Il faut d’abord déterminer la classe médiane, qui est la classe où les fréquences
cumulées dépassent pour la première fois 50%. Cette classe aura la forme :

𝑪𝒎 = [𝒃𝒊𝒏𝒇 ; 𝒃𝒔𝒖𝒑 [, alors on obtient la médiane par interpolation à l’intérieur de cette classe médiane et on
obtient la formule suivante :

classe médiane. En supposant que tous les individus de cette classe sont uniformément
répartis à l’intérieur, la médiane se calcule de la façon suivante par interpolation linéaire :

Exemple 1.5.3.3.1 : En reprenant les données où X donne la recette quodienne d’un petit magasin, on
retrouve le tableau des fréquences suivant :

X=les recettes effectifs effectifs cumulé


croissant

[10 ; 100[ 5 5

[100 ;190[ 3 8

[190 ;280[ 11 19

[280 ;370[ 6 25

[370 ;460[ 11 36

[460 ;550[ 3 39

[550 ;640] 1 40

Total n=40

ni est pair ; classe médiane = X (40/2)= X20


Alors ici, la classe médiane est 𝐶𝑚 = [𝑏𝑖𝑛𝑓 ; 𝑏𝑠𝑢𝑝 [=[280 ;370[
Xm= 280

18
a= 90
ni= 6
N-1=19
n= 40
𝑏𝑖𝑛𝑓 = 280 𝐹(𝑚−1) = 0,475
𝑓𝑟,𝑚 = 0,150 𝐴𝑚 = 90 ce qui donne une médiane égale à :

20 − 19
𝑥̃ = 280 + (90𝑋 ) = 295
6
Ce qui veut dire qu’en se basant sur cet échantillon de données, 50% des recettes quotidiennes de ce petit
magasin sont inférieures ou égales à 295 et les autres 50% sont supérieures ou égales à 295$.

Remarque 1 : Le calcul de la médiane est basé sur l’ordre des observations et non sur leur valeur.
Contrairement à la moyenne, la médiane est insensible aux données extrêmes. Dans le cas où les données
sont très différentes, la médiane est une meilleure mesure de tendance centrale.

Remarque 2 : Si pour une variable X quantitative les 3 mesures de tendance centrale sont presque égales,
on dit alors que la variable est symétrique et alors n’importe laquelle de ces mesures peut être utilisée comme
mesure de cette tendance centrale. S’il y a un grand écart entre ces mesures alors c’est la médiane qu’on doit
priviligier.

19
Médiane d'une série continue
Si la variable est continue ( regroupement par intervalle des résultats ) le calcul de la médiane se fait
comme suit :

Utilisons la colonne des effectifs cumulés pour déterminer la médiane : il y a 50 notes, 50 % de l'effectif
total c'est 25, la médiane est ici la note correspondant à l'effectif cumulé 25.

D'après la colonne "effectif cumulé" :

o 18 personnes ont moins de 8


o 30 personnes ont moins de 12

La médiane se trouve donc dans l'intervalle [8;12[ ( appelée classe médiane ) on va la déterminer
par interpolation linéaire.

Les points A, M, B sont alignés ce qui se traduit par les droites (AM) et (AB) ont même coefficient
directeur (ou on utilise le théorème de Thalès dans le triangle bleu ) :

La médiane est environ 10,33

50 % environ des personnes ont eu moins de 10,33 et 50 % plus de 10,33 .

20
EXERCICES D’APPLICATION
Exercice 1

Le chiffre d’affaires journalières pendant 15 jours ; d’un point de vente d’un hôtel en milliers de Dh sont
les suivants

42 ; 35 ; 61 ; 30 ; 28 ; 44 ; 55 ; 32 ; 37 ; 49 ; 44 ; 31 ; 56 ; 30 ; 44

TAF

1- Mettre la distribution en ordre


2- Déterminer le mode
3- Calculer la moyenne arithmétique
4- Déterminer la médiane

Exercice 2 :

- Dans une petite localité, on a relevé le nombre de pièces par appartement :

Nombre de pièces 1 2 3 4 5 6 7

Nombre d’appartements 48 72 96 64 39 25 3

1. Présenter le tableau statistique ?


2. Tracer le diagramme des bâtonnés et la courbe des fréquences cumulées
3. Quel est le mode de cette série ?
4. Calculer la moyenne de cette série.
5. Déterminer la médiane.

Exercice3 : La distribution des nombres de clients par agence de voyages d’un hôtel est la suivante :

X= nombre de clients Nombre d’agences


[100 ; 150[ 12
[150 ;200[ 4
[200 ;250[ 10
[250 ;300[ 7
[300 ;400[ 22
[400 ;450[ 2
[500 ;600] 6
Total

1. Compléter le tableau statistique


2. Quel est le mode de cette série ?
3. Calculer la moyenne de cette série ?
4. Déterminer la médiane ?

21
Les caractéristiques de dispersion
Introduction
Partons de 3 séries
Série 1 : 9 11 _X= 10
Série 2 : 5 15 _X= 10
Série 3 : 1 19_X= 10
Les 3 séries ont la même moyenne : 10 et portant ils sont différents l’unes des autres.
Dans la 1ère série ; les valeurs du caractère sont proches de la moyenne. La moyenne est représentative.
Dans la 3 éme Série les valeurs du caractère sont éloignées de la moyenne. Il faut donc lorsqu’on résume
une série, indiquer par un nombre si les valeurs sont proches ou éloignées de la valeur centrale. Ce
nombre est appelé caractéristiques de dispersion.
Les indices de tendance centrale définissent le comportement général des données.
Mais les données peuvent varier beaucoup autour de cette tendance. On doit donc définir un
indice qui caractérise la variabilité des données dans l’échantillon. Cet indice est appelé indice
de dispersion parce qu’il renseigne sur la dispersion ou l’éparpillement des données autour
notamment des paramètres de tendance centrale.
Nous étudierons quatre paramètres de dispersion parmi les principaux, en mettant plus
particulièrement l’accent sur la variance et l’écart-type :
• l’étendue et le rapport de variation
• L’écart absolu moyen
• la variance
• l’écart-type
• le coefficient de variation

I- l’étendue et le rapport de variation


L’étendue est la mesure de dispersion la plus simple à calculer. Lorsqu’on a une variable quantitative
X, mesurée sur un échantillon de taille n. Alors l’étendue est égale à
𝑬 = 𝒍𝒂 𝒑𝒍𝒖𝒔 𝒈𝒓𝒂𝒏𝒅𝒆 𝒅𝒐𝒏𝒏é𝒆 − 𝒍𝒂 𝒑𝒍𝒖𝒔 𝒑𝒆𝒕𝒊𝒕𝒆 𝒅𝒐𝒏𝒏é𝒆 = 𝑿𝒎𝒂𝒙 − 𝑿𝒎𝒊𝒏.
Puisque l’étendue est basée seulement sur les deux observations extrêmes, alors elle est très peu
utilisée dans les applications.

Le Rapport de Variation (RV), c’est-à-dire le rapport de la valeur maximale de la


distribution à la valeur minimale de la même distribution.

Exemple 4 : Les notes d’élèves de deux classes au même examen ont donné les résultats suivants.
Classe 1 Classe 2
8 3
11 12
13 16
5 5
8 3
14 7
6 10

22
12 7
5 19
10 16
16 5
7 11
12 13
13 11
8 9
13 13
8 9
7 10
13 12
13 8
9 15
17 15
10 8
13
6
13
7
14

Solution :
Classe 1 Classe 2
Minimum 5 3
Maximum 17 19
Etendu 17-5=12 19-3=16
Rapport de
17/5=3,4 19/3=6,3
variation

Le rapport de variation nous apprend que dans la classe 1 la meilleure note est 3,4 fois plus
élevée que la note la plus faible. Ce rapport est plus important dans la classe 2 pour laquelle il
est 6,

II- Ecart absolu moyen


Définition : l'écart absolu moyen est la moyenne de la valeur absolue des écarts à la moyenne.
Autrement dit, c'est la distance moyenne à la moyenne. Bien qu'il soit moins utilisé, on peut
calculer de la même manière l'écart absolu médian qui est la moyenne des écarts à la
médiane.

1-Cas de série en vrac : de l'écart absolu moyen et de l'écart absolu médian

Exemple : Notation des professeurs X et Y:

Notation de 9 étudiants par les professeurs X et Y

23
Etudiant Notes du Pr X Notes du Pr Y
A 7 0
B 8 5
C 9 9
D 10 10
E 10 10
F 10 10
G 11 11
H 12 15
I 13 20
mode 10 10
moyenne 10 10

Le calcul de l'écart absolu moyen des notes du Pr X est obtenue en effectuant la moyenne de la
valeur absolue des écarts à la moyenne :

Calcul de l'écart absolu moyen des notes du Pr X

Etudiant Notes xi
A 7 3
B 8 2
C 9 1
D 10 0
E 10 0
F 10 0
G 11 1
H 12 2
I 13 3
total 90 12
moyenne 10 12/9 = 1.33

L'écart absolu moyen de la notation du professeur X est donc de 1.3, ce qui signifie que les
notes s'écartent en moyenne de 1.3 de la moyenne. Il n'y a donc pas, en moyenne, de gros
écarts à la moyenne.

TAF : présenter l’écart moyen du prof Y

Si on effectue le même calcul pour le professeur Y, on trouve un écart absolu moyen de 3.6, ce
qui signifie que ses notes s'écartent généralement beaucoup plus de la moyenne. On peut donc
conclure que la dispersion des notes du Pr Y est plus forte que celle du Pr X.

24
2-Cas de série de valeurs ( avec fréquences)

Exemple : soit la série suivante suivant :

Poids ni xi ni * xi
55-60 12 57,5 690 10,25 123
60-65 17 62,5 1062,50 5,25 89,25
65-70 36 67,5 2430 0,25 9
70-75 24 72,5 1740 4,75 114
75-80 11 77,5 852,50 9,75 107,25
100 100 6775 442,5

𝑥̅ = Ca=

Signification :

APPLICATION

Sit le série des prix des chambres des hôtels 4* sur un territoire touristique.

Effectifs
Prix des chambres
hôtels
[200; 250[ 30
[250; 300[ 60
[300; 350[ 100
[350; 400[ 45
[450; 500[ 10
[550; 700[ 25
N=

TAF :

1. Calculer la moyenne arithmétique pondérée


2. Calculer la moyenne
3. Déterminer l’étendu
4. Calculer l’écart absolu moyen
5. Calculer l’écart absolu médian
6. Interpréter les résultats

25
III- LA VARIANCE ET L’ECART TYPE
A- Définition
1-la variance
On appelle une variance, la moyenne arithmétique des carrés des écarts entre les valeurs et caract
et la moyenne arithmétique.
NB : la variance n’est pas significative, car elle s’exprime en carrés ; c’est juste une étape
pour calculer l’écart type.
σ 2 = ∑ni / ∑ ni
2- écart-type
On appelle écart-type (ou écart quadratique moyen) la racine carré de la variance

B- Application :
Le même tableau précédent
ni xi
12 57,5 105,0625 1260,75
17 62,5 27,5625 468,5625
36 67,5 0,0625 2,25
24 72,5 22,5625 541,50
11 77,5 95,0625 1045,6875
100 3318,75

Moyenne= 67,75 X57,5 = (57,5- 67,75)2= 105,0625------------= 105,0625x12= 1260,75


σ 2 = ∑ni(xi - x)2 / ∑ ni= 3318,75/100= 33,18 La variance

Ecart type
Signification : En moyenne chaque individu s’écarte du poids moyen (67.5 kg) de 5.76 kg.
III- LE COEFFICIENT DE VARIATION

L’écart-type, malgré sa pertinence dans la mesure de la dispersion d’une distribution, possède


un inconvénient majeur : il est exprimé dans l’unité de la variable à laquelle il se rapporte. Il
est alors impossible de comparer les dispersions de deux distributions ayant un lien entre elles
(lien de causalité ou autre) et dont les valeurs s’expriment dans des unités différentes.
Pour comparer la dispersion de deux séries qui ne sont pas exprimées dans les mêmes unités,
on utilise le coefficient de variation. Cette statistique est une mesure neutre qui s’exprime la
plupart du temps en pourcentage. Il se calcule en divisant l’écart-type par la moyenne et
s’écrit donc :

26
Interprétation : Plus grand est le coefficient de variation, plus grande est la dispersion.
Exemple précédent VC= 5,76/67,75= 0,085= 8,50%

Application : soit la distribution de l’âge et des salaires des employés :


Age Salaire

Des employés Des employés
1 37 3000
2 35 3100
3 36 2900
4 36 3500
5 41 3050
6 38 2950
7 40 4000
8 36 4200
9 35 2900
10 37 2950

Solution :
1. Calculer la moyenne de chaque série
2. La variance de chaque série
3. L’écart type le coefficient de variation de chaque série
4. Le coefficient de variation de chaque série
5. Interpréter les résultats en comparant les deux séries
1ére série Age
Age Xi- X

Des employés moyenne
1 37
2 35
3 36
4 36
5 41
6 38
7 40
8 36
9 35
10 37
N=10

2 me série
Salaire
N° Xi- Xmoyenne
Des employés
1 3000
2 3100
3 2900
4 3500
5 3050
6 2950
7 4000
8 4200
9 2900
10 2950
N=10
27
Age Salaire
Moyenne
Variance
Ecart-type
CV

La régression linéaire
I. Présentation du problème
Une distribution statistique double : C’est une distribution ou l’observation s’effectue selon 2
caractères.
Pour ce genre de distributions, il serait parfois nécessaire de mesurer l’influence de l’évolution
d’une série sur l’autre. Pour cela on détermine les paramètres statistiques comme :
• La droite de régression
• Le coefficient de corrélation
Soit le tableau suivant, évolution de deux séries : prix et quantités vendus d’un produit

28
Nous avons un ensemble de points « un nuage statistique »qui nous indique que les prix est
les quantités évoluent selon la même tendance. Il est possible de schématiser ce nuage par une fonction
simple : la fonction linéaire (Droite) D x(y) qui sont inconnus et qu’il faudra trouver :

y= ax +b
II. la méthode des moindres carrés
Notion de moindres carrés :
Partons d’un nuage statistique théorique :

• Il s’agit de résumer ce nuage par une droite.


• Soit y’= ax+b l’équation de la droite recherchée.
• Pour toute valeur de x (xi) nous avons une valeur réellement observée y’.
• Pour toute valeur xi, nous avons une valeur calculée sur la droite y’.
• Pour toute une valeur xi, nous avons une erreur d’estimation égale à | yi – y’i |.
La droite de régression idéale doit être de telle manière que la somme des erreurs
d’estimation doit être la plus faible possible, ∑| yi – y’i | doit être minimum.

L’équation de la droite de régression :

Y = ax + b
a = ∑ (xi - Χ ) (yi - ỹ) / ∑ (xi – Χ ) 2
b=ỹ-aỹ
Application : exemple précédent

29
III. la corrélation linéaire :
Dans le paragraphe précédent, nous avons estimé y en fonction de x, et nous avons obtenu la
droite de régression Dy(x) : y=ax+b
On peut pour le même nuage statistique estimer x en fonction de y, et trouver la droite de
régression Dx(y) lui aura pour équation.

Pour toute yi, nous avons une valeur observée xi.


Pour toute yi, nous avons une valeur estimée sur la droite x’i
Pour toute yi, nous avons une erreur d’estimation égale à | xi – x’i |
Dx(y) idéale est tel que : ∑ | xi – x’i | minimum ou encore ∑ (xi – x’i) 2 minimum
En procédant de la même manière que dans le paragraphe précédent, on trouve l’équation de
Dx(y).
X = a’y + b’

30
Si on appelle coefficient de corrélation la Quantité r tel que :
r = a x a’
on peut écrire :
• Si r = ±1 on a une corrélation parfaite.
• Si r = +1 on a une corrélation parfaite positive.
• Si r = -1 on a une corrélation parfaite.
Corr. positive : c à d les variables varient dans le même sens.
• Si r = -1 = corrélation parfaite négative.
C à d les deux phénomènes varient en sens inverse.
Par exemple Prix et Quantité
• Si 0 < r < 1 = la corrélation est positive, elle est d’autant plus forte que l’on se
rapproche de 1.
• Si -1 < r < 0 = la corrélation est négative, et elle est d’autant plus forte que l’on se
rapproche de -1.
• Si r = 0 = corrélation nulle.

Application : calculer le coefficient de corrélation d’une autre façon (existe-t-il un lien entre y
et x) de l’exemple précédent ?

31
On a une très forte corrélation car r = 0.975 tend vers 1

Remarque :
On peut dire d’une corrélation qu’elle est très satisfaisante à partir 0.86.

On peut dire d’une corrélation qu’elle parfaite à partir de 0.96.

Autres formules simplifiés pour calculer le coefficient de corrélation r

Si on appelle : covariance de x et de y l’expression :

C'est-à-dire : r= covariance (xy) / variance x X variance y

APPLICATION : calculer le coefficient de corrélation r, de la distribution précédente, par la deuxième


formule.

32

Vous aimerez peut-être aussi