GUIDE DE SOUTIEN
MODULE TSGH-15
STATISTIQUES DESCRIPTIVES
Version : 2019
1
Elaboré par : RACHID abdelkader ISHR Agadir
SOMMAIRE
1. Présentation des données statistiques
5. la corrélation
2
COURS 1 : PRÉSENTATION DES DONNÉES STATISTIQUES
INTRODUCTION GENERALE
La statistique est une méthode scientifique qui consiste à collecter des données chiffrées sur des
ensembles nombreux, puis à analyser, à commenter et à critiquer ces données. Le terme « statistique » est
issu du latin « statisticum », c’est-à-dire qui a trait à l’État.
L’ÉCHANTILLON
Lorsque le nombre d’individus est très élevé, l’étude porte sur t un sous-ensemble construit et représentatif
d'une population appelé échantillon.
LE CARACTÈRE OU LA VARIABLE
C’est la (les) caractéristique(s) étudiée de l'individu intégrant la population. Exemple : l’âge, le sexe, le
poids, la taille, la marque, le modèle, l'espèce, le prix, la surface, le chiffre d’affaires etc.
LA MODALITÉ
C’est la valeur qualitative ou quantitative que peut prendre le caractère précédemment défini.
Exemple : sexe féminin ou masculin, prix 400Dh – 500…, client : affaire – tourisme…, etc.
Attention, les modalités sont exhaustives et mutuellement exclusives. Chaque individu doit
pouvoir être classé dans une et une seule modalité.
Variable qualitative
Une variable statistique est dite de nature qualitative si ses modalités ne sont pas numériques (ne s’exprime
pas en chiffre). Exemple :
Le sexe ; modalités : féminin, masculin
La profession ; modalités : cadre, employé, ouvrier
L’état matrimonial (situation familiale) : marié, veuf (ve), célibataire, divorcé
Les variables qualitatives sont constituées de deux sous-classes :
3
➢ Les variables qualitatives nominales : ce sont celles dont les modalités ne peuvent
qu’être constatées, nommées. Exemple : Le sexe (masculin, féminin), la nationalité
(Canadienne, Française, Marocaine,..)…
➢ Les variables qualitatives ordinales. ce sont les variables qualitatives dont les
modalités appellent naturellement un ordre dans leur rangement. Exemple : Le niveau
scolaire (primaire, secondaire, collégial, universitaire), la satisfaction des clients
(excellente, bonne, correcte, médiocre…
APPLICATION N°1
CC S PC CL CC CC PC CL CC CL CC CC CC CL PC CC
CC P P S CC CL PC CL PC CC PC PC CC PC CC CC PC
P PC PC S CC CC CC S P CL P PC CC PC S CC CL
Total N= 1
Variable quantitative
4
Variable est dite quantitative si toutes ses valeurs des modalités sont numériques. Il existe deux types de
variables quantitatives : les variables discrètes et les variables continues.
APPLICATION N° 2
Lors d’une enquête de satisfaction de la clientèle, un hôtel a demandé à un échantillon de 60 clients
d’indiquer leur degré de satisfaction vis-à-vis de leur accueil à la réception, sur une échelle de 1 à 5, le 1
correspondant à <<pas du tout satisfait>> 2 <<peu satisfait>> 3 << satisfait>> 4 <<très satisfait>> et le
5 <<Extrêmement satisfait>>. On a obtenu les résultats suivants :
5 4 3 2 4 5 5 2 3 3 4 1 5 5 3 5 5 4 5 4
2 3 2 1 4 5 5 2 3 5 5 4 5 2 5 4 5 5 5 4
4 5 3 2 5 4 3 4 5 5 5 4 3 1 4 5 5 4 5 5
Questions
Total N=
7- Présenter les fréquences cumulées croissants et décroissants
Application N°3
Dans une entreprise, on a recensé les salariés selon leur âge. Les résultats obtenus sont les suivants :
34 50 44 30 26 24 52 43 44 27
44 23 44 55 50 26 30 32 44 39
43 29 27 33 26 33 44 26 24 22
25 30 34 30 32 37 44 27 24 26
25 28 28 33 39 51 44 28 27 33
27 44 47 36 33 28 34 39 39 41
30 32 36 41 56 28 40 38 26 44
31 49 31 36 44 26 23 24 51 40
TAF
1- Déterminer : la population, l’unité, la variable (caractère)?
2- S’agit –il d’une variable quantitative ou qualitative ? pourquoi,
3- Peut- on présenter cette variable sous forme continue ou discrète ? pourquoi ?
4- Pour présenter les observations cette forme de variable continue, déterminer :
o L’étendue ?
o Le nombre de classe convenables ?
o L’amplitude
5- Présenter les modalités (classes modales)
6- Compter le nombre d’observations par classe
7- Présenter les séries sous forme de tableau des fréquences ?(chapitre suivant)
8- Présenter les fréquences cumulées croissants et décroissants(chapitre suivant)
LE TABLEAU STATISTIQUE
Le tableau statistique ou Distribution de fréquences présente Les valeurs de la variable X notées x1, . .
, xi, . .xn.
Et d’autres part les effectifs : notés ni
➢ Effectifs (fréquences absolues) :
C’est le nombre d’unités statistiques relatif à une modalité donnée :
Age Effectifs
Xi ni
17-18 200
18-19 350
19-20 50
Effectif N 600
L’effectif : Le nombre d’unités d’observation est noté ni.la somme des effectifs est désigné par N
➢ Fréquence relative :
C’est la part des effectifs d’une modalité.
EX : 200/600=33/100 est la fréquence relative de première modalité
➢ L’effectif cumulé
a) Cas d’une variable continue :
ni cumulés ni cumulés
Salaire horaire ni
croissant décroissants
[10-20[ 9 9 65
[20-30[ 13 22 56
[30-40[ 22 44 43
[40-50[ 10 54 21
[50-60[ 7 61 11
[60-70[ 4 65 4
Total N= 65
TRAVAUX PRATIQUES
7
Exercice 1 :
Dans une entreprise de 80 salariés on a enregistré les salaires mensuels suivants :
• 54 salariés gagnent 6 000 dirhams ou plus ;
• 34 salariés gagnent 8 000 dirhams ou plus ;
• 20 salariés gagnent 10 000 dirhams ou plus ;
• 8 salariés gagnent 12 000 dirhams ou plus ;
Exercice 2 :
le nombre d’enfants par salarié dans une entreprise se présente comme suit :
2 0 4 2 2 1 3 2 0 1 4 3 2 4 5 1 1 4 2 0
3 0 4 2 1 2 4 3 0 4 3 4 3 3 5 5 1 2 2 1
REPRÉSENTATION GRAPHIQUE
8
INTRODUCTION
Les graphiques sont des formes qui facilitent la compréhension et interprétation de séries statistiques ou de
résultats sur des traitements de données. Synthétique mais très visuelle et en cela plus facile à aborder et à
interpréter que ne le ferait un tableau de chiffres.
Chaque type de graphique est adapté à une ou plusieurs situations ou façon de représenter
l'information. Selon la nature des données, la nature de variable, le nombre de variables et ce
que l'on souhaite montrer, il sera judicieux de choisir la représentation graphique la mieux
adaptée.
Solution :
HISTOGRAMME
9
IV-2. LE CAS DES VARIABLES DISCRETES
Quand on a une variable discrète, on peut faire le diagramme en bâton, et le diagramme en ligne.
Diagramme en bâton
On appelle diagramme en bâtons un graphique qui à chaque modalité d’une variable
quantitative discrète associe un segment (bâton) dont la hauteur est proportionnelle à l’effectif
(ou à la fréquence).
Exemple :
Faites le diagramme en bâtons du nombre de personnes par ménage présentés dans le tableau ci-dessous.
9 ou
Xi 1 2 3 4 5 6 7 8
plus
ni 8000 8100 4500 3500 1500 500 300 200 300
Solution :
10
2-Diagramme en tuyau d’orgue
Un diagramme en tuyaux d’orgue est un graphique qui à chaque modalité d’une variable
qualitative associe un rectangle de base constante dont la hauteur est proportionnelle à
l’effectif (ou à la fréquence). De fait, les aires des secteurs sont proportionnelles aux effectifs.
Les rectangles sont en général disjoints, verticaux ou horizontaux.
Exemple précédent
11
12
EXERCICES
1- La distribution des demandeurs d’emploi selon le sexe et la classe d’âge dans une localité est la suivante :
2- La distribution des nombres d’accidents de travail par semaine dans une entreprise est la suivante :
4- L’évolution du chiffre d’affaires en milliers, par centre de profit pendant 3 ans, dans un hôtel est la suivante :
13
LES CARACTÉRISTIQUES DE TENDANCE CENTRALE
Introduction
Les caractéristiques de tendance centrale essayent de donner la valeur la plus représentative d'un ensemble
de valeurs numériques. On distingue trois mesures de tendance centrale :
Le mode ;
La moyenne ;
La médiane.
Tous trois ne décrivent par la même chose et sont, de ce fait, complémentaires dans la description et
l'analyse d'une distribution. Ces statistiques ne se calculent que dans le cas où nous avons à faire à des
variables quantitatives. Dans le cas où nous avons des variables qualitatives, on procède aux fréquences.
I- Le mode
On appelle le mode d’une variable X, la valeur de la variable qui a la plus grande fréquence et on le note
Mo(X). Le mode est une importante mesure de tendance centrale pour les variables qualitatives nominales.
Remarque : Une distribution peut avoir un seul mode et on dit qu’elle est unimodale, ou plusieurs modes et
on dit qu’elle est multimodale.
Exemple 1 : Si on reprend la distribution des boissons non-alcoolisées,
14
On voit que le mode d’une variable est une mesure de tendance centrale facile à déterminer et s’applique à
tous les types de variables, mais sa portée comme mesure d’analyse est très limitée.
II- La moyenne.
La moyenne arithmétique ou simplement la moyenne est la mesure de tendance centrale la plus connue. Elle
ne s’applique qu’aux variables quantitatives. On va décrire la méthode pour calculer la moyenne d’une
variable quantitative selon que les données sont en vrac, groupées par valeurs ou groupées par classes.
𝑥1 + 𝑥2 + ⋯ . +𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖
̅=
𝒙 =
𝑛 𝑛
Exemple 1 : Le nombre de clients qui se présentent quotidiennement au magasin pendant 1à jours sont les
suivantes :
Alors dans cet échantillon le nombre moyen des clients qui se présentent à ce magasin par jour est
donné par la formule suivante :
𝑥1 +𝑥2 +⋯.+𝑥𝑛 120+105+⋯.+116
𝐱̅ = = = 124,7 clients par jour.
𝑛 10
Exemple 1.5.2.2.1 : Reprenons les données de l’exemple où X est le nombre d’accidents de travail par
semaine. On avait le tableau de données suivant :
15
Tableau des fréquences du nombre d’accidents par semaine
Xi Fréquences absolues 𝑛𝑖 𝑥𝑖 𝑛𝑖
0 4 0
1 2 2
2 10 20
3 7 21
4 10 40
5 4 20
6 3 18
Total N=40 121
121
̅=
𝒙 = 3,025 accidents par semaine.
40
∑𝑘𝑖=1 𝑐𝑖 𝑛𝑖
𝑥̅ =
𝑁
Exemple 1.5.2.3.1 : En reprenant l’exemple 1.4.2.2.1 où X est la recette quotidienne d’un petit magasin, on
avait le tableau suivant auquel on a ajouté une colonne à gauche contenant le milieu des classes :
16
̃ . Dans ce qui suit on va décrire les
quantitatives. On note la médiane d’une variable X par Me(X) ou par 𝒙
façons de calculer une médiane dans les différents cas possibles.
Exemple de données en vrac: Reprenons les données de l’exemple où la variable est le nombre de clients
qui se présentent quotidiennement au magasin. On avait des données en vrac :
En les ordonnant, on aura : 65 88 90 103 105 116 120 163 196 201.
C’est-à-dire que dans cet échantillon, dans 50% des semaines, on observe 3 accidents ou moins par semaine
et l’autre 50% des semaines, on observe 3 accidents ou plus par semaine.
17
1.5.3.3 : Cas de données groupées par classes.
Dans le cas où on dispose d’un tableau de fréquences complet (incluant les fréquences cumulées) des données
groupées par classes. Il faut d’abord déterminer la classe médiane, qui est la classe où les fréquences
cumulées dépassent pour la première fois 50%. Cette classe aura la forme :
𝑪𝒎 = [𝒃𝒊𝒏𝒇 ; 𝒃𝒔𝒖𝒑 [, alors on obtient la médiane par interpolation à l’intérieur de cette classe médiane et on
obtient la formule suivante :
classe médiane. En supposant que tous les individus de cette classe sont uniformément
répartis à l’intérieur, la médiane se calcule de la façon suivante par interpolation linéaire :
Exemple 1.5.3.3.1 : En reprenant les données où X donne la recette quodienne d’un petit magasin, on
retrouve le tableau des fréquences suivant :
[10 ; 100[ 5 5
[100 ;190[ 3 8
[190 ;280[ 11 19
[280 ;370[ 6 25
[370 ;460[ 11 36
[460 ;550[ 3 39
[550 ;640] 1 40
Total n=40
18
a= 90
ni= 6
N-1=19
n= 40
𝑏𝑖𝑛𝑓 = 280 𝐹(𝑚−1) = 0,475
𝑓𝑟,𝑚 = 0,150 𝐴𝑚 = 90 ce qui donne une médiane égale à :
20 − 19
𝑥̃ = 280 + (90𝑋 ) = 295
6
Ce qui veut dire qu’en se basant sur cet échantillon de données, 50% des recettes quotidiennes de ce petit
magasin sont inférieures ou égales à 295 et les autres 50% sont supérieures ou égales à 295$.
Remarque 1 : Le calcul de la médiane est basé sur l’ordre des observations et non sur leur valeur.
Contrairement à la moyenne, la médiane est insensible aux données extrêmes. Dans le cas où les données
sont très différentes, la médiane est une meilleure mesure de tendance centrale.
Remarque 2 : Si pour une variable X quantitative les 3 mesures de tendance centrale sont presque égales,
on dit alors que la variable est symétrique et alors n’importe laquelle de ces mesures peut être utilisée comme
mesure de cette tendance centrale. S’il y a un grand écart entre ces mesures alors c’est la médiane qu’on doit
priviligier.
19
Médiane d'une série continue
Si la variable est continue ( regroupement par intervalle des résultats ) le calcul de la médiane se fait
comme suit :
Utilisons la colonne des effectifs cumulés pour déterminer la médiane : il y a 50 notes, 50 % de l'effectif
total c'est 25, la médiane est ici la note correspondant à l'effectif cumulé 25.
La médiane se trouve donc dans l'intervalle [8;12[ ( appelée classe médiane ) on va la déterminer
par interpolation linéaire.
Les points A, M, B sont alignés ce qui se traduit par les droites (AM) et (AB) ont même coefficient
directeur (ou on utilise le théorème de Thalès dans le triangle bleu ) :
20
EXERCICES D’APPLICATION
Exercice 1
Le chiffre d’affaires journalières pendant 15 jours ; d’un point de vente d’un hôtel en milliers de Dh sont
les suivants
42 ; 35 ; 61 ; 30 ; 28 ; 44 ; 55 ; 32 ; 37 ; 49 ; 44 ; 31 ; 56 ; 30 ; 44
TAF
Exercice 2 :
Nombre de pièces 1 2 3 4 5 6 7
Nombre d’appartements 48 72 96 64 39 25 3
Exercice3 : La distribution des nombres de clients par agence de voyages d’un hôtel est la suivante :
21
Les caractéristiques de dispersion
Introduction
Partons de 3 séries
Série 1 : 9 11 _X= 10
Série 2 : 5 15 _X= 10
Série 3 : 1 19_X= 10
Les 3 séries ont la même moyenne : 10 et portant ils sont différents l’unes des autres.
Dans la 1ère série ; les valeurs du caractère sont proches de la moyenne. La moyenne est représentative.
Dans la 3 éme Série les valeurs du caractère sont éloignées de la moyenne. Il faut donc lorsqu’on résume
une série, indiquer par un nombre si les valeurs sont proches ou éloignées de la valeur centrale. Ce
nombre est appelé caractéristiques de dispersion.
Les indices de tendance centrale définissent le comportement général des données.
Mais les données peuvent varier beaucoup autour de cette tendance. On doit donc définir un
indice qui caractérise la variabilité des données dans l’échantillon. Cet indice est appelé indice
de dispersion parce qu’il renseigne sur la dispersion ou l’éparpillement des données autour
notamment des paramètres de tendance centrale.
Nous étudierons quatre paramètres de dispersion parmi les principaux, en mettant plus
particulièrement l’accent sur la variance et l’écart-type :
• l’étendue et le rapport de variation
• L’écart absolu moyen
• la variance
• l’écart-type
• le coefficient de variation
Exemple 4 : Les notes d’élèves de deux classes au même examen ont donné les résultats suivants.
Classe 1 Classe 2
8 3
11 12
13 16
5 5
8 3
14 7
6 10
22
12 7
5 19
10 16
16 5
7 11
12 13
13 11
8 9
13 13
8 9
7 10
13 12
13 8
9 15
17 15
10 8
13
6
13
7
14
Solution :
Classe 1 Classe 2
Minimum 5 3
Maximum 17 19
Etendu 17-5=12 19-3=16
Rapport de
17/5=3,4 19/3=6,3
variation
Le rapport de variation nous apprend que dans la classe 1 la meilleure note est 3,4 fois plus
élevée que la note la plus faible. Ce rapport est plus important dans la classe 2 pour laquelle il
est 6,
23
Etudiant Notes du Pr X Notes du Pr Y
A 7 0
B 8 5
C 9 9
D 10 10
E 10 10
F 10 10
G 11 11
H 12 15
I 13 20
mode 10 10
moyenne 10 10
Le calcul de l'écart absolu moyen des notes du Pr X est obtenue en effectuant la moyenne de la
valeur absolue des écarts à la moyenne :
Etudiant Notes xi
A 7 3
B 8 2
C 9 1
D 10 0
E 10 0
F 10 0
G 11 1
H 12 2
I 13 3
total 90 12
moyenne 10 12/9 = 1.33
L'écart absolu moyen de la notation du professeur X est donc de 1.3, ce qui signifie que les
notes s'écartent en moyenne de 1.3 de la moyenne. Il n'y a donc pas, en moyenne, de gros
écarts à la moyenne.
Si on effectue le même calcul pour le professeur Y, on trouve un écart absolu moyen de 3.6, ce
qui signifie que ses notes s'écartent généralement beaucoup plus de la moyenne. On peut donc
conclure que la dispersion des notes du Pr Y est plus forte que celle du Pr X.
24
2-Cas de série de valeurs ( avec fréquences)
Poids ni xi ni * xi
55-60 12 57,5 690 10,25 123
60-65 17 62,5 1062,50 5,25 89,25
65-70 36 67,5 2430 0,25 9
70-75 24 72,5 1740 4,75 114
75-80 11 77,5 852,50 9,75 107,25
100 100 6775 442,5
𝑥̅ = Ca=
Signification :
APPLICATION
Sit le série des prix des chambres des hôtels 4* sur un territoire touristique.
Effectifs
Prix des chambres
hôtels
[200; 250[ 30
[250; 300[ 60
[300; 350[ 100
[350; 400[ 45
[450; 500[ 10
[550; 700[ 25
N=
TAF :
25
III- LA VARIANCE ET L’ECART TYPE
A- Définition
1-la variance
On appelle une variance, la moyenne arithmétique des carrés des écarts entre les valeurs et caract
et la moyenne arithmétique.
NB : la variance n’est pas significative, car elle s’exprime en carrés ; c’est juste une étape
pour calculer l’écart type.
σ 2 = ∑ni / ∑ ni
2- écart-type
On appelle écart-type (ou écart quadratique moyen) la racine carré de la variance
B- Application :
Le même tableau précédent
ni xi
12 57,5 105,0625 1260,75
17 62,5 27,5625 468,5625
36 67,5 0,0625 2,25
24 72,5 22,5625 541,50
11 77,5 95,0625 1045,6875
100 3318,75
Ecart type
Signification : En moyenne chaque individu s’écarte du poids moyen (67.5 kg) de 5.76 kg.
III- LE COEFFICIENT DE VARIATION
26
Interprétation : Plus grand est le coefficient de variation, plus grande est la dispersion.
Exemple précédent VC= 5,76/67,75= 0,085= 8,50%
Solution :
1. Calculer la moyenne de chaque série
2. La variance de chaque série
3. L’écart type le coefficient de variation de chaque série
4. Le coefficient de variation de chaque série
5. Interpréter les résultats en comparant les deux séries
1ére série Age
Age Xi- X
N°
Des employés moyenne
1 37
2 35
3 36
4 36
5 41
6 38
7 40
8 36
9 35
10 37
N=10
2 me série
Salaire
N° Xi- Xmoyenne
Des employés
1 3000
2 3100
3 2900
4 3500
5 3050
6 2950
7 4000
8 4200
9 2900
10 2950
N=10
27
Age Salaire
Moyenne
Variance
Ecart-type
CV
La régression linéaire
I. Présentation du problème
Une distribution statistique double : C’est une distribution ou l’observation s’effectue selon 2
caractères.
Pour ce genre de distributions, il serait parfois nécessaire de mesurer l’influence de l’évolution
d’une série sur l’autre. Pour cela on détermine les paramètres statistiques comme :
• La droite de régression
• Le coefficient de corrélation
Soit le tableau suivant, évolution de deux séries : prix et quantités vendus d’un produit
28
Nous avons un ensemble de points « un nuage statistique »qui nous indique que les prix est
les quantités évoluent selon la même tendance. Il est possible de schématiser ce nuage par une fonction
simple : la fonction linéaire (Droite) D x(y) qui sont inconnus et qu’il faudra trouver :
y= ax +b
II. la méthode des moindres carrés
Notion de moindres carrés :
Partons d’un nuage statistique théorique :
Y = ax + b
a = ∑ (xi - Χ ) (yi - ỹ) / ∑ (xi – Χ ) 2
b=ỹ-aỹ
Application : exemple précédent
29
III. la corrélation linéaire :
Dans le paragraphe précédent, nous avons estimé y en fonction de x, et nous avons obtenu la
droite de régression Dy(x) : y=ax+b
On peut pour le même nuage statistique estimer x en fonction de y, et trouver la droite de
régression Dx(y) lui aura pour équation.
30
Si on appelle coefficient de corrélation la Quantité r tel que :
r = a x a’
on peut écrire :
• Si r = ±1 on a une corrélation parfaite.
• Si r = +1 on a une corrélation parfaite positive.
• Si r = -1 on a une corrélation parfaite.
Corr. positive : c à d les variables varient dans le même sens.
• Si r = -1 = corrélation parfaite négative.
C à d les deux phénomènes varient en sens inverse.
Par exemple Prix et Quantité
• Si 0 < r < 1 = la corrélation est positive, elle est d’autant plus forte que l’on se
rapproche de 1.
• Si -1 < r < 0 = la corrélation est négative, et elle est d’autant plus forte que l’on se
rapproche de -1.
• Si r = 0 = corrélation nulle.
Application : calculer le coefficient de corrélation d’une autre façon (existe-t-il un lien entre y
et x) de l’exemple précédent ?
31
On a une très forte corrélation car r = 0.975 tend vers 1
Remarque :
On peut dire d’une corrélation qu’elle est très satisfaisante à partir 0.86.
32