Vous êtes sur la page 1sur 59

1

Cours de Statistique
2eme année AP
EMSI Rabat
Pr. A. Abarda
Introduction

Qu’est-ce-que la statistique ?
 En présence d'un ensemble de données chiffrées, on a un désir spontané

de simplification. Selon des critères, la statistique cherche d'une part à


représenter, ordonner et à classer des données ; d'autre part, à
résumer la multiplicité et la complexité des notions par des
caractéristiques synthétiques.
 Le statisticien est ainsi conduit à collecter des données, construire des
graphiques, à déterminer des caractéristiques centrale et à calculer
des caractéristiques de dispersion.
 La statistique c’est la science des grands nombres regroupant l'ensemble
de méthodes mathématiques qui, à partir du recueil et de l'analyse de
données réelles, permettent l'élaboration de modèles probabilistes
autorisant les prévisions.
Généralités

Population
Toute étude statistique concerne un ensemble appelé population dont les
éléments sont appelés des individus.

Définition : Une population c'est l'ensemble d'individus ou d'objets qui


possèdent un ou plusieurs critères spécifiques en commun.
Une population statistique est dite finie si l'on peut déterminer avec
précision le nombre d'individus qui la composent sinon elle est dite infinie.

Exemple: i) Dans une étude sur le sport, la population peut être l'ensemble
des personnes qui pratique un sport.
ii) Dans une étude sur les revenus mensuels dans une entreprise, la
population peut être l'ensemble des personnes qui travaille dans cette
entreprise.
Le statisticien est ainsi conduit à collecter des données, construire des
graphiques, à déterminer des caractéristiques centrale et à calculer des
caractéristiques de dispersion.

Pour obtenir un renseignement exact, il faut étudier tous les individus de la


population. Quand cela n'est pas possible, on restreint l'étude à une partie de
la population appelée échantillon.
5

Chapitre 1: Représentation des données


Chapitre 1: Représentation des données
6

✓Introduction
✓Les différentes format de données
✓Les tableaux statistiques
✓Les effectifs cumulés
✓Les fréquences cumulées
✓Fonction de répartition
✓Les représentations graphiques
Introduction
7

✓ L'objectif des statistiques est d'étudier des caractères sur des


individus.
✓ La collecte initiale des données conduit à un tableau brut, sur
support papier.
✓ Dans leur état brut, ces données ne peuvent être utilisées, d’où
la nécessité de les "mettre en ordre", c'est-à-dire de les ranger.
✓ A ce stade, elles forment une distribution ou une série
statistique représentant un ensemble de modalités et des
effectifs d’un caractère.
Les différents formats de données

✓ Les différents formats de données:


➢ Données numériques (quantitatives):
◼ Continue
• Exemple: Salaire d’un employé
◼ Discrète
• Exemple: Nombre d’enfants dans une famille
➢ Données qualitatives:
◼ Binaire avec 2 modalités
• Exemple: Sexe d’une personne : Homme / Femme
◼ Nominale avec p modalités sans ordre
• Exemple: Les professions des employé d’une firme
◼ Ordinale avec p modalités ordonnées
• Exemple: Satisfaction (Très satisfait, Satisfait, Non satisfait)

Introduction Datamining
Tableaux statistiques
9

✓ Le tableau correspondant aux séries à un seul caractère est à


simple entrée, dans lequel figurent deux colonnes :
➢L’une pour les modalités prise par la variable (xi )
➢L’autre pour les effectifs correspondantes (ni ).
✓ La présentation d’un tableau statistique fait correspondre à
chaque modalité xi un "effectif" ou "fréquence absolue" ni.
Tableaux statistiques
10

❑ Caractères qualitatifs
✓ Exemples de caractères qualitatifs: Profession, Couleur,
Nationalité, etc…
✓ Dans ce cas, les caractères ne sont pas mesurables, on peut donc
les ranger dans un tableau statistique selon une logique qui
permet au mieux l’interprétation.
▪ Tableau simple: Un caractère
▪ Tableau croisé: Plusieurs caractères
Tableaux statistiques
11

❑ Exemple1: tableau simple


Nationalité (xi) Effectifs (ni)
Marocains 1450
Français 120
Tunisiens 50
Espagnoles 28
Autres 7
N = 1655
Distribution des employés d’une multinationale selon leur nationalité
Tableaux statistiques
12

❑ Exemple2: tableau croisé

Statut \Niveau d'études Primaire Secondaire Supérieur

Marié 2 5 12
Célibataire 2 3 8
Répartition statut selon le niveau d’études

✓Dans ce tableau:
✓5 individus sont mariés et ont un niveau d’étude Secondaire
✓8 individus sont célibataire et ont un niveau d’étude Supérieur
Tableaux statistiques
13

❑ Caractères quantitatifs
✓ Exemple de caractères quantitatifs: Age, Salaire, Nombre
d’enfants, etc…
✓ Lorsque le caractère est quantitatif, il faut distinguer :
➢ Le cas des variables discrètes (Nombre d’enfants)
➢ Le cas des variables continues (Age, Salaire)
Tableaux statistiques
14

❑ Caractères quantitatifs discrets


✓ Dans ce cas, les valeurs xi sont discrètes et correspondent chacune
à un effectif ni .
✓ Exemple :
➢ Soit la distribution statistique représentant le nombre des frères et sœurs des
étudiants de la 1ère année éco. & gestion :
Tableaux statistiques

15

Frères et sœurs (xi) Effectifs (ni)


0 10
1 20
2 30
3 40
4 25
5 12
6 10
7 8
8 4
9 2
10 1
N = 162
Tableaux statistiques
16

❑ Caractères quantitatifs continus


✓ Dans ce cas, les valeurs prises par la variable ne sont pas entières,
ce qui nécessite la création de classes de valeurs possibles définies
par les extrémités de classes (ou bornes).
✓ Exemple :
➢ Soit la distribution statistique des employés d’une entreprise selon leurs
salaires mensuels en dirhams
Tableaux statistiques

17

Salaires en DH (xi) Effectifs (ni)

<2500 2

[2500, 3500[ 4

[3500, 4500[ 11

[4500, 5500[ 5

>5500 3

N = 25
Tableaux statistiques
18

❑ Remarques: Caractères quantitatifs continus


✓ La division de la série en classes se fait selon la nature du sujet
traité, elle relève donc du statisticien et de son appréciation du
problème :
➢ Si l’intervalle est petit, le nombre de classes sera important et peut rendre
les calculs plus compliqués.
➢ Si l’intervalle est grand, l’information se perd à cause de la condensation
des chiffres.
Tableaux statistiques
19

❑ Remarques: Caractères quantitatifs continus


✓ Dans le cas des variables statistiques continues, les modalités xi
appartiennent à des intervalles de la forme [ei-1, ei [ que l’on appelle
des classes et qui ont un centre :

ci = e i−1 + e i
2
✓ Ces intervalles ou classes ont une largeur ou amplitude :

a i = e i − e i −1
Tableaux statistiques
20

❑ Exemple:

[ei-1, ei[ ni ci ai fi %
<2500 2 _ _ 0,08 8%

[2500, 3500[ 4 3000 1000 0,16 16%

[3500, 4500[ 11 4000 1000 0,44 44%

[4500, 5500[ 5 5000 1000 0,2 20%

>5500 3 _ _ 0,12 12%

N =25 100%
Effectifs cumulés croissants
21

✓ L’effectif cumulé croissant est le nombre de fois qui se


présente une modalité ou plusieurs inférieures à une valeur
donnée.
✓ On le note nic↑ ou nicc.
✓ Il se calcule en totalisant les effectifs avec ceux des classes
suivantes.
✓ Il sert à répondre aux questions qui demandent un nombre
ou un effectif « moins de » ou « inférieur à » une valeur
donnée.
Effectifs cumulés décroissants
22

✓ L’effectif cumulé décroissant est le nombre de fois qui se


présente une modalité ou plusieurs supérieures à une valeur
donnée.
✓ On le note nic↓ ou nicd.
✓ Il se calcule en totalisant les effectifs avec ceux des classes
antérieures.
✓ Il sert à répondre aux questions qui demandent un nombre ou
un effectif « plus de » ou « supérieur à » une valeur donnée.
Fréquences cumulées croissantes
23

✓ Une fréquence cumulée croissante est la proportion des


modalités « inférieur à » ou « moins de » une valeur donnée.
✓ On la note fic↑ ou ficc.
✓ Elle se calcule en totalisant les fréquences relatives avec
celles des classes suivantes, ou en calculant le rapport de
l’effectif cumulé croissant et l’effectif total :

fic= nic
N
Fréquences cumulées décroissantes
24

✓ Une fréquence cumulée décroissante est la proportion des


modalités « supérieur à » ou « plus de » une valeur donnée.
✓ On la note fic↓ ou ficd.
✓ Elle se calcule en totalisant les fréquences relatives avec
celles des classes antérieures, ou en calculant le rapport de
l’effectif cumulé décroissant et l’effectif total :

fic= nic
N
Exemple
25

[ei-1, ei[ ni fi nic↑ fic↑ nic↓ fic↓


<2500 2 0,08 2 0,08 25 1

[2500, 3500[ 4 0,16 6 0,24 23 0,92

[3500, 4500[ 11 0,44 17 0,68 19 0,76

[4500, 5500[ 5 0,2 22 0,88 8 0,32

>5500 3 0,12 25 1 3 0,12

N = 25 
i
fi
Fonction de répartition
26

✓ Étant donnée une série statistique correspondante à la


variable statistique X,
✓ La fonction de répartition F(x) est définie par :
F ( x) = f i cc

avec f i cc est la fréquence cumulée croissante :


f i cc = f1 + f 2 +  + f i
Fonction de répartition
27

✓ Si X est discrète ou qualitative, alors

✓ Si X est continue, alors ei −1  x  ei et

F ( x) =  f i
x  ei
Représentations graphiques
28

✓ On a vu que l’on représente les séries statistiques par des


tableaux, mais ces tableaux restent parfois insuffisants pour
voir, par exemple, si une variable croit, décroît ou reste
constante ; ou si elle présente autres caractéristiques.
✓ Les représentations graphiques peuvent nous donner une vue
immédiate et complète des phénomènes étudiés.
Caractères quantitatifs : Variables statistiques
discrètes
29

Le diagramme en bâtons :
✓ Le diagramme en bâtons représente les fréquences ou les
effectifs ni correspondants à chaque valeur de la variable xi
Exemple :
✓ Soit la série statistique donnant le nombre des frères et sœurs
des 30 étudiants de la 1ère année éco. & gestion :
Caractères quantitatifs : Variables statistiques discrètes
30

Xi
ni fi
0 2 0,067
1 3 0,1
2 5 0,167
3 10 0,333
4 7 0,234
5 2 0,067
6 1 0,033
N=30 1
Caractères quantitatifs : Variables statistiques discrètes
31

Diagramme en baton des fréquences relatives


0.333

0.234

0.167

0.1
0.067 0.067
0.033

0 1 2 3 4 5 6
La courbe cumulative
32

✓ La courbe cumulative est une fonction de distribution qui


représente les effectifs cumulés croissants nic↑ en fonction des
modalités xi .
✓ Elle permet de déterminer la proportion des individus de la
population dont le caractère est inférieur à une certaine
valeur xi.
✓ Elle est représentée par une courbe en "escaliers" dont les
paliers sont horizontaux.
Exemple
33

✓ Soit la distribution des nombres de personnes à charge observés


dans les dossiers étudiés par l'assistant social.
Exemple de courbe cumulative
34

✓ La courbe cumulative des fréquences associée


Variables statistiques continues
35

✓ Comme pour ce type de variables, il y a une infinité de valeurs


intermédiaires nécessitant le recours à des classes, on ne peut
pas utiliser le diagramme en bâtons.
✓ La représentation la plus adapté est l’histogramme.
L’histogramme
36

✓ Pour tracer l’histogramme d’une variable statistique


quantitative continue, on doit distinguer deux cas selon si les
amplitudes des classes sont égales ou inégales.
L’histogramme :Cas des amplitudes égales
37

[ei-1, ei[ ni fi =ni / N ai= ei - ei-1 hi=ni /ai


[0,495 – 0.51[ 5 0,08 0,02 250,00
[0.51 – 0.525[ 8 0,13 0,02 400,00
[0.525 – 0.54[ 12 0,19 0,02 600,00
[0.54 – 0.555[ 13 0,20 0,02 650,00
[0.555 – 0.57[ 14 0,22 0,02 700,00
[0.57 – 0.585[ 7 0,11 0,02 350,00
[0.585 – 0.6[ 5 0,08 0,02 250,00
64 1
L’histogramme :Cas des amplitudes égales
38
L’histogramme :Cas des amplitudes inégales
39

✓ Représentons l’histogramme de cette distribution.


[ei-1, ei[ ni fi =ni / N ai= ei - ei-1 hi=ni /ai

[9,725 – 9,775[ 1 5% 0,05 20

[9,775 – 9,800[ 5 25% 0,025 200

[9,800 – 9,825[ 4 20% 0,025 160

[9,825 – 9,850[ 6 30% 0,025 240

[9,850 – 9,900[ 4 20% 0,05 80


N= 20 1
L’histogramme :Cas des amplitudes inégales
40
Polygones des fréquences
41

✓ Partant de l’histogramme et joignant par des segments de


droite les milieux des sommets des rectangles, on obtient le
polygone (des effectifs ou des fréquences).
Remarque
42

✓ Il est préférable d’ajouter deux classes fictives aux extrémités


de la série pour obtenir un polygone parfait
✓ Il y a toujours conservation de la surface puisque l’aire sous
le polygone est égale à 1 (en fréquence) (voir parties
hachurées sur le graphique qui se compensent).
✓ En faisant un ajustement graphique du polygone des
fréquences, ce dernier tend vers une courbe continue appelée
"courbe des fréquences".
Les caractères qualitatifs :
Les graphiques en tuyaux d’orgue
43

✓ Ce type de graphique représente en abscisse les différents


caractères (xi), de base constante, et en ordonnées la hauteur
correspondant aux effectifs ou aux fréquences.
✓ Généralement, on a tendance à ordonner les (xi) selon un
ordre décroissant en partant de l’origine des axes.
Exemple
44

✓ Les participants aux jeux olympiques selon le continent


d’origine :

xi ni
Afrique 80
Amérique 100
Asie 140
Australie 30
Europe 130
Diagramme en tuyaux d’orgue
45

140

120

100

80
xi

60

40

20

0
Asie Europe Amérique Afrique Australie
ni
Les caractères qualitatifs :Diagramme à secteurs
46

✓ C’est un diagramme visualisant les parts relatives dans des


secteurs de cercles. Chaque secteur correspond à une
modalité, l’angle au centre est égal au produit de 360° par la
fréquence fi.
Exemple :
✓ Reprenons l’exemple précèdent des participants aux jeux
olympiques selon le continent d’origine :
Exemple
47

✓ Le nombre total des participants est de 480.


✓ L’Afrique correspond à

Règle de trois 480 → 360 


80  360
x= = 60
80 → x 480
140
Amérique →
100
 360 = 75 Asie → 480
 360 = 105 

480

Europe →
130
Australie →
30  360 = 97,5 
 360 = 22,5  480
480
Exemple: Diagramme à secteurs
48

ni
xi ni % Angle
6%

Asie 140 29% 105° 17% 29%

Europe 130 27% 75,5°

Amérique 100 21% 75°


21%

Afrique 80 17% 60°


27%

Australie 30 6% 22,5°
Asie Europe Amérique Afrique Australie
49

Exercices
Exercices
50

Exercice n°1 :
Les salaires mensuels en dirhams des 50 employés d’une entreprise
sont donnés par le tableau suivant :

Salaires en DH Nombre d’employés


[0 – 1500[ 3
[1500 – 3000[ 15
[3000 – 4500[ 20
[4500 – 6000[ 8
[6000 – 7500[ 4
51

Questions:
1. Calculer :
a. Tous les types de fréquences.
b. Les centres des classes.
2. Représenter l’histogramme et le polygone des fréquences.
3. Quel est le pourcentage des employés qui ont un salaire :
a. Inférieur à 3000 DH/mois ?
b. Supérieur à 4500 DH/mois ?
c. Entre 3000 et 4500 DH/mois ?
d. Inférieur à 2800 DH/mois ?
52

1. Calculer :
a. Tous les types de fréquences.
b. Les centres des classes.

[ei-1,ei[ ni ci fi ficc
[0,1500[ 3 750 0,06 0,06
[1500,3000[ 15 2250 0,3 0,36
[3000,4500[ 20 3750 0,4 0,76
[4500,6000[ 8 5250 0,16 0,92
[6000,7500[ 4 6750 0,08 1
Total N=50 1
53

2. Représenter l’histogramme et le polygone des fréquences.

0,45
0,4
0,35
0,3
0,25
fi

0,2
0,15
0,1
0,05
0
750 2250 3750 5250 6750
xi
54

3. Quel est le pourcentage des employés qui ont un salaire :


a. Inférieur à 3000 DH/mois ?
✓ A partir du tableau, de la colonne ficc, en face de la classe [1500,
3000[, on a la valeur 0,36.
✓ Alors le pourcentage des employés qui ont un salaire inférieur à 3000
Dhs /mois est: 0,36 x 100 = 36%
b. Supérieur à 4500 DH/mois ?
✓ A partir du tableau, de la colonne ficd, en face de la classe [4500,
6000[, on a la valeur 0,24.
✓ Alors le pourcentage des employés qui ont un salaire supérieur à 4500
Dhs/mois est: 0,24 x 100 = 24%
55

3. Quel est le pourcentage des employés qui ont un salaire :


c. Entre 3000 et 4500 DH/mois ?
✓ A partir du tableau, de la colonne ficd, en face de la classe [3000, 4500[,
on a la valeur 0,4.
✓ Alors le pourcentage des employés qui ont un salaire entre 3000 et 4500
Dhs/mois est: 0,4 x 100 = 40%
d. Un salaire Inférieur à 2800 DH/mois
✓ Comme on a le terme inférieur on doit chercher dans la colonne des ficc,
mais on n’a pas la classe [1500, 2800[, pour prendre la valeur d’en face.
Alors, à l’aide d’une règle de trois, on a:
[1500,3000[ 0,36 2800  0 ,36
x= = 0 ,336
[1500,2800[ x 3000
✓ Le pourcentage des employés qui ont un salaire Inférieur à 2800
DH/mois est: 0,34 x 100 = 34%
56

Exercice 2:
La distribution des salaires mensuels dans une entreprise est donnée par
le tableau suivant (en Dhs) :
[ei-1 ; ei[ ni
<5000 12
[5000 ; 6000[ 15
[6000 ; 7000[ 27
[7000 ; 8000[ 33
[8000 ; 9000[ 30
[9000 ; 10000[ 20
>10000 13
57

Questions:

1. Calculer les fréquences relatives et les fréquences relatives


cumulées croissantes.
2. Quel est le pourcentage des salariés qui gagnent moins de
7000 Dhs/mois ?
3. Quel est le pourcentage des salariés qui gagnent plus de
8000 Dhs/mois ?
58

1. Fréquences relatives et les fréquences relatives cumulées croissantes.

[ei-1 ; ei[ ni fi ficc ficd


<5000 12 0,08 0,08 1
[5000 ; 6000[ 15 0,1 0,18 0,92
[6000 ; 7000[ 27 0,18 0,36 0,82

[7000 ; 8000[ 33 0,22 0,58 0,64


[8000 ; 9000[ 30 0,2 0,78 0,42
[9000 ; 10000[ 20 0,133 0,913 0,22
>10000 13 0,087 1 0,087
Total N=150 1
59

2. Quel est le pourcentage des salariés qui gagnent moins de 7000


Dhs/mois ?
✓ A partir du tableau, de la colonne ficc, en face de la classe [6000, 7000[,
on a la valeur 0,36.
✓ Alors le pourcentage des salariés qui gagnent moins de 7000 dhs/mois
est: 0,36 x 100 = 36%
3. Quel est le pourcentage des salariés qui gagnent plus de 8000
Dhs/mois ?
✓ A partir du tableau, de la colonne ficd, en face de la classe [8000,
9000[, on a la valeur 0,42.
✓ Alors le pourcentage des salariés qui gagnent plus de 8000 dhs/mois
est: 0,42 x 100 = 42%

Vous aimerez peut-être aussi