Académique Documents
Professionnel Documents
Culture Documents
Eléments du cours
• Rappel historique et éléments du vocabulaire
• Tableaux statistiques
✓ Cas d’une seule variable
✓ Cas de deux variables
✓ Notions de fréquences
✓ Typologie des tableaux
• Représentations graphiques
✓ Variables qualitatives
✓ Variables quantitatives
• Caractéristiques de tendance centrale et de position
✓ Mode
✓ Médiane
✓ Moyennes
✓ Quantiles
• Caractéristiques de dispersion
✓ Etendu
✓ Intervalles
✓ Variance & Ecart type
✓ Coefficient de variation
✓ Concentration
• Liaison entre deux variables quantitatives
✓ Nuages de points
✓ Droites de régression
✓ Coefficients de corrélation
• Liaison entre deux variables qualitatives
✓ Tableau de contingence
✓ Test d’une éventuelle liaison
Page | 1
CHAPITRE 1 : RAPPEL HISTORIQUE ET ELEMENTS DU VOCABULAIRE
Ce n'est qu'au xviiie siècle que l'on voit apparaître le rôle prévisionnel des
statistiques avec la construction des premières tables de mortalité. Antoine
Deparcieux écrit en 1746 l'Essai sur les probabilités de la durée de vie
humaine. Elle va d'abord servir aux compagnies d'assurances sur la vie qui se
créent alors.
Page | 2
dans les campagnes indiennes. Elle devient la figure majeure de l'amélioration
des soins médicaux et des services publics de santé, en Inde et en Angleterre.
Le xixe siècle voit cette activité prendre son plein essor. Des règles précises sur
la collecte et l'interprétation des données furent édictées. La première
application industrielle des statistiques eut lieu lors du recensement américain
de 1890, qui mit en œuvre la carte perforée inventée par le statisticien Herman
Hollerith. Celui-ci avait déposé un brevet au bureau américain des brevets.
Page | 3
L'application industrielle des statistiques en France se développe avec la
création de l'Insee, qui remplaça le Service National des Statistiques créé
par René Carmille.
Page | 4
1.2. DEFINITIONS ET OBJETS :
a) Statistique :
On distingue :
b) Domaines d’application :
Page | 5
- L’étude de la conjoncture ;
- La détermination des indices économiques.
Une unité statistique doit être définie comme un individu. Elle peut
comporter de nombreux caractères, ceux-ci pourront eux même comporter
plusieurs modalités.
Exemple :
* Echantillon : 5 ouvriers ;
Les caractères quantitatifs sont ceux auxquels on peut attribuer une valeur
numérique. (Exemple : une taille)
Page | 6
Les caractères qualitatifs sont ceux auxquels on peut seulement associer une
valeur numérique arbitraire. (Exemple : une couleur)
Page | 7
CHAPITRE 2 : TABLEAUX STATISTIQUES
Page | 8
Pour une variable qualitative, les modalités ne sont pas mesurables.
Pour une variable quantitative, les modalités sont mesurables. Ce sont des :
• valeurs numériques ponctuelles lorsque la variable est discrète
• intervalles lorsque la variable est continue ou lorsque la variable est
discrète et qu'elle comporte beaucoup de modalités.
Petite 15
Moyenne 25
Grande 10
Total 50
Lecture du tableau :
• L’école dispose un total de 50 salles de classe
• 15 salles de classe de l’école sont de petite taille
• 25 salles de classe de l’école sont de moyenne taille
• 10 salles de classe de l’école sont de grande taille
Page | 9
Exemple 2 : Tableau concernant une variable quantitative discrète
Page | 10
Lecture du tableau :
• Nous avons reçu 20 fois des livraisons contenant des colis entre 1 et 5.
• Les amplitudes peuvent être inégales.
• La colonne des xi peut être présentée de la façon suivante :
1–5
5 – 10
10 – 15
etc.
Application :
TAF :
Page | 11
2.1.2. CAS DE DEUX VARIABLES
Page | 12
Application :
Dans une entreprise, une enquête statistique a été faite sur 500 employés, et
portant sur deux caractères, l’âge et la rémunération. Les résultats de l’enquête
sont présentés dans les deux tableaux suivants :
Age n
20 à 25 150
25 à 30 100
30 à 35 200
35 à 40 50
Rémunération en Euros n
Moins de 1500 200
1500 à 2000 150
2000 à 2500 100
Plus de 2500 50
Page | 13
NOTIONS DE FREQUENCE
La deuxième colonne d’un tableau (2e et 3e colonnes, cas d’un tableau bivariée)
de statistique enregistre le nombre de fois que la valeur de la variable
mentionnée dans la première colonne a été rencontrée.
Il s’agit d’une fréquence, notée fi, et celle-ci peut apparaître sous divers aspects
selon les critères retenus.
Remarques :
• Pour les fréquences relatives, le tableau se lit comme suit : 10 % des
livraisons reçues contenaient entre 1 et 5 colis.
• La somme des fréquences relatives est toujours égale à 1.
Page | 14
2.1.4. FREQUENCES SIMPLES, FREQUENCES CUMULEES :
Nombre de
colis. Fréquences absolues Fréquences relatives
xi Simples Cumulées Simples Cumulées
Croissantes Décroissantes Croissantes Décroissantes
1à5 20 20 200 0,1 0,1 1
6 à 10 30 50 180 0,15 0,25 0,9
11 à 15 60 110 150 0,3 0,55 0,75
16 à 20 50 160 90 0,25 0,8 0,45
21 à 30 30 190 40 0,15 0,95 0,2
31 et + 10 200 10 0,05 1 0,05
200 1
Page | 15
CHAPITRE 3 : REPRESENTATION GRAPHIQUES
La seule représentation qui nous intéresse est celle des effectifs ni (ou des
fréquences ni/n).
Page | 16
Application :
Total 1000
Page | 17
Exemple :
Remarque :
Dans le cas d’une variable discrète, il ne faut pas joindre les sommets des bâtons car
par définition, il n’existe pas de valeurs intermédiaires entre deux positions de la
variable.
Page | 18
3.2.2. CAS D’UNE VARIABLE STATISTIQUE CONTINUE :
En portant dans l’axe des abscisses les valeurs des classes du caractère, et en leur
donnant les fréquences correspondantes, ou représente la structure de la population
étudiée.
Page | 19
Histogramme du courrier du mois de février de
l'entreprise X
8 7
7 6 10 à 15
6 5 15 à 20
5 4 20 à 25
4
n
25 à 30
3 2
2 30 à 35
1
1 35 à 40
0
Fréquences absolues (n)
x
L’histogramme est constitué par l’ensemble des rectangles adjacent. Nous vérifions
par exemple le rectangle représentatif de la classe 30 à 35 (effectif 2) a une surface
double de celle du rectangle représentatif de la classe 35 à 40 (effectif 1).
Page | 20
ni
Histogramme du courrier de deux mois de l’entreprise X
16
¯
14
¯ 12
12
¯
10 9 9
¯
8
¯ 6
6
¯ 3 3
4
¯
2
¯
ا ا ا ا ا ا ا ا ا ا xi
5 10 15 20 25 30 35 40 45 50
14
¯ 12
12
¯
10 9 9
¯
8
¯ 6
6
¯ 3 3
4
¯
2
¯
ا ا ا ا ا ا ا ا ا ا xi
5 10 15 20 25 30 35 40 45 50
Page | 21
Graphique de fréquences cumulées : Cas d’une variable statistique directe
La représentation graphique des fréquences cumulées d’une variable directe
s’effectue sous la forme de graphique en escalier.
« Les sauts » correspondent aux valeurs possibles de la variable et ils sont égaux aux
fréquences cumulées croissantes ou décroissantes.
Exemple :
Répartition du personnel d’une entreprise en fonction du nombre d’enfants.
Fréquences Fréquences
xi absolues relatives
Simples Cumulées Simples Cumulées
Croissantes Décroissantes Croissantes Décroissantes
0 12 12 89 0,135 0,135 1
1 31 43 77 0,348 0,483 0,865
2 29 72 46 0,326 0,804 0,517
3 11 83 17 0,124 0,936 0,191
4 4 87 6 0,045 0,977 0,067
5 2 89 2 0,022 1 0,022
89 1
Répartition croissante :
ni fi
90
90 87
¯ 83
80
¯ 72
70
¯
60
¯
50
¯ 43
40
¯
30
¯
20 12
¯
10
¯
ا ا ا ا ا ا ا ا ا ا xi
0 1 2 3 4 5 6 7 8 9
Page | 22
Répartition décroissante :
ni fi
89
90
¯ 77
80
¯
70
¯
60
¯ 46
50
¯
40
¯
30
¯
20 17
¯ 6
10 2
¯
ا ا ا ا ا ا ا ا ا ا xi
0 1 2 3 4 5 6 7 8 9
Page | 23
ni
90
¯
80
¯
70
¯ 52
60
¯ 52 48 51
50 49
¯ 42
40 40
¯ 28
30
¯ 24
20 12 10
¯ 3
10 4
¯ 1
0
ا ا ا ا ا ا ا ا ا xi
10 15 20 25 30 35 40 45 50
Devoir 2 :
Dans une entreprise, les données sur les erreurs de saisies par la secrétaire ont été
notées sur une période de 25 jours et à des heures aléatoirement choisies. Ces
données sont présentées dans le tableau ci-après.
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Xi 1 1 0 2 5 0 1 2 1 4 1 3 3 2
i 15 16 17 18 19 20 21 22 23 24 25
Xi 0 1 0 3 1 2 2 1 4 2 0
TAF :
1) Présentez le tableau de répartition de la variable étudiée
2) Calculez les fréquences simple et cumulée
3) Faites une représentation graphique dans Excel, des fréquences simple et cumulée
Page | 24
CHAPITRE 4 : PARAMETRES DE TENDANCE CENTRALE ET DE POSITION
4.1. LE MODE :
4.1.1. DEFINITION :
Il est le plus simple à obtenir. Le mode noté Mo est la valeur de caractère (pour les
variables discrètes) ou la classe (pour les variables continues).
Variable discrète : classer les données par ordre croissant. Celle d'effectif maximum
donne le mode.
Dans le cas d’une variable continue, le mode s’applique à la classe qui correspond à
la fréquence maximale. Celle-ci s’appelle « classe modale ».
La valeur du mode dans ces conditions dépend de l’amplitude des classes et qu’il
faut vérifier l’égalité des intervalles de classes.
Exemple :
xi ni Amplitude Effectifs corrigés
100 à 110 8 10 8
110 à 120 22 10 22
120 à 125 18 5 36
125 à 130 20 5 40
130 à 140 12 10 12
140 à 160 6 20 3
Dans ce cas, la classe modale est « 125 à 130 ».
Page | 25
LA MEDIANE :
4.1.2. DEFINITION :
La médiane notée Me est la valeur de la variable qui partage l’effectif en deux parties
égales, les éléments de la population étant rangés par ordre croissant ou décroissant.
En d’autres termes, la médiane est la valeur statistique qui correspond sur la courbe
cumulative à une ordonnée représentant une fréquence relative 0,5 ou 50%, ce qui
entraîne que 50% des observations seront inférieures à la médiane et 50% seront
supérieures à la médiane.
Exemple :
30 4 8 10 6 12 13 15 16
4 6 8 10 12 13 15 16 30
4 termes
⇓ 4 termes
Médiane
Page | 26
* Déterminer au postulant une répartition homogène des valeurs dans la classe la
valeur de la médiane par interpolation linéaire.
Exemple :
Fréquences
Xi Simples Cumulés
Croissantes Décroissantes
1000 à 1500 6 6 65
1500 à 2000 12 18 59
2000 à 2500 25 43 47
2500 à 3000 17 60 22
3000 à 3500 5 65 5
65
Nous savons d’après le tableau que la valeur de 2000 correspond au 18ème rang,
et que la valeur de 2500 correspond au 43ème rang. La valeur du 33ème rang se
trouve comprise entre 2000 et 2500, la classe médiane est donc 2000 à 2500.
La valeur exacte de la médiane est alors déterminée par l’application d’une règle
de trois : Médiane = 2000 + x.
Calculant cette valeur de x :
Sur l’intervalle de cet effectif occupe donc un sous intervalle de
500/25 = 20. Pour arriver au 33ème rang, il faut donc ajouter 33-18 =
15 sous intervalles. Donc x= 20 x 15 = 300.
Et puis la médiane = 2000+300 = 2300.
Page | 27
Autre solution plus simple :
M = 2000 + 500x(33-18) / (43-18) .
M = 2300.
Exercice :
On donne la répartition de 100 ouvriers d’une entreprise selon leur salaire
journalier.
Salaires Fréquences cumulées Fréquences cumulées
journaliers ni croissantes décroissantes
80 - 120 10 10 100
120 - 160 30 40 90
160 - 200 40 80 60
200 - 240 20 100 20
100
Médiane = 160 + 40x(50-40) (80-40) = 170.
Donc50% des ouvriers touches un salaire journalier plus que 170 DHS. Et
50% des salariés touchent moins de 170 DHS.
Page | 28
4.2.1. LA MOYENNE ARITHMETIQUE
Cette moyenne s’écrit en abrégé : X
1- Définition :
Exemple :
Les notes obtenues par un candidat à un examen sont les suivantes : 8 – 9 – 12 – 14 –
17.
8 + 9 + 12 + 14 + 17
X= = 12.
5
∑ ni xi
X= = 550/50 = 11.
∑ ni
Page | 29
Exemple :
Notes (xi) Effectifs (ni) ni xi fi fi x i
4 1 4 0,02 0,08
6 2 12 0,04 0,24
8 4 32 0,08 0,64
9 7 63 0,14 1,26
10 10 100 0,2 2
12 13 156 0,26 3,12
13 5 65 0,1 1,3
14 6 84 0,12 1,68
17 2 34 0,04 0,68
50 550 1 11
∑ fi x i
X= = 11/1 = 11.
∑ fi
Lorsque les valeurs d’une série statistique varient en gros selon une progression
géométrique, il est préférable de substituer à la moyenne arithmétique la moyenne
géométrique (xG).
Si xi sont les observations d'une variable quantitative, la moyenne géométrique est
égale à
Ce type de moyenne est surtout utilisé pour calculer des pourcentages moyens.
r étant un taux d'accroissement, 1+r est appelé coefficient multiplicateur; et le
coefficient multiplicateur moyen est alors égal à la moyenne géométrique des
coefficients multiplicateurs.
Exemple :
Le chiffre d’affaires mensuel d’un nouveau produit a été au cours des six
derniers mois :
256 – 332 – 432 – 562 – 731 – 950 .
Page | 30
Généralisation:
Lorsque les valeurs de la variable sont affectées d’une fréquence, la
moyenne géométrique est donnée par la formule suivante :
Exemple :
xi ni log xi ni . log xi
2 4 0,301 1,204
4 5 0,602 3,01
8 8 0,403 7,224
16 2 1,204 2,408
12 1 1,505 1,505
20 15,351
En appliquant la dernière
formule : Log xG =
0,76755
⇒ xG = 5,8.
Page | 31
Application :
Un cycliste effectue une traversé de 50 kms. Pendant les 20 premiers kms il
roulait avec une vitesse constance de km/h, les 15 kms suivants à une vitesse
constante de 30 km/h. Du point kilométrique 35 au 55 la vitesse de notre
cycliste n¶est que de 10 km/h et au-delà du point kilométrique sa vitesse
n¶est que de 5 km/h.
TAF :
Quelle est la vitesse de ce cycliste sur l’ensemble du
parcours ?
Eléments de réponse :
H = 16.67
MOYENNE QUADRATIQUE :
Si xi sont les observations d'une variable quantitative, la moyenne harmonique est
égale à
2- Observation :
Page | 32
4.3. QUANTILES :
Page | 33
Application :
Soit la population de 80 salariés classés d’après le niveau de leur salaire
journalier.
Classes en dhs ni ni cumulés
1 90 à 100 5 5
2 100 à 110 9 14
3 110 à 120 16 30
4 120 à 130 25 55
5 130 à 140 13 68
6 140 à 150 7 75
7 150 à 160 3 78
8 160 à 170 2 80
Total 80
Page | 34
CHAPITRE 5 : PARAMETRES DE DISPERSION
Comme leur nom l'indique, ces caractéristiques essayent de synthétiser par
une seule valeur numérique la dispersion de toutes les valeurs observées.
5.1. L’ETENDU :
1- Définition :
L’étendu d’une série statistique est la différence entre la plus grande valeur
et la plus petite valeur du caractère.
e = xM – xm.
2- Application :
3- Commentaire :
La simplicité de ce calcule ne doit pas le faire oublier que l’étude est très
sensible aux fluctuations des valeurs (valeurs extrêmes) qui sont souvent peu
représentatives. Cette valeur caractéristique qui correspond à un concept,
forme utilisée dans la pratique. (L’écart entre le premier et le dernier
coureur, l’écart entre la meilleure et plus faible note).
Page | 35
5.2. LES INTERVALLES :
a- Définition :
* Calculer Q1 :
Rang = 18/4 = 4,5.
Q1 = 1000 + 500 [(4,5 – 0) /
(6 – 0)]. Q1 = 1375.
* Calculer Q3 :
Rang = (18/4).3 = 13,5.
Q3 = 1500 + 500 [(13,5 – 6) /
(14 – 6)]. Q3 = 1968,75.
Q3 – Q1 = 1968,756 – 1375 =
593,75.
On trouve dans cet intervalle 50% des observations concentrées autour de la
médiane. Plus l’intervalle est réduit, plus la concentration autour des valeurs
centrales est forte.
Page | 36
5.3. LA VARIANCE, L’ECART TYPE :
1- Définitions :
2- Application:
17 1 17 -7 49 49 289
19 1 19 -5 25 25 361
21 2 42 -3 9 18 882
23 6 138 -1 1 6 3174
25 5 125 1 1 5 3125
27 3 81 3 9 27 2187
29 2 58 5 25 50 1682
31 0 0 7 49 0 0
20 480 180 11700
Page | 37
∑ fi x i
X= = 24.
∑ fi
= V = 3.
Lorsqu’une moyenne arithmétique est une valeur entière, les calcules sont
assez simples, mais la plupart du temps la moyenne est un nombre décimal,
ce qui rend l’élévation au carrée des écarts plus difficile. L’hypothèse de non
utilisation de machines, nous proposons les améliorations du calcul
suivantes :
On utilise plus couramment l'écart type qui est la racine carrée de la variance
et qui a l'avantage d'être un nombre de même dimension que les données
(contrairement à la variance qui en est le carré)
La variance est un paramètre de dispersion plus utilisé que les autres de par
ses propriétés algébriques
Page | 38
5.4. COEFFICIENT DE VARIATION :
Eléments de réponse :
x=1.757, Mo=1.345 (le centre de la classe modale), Me=1.648, ı²=0.238, ı=0.488, V=27.8%
Page | 39
CHAPITRE 6 : LIASON ENTRE DEUX VARIABLES QUANTITATIVES
* Le coefficient de corrélation.
Page | 40
La régression fournit une expression de cette liaison sous la forme d'une
fonction mathématique.
Lorsque le nuage de points (xi , yi) est à peu près rectiligne, on peut
envisager d'exprimer la liaison entre x et y sous forme de fonction affine y =
ax + b
Page | 41
MESURE DE L’INTENSITE DE LA RELATION LINEAIRE ENTRE DEUX
VARIABLES :
1) Covariance
Page | 42
2) Coefficient de corrélation linéaire
Attention:
Une forte causalité entre x et y implique une forte relation entre x et y
qui n'est pas forcément linéaire ; on n'a donc pas obligatoirement une
forte corrélation linéaire.
Une forte corrélation linéaire n'implique pas forcément une forte causalité.
Dy/x : y = ax + b avec
Page | 43
* droites de régression confondues relation fonctionnelle linéaire
* droites de régression perpendiculaires dont une de pente nulle
indépendance linéaire
* Plus les droites sont proches, plus la relation linéaire est importante
Relations intéressantes :
r² = aa'
Page | 44
Application :
Les séries statistiques simples de deux variables continues X et Y se présentent comme suit :
Individu 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
s
X 2 12 13 7 6 3 12 10 9 7 4 2 10 6 3
Y 22 2 4 14 15 19 7 8 10 11 16 18 11 12 21
TAF : après avoir élaboré un tableau de contingence, en adoptant des classes d’amplitudes
égales à 4 unités pour la variable X et des amplitudes à 5 unités pour la variable Y, il vous
est demandé d’apprécier la liaison qui existe entre ces deux variables.
Eléments de réponse :
Y 2±7 7 ± 12 12 ± 17 17 ± 22 n .j
X
2±6 0 0 2 3 5
6 ± 10 0 3 2 0 5
10 ± 14 3 2 0 0 5
ni. 3 5 4 3 15
Les équations des droites d’ajustement linéaire :
-l ’ajustement linéaire de Y à X : Y= a.X + b = -1.37 X+ 22.79
-l ’ajustement linéaire de X à Y : X = a.Y + b = -0.56 Y+14.62
- coefficient de corrélation r : r = -0.87 Æ Forte liaison linéaire négative entre les deux
variables.
Application No 2 :
Une entreprise souhaite expliquer et prévoir ses ventes « y » par rapport à des
dépenses de publicité engagées « x », ou au contraire déterminer les dépenses de
publicité « y » en fonction de ces ventes « x ».
Pour concrétiser ces notions, nous allons utiliser l’exemple suivant :
Dépenses
de Vente "Y" Xi = xi -x Yi =yi -y xi yi (xi – x)2 (yi – y)2
publicité
"X"
800 1500 -110 -700 77000 12100 490000
870 1900 -40 -300 12000 1600 90000
900 2000 -10 -200 2000 100 40000
920 2300 10 100 1000 100 90000
970 2500 60 300 18000 3600 90000
1000 3000 90 800 72000 8100 640000
5460 13200 182000 25600 1360000
Page | 45
1. Droite de régression de « y » en « x » :
* Caractéristique de la droite y = ax + b :
L’équation de cette droite se détermine en appliquant la méthode des moindres
carrée.
Cette droite passe par le point moyen (x , y) du nuage des points et que la valeur de
sa pente (a) se détermine par la formule suivante :
∑ (Xi Yi)
a=
∑ Xi2
Xi = xi – x Yi = yi – y.
Donc : b = 2200- (7,10 * 910) = - 4270.
a = 7,1.
Enfin : y = 7,1 x – 4270.
Page | 46
2. Droite de régression de « x » en « y » :
∑ (Xi Yi)
a’ = = 182000/1360000 = 0,13.
2
∑ Yi
b’ = x - a’y’ = 617,40.
Commentaires :
Il existe donc une liaison certaine entre les deux phénomènes. Certes les dépenses de
publicité expliquent correctement les ventes, mais cette dernière influence certainement les
dépenses de publicités futures qui à leur tour conditionnent les ventes.
Page | 47
CHAPITRE 7 : LIASON ENTRE DEUX VARIABLES QUALITATIVES
Exemple :
a) Tableau de contingence
On croise les deux variables et pour chaque couple de modalités (Ai, Bj), on relève
l'effectif observé nij : nombre d'individus prenant simultanément les deux valeurs.
Page | 48
b) Tableau des effectifs théoriques
A partir des effectifs marginaux Li et Cj, on peut calculer les effectifs attendus
lorsque X et Y sont indépendantes.
Ces effectifs théoriques, notés eij, sont donnés par la formule : eij = (Li x Cj) / n.
Exemple : Les filles représentent L1/n = 19/50 = 38% des enfants de l'échantillon. S'il
n'y pas de lien entre les variables, on s'attend à trouver 38% de filles chez les enfants
ayant subi un accident domestique (soit 29×19/50 = 11, 02 filles) et 38% de filles chez
les enfants ayant subi un accident domestique (soit 21×19/50 = 7, 98 filles).
Le coefficient le plus important est celui du khi-deux qui est utilisé pour tester
l'indépendance des deux variables à partir d'un échantillon d'individus.
Il mesure la distance globale entre les effectifs nij relevés et les effectifs théoriques eij
attendus lorsque X et Y sont indépendantes :
Page | 49
- Le coefficient est positif ou nul ; la valeur 0 correspond à l'indépendance des
variables.
Pour tester l'existence d'une liaison entre le sexe et le type d'accident survenu, on
utilise le test du khi-deux d'indépendance.
α = 5%
2. Les observations
- Les valeurs de χ² sont positives ou nulles. Plus la valeur est grande et plus
l'écart à l'indépendance observé sur l'échantillon est important.
Page | 50
- Sa valeur observée est χ²cal = 0, 363.
4. Loi de χ² sous H0
La région de rejet est située à l'extrémité droite du domaine. Elle contient les
5% de valeurs les plus grandes de χ²
6. p-valeur αobs
7. Décision
Page | 51