Académique Documents
Professionnel Documents
Culture Documents
statistiques
Rachid Jahidi
R. Jahidi 1
C’est quoi la statistique?
La statistique est la discipline qui étudie
des phénomènes à travers la collecte
de données, leur traitement, leur analyse,
l'interprétation des résultats et
leur présentation afin de rendre ces données
compréhensibles par tous.
C'est à la fois une science, une méthode et
un ensemble de techniques.
Elle permet de réduire l’incertitude pour
une bonne prise de décision
R. Jahidi 2
Le but essentiel de la statistique
et
le rôle du statisticien
R. Jahidi 3
Statistique
descriptive
R. Jahidi 4
La Statistique Descriptive est l'ensemble
des méthodes et techniques permettant de
présenter, de décrire, de résumer, des
données nombreuses et variées.
Il faut préciser d'abord quel est l'ensemble
étudié, appelé population statistique, dont
les éléments sont des individus ou unités
statistiques.
Chaque individu est décrit par une ou
plusieurs variables, ou caractères
statistiques.
R. Jahidi 5
Les variables peuvent
être de deux natures
Qualitatives Quantitatives
R. Jahidi 6
EXEMPLE : Chiffres d'affaires de
supermarchés
On dispose pour tous les
Déc. 17 Déc. 18 Evolution
supermarchés d'une
SM1 35 850 60 000 SUP chaîne C de leurs chiffres
d'affaires aux mois de
SM2 25 650 11 125 INF décembre 2017 et
SM3 60 000 60 000 STABLE décembre 2018 et de
l’évolution de ce dernier.
SM4 55 000 45 500 INF
Quelle est la population
SM5 50 000 55 000 SUP étudiée ?
SM6 75 000 76 000 SUP De quelle(s) variable(s)
dispose-t-on ? Nature des
. . . . variables?
. . . . En est-il de même si on
note -1, 0, 1 selon
l'évolution du chiffre ?
R. Jahidi 7
Exemple : cas alphajus
Les données n = 40 personnes
boisson achat goût pour le consommation Boisson préférée
préférée préalable sucre de boisson
_________ _________ ____________ ____________ 1 = alphajus
2 2 1 4 2 =bettajus
1 1 2 8
2 2 3 2
1 1 2 10 Achat préalable
1 2 1 7 1 = oui
1 1 3 6
2 2 1 4 2 = non
.
.
. Goût Sucre
1 2 2 5
1 1 3 3 1 = oui
2 2 1 11 2= indifférent
1 1 3 9
1 2 1 6 3 = non
2 2 3 2
1 1 2 5
R. Jahidi 8
N° client SOLDE NBPR NEMP RETR CLAGE CSP
1 2305 0 1 0,7 de 30 à 50 cadre sup
2 15259 3 1 0 moins de 30 cadre sup
3 1236 1 0 2 moins de 30 cadre
4 8241 6 4 36 de 30 à 50 cadre sup
5 6210 5 3 80,5 de 30 à 50 cadre
6 6871 6 4 98 plus de 50 profession libérale
7 1580 2 1 5,5 moins de 30 cadre
8 9630 5 3 110,5 de 30 à 50 cadre sup
9 4230 2 0 20 plus de 50 profession libérale
10 3620 1 1 3,1 moins de 30 cadre
11 10258 6 4 253,7 de 30 à 50 cadre
12 23698 2 0 2 de 30 à 50 cadre sup
13 3698 1 1 3,2 de 30 à 50 profession libérale
14 231 1 0 0,1 moins de 30 cadre
15 501 1 1 10,1 plus de 50 profession libérale
16 3693 2 0 21,5 plus de 50 cadre sup
17 963 1 0 5,1 de 30 à 50 profession libérale
18 15802 2 0 0,1 de 30 à 50 cadre
19 502 2 2 0,8 moins de 30 cadre
20 7896 6 3 98,1 moins de 30 cadre sup
21 23698 3 0 8,1 de 30 à 50 cadre sup
22 27896 3 0 0 de 30 à 50 cadre
23 5687 5 3 110 de 30 à 50 cadre sup
24 1269 1 2 5,1 plus de 50 profession libérale
25 3687 2 1 52 plus de 50 cadre sup
26 9631 2 0 0 moins de 30 cadre sup
27 75632 3 0 0 de 30 à 50 cadre sup
28 5523 5 4 110,5 de 30 à 50 cadre
29 6984 4 4 85,1 moins de 30 cadre sup
30 85214 3 0 1 de 30 à 50 cadre sup
R. Jahidi 9
Les variables seront ensuite
analysées différemment selon
leur nature (quantitative,
qualitative, etc.), au moyen de
tableaux, graphiques et calcul
de paramètres-clé.
R. Jahidi 10
Analyse univariée
R. Jahidi 12
I. Les tableaux
Ils ont pour but de résumer les
données brutes sous une forme
synthétique.
R. Jahidi 13
On a noté la situation familiale des 150
employés d'une entreprise.
Noms Situation de famille
M.Azim Marié
MFarid Veuf
Mme Latifi Mariée
Melle Fatiha Célibataire
M. Ahmed Divorcé
M. Salih Marié
M. Berrada Divorcé
Mme Réda Divorcée
Melle Fatiha Célibataire
M. Halim Marié
M. Chadi Veuf
Mme Faouzi Mariée
... ...
R. Jahidi 14
Cela peut se résumer par :
Modalités Effectifs
Marié 80
Célibataire 30
Veuf 20
Divorcé 20
R. Jahidi 15
J’aime mes boissons au jus d’orange sucré
Fréquence
Valide d'accord 14
je ne suis pas sûr 13
pas d'accord 13
Total 40
R. Jahidi 16
On notera x1, x2, ..., xk les
différentes modalités de la
variable qualitative et n1, n2, ... ,
nk les effectifs associés.
La somme des effectifs
vaut n.
R. Jahidi 17
De même, pour une
variable discrète, on
notera x1 , x2 , ... , xk les
valeurs rangées par ordre
croissant, et n1 , n2 , ... ,
nk les effectifs
correspondants.
R. Jahidi 18
Une variable continue ne prend
pas des valeurs isolées, mais
des valeurs appartenant à des
intervalles. C'est pourquoi, au
lieu de définir des effectifs par
valeurs, on définira des
effectifs par intervalles,
appelés classes.
R. Jahidi 19
On découpera ainsi l'intervalle des
valeurs en classes contigües, de la
forme :
[ e1 ; e2 [ [ e2 ; e3 [ [ e3 ; e4 [
....
[ ek ; ek+1 [
et on notera n1, n2, ... , nk les
effectifs associés.
ni est le nombre d'individus
appartenant à la classe [ ei ; ei+1 [.
R. Jahidi 20
Le choix des classes est parfois
délicat. A priori tout choix tel
qu'on ait des classes contigües
recouvrant l'ensemble des valeurs
est correct : chaque individu
appartient à une classe et une
seule.
R. Jahidi 21
consommation de boisson Données en classes
Fréquence
Valide 1
classe Fréquence
1
2 4
3 5 <à2 1
4 5
5 5 2à4 9
6 4
4à6 10
7 5
8 3 6à8 9
9 3
10 2 8 à 10 6
11 1
12
10 à 12 3
1
13 1 12 à 14 2
Total 40
R. Jahidi 22
R. Jahidi 23
II. Les graphiques
R. Jahidi 24
Variable Qualitative
R. Jahidi 25
goût pour le sucré
d'accord
je ne suis pas sûr
pas d'accord
pas d'accord n=13
d'accord n=14
Les secteurs montrent effectifs
12
Effectif
0
d'accord j e ne su is pa s sû r pa s d 'a ccord
R. Jahidi 27
Cas d’une variable discrète
R. Jahidi 29
Cas d'une variable continue :
Histogramme
un histogramme est
une représentation
graphique permettant de représenter la
répartition d'une variable continue en la
représentant avec des colonnes
verticales.
C’est un moyen rapide pour étudier la
répartition d’une variable.
R. Jahidi 30
Histogramme des effectifs
10
8
Les classes sont de
même amplitude, on
Fréquence
4
reporte les effectifs
sur l’axe des
ordonnés
2
Mean = 5,88
Std. Dev. = 2,972
0 N = 40
0 2 4 6 8 10 12 14
consommation de boisson
[ 1 500 - 2 000 [
[ 2 000 - 2 500 [
[ 2 500 - 3 000 [
[ 3 000 - 3 500 [
[ 3 500 - 4 000 [
[ 4 000 - 5 000 [
[ 5 000 - 6 000 [
[ 6 000 - 8 000 [
Total : 1 000
R. Jahidi 32
Paramètres statistiques
En plus des tableaux et
graphiques, on résume
l'observation d'une variable
quantitative par un petit nombre
de paramètres.
R. Jahidi 33
I - Paramètres de tendance centrale
R. Jahidi 34
La moyenne arithmétique; lorsque les
données sont sous forme d’un tableau (xi,ni)
i=1,…,k, ; s’écrit:
𝑘
1
𝑥 = 𝑛𝑖 𝑥𝑖
𝑛
𝑖=1
R. Jahidi 35
Calculons la moyenne de la consommation de boisson
consommation de boisson Données en classes
Fréquence
Valide 1
classe Fréquence
1
2 4
3 5 <à2 1
4 5
5 5 2à4 9
6 4
4à6 10
7 5
8 3 6à8 9
9 3
10 2 8 à 10 6
11 1
12
10 à 12 3
1
13 1 >= à 12 2
Total 40
R. Jahidi 36
Consommation comme variable
discrète :
Moyenne =
(1x1)+(2x4)+…+(12x1)+(13x1)=5,775.
Consommation comme variable
continue :
Moyenne =
(1x1)+(3x9)+…+(11x3)+(13x2)= 6,375.
R. Jahidi 37
La moyenne s'exprime toujours
dans la même unité que les
observations xi . Elle peut être
décimale, même si les xi sont
entiers par nature.
R. Jahidi 38
Défauts de la moyenne.
R. Jahidi 39
2) Comparons le salaire moyen dans 2 entreprises :
Entreprise A :
1/ 3 de femmes , salaire moyen 8000Dh
2/3 hommes, salaire moyen 11000
Dans l'entreprise A le salaire moyen est de : 10000
Entreprise B :
2/ 3 de femmes , salaire moyen 9000Dh
1/3 hommes, salaire moyen 12000
Dans l'entreprise B le salaire moyen est de : 10000
R. Jahidi 40
CONCLUSION
R. Jahidi 41
La médiane : M
R. Jahidi 42
c'est-à-dire que
Si n est impair, soit n = 2 p + 1 ,
𝑀 = 𝑥(𝑝+1)
R. Jahidi 43
Calculons la médiane de la
consommation de boisson
consommation de boisson
Fréquence
Valide 1 1 𝑛 = 40 = 2𝑥20
𝑥(21) +𝑥(20) 5+6
2 4 Med= = = 5,5
3 5 2 2
4 5
5 5
6 4
7 5
8 3
9 3
10 2
11 1
12 1
13 1
Total 40
R. Jahidi 44
Le mode
R. Jahidi 46
Exemple
Mode absolu = 8
Mode relatif =13
R. Jahidi 47
Tendance centrale
R. Jahidi 48
Forme de la distribution
La comparaison de ces trois paramètres
donne des indications sur la symétrie de la
distribution.
Distribution symétrique
moyenne = médiane = mode
R. Jahidi 50
Mode=9 Mode=9
Médiane=𝑥(8) = 10 Médiane=𝑥(8) = 10
Moyenne= Moyenne=
8×1 + 9×5 +⋯+(16×1) 2×3 + 9×4 +⋯+(18×3)
= 11 = 11
15 15
R. Jahidi 51
Les fractiles
On appelle fractiles d'ordre k les valeurs F1 , F2 ,
... , Fk-1 qui divisent la série en k parties
d'effectifs égaux.
Par exemple les quartiles Q1, Q2 , Q3 divisent la
série statistique ordonnée en 4 parties d'effectifs
égaux.
Les déciles D1 , ... , D9 divisent la série ordonnée
en dix parties d'effectifs égaux.
Les centiles divisent la série ordonnée de façon
croissante en 100 parties de mêmes effectifs.
R. Jahidi 52
R. Jahidi 53
Ces fractiles se calculent
exactement comme la médiane.
Le quartile Q2 est d'ailleurs égal à la
médiane.
Les déciles, et surtout les centiles,
n'ont de sens que si n est
suffisamment grand (plusieurs
centaines au moins pour des
centiles).
R. Jahidi 54
Exemple de calcul du 1er quartile
Appelons n le nombre des valeurs d'une
série, et calculons 0,25*n = n/4.
Lorsque n/4=p est entier, la valeur
représentant le premier quartile est la p-
ième valeur par ordre croissant.
Lorsque n/4 est un décimal non entier, on
l'arrondit à l'entier supérieur p et alors la
valeur représentant le premier quartile est
la p-ième valeur par ordre croissant.
Exemple 1: Dans la série 10; 25; 30; 40;
41; 42; 50; 55; 70; 101; 110; 111, quelle
est la valeur de Q1?
R. Jahidi 55
Exemple de calcul du 3ème
quartile
Lorsque 3n/4 =p est entier, la valeur
représentant le troisième quartile est
la p-ième valeur par ordre croissant.
Lorsque 3n/4 est un décimal non entier,
on l'arrondit à l'entier supérieur p et
alors la valeur représentant le troisième
quartile est la p-ième valeur par ordre
croissant.
Exemple : Dans la série: 10; 25; 30; 40;
41; 42; 50; 55; 70; 101; 110; 111;
113, quelle est la valeur de Q3?
R. Jahidi 56
Calculons les quartiles associés à ces
deux séries
Q1=9 Q1=9
Q3=14 Q3=17
R. Jahidi 57
Paramètres de dispersion
R. Jahidi 58
L'Étendue : R
L'étendue (ou amplitude) d'une série
statistique est la différence entre la
valeur maximum et la valeur minimum
de la série.
R = Maximum (X) - Minimum (X)
Facile à déterminer, l'étendue ne
dépend que des 2 observations
extrêmes qui sont parfois le fait de
situations exceptionnelles.
Il est donc difficile de considérer
l'étendue comme une mesure stable de
la dispersion.
R. Jahidi 59
Ecart interquartile
R. Jahidi 60
Etendu = 8 Étendu =16
Ecart interquartile = 5 Ecart interquartile = 8
R. Jahidi 61
Pour mesurer la dispersion de part et
d'autre de la moyenne, il faut mesurer
l'ordre de grandeur des xi
1 𝑛
A quoi est égal σ (𝑥 − 𝑥)
𝑛 𝑖=1 𝑖
𝑛 𝑛
1 1
(𝑥𝑖 − 𝑥) = 𝑥𝑖 − 𝑥ҧ
𝑛 𝑛
𝑖=1 𝑖=1
=0
R. Jahidi 62
On calcule parfois l'écart absolu moyen
𝑛
1
𝑥𝑖 − 𝑥
𝑛
𝑖=1
R. Jahidi 63
Ce nombre est-il toujours > 0 ?
R. Jahidi 65
Interprétation de L’Écart-type
En général, on retrouve :
◼ plus de 95% des données dans l ’intervalle
[ - 2 , + 2 ],
◼ toutes les données (ou presque 100%)
dans l ’intervalle [ - 3 , + 3 ].
R. Jahidi 66
Coefficient de variation :
Cv = écart-type/moyenne
Cv < 0,25 concentration
Cv > 0,25 dispersion
R. Jahidi 67
Calculons les écarts types des
deux séries
𝑘 𝑘
1 2
1 2
𝑛𝑖 𝑥𝑖 − 𝑥 = 5,26 𝑛𝑖 𝑥𝑖 − 𝑥 = 33,6
𝑛 𝑛
𝑖=1 𝑖=1
s1=2,36 s2= 5,74
Cv=0,21
R. Jahidi
Cv=0,52 68
N Valide 40
Manquante 0
Moyenne 5,88 Cas
alphajus :
Médiane 5,50
Mode 3(a)
Ecart-type
Variance
2,972
8,830
Statistique
Intervalle
Centiles 25 3,25
12
descriptive
50 5,50
75 8,00
R. Jahidi 71
Pour mesurer la variation conjointe de X et Y,
on utilise les produits : (𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത
Dans le quadrant I , ce
produit est : +
Dans le quadrant II, ce
produit est : -
Dans le quadrant III, ce
produit est : +
Dans le quadrant IV , ce
produit est : -
R. Jahidi 72
On appelle covariance de X et Y le nombre
𝑛
1
𝑐𝑜𝑣 𝑋, 𝑌 = (𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
𝑛
𝑖=1
Si tous les points étaient
en I et III
cov ( X , Y ) serait positive
Si tous les points étaient
en II et IV
cov ( X , Y ) serait négative .
La covariance est positive
si X et Y ont tendance à varier
dans le même sens, et
négative si elles ont tendance
à varier
R. Jahidi
en sens contraire. 73
La covariance ne dépend pas de l'origine
choisie pour X et Y, mais dépend des
unités de mesure. C'est pourquoi, pour
mesurer l'aspect plus ou moins "allongé"
du nuage dans une direction, par un
coefficient sans unité, on mesure la
covariance entre :
X/Sx et Y/Sy
C'est le coefficient de corrélation linéaire :
R= ( x i − x )( y i − y)
( x i − x ) ( y i − y)
2 2
R. Jahidi 74
Le coefficient de corrélation r de Pearson sert à mesurer
l’intensité de la relation linéaire entre deux variables
quantitatives.
Le coefficient de corrélation r prendra des valeurs entre
-1 et 1.
S ’il existe une relation linéaire parfaite entre X et Y
alors r = 1 (r =1 si X et Y varient dans le même sens et
r = -1 si X varie dans le sens opposé à Y).
Si r = 0, ceci indique qu ’il n ’y a pas de lien linéaire
entre X et Y.
Plus la valeur de r s ’éloigne de 0 pour s ’approcher de
1 plus l ’intensité du lien linéaire entre X et Y grandit.
R. Jahidi 75
Tendances des exportation et
importation de bien et services.
R. Jahidi 76
Cor(impor,expor)=0,855
Valeurs import/PIB Courbe de régression
45
40
35
Valeurs export/PIB
30
Valeurs export/PIB
25 Prévisions Valeurs export/PIB
20
15
10
10 15 20 25 30 35 40 45 50 55
Valeurs import/PIB
R. Jahidi 77
Cor(impor,expor)=0,936
35
Valeurs export/PIB
30
Valeurs export/PIB
25 Prévisions Valeurs export/PIB
20
15
10 15 20 25 30 35 40 45 50 55
Valeurs import/PIB
R. Jahidi 78