Vous êtes sur la page 1sur 118

Techniques

Statistiques.
Rachid Jahidi

R. Jahidi 1
Quelques citations…

R. Jahidi 2
✓ Il y a trois sortes de mensonges :
les petits mensonges, les gros
mensonges et les Statistiques
✓ Les faits sont têtus. Il est plus facile
de s'arranger avec les Statistiques.
✓ Tout comme certaines sciences
occultes, les Statistiques possèdent leur
propre jargon, volontairement mis au
point pour dérouter les non-initiés.

R. Jahidi 3
C’est quoi la statistique?
 La statistique est la discipline qui étudie
des phénomènes à travers la collecte
de données, leur traitement, leur analyse,
l'interprétation des résultats et
leur présentation afin de rendre ces données
compréhensibles par tous.
 C'est à la fois une science, une méthode et
un ensemble de techniques.
 Elle permet de réduire l’incertitude pour
une bonne prise de décision
Dans la pratique, les méthodes et outils statistiques
sont utilisés dans des domaines tels que :
•démographie : le recensement permet de faire une
photographie à un instant donné d'une population et permettra
par la suite des sondages dans des échantillons
représentatifs ;
•sciences économiques et sociales, et en économétrie :
l'étude du comportement d'un groupe de population
ou d'un secteur économique s'appuie sur des statistiques.
•sociologie : les sources statistiques constituent des
matériaux d'enquête, et les méthodes statistiques sont
utilisées comme techniques de traitement des données ;
•marketing : le sondage d'opinion devient un outil pour
la décision ou l'investissement ;
•production industrielle, avec des outils comme la Maîtrise
Statistique des Procédés ;
•assurance et finance (calcul des risques, actuariat, etc.)

R. Jahidi 5
Dans toute étude statistique,
trois étapes sont importantes :
échantillonnage
analyses descriptives: explorer et
synthétiser ou résumer les données
inférence et modélisation

R. Jahidi 6
programme

 Echantillonnage
 Statistique descriptive
 Estimation et test statistique

R. Jahidi 7
Bibliographie

 J.P. Védrine : T.Q.G. Vuibert gestion, 1991.


 M. Tenenhaus : Méthodes statistiques en
gestion, Dunod, 1994.
 Y. Evrard ; B. Pras ;E. Roux : Market étude et
recherche en marketing, Dunod, 2003.
 Saporta G. : Probabilités, analyse des données
et statistique, Technip, 1900.
Échantillonnage

R. Jahidi 9
DEFINITIONS
 Recensement = vérité
l’information que l’on désire est disponible
pour tous les individus de la population
étudiée.

R. Jahidi 10
 Échantillon = estimation de la vérité
l’information n’est disponible que pour un sous-
ensemble des individus de la population étudiée.

R. Jahidi 11
Comment choisir l’échantillon?

À l’aveuglette? NON!
 Parmi les volontaires? NON!
 NON aux :
Sondages télé où les gens
appellent; lignes ouvertes…

R. Jahidi 12
On veut une méthode scientifique
telle que chaque personne dans la
population possède une chance
mesurable (que l’on peut quantifier)
de sélection.

R. Jahidi 13
Avantages de la méthode
scientifique

 On peut projeter les résultats de


l’échantillon sur toute la population.
 Le but d’un sondage n’est pas de
décrire un individu en particulier. On
veut une image, un profil, de la
population.

R. Jahidi 14
PROBLEME :
Comment choisir
l’échantillon pour qu'il
fournisse des informations
s’apparentant à celles que
l’on aurait obtenues par
recensement ?

R. Jahidi 15
La réponse dépend de l’existence
ou pas :

 D’une base de sondage

 D’informations auxiliaires

R. Jahidi 16
La base de sondage
 Permet d’avoir accès à la population
 Deux types

Les nomenclatures Les bases aléatoires


Liste de noms et d’adresses qui
Liste de « régions » qui donnent
donnent directement accès à
accès indirectement à des unités
des unités
Exemple :
Exemple :
•Quartier d’une ville
•Liste d’hôpitaux
•Service d’un hôpital
•Liste des étudiants
inscrits en médecine
•Registre des entrées
La base de sondage

 Doit être complète et à jour


 Aucun membre de la population
observée ne devrait en être exclu ni
y être représenté plusieurs fois
 Aucune unité ne faisant pas partie
de la population ne doit y figurer
(décédé…)
Information auxiliaire

Variable susceptible d’expliquer la


variable d’intérêt
 Fréquence Achat de parfum :
variable d’intérêt
 Genre : variable auxiliaire

R. Jahidi 19
Base de sondage mais pas d’information
auxiliaire :
sondage aléatoire simple,
sondage systématique,
sondage en grappe
sondage à plusieurs degrés
Base de sondage plus information auxiliaire :
sondage stratifié.
Pas de base de sondage : méthode non
probabiliste
 Méthodes des quotas
 Méthodes boules de neige
 Méthodes de convenance

R. Jahidi 20
Sondage aléatoire simple (SAS)

 Ce tirage est essentiellement ce que l’on a en tête


quand on tire dans une urne n boules qui sont
bien mélangées et indétectable au toucher.
 Toutes les unités ont la même probabilité
d’inclusion
 Ce choix peut se faire avec remise ou sans
remise :
 Avec remise, un individu peut être choisi
plusieurs fois
 Sans remise, un individu déjà choisi ne peut
l’être de nouveau. C’est le cas habituel.
R. Jahidi 21
Sondage aléatoire simple (SAS)

SAS
Échantillon
Population

R. Jahidi 22
 Avantage de cette méthode : On
peut espérer un échantillon
«représentatif » puisque la méthode
donne à chaque individu de la
population une chance égale.
 Difficultés : la méthode n’est
applicable que lorsqu’il existe une
liste exhaustive de toute la
population

R. Jahidi 23
 Procédure générale
1. On numérote tous les individus de la
liste correspondant aux individus de la
population avec des nombres
comportant un même nombre de
chiffres.
2. En utilisant une table de nombres
aléatoires, une calculatrice ou un
programme informatique, on obtient
des nombres aléatoires comportant le
nombre de chiffres désiré.
3. On sélectionne les nombres qui
coïncident avec la liste. On rejette les
nombres qui ne coïncident pas avec la
liste ou qui se répètent, on s’arrête
après avoir sélectionné n individus

R. Jahidi 24
Les tables de nombre au
hasard
 Elles se présentent sous la forme de liste de nombres
dont le tirage a été effectué aléatoirement.
 Pour les utiliser à la main, il est nécessaire de
numéroter tous les individus de la base de sondage puis
on se fixe une règle pour se déplacer dans la table et
tirer les chiffres.

03/11/20
R.Jahidi 25
20
Extrait de la table de nombres au hasard

02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08

85 76 34 51 40 44 62 93 65 99 72 64 09 34 01 13 09 74

00 88 96 79 38 24 77 00 70 91 47 43 43 82 71 67 49 90

64 29 81 85 50 47 36 50 91 19 09 15 98 75 60 58 33 15

94 03 80 04 21 49 54 91 77 85 00 45 68 23 12 94 23 44

03/11/20
R.Jahidi 26
20
Tirage systématique

 Supposons que l’on veut un échantillon de


taille n. Pour simplifier, on suppose que
N/n=a, avec a un entier.
 Définition formelle d’un tirage systématique:
1. On prend une unité, à chances égales,
parmi les a premières unités dans la base de
sondage. Supposons que l’on a pris l’unité j.
2. On prend ensuite de manière successives
les unités, j+a, j+2a, …, j+(n-1)a
R. Jahidi 27
Propriétés

 On note qu’il n’y a seulement que a


différents échantillons possibles.
 Si on a choisit l’unité j,
l’échantillon est alors

𝑠 = 𝑗, 𝑗 + 𝑎, … , 𝑗 + 𝑛 − 1 𝑎

03/11/20
R.Jahidi 28
20
Illustration du plan systématique
N=12, n=3, a=4

k k
1 On doit prendre 1
2 2
3
une unité parmi 3
4 les quatre 4
5 premières. 5
6 6
7 7
8
Supposons que 8
9 l’on a pris {2} 9
10 10
11 11
12 L’échantillon résultant 12

R.Jahidi
est {2, 6, 10} 03/11/20
20
29
 Avantages : facile à sélectionner
parce qu’un seul individu est choisi
au hasard.
 On peut obtenir une bonne
précision parce que la méthode
permet de répartir l’échantillon
dans l’ensemble de la liste.
 Désavantages : Les données
peuvent être biaisées à cause de la
périodicité.

R. Jahidi 30
Sondage en grappes

Cette méthode d’échantillonnage consiste


à tirer au sort un certain nombre de
groupes d’unités statistiques appelées
grappes puis à retenir toutes les unités
appartenant aux groupes retenues.
 Les plans de grappes sont surtout utiles
lorsque l’on ne peut pas lister toutes les
unités de la population.
 Elles présentent l’avantage d’avoir un
échantillon moins dispersé
géographiquement.
R. Jahidi 31
Sondage en grappes

R. Jahidi SAS Échantillon


32

Population
Plan à un ou plusieurs degrés
 Supposons que l’on dispose de notre
échantillon de grappes.
 Pour les grappes sélectionnées, on
peut
 Soit observer toutes les unités. C’est
un plan de grappes à un degré.
 Soit lister les unités dans chaque
grappe choisie et dans cette liste tirer
un échantillon d’unités. C’est un
exemple d’échantillonnage à deux
degrés.
R. Jahidi 33
Combien de ménages de Settat
possèdent un écran LCD?

 Option 1: On pourrait prendre un


échantillon de résidents selon le tirage
aléatoire simple, disons n = 500.
 Option 2: On pourrait diviser Settat en
pâtés de maisons d’environ 20 ménages et
prendre un échantillon de 25 pâtés de
maison.
 Option 3: On pourrait diviser Settat en
pâtés de maisons d’environ 20 ménages et
prendre un échantillon de 10 ménage par
SAS dans chacun des 50 pâtés de maison
retenus.
03/11/20
R.Jahidi 34
20
Sondage en grappe et à plusieurs degrès

 Avantages :
La méthode ne nécessite pas une liste globale
de la population puisque seules les individus inclus
dans les grappes comptent. Elle permet de
limiter l’échantillon à des groupes compacts ce qui
permet de réduire les coûts de déplacement, de
suivi et de supervision.
 Inconvénients :
Le sondage est moins précis que le sondage
aléatoire simple
Une grappe n’est pas toujours représentative de
la population.
L’analyse doit prendre en compte l’effet grappe,
ce qui est plus complexe
Sondages stratifiés.
Dans un sondage stratifié: On
utilise de telles données pour
accroître l’efficacité (petite
variance) de la démarche.
On a besoin d’une partition de la
population en sous-groupes
relativement homogènes (les
strates).
On procède à la sélection
d’échantillons indépendants dans
chaque strate.
R. Jahidi 36
Sondages stratifiés.

SAS Échantillon
Population
R. Jahidi 37
Échantillonnage dans chaque
strate de façon indépendante

 Il faut préciser comment chaque échantillon


sera pris dans chaque strate.
 On pourrait opter pour SAS dans chaque
strate, ou sondage systématique dans chaque
strate.
 On pourrait combiner des plans
d’échantillonnages.

R. Jahidi 38
 Avantages : Il est peu probable de choisir
un échantillon absurde puisqu’on
s’assure de la présence proportionnelle
de tous les divers sous-groupes composant
la population.

 Désavantages : La méthode suppose


l’existence d’une liste de la population. Il
faut aussi connaître comment cette
population se répartit selon certaines
strates.

R. Jahidi 39
TAILLE DE L’ÉCHANTILLON
(S.A.S.)
 Est déterminé en fonction du théorème de la
limite centrale et du niveau de confiance:
 Ladistribution des moyennes des échantillons tend
vers une distribution normale
 La
moyenne des moyennes des échantillons = moyenne
dans la population
 Ceci permet de dire que:
 Lamoyenne de la population est égale à la moyenne
de l'échantillon +/- une marge d'erreur (E)
03/11/20
R. Jahidi 40
20
La taille n de l'échantillon nécessaire
pour atteindre une précision e désirée au
niveau de confiance 95% sera de

𝑛 ≥ 1,96 ∗ 𝑝(1 − 𝑝)/𝑒²


𝑝(1−𝑝)
𝑒 ≥ 1,96 ∗
𝑛

R. Jahidi 41
10% 15% 20% 25% 30% 35% 40% 50%
Ou Ou Ou Ou Ou Ou Ou
90% 85% 80% 75% 70% 65% 60%
100 8 8,6 9,2 9,6 9,8 10
150 5,7 6,4 6,9 7,3 7,6 7,8 8
200 4,3 5,1 5,7 6,1 6,5 6,8 6,9 7,1
250 3,8 4,5 5 5,4 5,8 6 6,2 6,3
300 3,5 4,2 4,6 5 5,3 5,6 5,7 5,8
350 3,2 3,8 4,2 4,6 4,9 5,1 5,2 5,3
400 3 3,6 4 4,3 4,6 4,8 4,9 5
500 2,7 3,2 3,6 3,9 4,1 4,3 4,4 5
600 2,4 3 3,3 3,5 3,8 3,9 4 4,1
700 2,3 2,7 3 3,3 3,5 3,5 3,7 3,8
800 2,1 2,5 2,8 3 3,2 3,3 3,4 3,5
900 2 2,4 2,7 2,9 3 3,1 3,2 3,3
1000 1,8 2,3 2,5 2,7 2,9 3 3 3,1
1500 1,5 1,9 2,1 2,3 2,4 2,5 2,6 2,6
2000 1,3 1,6 1,8 2 2,1 2,2 2,2 2,3
3000 1,1 1,3 1,4 1,5 1,6 1,7 1,8 1,8
5000 0,8 1 1,1 1,2 1,3 1,4 1,4 1,4
R. Jahidi 42
10000 0,6 0,7 0,8 0,9 0,9 1 1 1
Échantillon exhaustif et non
exhaustif.
 Un échantillon est non exhaustif si la
taille de l’échantillon est petite par
rapport à la population N > 7n.
 Dans ce cas la taille de la population
n’influence pas la taille de
l’échantillon qui ne dépend que de la
précision recherché et de l’erreur
toléré.

R. Jahidi 43
 Un échantillon est exhaustif si la
taille de la population est petite
par rapport à celle de l’échantillon
N<7n.
 Dans ce cas la taille de l’échantillon
n peut épuiser celle de la
population N.
La taille de l’échantillon définitive
est
𝑛’ = 𝑁𝑛 /(𝑁 + 𝑛)

R. Jahidi 44
 N=1000
 Pour une précision de 95%, on a besoin
d’un échantillon de n=400.
 Or 7*400=2800 >1000; L’échantillon est
donc exhaustif.
 Pour une précision de 95%, on aura
finalement besoin d’un échantillon de
n’=400*1000/1400= 285,7≈286

R. Jahidi 45
Statistique
descriptive

R. Jahidi 46
 La Statistique Descriptive est l'ensemble
des méthodes et techniques permettant de
présenter, de décrire, de résumer, des
données nombreuses et variées.
 Il faut préciser d'abord quel est l'ensemble
étudié, appelé population statistique, dont
les éléments sont des individus ou unités
statistiques.
Chaque individu est décrit par une ou
plusieurs variables, ou caractères
statistiques.
R. Jahidi 47
Les variables peuvent
être de deux natures

Qualitatives Quantitatives

Nominales Ordinales Discrètes Continues

R. Jahidi 48
EXEMPLE : Chiffres d'affaires de
supermarchés
 On dispose pour tous les
Déc. 17 Déc. 18 Evolution
supermarchés d'une
SM1 35 850 60 000 SUP chaîne C de leurs chiffres
d'affaires aux mois de
SM2 25 650 11 125 INF décembre 2017 et
SM3 60 000 60 000 STABLE décembre 2018 et de
l’évolution de ce dernier.
SM4 55 000 45 500 INF
 Quelle est la population
SM5 50 000 55 000 SUP étudiée ?
SM6 75 000 76 000 SUP  De quelle(s) variable(s)
dispose-t-on ? Nature des
. . . . variables?
. . . .  En est-il de même si on
note -1, 0, 1 selon
l'évolution du chiffre ?

R. Jahidi 49
Exemple : cas alphajus
Les données n = 40 personnes
boisson achat goût pour le consommation Boisson préférée
préférée préalable sucre de boisson
_________ _________ ____________ ____________ 1 = alphajus
2 2 1 4 2 =bettajus
1 1 2 8
2 2 3 2
1 1 2 10 Achat préalable
1 2 1 7 1 = oui
1 1 3 6
2 2 1 4 2 = non
.
.
. Goût Sucre
1 2 2 5
1 1 3 3 1 = oui
2 2 1 11 2= indifférent
1 1 3 9
1 2 1 6 3 = non
2 2 3 2
1 1 2 5
R. Jahidi 50
Les variables seront ensuite
analysées différemment selon
leur nature (quantitative,
qualitative, etc.), au moyen de
tableaux, graphiques et calcul
de paramètres-clé.

R. Jahidi 51
Analyse univariée

A partir d'un tableau


individus x variables, on
fera dans un premier temps
une description
unidimensionnelle de
chacune des variables, prise
séparément.
R. Jahidi 52
Le but est d'obtenir des résumés
clairs et concis, mais en
conservant l'essentiel de
l'information contenue dans les
données initiales, et en utilisant
des techniques objectives ne
donnant pas une image déformée
de la réalité.

R. Jahidi 53
I. Les tableaux
Ils ont pour but de résumer les
données brutes sous une forme
synthétique.

R. Jahidi 54
On a noté la situation familiale des 150
employés d'une entreprise.
Noms Situation de famille
M.Azim Marié
MFarid Veuf
Mme Latifi Mariée
Melle Fatiha Célibataire
M. Ahmed Divorcé
M. Salih Marié
M. Berrada Divorcé
Mme Réda Divorcée
Melle Fatiha Célibataire
M. Halim Marié
M. Chadi Veuf
Mme Faouzi Mariée
... ...
R. Jahidi 55
Cela peut se résumer par :
Modalités Effectifs
Marié 80
Célibataire 30
Veuf 20
Divorcé 20

R. Jahidi 56
J’aime mes boissons au jus d’orange sucré

goût pour le sucré

Fréquence
Valide d'accord 14
je ne suis pas sûr 13
pas d'accord 13
Total 40

R. Jahidi 57
On notera x1, x2, ..., xk les
différentes modalités de la
variable qualitative et n1, n2, ... ,
nk les effectifs associés.
La somme des effectifs
vaut n.

R. Jahidi 58
De même, pour une
variable discrète, on
notera x1 , x2 , ... , xk les
valeurs rangées par ordre
croissant, et n1 , n2 , ... ,
nk les effectifs
correspondants.
R. Jahidi 59
Une variable continue ne prend
pas des valeurs isolées, mais
des valeurs appartenant à des
intervalles. C'est pourquoi, au
lieu de définir des effectifs par
valeurs, on définira des
effectifs par intervalles,
appelés classes.
R. Jahidi 60
On découpera ainsi l'intervalle des
valeurs en classes contigües, de la
forme :
[ e1 ; e2 [ [ e2 ; e3 [ [ e3 ; e4 [
....
[ ek ; ek+1 [
et on notera n1, n2, ... , nk les
effectifs associés.
ni est le nombre d'individus
appartenant à la classe [ ei ; ei+1 [.
R. Jahidi 61
 Le choix des classes est parfois
délicat. A priori tout choix tel
qu'on ait des classes contigües
recouvrant l'ensemble des valeurs
est correct : chaque individu
appartient à une classe et une
seule.

R. Jahidi 62
consommation de boisson Données en classes
Fréquence
Valide 1
classe Fréquence
1
2 4
3 5 <à2 1
4 5
5 5 2à4 9
6 4
4à6 10
7 5
8 3 6à8 9
9 3
10 2 8 à 10 6
11 1
12
10 à 12 3
1
13 1 12 à 14 2
Total 40

R. Jahidi 63
II. Les graphiques

Pour visualiser une


distribution statistique, il est
généralement plus parlant
d'utiliser un graphique, à la
place ou en complément du
tableau.

R. Jahidi 64
Variable Qualitative

Dans le cas d'une variable qualitative, les modalités


ne peuvent pas être représentées sur un axe, selon
une échelle donnée, car elles ne sont pas
numériques.
On utilise surtout dans ce cas des diagrammes
circulaires (ou "camemberts").
Une représentation équivalente consiste à
construire un diagrammes en barres : chaque
rectangle a une base constante et une hauteur
proportionnelle à l'effectif ni ou à la fréquence fi .

R. Jahidi 65
goût pour le sucré
d'accord
je ne suis pas sûr
pas d'accord
pas d'accord n=13
d'accord n=14
Les secteurs montrent effectifs

je ne suis pas sûr n=13

12
Effectif

0
d'accord j e ne su is pa s sû r pa s d 'a ccord

goût pour le sucré


R. Jahidi 66
Variable Quantitative

Dans le cas d'une variable


quantitative, les valeurs
observées, numériques,
seront toujours placées
selon un axe, en suivant
une échelle précise.
R. Jahidi 67
Cas d’une variable discrète

Après un tri à plat conduisant à la


distribution observée, on
représente celle-ci par un
diagramme en bâtons les xi sont
placés suivant une échelle sur
l'axe des abscisses, et les
effectifs ni sont matérialisés par
un "bâton" de longueur ni (axe
des ordonnées).
R. Jahidi 68
Représentation selon les fréquences

R. Jahidi 69
Cas d'une variable continue :
Histogramme

un histogramme est
une représentation
graphique permettant de représenter la
répartition d'une variable continue en la
représentant avec des colonnes
verticales.
C’est un moyen rapide pour étudier la
répartition d’une variable.

R. Jahidi 70
Histogramme des effectifs
10

8
Les classes sont de
même amplitude, on
Fréquence

4
reporte les effectifs
sur l’axe des
ordonnés
2

Mean = 5,88
Std. Dev. = 2,972
0 N = 40
0 2 4 6 8 10 12 14
consommation de boisson

Si les classes ne sont pas de même amplitude,


on choisi une amplitude de base noté a0 et on
corriges les fréquences par la formule :
effectif corrige= effectif observe x(a0/ai)
R. Jahidi 71
Loyers parisiens
L'histogramme ci-dessous résulte de l'étude du montant du
loyer mensuel hors-charges de 1 000 grands appartements
parisiens de même superficie.
1) En déduire les effectifs :
Montant des loyers Effectifs
[ 500 - 1 000 [ 30
[ 1 000 - 1 500 [

[ 1 500 - 2 000 [

[ 2 000 - 2 500 [

[ 2 500 - 3 000 [

[ 3 000 - 3 500 [

[ 3 500 - 4 000 [

[ 4 000 - 5 000 [

[ 5 000 - 6 000 [

[ 6 000 - 8 000 [
Total : 1 000

R. Jahidi 72
Paramètres statistiques
En plus des tableaux et
graphiques, on résume
l'observation d'une variable
quantitative par un petit nombre
de paramètres.

R. Jahidi 73
I - Paramètres de tendance centrale

La moyenne arithmétique d'une série


brute numérique x1 , x2 , ... , xn est
le quotient de la somme des
observations par leur nombre :
𝑛
1
𝑥 = ෍ 𝑥𝑖
𝑛
𝑖=1

R. Jahidi 74
La moyenne arithmétique; lorsque les
données sont sous forme d’un tableau (xi,ni)
i=1,…,k, ; s’écrit:
𝑘
1
𝑥 = ෍ 𝑛𝑖 𝑥𝑖
𝑛
𝑖=1

Pour une variable continue, elle s’écrit :


𝑘
1
𝑥 = ෍ 𝑛𝑖 𝑐𝑖
𝑛
𝑖=1
Avec 𝑐𝑖 𝑐𝑒𝑛𝑡𝑟𝑒 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒 𝑒𝑡 𝑛𝑖 𝑒𝑓𝑓𝑒𝑐𝑐𝑡𝑖𝑓 𝑎𝑠𝑠𝑜𝑐𝑖é

03/11/20
R. Jahidi 75
20
Calculons la moyenne de la consommation de boisson
consommation de boisson Données en classes
Fréquence
Valide 1
classe Fréquence
1
2 4
3 5 <à2 1
4 5
5 5 2à4 9
6 4
4à6 10
7 5
8 3 6à8 9
9 3
10 2 8 à 10 6
11 1
12
10 à 12 3
1
13 1 >= à 12 2
Total 40

R. Jahidi 76
Consommation comme variable
discrète :
Moyenne =
(1x1)+(2x4)+…+(12x1)+(13x1)=5,775.
Consommation comme variable
continue :
Moyenne =
(1x1)+(3x9)+…+(11x3)+(13x2)= 6,375.

R. Jahidi 77
La moyenne s'exprime toujours dans
la même unité que les observations
xi . Elle peut être décimale, même
si les xi sont entiers par nature.

R. Jahidi 78
Défauts de la moyenne.

1) Dans une entreprise de 100 salariés, le salaire


moyen est égal à 8 400 Dh.
Supposons qu'une erreur se soit glissée lors de la
transcription des salaires.
Monsieur Dahbi est crédité d'un salaire de 108
000 DH au lieu de 8 000 Dh.
De combien augmenterait la moyenne ?

R. Jahidi 79
2) Comparons le salaire moyen dans 2 entreprises :
Entreprise A :
1/ 3 de femmes , salaire moyen 8000Dh
2/3 hommes, salaire moyen 11000
Dans l'entreprise A le salaire moyen est de : 10000
Entreprise B :
2/ 3 de femmes , salaire moyen 9000Dh
1/3 hommes, salaire moyen 12000
Dans l'entreprise B le salaire moyen est de : 10000

R. Jahidi 80
CONCLUSION

 La moyenne est sensible aux valeurs


extrêmes
 La moyenne traduit mal la structure
de la population

R. Jahidi 81
La médiane : M

Si la série brute des valeurs observées est


triée par ordre croissant :
𝑥(1) ≤ 𝑥(2) ≤ ⋯ ≤ 𝑥(𝑛)
la médiane M est la valeur du milieu, telle
qu'il y ait autant d'observations "au-
dessous" que "au-dessus".

R. Jahidi 82
c'est-à-dire que
 Si n est impair, soit n = 2 p + 1 ,
𝑀 = 𝑥(𝑝+1)

 Si n est pair, soit n = 2 p, toute valeur de


l'intervalle médian [ x(p) ; x(p+1) ] répond à la
question.
Afin de définir M de façon unique, on choisit
souvent
𝑥(𝑝) + 𝑥(𝑝+1)
𝑀=
2

soit le centre de l'intervalle médian.

R. Jahidi 83
Calculons la médiane de la
consommation de boisson
consommation de boisson

Fréquence
Valide 1 1 𝑛 = 40 = 2𝑥20
𝑥(21) +𝑥(20) 5+6
2 4 Med= = = 5,5
3 5 2 2
4 5
5 5
6 4
7 5
8 3
9 3
10 2
11 1
12 1
13 1
Total 40
R. Jahidi 84
Le mode

 Une distribution est unimodale si


elle présente un maximum marqué,
et pas d'autres maxima relatifs (sur
le diagramme en bâtons ou
l'histogramme)
 L'abscisse du maximum,
correspondant à la valeur la plus
fréquente de la série, est appelée
le mode.
R. Jahidi 85
 Si la distribution présente 2 ou plus maxima
relatifs, on dit qu'elle est bimodale ou
plurimodale. Cela signifie que la population
est hétérogène du point de vue de la
variable observée.

 La population est composée de plusieurs


sous-populations ayant des caractéristiques
de tendance centrale différentes.

R. Jahidi 86
 Exemple

Mode absolu = 8
Mode relatif =13

Mode absolu = 1,75


Mode relatif = 1,65

R. Jahidi 87
Tendance centrale

 la moyenne (arithmétique), éventuellement


pondérée.
 la médiane : M est insensible aux valeurs
aberrantes, mais se prête moins bien aux
calculs que la moyenne.
 le mode dans le cas particulier d'une
distribution unimodale.

R. Jahidi 88
Forme de la distribution
La comparaison de ces trois paramètres
donne des indications sur la symétrie de la
distribution.

Distribution symétrique
moyenne = médiane = mode

Biais positif: Biais négatif:


mode < médiane < moyenne Moyenne < médiane < mode
R. Jahidi 89
Paramètres de position

Les paramètres de tendance


centrale ne suffisent généralement
pas pour caractériser une
distribution. Ainsi, pour les 2 séries
représentées ci-après, calculons les
paramètres de tendances centrales

R. Jahidi 90
Mode=9 Mode=9
Médiane=𝑥(8) = 10 Médiane=𝑥(8) = 10
Moyenne= Moyenne=
8×1 + 9×5 +⋯+(16×1) 2×3 + 9×4 +⋯+(18×3)
= 11 = 11
15 15

R. Jahidi 91
Les fractiles
 On appelle fractiles d'ordre k les valeurs F1 , F2 ,
... , Fk-1 qui divisent la série en k parties
d'effectifs égaux.
 Par exemple les quartiles Q1, Q2 , Q3 divisent la
série statistique ordonnée en 4 parties d'effectifs
égaux.
 Les déciles D1 , ... , D9 divisent la série ordonnée
en dix parties d'effectifs égaux.
 Les centiles divisent la série ordonnée de façon
croissante en 100 parties de mêmes effectifs.

R. Jahidi 92
 Ces fractiles se calculent
exactement comme la médiane.
 Le quartile Q2 est d'ailleurs égal à la
médiane.
 Les déciles, et surtout les centiles,
n'ont de sens que si n est
suffisamment grand (plusieurs
centaines au moins pour des
centiles).

R. Jahidi 93
R. Jahidi 94
Exemple de calcul du 1er quartile
 Appelons n le nombre des valeurs d'une
série, et calculons 0,25*n = n/4.
 Lorsque n/4=p est entier, la valeur
représentant le premier quartile est la p-
ième valeur par ordre croissant.
 Lorsque n/4 est un décimal non entier, on
l'arrondit à l'entier supérieur p et alors la
valeur représentant le premier quartile est
la p-ième valeur par ordre croissant.
 Exemple 1: Dans la série 10; 25; 30; 40;
41; 42; 50; 55; 70; 101; 110; 111, quelle
est la valeur de Q1?

R. Jahidi 95
Exemple de calcul du 3ème
quartile
 Lorsque 3n/4 =p est entier, la valeur
représentant le troisième quartile est
la p-ième valeur par ordre croissant.
 Lorsque 3n/4 est un décimal non entier,
on l'arrondit à l'entier supérieur p et
alors la valeur représentant le troisième
quartile est la p-ième valeur par ordre
croissant.
 Exemple : Dans la série: 10; 25; 30; 40;
41; 42; 50; 55; 70; 101; 110; 111;
113, quelle est la valeur de Q3?

R. Jahidi 96
Calculons les quartiles associés à ces
deux séries

 Q1=9  Q1=9
 Q3=14  Q3=17

R. Jahidi 97
Paramètres de dispersion

 Deux distributions peuvent, tout en


ayant des caractéristiques de
tendance centrale voisines, être
très différentes.
 Il est donc nécessaire de mesurer la
dispersion des valeurs autour des
tendances centrales.

R. Jahidi 98
L'Étendue : R
 L'étendue (ou amplitude) d'une série
statistique est la différence entre la
valeur maximum et la valeur minimum
de la série.
R = Maximum (X) - Minimum (X)
 Facile à déterminer, l'étendue ne
dépend que des 2 observations
extrêmes qui sont parfois le fait de
situations exceptionnelles.
 Il est donc difficile de considérer
l'étendue comme une mesure stable de
la dispersion.
R. Jahidi 99
Ecart interquartile

 Afin de diminuer l'influence des


valeurs extrêmes on peut tenir
compte de valeurs plus stables de la
distribution.
 intervalle interquartile [ Q1 , Q3 ] ou
écart interquartile = Q3 - Q1

R. Jahidi 100
Etendu = 8 Étendu =16
Ecart interquartile = 5 Ecart interquartile = 8

R. Jahidi 101
 Pour mesurer la dispersion de part et
d'autre de la moyenne, il faut mesurer
l'ordre de grandeur des xi
1 𝑛
 A quoi est égal σ (𝑥 − 𝑥)
𝑛 𝑖=1 𝑖
𝑛 𝑛
1 1
෍(𝑥𝑖 − 𝑥) = ෍ 𝑥𝑖 − 𝑥ҧ
𝑛 𝑛
𝑖=1 𝑖=1
=0

R. Jahidi 102
 On calcule parfois l'écart absolu moyen
𝑛
1
෍ 𝑥𝑖 − 𝑥
𝑛
𝑖=1

mais il est peu utilisé car se prête mal aux calculs.


 La variance est très utilisée, c'est
𝑛 𝑛
1 1 2
෍ 𝑥𝑖 − 𝑥 2
= ෍ 𝑥𝑖2 − 𝑥
𝑛 𝑛
𝑖=1 𝑖=1

moyenne des carrés des écarts à la moyenne.

R. Jahidi 103
Ce nombre est-il toujours > 0 ?

C'est pourquoi on le note s², s étant l'écart-


type
𝑛
1 2
𝑠= ෍ 𝑥𝑖 − 𝑥
𝑛
𝑖=1

L'écart-type s'exprime, contrairement à la


variance, dans la même unité que les xi
R. Jahidi 104
 La variance lorsque les données sont sous
forme d’un tableau (xi,ni) i=1,…,k, s’ecrit:
𝑘 𝑘
1 1 2
෍ 𝑛𝑖 𝑥𝑖 − 𝑥 2
= ෍ 𝑛𝑖 𝑥𝑖2 − 𝑥
𝑛 𝑛
𝑖=1 𝑖=1

Pour une variable continue, elle s’écrit :


𝑘 𝑘
1 1 2
෍ 𝑛𝑖 𝑐𝑖 − 𝑥 2 = ෍ 𝑛𝑖 𝑐𝑖2 − 𝑥
𝑛 𝑛
𝑖=1 𝑖=1

Avec 𝑐𝑖 𝑐𝑒𝑛𝑡𝑟𝑒 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒 𝑒𝑡 𝑛𝑖 𝑒𝑓𝑓𝑒𝑐𝑐𝑡𝑖𝑓 𝑎𝑠𝑠𝑜𝑐𝑖é

03/11/20
R. Jahidi 105
20
Interprétation de L’Écart-type

En général, on retrouve :
◼ plus de 95% des données dans l ’intervalle
[  - 2 ,  + 2 ],
◼ toutes les données (ou presque 100%)
dans l ’intervalle [  - 3 ,  + 3 ].

R. Jahidi 106
 Coefficient de variation :
Cv = écart-type/moyenne
Cv < 0,25 concentration
Cv > 0,25 dispersion

R. Jahidi 107
Calculons les écarts types des
deux séries

𝑘 𝑘
1 2
1 2
෍ 𝑛𝑖 𝑥𝑖 − 𝑥 = 5,26 ෍ 𝑛𝑖 𝑥𝑖 − 𝑥 = 33,6
𝑛 𝑛
𝑖=1 𝑖=1
s1=2,36 s2= 5,74
Cv=0,21
R. Jahidi
Cv=0,52 108
N Valide 40

Manquante 0
Moyenne 5,88 Cas
alphajus :
Médiane 5,50
Mode 3(a)
Ecart-type
Variance
2,972
8,830
Statistique
Intervalle
Centiles 25 3,25
12
descriptive
50 5,50

75 8,00

a Il existe de multiples modes


R. Jahidi 109
Traitement bivarié
 Croisement de variable
quantitative:
 On a noté la taille (en cm) et
le poids (en kg)
de 60 enfants d'une école.
La représentation
simultanée des deux
variables consiste en
un nuage de points :
 on place dans un repère
cartésien les n points Mi de
coordonnées ( xi , yi ).

Ceci permet de visualiser le lien entre X et Y : ici on constate que


le poids a tendance à augmenter avec la taille, mais pas de
façon systématique (des enfants de même taille ont des poids
différents ; des enfants de même poids ont des tailles
R. Jahidi 110
différentes).
On appelle centre de gravité du nuage le point G de coordonnées :

R. Jahidi 111
Pour mesurer la variation conjointe de X et Y,
on utilise les produits : (𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)

Dans le quadrant I , ce
produit est : +
Dans le quadrant II, ce
produit est : -
Dans le quadrant III, ce
produit est : +
Dans le quadrant IV , ce
produit est : -

R. Jahidi 112
On appelle covariance de X et Y le nombre
𝑛
1
𝑐𝑜𝑣 𝑋, 𝑌 = ෍(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
𝑛
𝑖=1
Si tous les points étaient
en I et III
cov ( X , Y ) serait positive
Si tous les points étaient
en II et IV
cov ( X , Y ) serait négative .
La covariance est positive
si X et Y ont tendance à varier
dans le même sens, et
négative si elles ont tendance
à varier
R. Jahidi
en sens contraire. 113
 La covariance ne dépend pas de l'origine
choisie pour X et Y, mais dépend des
unités de mesure. C'est pourquoi, pour
mesurer l'aspect plus ou moins "allongé"
du nuage dans une direction, par un
coefficient sans unité, on mesure la
covariance entre :
X/Sx et Y/Sy
 C'est le coefficient de corrélation linéaire :

R=  ( x i − x )( y i − y)
 ( x i − x )  ( y i − y)
2 2

R. Jahidi 114
 Le coefficient de corrélation r de Pearson sert à mesurer
l’intensité de la relation linéaire entre deux variables
quantitatives.
 Le coefficient de corrélation r prendra des valeurs entre
-1 et 1.
 S ’il existe une relation linéaire parfaite entre X et Y
alors r = 1 (r =1 si X et Y varient dans le même sens et
r = -1 si X varie dans le sens opposé à Y).
 Si r = 0, ceci indique qu ’il n ’y a pas de lien linéaire
entre X et Y.
 Plus la valeur de r s ’éloigne de 0 pour s ’approcher de
1 plus l ’intensité du lien linéaire entre X et Y grandit.

R. Jahidi 115
Tendances des exportation et
importation de bien et services.

R. Jahidi 116
Cor(impor,expor)=0,855
Valeurs import/PIB Courbe de régression
45

40

35
Valeurs export/PIB

30
Valeurs export/PIB
25 Prévisions Valeurs export/PIB

20

15

10
10 15 20 25 30 35 40 45 50 55
Valeurs import/PIB

R. Jahidi 117
Cor(impor,expor)=0,936

Valeurs import/PIB Courbe de régression


40

35
Valeurs export/PIB

30

Valeurs export/PIB
25 Prévisions Valeurs export/PIB

20

15
10 15 20 25 30 35 40 45 50 55
Valeurs import/PIB

R. Jahidi 118