Académique Documents
Professionnel Documents
Culture Documents
SETTAT
Département de Mathématiques et Informatique
Année universitaire :2022-2023
Statistique
Descriptive Inférentielle
Introduction
Les problématiques de la statistique descriptive
Objectifs :
– Résumer, synthétiser l’information contenue dans
une série statistique, mettre en évidence ses
propriétés.
Outils utilisés :
– Tableaux (table des fréquences,..)
– Graphiques (diagrammes, histogrammes,..)
– indicateurs (moyenne, corrélation,..).
Introduction et définitions
Etapes d’une étude statistique
Pourcentage : pi f i 100%
Exemple: 20, 36, 52, 66, 25, 36, 54, 68, 74, 60, 40, 25, 60, 32, 45, 45, 32, 49, 64, 48.
Exemple: répartition de 20 étudiants selon les notes obtenues dans une épreuve de statistique
classes [Ci,Ci+1[ Effectif ni amplitude de la classe (longueur Densité d’effectif (effectif
de classe: Li=Ci+1 - Ci ) corrigé): di=ni/Li
[0,5[ 2 5 0.4
[5,8[ 3 3 1
[8,10[ 6 2 3
[10,14[ 5 4 1,25
[14,16[ 3 2 1,5
[16,20 [ 1 4 0,25
effectif
di
l ' amplitude
La longueur de chaque
« bâton » est
proportionnelle à
l’effectif (ou à la
fréquence de la
modalité
correspondante)
Les représentations graphiques
Variable qualitative: diagramme en secteurs (circulaire ou en Camembert)
L’angle ai au centre du
secteur représentant
une modalité xi est
proportionnel à l’effectif
(ou à la fréquence de
cette modalité):
ai = 360° x fi
effectif
di
l ' amplitude
Remarque: dans le cas d’amplitude constante, la hauteur représente l’effectif
Les paramètres numériques d’une
variable statistique quantitative
Objectif:
concentrer en un petit nombre de valeurs
l’information contenue dans une série
statistique.
Les paramètres de position
Propriété:
La moyenne est le réel le plus proche à toutes les observations (au sens
de la distance Euclidienne).
2 2
i
(
i
x x ) i
(
i
x x ) , pour tout autre nombre réel x
Les paramètres de position
La moyenne arithmétique
• La moyenne arithmétique d’une distribution
statistique (xi,ni) est la valeur :
1
x n .x f .x
n i
i i
i
i i
x y x y
La moyenne d’une transformation linéaire est une transformation
linéaire de la moyenne.
.x .x .
où et sont deux constantes réelles
Exemples
Exemple1:
sachant que la prestation moyenne versée par une assurance
à ces assurés en immobilier est 10 000dh et celle versée aux
assurés pour des dommages corporels est 3 000dh.
Quelles le montant moyen des prestations versées par cette
assurance?
Exemple2:
Une banque décide d’appliquer une réduction de 1% sur les
frais payés par chaque client.
Sachant que les clients paient en moyen 50dh par mois; quel
est le montant moyen des frais payés par un client après
application de la réduction?
Les paramètres de position
La moyenne arithmétique: défaut
On considère deux entreprises de 5 employés chacune.
•Entreprise 1: x1 4000
Les salaires des employés sont les suivants (en dh):
3500 4000 3700 4600 4200
•Entreprise 2: x 2 5000 dh
Les salaires des employés sont les suivants (en dh):
1000 2000 1000 1000 20 000
5 0 % 5 0 %
Réponse:
Les paramètres de position
La médiane: exemples (2)
Réponse:
Les paramètres de position
La médiane: exemples (3)
Répartition du nombre d’heures de travail
Centres de fréquence
Classes Effectifs ni fréquence
classes cumulée
les quartiles:
x1/4 (1er quartile) et x3/4 (3ème quartile) : les valeurs pour lesquelles F
vaut 1/4 ou 3/4.
x 1
4
x3
4
2 5 % 2 5 %
Calculs:
Ils se calculent de la même manière que la médiane : même formule en
remplaçant 1/2 par 1/4 (ou 3/4)
Les déciles, les centiles:
On définirait de même les déciles, centiles...
Les paramètres de dispersion
Introduction
• Exemple : la température moyenne dans les villes
d’Essaouira et une ville du Sahara n’est pas à elle seule
suffisante pour donner une idée du climat des deux
villes (les 2 températures moyennes seraient proches).
Mais c’est plutôt la variabilité de la température dans
chacune des 2 villes qui donnerait plus de précision
pour la nature du climat.
• Pour exprimer les caractéristiques d'un échantillon, il
est nécessaire de compléter les paramètres de position
par des paramètres de dispersion, qui mesureront la
variabilité des données.
– L’étendu
– La variance et l’écart type
– Le coefficient de variation:
Les paramètres de dispersion
L’étendu
L'étendue ou intervalle de variation:
e x max x min
Propriétés :
• L'étendue « e » est calculée en fonction des valeurs
extrêmes : elle est très sensible aux valeurs
aberrantes
• L’étendue a la même unité que les données
• Si on ajoute une même constante à toute les valeurs,
l’étendue reste constante
• Si on multiplie toutes les valeurs par une même
constante, l’étendue est multipliée par cette
constante
Les paramètres de dispersion
L’écart inter-quartiles
L’écart inter-quartiles:
e x3 / 4 x1/ 4
Propriétés :
L’intervalle interquartile contient 50% des observations
les plus au centre de la distribution.
x 1 x 3
4 4
5 0 %
Les paramètres de dispersion
La variance et l’écart type :
La variance :
si les valeurs sont munies de leurs effectifs (distribution) :
1
Var ( X ) ( X ) ni .( xi x) 2
2
n i
si les valeurs sont présentées brutes :
1
Var ( X ) ( X ) ( xi x) 2
2
Remarque: n i
la variance n’est pas utile pour une éventuelle interprétation (à cause de son unité)
l’écart type:
Remarque:
( X ) var( X )
l‘écart type s’exprime dans la même unité que les données, ce qui rend son
interprétation plus facile que celle de la variance
Les paramètres de dispersion
La variance et l’écart type :
Propriétés :
1
var( X ) ni .xi 2 ( x) 2 Formule de Kœnigs (cas de distribution
n i
1 2 2
var( X ) .xi ( x) Formule de Kœnigs (cas brute
n i
var( X ) var( X ) ( X ) ( X )
var( X ) 2 var( X ) ( X ) ( X )
Démonstration en exercice
Les paramètres de dispersion
Le coefficient de variation:
Définition:
(X )
cv( X ) lorsque : X 0
X
Propriétés:
•C’est un paramètre de dispersion sans unité
•Il peut être utilisé pour comparer la dispersion de deux
populations
Exemple
Le tableau suivant donne la répartition et le gain annuels en
bourse de 100 adhérents à un club d’investissement.
Compléter ce tableau pour répondre aux questions
suivantes :
Perte et gain en 1000 dh nombre d'adhérents
[-30 ;-20[ 8
[-20 ;-10[ 18
[-10 ;0[ 22
[0 ;10[ 24
[10 ;20[ 16
[20 ;30[ 12
a) Déterminer la moyenne
b) Déterminer la variance et l’écart type.
c) Tracer l’histogramme
Représentation graphique des paramètres
« La boite à moustaches »
c’est un graphique qui résume les caractéristiques numériques d’une distributions statistique
Remarques :
• noms: « diagramme en boite » , « boite à pattes » ou encore « diagramme de
Tukey», « Box Plot ».
• c’est un moyen pour comparer un même caractère sur plusieurs séries statistiques.
Représentation graphique des paramètres
La boite à moustaches: exemple
Représentation graphique des paramètres
La boite à moustaches: exemple (solution)
Statistique à deux variables
Présentation des données
Exemples introductifs
Un directeur d’agence bancaire désire connaitre s’il y a une relation
entre l’insolvabilité d’un client et son âge.
Pour cela il dresse le tableau statistique suivant (suivi d’un
échantillon de 10 clients pendant une durée donnée)
Client Age du client xi Nombre de situation « insolvable » yi
1 30 3
2 48 1
3 50 0
4 50 2
5 55 0
6 42 2
7 60 1
8 42 1
9 18 4
10 66 1
(données sous format brute)
Exemples introductifs
1- Pour déterminer les tarifs d’assurance auto, une compagnie
d’assurance désire savoir si le risque d’accident pour une voiture est
une fonction de la puissance du moteur.
Pour cela elle peut réaliser une étude statistique des deux variables:
X: le nombre d’accidents commises
Y: la puissance du moteur.
tableau de contingence
Exemples introductifs
Une société de transport souhaite connaître le taux de satisfaction de
ses clients (désigné par la variable Y, et noté de 1à 4) suivant le
moyen de transport utilisé (désigné par la variable X). Elle obtient le
tableau suivant :
Y
1 2 3 4
X
Camion 6 8 4 2
Train 3 5 3 4
Avion 3 4 2 1
Représentation des données
tableau de contingence
Exemple : Répartition de 80 véhicules selon le couple de
variable (X,Y)= (puissance, nombre d’accidents).
nij dans la cellule intersection de la ligne i et de la colonne j =
nombre d’individus ayant en même temps la modalité xi pour
la variable X et la modalité yj pour la variable Y.
Tableau de contingence en effectif du couple (X,Y)
n.j
i
n ij : représente l’effectif des individus ayant la modalité yj (indépendamment de la variable X)
Distribution marginale de X en fréquence :
n i.
f i .
n
où : n i
n i. j
n . j
Etude conjointe des deux variables
fréquences conditionnelles
Les fréquences conditionnelles de Y sachant que (X = xi) sont les
fréquences obtenues en ne regardant que la i-ème ligne du
tableau. La population se limite alors aux individus ayant la
modalité xi pour la variable X.
• Fréquences conditionnelle de Y/X=i
• A i fixé on a: n ij f ij
f j / i f j /( X x i ) pour tout j 1,..., l
ni . f i.
La puissance X / nombre d’accidents Y 0 1 2 3
6 0,15 0,38 0,23 0,23 1
7 0,36 0,29 0,29 0,07 1
8 0,38 0,13 0,31 0,19 1
9 0,24 0,18 0,35 0,24 1
Représentation graphique
Etude conjointe de deux variables
Reconnaitre l’indépendance
Indépendance et fréquences
conditionnelles
La puissance X / nombre d’accidents Y 0 1 2 3
6 0,15 0,38 0,23 0,23 1
7 0,36 0,29 0,29 0,07 1
8 0,38 0,13 0,31 0,19 1
9 0,24 0,18 0,35 0,24 1
ni . .n. j
f ij f i . . f . j ou en effectif: nij
n
Etude conjointe des deux variables
reconnaitre l’indépendance
• Dans un tableau de fréquences:
Vérifier la formule:
f ij f i . . f . j
• Dans un tableau de distribution conditionnelle:
Les distributions conditionnelles sont les mêmes par
ligne (colonne)
Etude conjointe de deux variables
: Ti (théoriques)
x y
i
i i
(formule de Kœnigs, cas de
cov( X , Y ) x. y données brutes)
n
2
cov( X , X ) ( X )
cov( X , Y ) cov( Y , X ) (symétrie)
cov( X , Y ) ( X ). (Y )
Propriétés du coefficient de
corrélation
r ( X , Y ) r (Y , X ) r (X , Y ) r ( X , Y )
r( X ,Y ) 1
Si X et Y sont indépendan tes alors : cov( X , Y ) r ( X , Y ) 0
1 si a 0
Si Y aX b alors : r ( X , Y )
1 si a 0
Propriétés du coefficient de corrélation
le coefficient r mesure les liaisons linéaires (le long d’une droite)
entre les variables X et Y, et cette dépendance linéaire est
d’autant plus forte que |r| est proche de 1
Ajustement linéaire
Détermination de la « meilleure » droite
au sens des moindres carrés
La droite de régression linéaire:
« La meilleure droite au sens des moindres carrés »
Si la droite cherchée a pour équation: y ax b
Pour chaque x i :
La valeur approchée par la fonction en utilisant cette droite est:
yˆ i axi b
cov( X ,Y )
C’est-à-dire: y 2
x ( y a x) est l’équation de la
(X )
droite dite de régression linéaire de y en x.
cov( X ,Y )
Dans cette régression: y 2
x ( y a x)
(X )