Académique Documents
Professionnel Documents
Culture Documents
Proba Stat20 PDF
Proba Stat20 PDF
Statistique descriptive
1 Introduction
C’est l’ensemble des outils qui permet de résumer l’information contenue dans les données
de façon synthétique et efficace à travers :
— Tableaux
— Représentations graphique.
— Indicateur de position/dispersion.
C’est l’ensemble des techniques qui permet de généraliser des conclusions relatives à la
population entière, à partir d’un sous ensemble tiré selon une méthode scientifique. Elle
permet également de prendre des décisions pour les hypothèses imposées sur les para-
mètres d’une population d’une population.
Remarque: Les méthodes statistiques : repose sur l’observation des phénomènes
concrets et utile les probabilités comme outils d’analyse et de généralisation.
La théories des probabilité : permet de modéliser efficacement certains phénomènes
aléatoires et d’en faire l’étude théorique.
2 Vocabulaire-Définitions
a) Individu C’est l’unité statistique faisant l’objet d’une observation (exemples : les
banques, les pays . . . ) ; cette unité statistique est l’entité abstraite qui représente
un consommateur, un logement ou un produit.
b) Populationl’ensemble des individus ou des unités statistiques qui font l’objet d’une
étude (exemples : ensemble des habitants d’un pays, l’ensemble des navires d’une
flotte navale) ; dans la plupart des études l’observation de tout les individus de la
1
2 Statistique descriptive
population pourrait être difficile et trop couteuse, dans ce cas on peut sélectionner
un sous ensemble représentatif de cette population appelé : échantillon.
c) Echantillon un sous-ensemble tiré de la population mère dont les individus sont
concernés par une étude. Le choix de l’échantillon se fait en respectant certaines
règles qui permettent d’assurer la représentativité de l’échantillon par rapport à la
population mère.
a Caractère statistique
Exemple 2 L’âge, la taille, le revenu d’un salarié, la couleur des yeux, la localisation
géographique sont des caractères.
b Modalité
Les modalités d’une variable sont les valeurs ou les positions que peut prendre celle ci.
c caractère qualitatif
un caractère qualitatif ou variable qualitative est une variable qui possèdes des modalités
sans unité de mesure ni orientation. Exemple : la région géographique, la nationalité. . .
les modalités d’un caractère quantitatif discret son mesurables et peuvent êtres ordonnées.
Les modalités sont finies et dénombrables et elles sont en général des entiers naturels.
Exemple : le nombre des pièces d’un logement, le salaire des employés d’une usine...
3. Répresentation des données statistiques 3
les modalités d’un caractère quantitatif continu son mesurables et peuvent êtres ordonnées.
Les modalités sont infinies et leur représentation nécessite le recours à des intervalles ou
classes. Exemple : le revenu du chef du ménage.
l’ensemble des modalités observées auprès des individus constitue une série de données
statistiques. Cette série est l’objet de l’analyse descriptive, qui à pour objectif de la résumer
par des tableaux des graphiques et des indicateurs.
a caractère qualitatif
De façon générale, la fréquence d’une modalité "M" d’une variable qualitative se calcule
au moyen de la formule suivante :
effectif correspondant à "M"
fM “ .
effectif total
On a de plus, le pourcentage de cette modalité,
pM “ fM ˆ 100.
Modalités Effectifs Fréquences
m1 n1 f1
m2 n2 f2
.. .. ..
. . .
mk nk fk
Total n
L’infinité des valeurs observables d’une variable quantitative continue ne rend pas possible
la généralisation d’un diagramme en bâtons. L’établissement d’un tableau de répartition
exige que l’on découpe l’intervalle de variation d’une telle variable, en k sous-intervalles
re0 , e1 s, re1 , e2 s, ..., rek´1 , ek s.
Chacun de ces intervalles est appelé classe.
L’amplitude de la classe rei´1 , ei s est égale à ai “ ei ´ ei´1 .
Remarque: Les classes peuvent être construites ? avec des amplitudes inégales, et le
nombre total des classes peut être approximé par n.
6 Statistique descriptive
a caractère qualitatif
Diagramme en batôns Les modalités de la variable sont portées sur l’axe des abscisses
et les fréquences absolues ou relatives sont portées sur l’axe des ordonnées. Le principe de
construction de ce diagramme est basé sur le fait qu’à partir de chaque modalité on trace
un segment de droite et la hauteur de chaque segment est proportionnelle aux fréquences.
Cette forme se prête difficile pour l’interprétation, pour y remédier il faut créer des classes
de notes.
F : R Ñ r0, 1s
x Ñ PpX ď xq.
On considère X une variable quantitative continue ou encore discrète classée. Les effectifs
correspondant à ces classes sont notés n1 , .., nk .
L’effectif cumulé de la première classe est le nombre N1 d’individus pour lesquels la
variable X prend une valeur au plus égale à e1 , donc
N1 “ n1 .
N2 “ n1 ` n2 .
i
Ni ÿ
Fi “ “ fl ,
n l“1
k
ÿ k
ÿ
nl “ n et fl “ 1.
l“1 l“1
La courbe de FX est nulle avant x1 , constante égale à 1 après xn et joint les points
px0 , 0q, px1 , F1 q, ..., pxn , 1q par des segments de droites.
On considère l’exemple 6, alors la fonction de répartition est donnée par :
5 Indicateur de position
Ces indicateurs sont des paramètres calculés à partir de la série statistique dans le but de
donner un résumé interprétable et exhaustif de l’information contenue dans cette série.
a moyenne arithmetique
La moyenne arithmétique est la somme de toutes les données observées divisées par le
nombre des individus de l’échantillon.
n
1ÿ
x“ xi
n i“1
si les données sont représentés dans un tableau statistique dans le quel chaque modalité est
associée à fréquence absolue ou relative alors on calcule la moyenne arithmétique pondérée
ainsi :
k k
1ÿ ÿ
x“ ni xi , ou X “ f i xi .
n i“1 i“1
b Moyenne géométrique
c Moyenne harmonique
Pour les données groupées, elle est calculée au moyen de la formule suivante :
k
1ÿ ni
xh “ .
n i“1 xi
d Moyenne quadratique
La moyenne quadratique permet de calculer la moyenne des carrés des caractères, pour
une série de données brute elle est calculée au moyen de la formule suivante
n
1ÿ
xq “ x2 .
n i“1 i
Pour les données groupés, elle est calculée au moyen de la formule suivante :
k
1ÿ
xq “ ni x2i .
n i“1
Remarque: L’ensemble des moyennes calculées pour un caractère doivent vérifier l’in-
égalité suivante :
min xi ď xh ď xg ď x ď xq ď max xi .
xi ni ni xi xni i 1
xi
x2i
1 5 5 1 1 5
2 9 18 512 0.5 36
3 3 9 27 0.33 27
4 7 28 16384 0.25 112
5 2 10 25 0.2 50
Total n “ 26 70 / / /
5.2 Mode
5.3 Médiane
La médiane, notée Me est la modalité qui divise la série des données statistiques en deux
parties égales après avoir ranger ces données en ordre croissant (ou décroissant). Plus
précisément, il y a autant d’individus pour lesquels on a observé une valeur supérieure à
Me que d’individus pour lesquels on a observé une valeur inférieure à Me .
a Caractère discrèt
Lorsqu’on possède la série des données brutes et distribution (non classeé), on doit ranger
les n observations en ordre croissant.
` ˘ème
‚ si n est impair, la médiane est n`1 2
observation.
‚ si n est pair, la médiane est habituellement définie comme étant le point milieu entre
` n ˘ème ` ˘ème
2
et n2 ` 1 observation.
b Caractère continu
Exemple 10
PpX ď Q1 q “ 0.25.
PpX ď Q3 q “ 0.75.
6 Indicateur de dispersion
Pour analyser une distribution on peut utiliser en plus des indicateurs de tendance cen-
trale, telles que la médiane ou la moyenne, d’autres indicateurs qui permettent de mesurer
la dispersion ou l’éparpillement de la série dans le but de bien décrire la distribution d’une
variable. Par exemple, les deux séries d’observations suivantes :
‚ -20,-10,0,10,20
‚ -2000,-1000,0,1000,2000.
Possèdent la même moyenne et la même médiane (0) mais se diffèrent selon un autre
indicateur qui mesure l’écart des ses observations par rapport à la valeur centrale. On va
présenter dans cette partie les mesures de dispersion les plus utilisées : l’étendue, l’écart
interquartile, la variance, l’écart-type et le coefficient de variation.
6.1 L’étendu
L’étendue est un paramètre qui mesure l’écart entre la valeur la plus élevée et la valeur
la plus faible de la distribution
e “ xmax ´ xmin .
16 Statistique descriptive
L’écart type est l’indicateur de dispersion le plus utilisé et le plus simple à interpréter.
Il permet de comparer les distributions dont la tendance centrale est identique. Il donne
la variation moyenne de la distribution autour de la moyenne arithmétique. Pour calculer
l’écart type on doit d’abord calculer la variance de X qui est égale à la somme des carrés
des écarts à la moyenne divisée par l’effectif n, par la suite l’écart-type est égal à la racine
de la variance. n
1ÿ
V arpXq “ pxi ´ xq2 ,
n i“1
cette forme peut égaelement s’écrire sous la forme :
k
1ÿ
V arpXq “ ni pxi ´ xq2 ,
n i“1
Ainsi
VarpXq “ 2.235 σX “ 1.49 et Cv “ 0.64.
Chapitre II
Statistiques bivariées
1 Introduction
Dans le chapitre précédent, on a présenté présenté les méthodes qui permettent de résumer
et représenter les informations relatives à une variable. Un même individu peut être étudié
à l’aide de plusieurs caractères (ou variables). Par exemple
‚ Une entreprise mène une étude sur la liaison entre les dépenses mensuelles en publicité
X et le volume des ventes Y qu’elle réalise.
‚ Une entreprise mène une étude sur les salaries en regardant l”ancienneté et le niveau
d’étude des salariés.
Dans la suite, On introduit l’étude globale des relations entre deux variables.
Soit X une variable statistique pouvant prendre K modalités x1 , ..., xK et Y une variable
statistique pouvant prendre L modalités y1 , ..., yL . On construit le tableau suivant appelé
tableau de contingence :
17
18 Statistiques bivariées
Dans cette présentation on a : A chaque couple pxi , yj q on a nij est l’effectif qui représente
le nombre d’individus qui prennent en même temps la valeur xi et yj . On note fij “ nnij .
L
ÿ K
ÿ K ÿ
ÿ L
nk. “ nkl n.l “ nkl n“ nkl
l“1 k“1 k“1 l“1
Sur la marge du tableau de contingence, on peut extraire les données seulement par rap-
port à X et seulement par rapport à Y .
On appelle distribution marginale des fréquences (des effectifs) la distribution des fré-
quences (effectifs) obtenue dans la marge d’un tableau de contingence, en ajoutant les
fréquences (effectifs) ligne par ligne, ou colonne par colonne.
K K
ÿ n.j ÿ
n.j “ nij , f.j “ “ fij .
i“1
n i“1
L L
ÿ ni. ÿ
ni. “ nij fi. “ “ fij .
j“1
n i“1
2. Distribution jointe-Distribution marginales 19
Remarque: On a
K ÿ
ÿ L L ÿ
ÿ K
nij “ nij “ n.
i“1 j“1 j“1 i“1
K ÿ
ÿ L L ÿ
ÿ K
fij “ fij “ 1.
i“1 j“1 j“1 i“1
nij
PpX “ i, Y “ jq “ fij “ .
n
Remarque: Dans le cas continu, xi et yj représentent respectivement le centre des classes
de X et Y , c’est à dire
ei`1 ´ ei ej`1 ´ ej
xi “ et yj “ .
2 2
Exercice 1 On considère 10 salariés qui sont observés à l’aide de deux variables "age"
et "salaire". Les informations brutes sont données dans le tableau suivant :
Age 15 26 20 43 47 37 52 34 50 44
salaire 6000 7400 7500 8200 8207 8900 9100 9900 9950 10750
Elle st notée X|yj , on dit que c’est la série conditionelle de X sachant que Y “ yj . On
calcule dans ce cas
nij fij
fi|j “ PpX “ k|Y “ lq “ “ .
n.j fij
20 Statistiques bivariées
Elle est otée Y |xj on dit que c’est la série conditionelle de Y par rapport à X “ xj . On
calcule dans ce cas
fij
fj|i “ PpY “ j|X “ iq “ .
fi.
3.1 Covariance
La covariance entre deux variables X et Y notée CovpX, Y q est le paramètre qui donne la
variabilité de X par rapport à Y .
3.2 Indépendance
Il suffit que cette égalité ne soit pas vérifiée dans une seule cellule pour que les deux
variables ne soient pas indépendantes.. De manière équivalente, pour tout i et j,
n ˆ nij “ ni. ˆ n.j .
Dans ce cas, si X et Y sont indépendantes alors (réciproque est fausse)
CovpX, Y q “ 0.
Cette définition donne une interprétation intéressante de d’indépendance ; elle signifie que
dans ce cas, les effectifs des modalités conjointes peuvent se calculer uniquement à partir
des distributions marginales, supposées « identiques » aux distributions de X et Y dans
la population ; en d’autres termes, si X et Y sont indépendantes, les observations séparées
de X et de Y donnent la même information qu’une observation conjointe.
Définition 3 La quantité
CovpX, Y q
ρXY “ ,
σX σY
s’appelle le coefficient de corrélation.
Le coefficient ρXY mesure le degré de liaison linéaire entre X et Y . Nous avons les deux
caractéristiques suivantes :
‚ Plus le module de ρXY est proche de 1 plus X et Y sont liées linéairement.
‚ Plus le module de ρXY est proche de 0 plus il y absence linéaire entre X et Y .
22 Statistiques bivariées
X|Y 1 2 3 4 ni.“
-1 0 1 2 2
0 1 1 0 1
1 0 1 1 0
n.j
1. Compléter le tableau.
2. Calculer CovpX, Y q, conclure.