Proba Stat20 PDF

Chapitre I
Statistique descriptive
1 Introduction
1.1 Statistique descriptive :
C’est l’ensemble des outils qui permet de résumer l’information contenue dans les données
de façon synthétique et efficace à travers :
— Tableaux
— Représentations graphique.
— Indicateur de position/dispersion.
1.2 Statistique inférentielle :
C’est l’ensemble des techniques qui permet de généraliser des conclusions relatives à la
population entière, à partir d’un sous ensemble tiré selon une méthode scientifique. Elle
permet également de prendre des décisions pour les hypothèses imposées sur les para-
mètres d’une population d’une population.
Remarque: Les méthodes statistiques : repose sur l’observation des phénomènes
concrets et utile les probabilités comme outils d’analyse et de généralisation.
La théories des probabilité : permet de modéliser efficacement certains phénomènes
aléatoires et d’en faire l’étude théorique.
2 Vocabulaire-Définitions
a) Individu C’est l’unité statistique faisant l’objet d’une observation (exemples : les
banques, les pays . . . ) ; cette unité statistique est l’entité abstraite qui représente
un consommateur, un logement ou un produit.
b) Populationl’ensemble des individus ou des unités statistiques qui font l’objet d’une
étude (exemples : ensemble des habitants d’un pays, l’ensemble des navires d’une
flotte navale) ; dans la plupart des études l’observation de tout les individus de la
1
2 Statistique descriptive
population pourrait être difficile et trop couteuse, dans ce cas on peut sélectionner
un sous ensemble représentatif de cette population appelé : échantillon.
c) Echantillon un sous-ensemble tiré de la population mère dont les individus sont
concernés par une étude. Le choix de l’échantillon se fait en respectant certaines
règles qui permettent d’assurer la représentativité de l’échantillon par rapport à la
population mère.
Exemple 1 Si l’échantillon est un groupe TD de L2 Info :

— individu : un étudiant.
— population :l’ensemble des étudiants de L2 Info/ de l’ISIMM/ de la Tunisie.
— les variables :
— le sexe des étudiants.
— La taille.
— La moyenne/ la mention
2.1 Les types d’un caractère statistique
a Caractère statistique
Le caractère est le phénomène étudié en statistique, il représente l’objet de l’observation

statistique auprès des individus.
Exemple 2 L’âge, la taille, le revenu d’un salarié, la couleur des yeux, la localisation
géographique sont des caractères.
b Modalité
Les modalités d’une variable sont les valeurs ou les positions que peut prendre celle ci.
Exemple 3 Les modalités de la variable situation amoureuse sont célibataire, ma-

rié, divorcé, veuf.
Les modalités de la variable moyenne sont 0,..,20.
c caractère qualitatif
un caractère qualitatif ou variable qualitative est une variable qui possèdes des modalités
sans unité de mesure ni orientation. Exemple : la région géographique, la nationalité. . .
d caractère quantitatif discrèt (nominal)
les modalités d’un caractère quantitatif discret son mesurables et peuvent êtres ordonnées.
Les modalités sont finies et dénombrables et elles sont en général des entiers naturels.
Exemple : le nombre des pièces d’un logement, le salaire des employés d’une usine...
3. Répresentation des données statistiques 3
e caractère quantitatif continu (métrique)
les modalités d’un caractère quantitatif continu son mesurables et peuvent êtres ordonnées.
Les modalités sont infinies et leur représentation nécessite le recours à des intervalles ou
classes. Exemple : le revenu du chef du ménage.
f série de données statistique
l’ensemble des modalités observées auprès des individus constitue une série de données
statistiques. Cette série est l’objet de l’analyse descriptive, qui à pour objectif de la résumer
par des tableaux des graphiques et des indicateurs.
3 Répresentation des données statistiques

On distingue les méthodes de représentation d’une variable statistique en fonction de la
nature de cette variable (qualitative ou quantitative). Les représentations recommandées
et les plus fréquentes sont les tableaux et les diagrammes (graphe). Le graphique est un
support visuel qui permet :
‚ la synthèse :visualiser d’un seul coup d’œil les principales caractéristiques.
‚ la découverte : : met en évidence les tendances.
‚ Le contrôle : on aperçoit mieux les anomalies sur un graphique que dans un tableau.
‚ La recherche des régularités :régularité dans le mouvement, répétition du phéno-
mène.
Pour un groupe de 15 étudiants, on a observé les valeurs des variables Couleurs des
yeux, Sexe,Mention au Bac et Note à l’examen de Statistiques . On a le tableau
des données suivant qui sera souvent utilisé dans la suite
Etudiants couleur des yeux Sexe Mention au Bac Note/Stat

1 V H P 12
2 B H AB 8
3 N H P 13
4 M H P 11
5 B F AB 10
6 V H P 9
7 N H B 16
8 M F AB 14
9 B F P 11
10 V F B 15
11 N F P 4
12 B H TB 18
13 V H AB 12
14 N H P 6
15 M F P 2
3.1 Tableau statistique
Le tableau statistique permet de résumer la série statistique en faisant un regroupement

des individus associés aux modalités auxquelles ils appartiennent. La représentation gé-
nérale d’un tableau statistique est la suivante :
a caractère qualitatif
De façon générale, la fréquence d’une modalité "M" d’une variable qualitative se calcule
au moyen de la formule suivante :
effectif correspondant à "M"
fM “ .
effectif total
On a de plus, le pourcentage de cette modalité,
pM “ fM ˆ 100.
Modalités Effectifs Fréquences
m1 n1 f1
m2 n2 f2
.. .. ..
. . .
mk nk fk
Total n
Exemple 4 Tableau de la répartition de la variable Mention au Bac

Mention au bac Effectifs Fréquence Pourcentage
P n1 =8 f1 =8/15=0.53 53%
AB n2 =4 0.26 26.1%
B n3 =2 0.13 13.3%
TB n4 =1 0.06 6.7%
Total n=15 1 100%
b caractère quantitatif discrèt
De façon général, à chaque valeur k d’une variable quantitative discrète correspond un

effectif, noté par nk , il s’agit en fait du nombre des individus pour lesquels on abservée la
valeur k. La fréquence fk de la valeur k se calcul au moyen de la formule :
nk
fk “ .
n
Xi Effectif (fréquence absolue)
X1 n1
X2 n2
.. ..
. .
Xk nk
Total n
Exemple 5 Tableau de la répartition de la variable "Note à l’examen de sta-

tistique"
Note à l’examen Effectifs Fréquence
k=0 0 0
k=1 0 0
k=2 1 1/15
k=3 0 0
k=4 1 1/15
k=5 0 0
k=6 1 1/15
k=7 0 0
k=8 1 1/15
k=9 1 1/15
k=10 1 1/15
k=11 2 2/15
k=12 2 2/15
k=13 1 1/15
k=14 1 1/15
k=15 1 1/15
k=16 1 1/15
k=17 0 0
k=18 1 1/15
k=19 0 0
k=20 0 0
Total n=15 1
c caractère quantitatif continu
L’infinité des valeurs observables d’une variable quantitative continue ne rend pas possible
la généralisation d’un diagramme en bâtons. L’établissement d’un tableau de répartition
exige que l’on découpe l’intervalle de variation d’une telle variable, en k sous-intervalles
re0 , e1 s, re1 , e2 s, ..., rek´1 , ek s.
Chacun de ces intervalles est appelé classe.
L’amplitude de la classe rei´1 , ei s est égale à ai “ ei ´ ei´1 .
Classes Effectif (fréquence absolue)

re1 , e2 r n1
re2 , e2 r n2
.. ..
. .
rek´1 , ek r nk
Total n
Remarque: Les classes peuvent être construites ? avec des amplitudes inégales, et le
nombre total des classes peut être approximé par n.
Exemple 6 La répartition des employés suivant les salaires annuels.

Modalités Effectifs Fréquences
r1500, 2000r 2 0.1
r2000, 2500r 5 0.25
r2500, 3000r 4 0.2
r3000, 3500r 1 0.05
r3500, 4000r 3 0.15
r4000, 4500r 2 0.1
r4500, 5000r 3 0.15
Total 20 1
3.2 Représentation graphique
a caractère qualitatif
A partir de l’observation d’une variable qualitative, deux diagrammes permettent de re-

présenter cette variable : le diagramme en bandes (dit tuyaux d’orgue) et le diagramme
à secteurs angulaires (dit camembert).
Etudions le caractère couleur des yeux. On a
couleur Bleu Marron Noir Vert
Effectif 4 3 4 4
Tuyaux d’orgues On porte en abscisses les modalités, de façon arbitraire. Nous portons
en ordonnées des rectangles dont la longueur est proportionnelle aux effectifs, ou aux
fréquences, de chaque modalité.
Diagramme en secteurs (camembert) Les diagrammes circulaires, ou semi-circulaires,

consistent à partager un disque ou un demi-disque, en tranches, ou secteurs, correspondant
aux modalités observées et dont la surface est proportionnelle à l’effectif, ou à la fréquence,
de la modalité.
Remarque: Le degré d’un secteur est déterminé au moyen de la formule
αi “ fi ˆ 360.
b Caractère quantitatif discrèt
De façon génèrale, à chaque valeur k d’un caractère quantitatif discrèt correspond un

effectif noté par nk ; il s’agit en fait du nombre des individus pour lesquels on a observé
la valeur k. La fréquence fk de la valeur k, se calcule au moyen de la formule :
nk
fk “ ,
N
où nk désigne l’effectif correspondant à la valeur k et N l’effectif total, en multipliant les
fréquences par 100, on obtient les pourcentages correspondantes.
Diagramme en batôns Les modalités de la variable sont portées sur l’axe des abscisses
et les fréquences absolues ou relatives sont portées sur l’axe des ordonnées. Le principe de
construction de ce diagramme est basé sur le fait qu’à partir de chaque modalité on trace
un segment de droite et la hauteur de chaque segment est proportionnelle aux fréquences.
Exemple 7 On considère la variable quatitative ’Note à l’examen de statistique’, alors

sa représentation graphique en bâton est donnée par
Cette forme se prête difficile pour l’interprétation, pour y remédier il faut créer des classes
de notes.
variable classée Effectifs Fréquences

r0, 4s 2 2/15
r4, 8s 2 2/15
r8, 12s 6 6/15
r12, 16s 4 4/15
r16, 20s 1 1/15
Sous cette répartition la représentation graphique sera de la forme suivante :
c Caractère quatitatif continu
Histogramme : L’histogramme des fréquences est un graphique qui permet de repré-

senter un caractère quantitatif continu, il est constitué de rectangles juxtaposés dont les
surfaces sont proportionnelles aux fréquences des classes et par conséquent à leurs effec-
tifs.
Remarque:
‚ Lorsque les classes ont toutes la même amplitude, les hauteurs des rectangles sont
proportionelles à leurs surfaces, par conséquent les hauteurs des rectangles sont
proportionnelles aux fréquences et aux effectifs.
‚ Dans le cas où les classes sont d’amplitudes inégales, la hauteur du rectangle correspon-
dant à la ième classe sera hi “ afii (c’est à dire la fréquence par unité d’amplitude)
ou encore Hi “ naii (c’est à dire l’effectif par unité d’amplitude).
Exemple 8 On considère la variable quatitative continu dans l’exemple 6, la représenta-

tion graphique est la suivante :
4. Fonction cumulative (de répartition) d’un caractère quantitatif 9
4 Fonction cumulative (de répartition) d’un carac-

tère quantitatif
La fonction de répartition est une fonction qui permet de calculer la proportion des indi-
vidus ayant une modalité inferieur à une modalité donnée.
Définition 1 La fonction de répartition d’un caractère X est définie par
F : R Ñ r0, 1s
x Ñ PpX ď xq.
C’est la proportion des individus ayant des modalités inférieures ou égale à x.
4.1 Effectifs cumulés
On considère X une variable quantitative continue ou encore discrète classée. Les effectifs
correspondant à ces classes sont notés n1 , .., nk .
L’effectif cumulé de la première classe est le nombre N1 d’individus pour lesquels la
variable X prend une valeur au plus égale à e1 , donc
N1 “ n1 .
L’effectif cumulé de la deuxième classe est le nombre N2 d’individus pour lesquels

la variable X prend une valeur au plus égale à e2 , donc
N2 “ n1 ` n2 .
Plus généralement, l’effectif cumulé de la ième classe est le nombre Ni d’individus

pour lesquels la variable X prend une valeur au plus égal à ei , on a donc
i
ÿ
Ni “ nl .
l“1
4.2 Fréquences cumulées
La fréquence cumulées de la ième classe est définie par
i
Ni ÿ
Fi “ “ fl ,
n l“1
où fl est la fréquence cumulée de la lème classe. Ainsi on a
k
ÿ k
ÿ
nl “ n et fl “ 1.
l“1 l“1
X(modalité) Ni (effectif) fi (fréquence) Fi (fréquence cumulée)

x1 n1 f1 F 1 “ f1
x2 n2 f2 F 2 “ f1 ` f2
.. .. .. ..
. . . .
řk
xk nk fk Fk “ i“1 fk “ 1
4.3 Représentation graphique de la foction cumulative
a Caractère quantitatif discrèt
Pour tout i P t1, ..., nu, on a Fx pxi q “ Fi

Ainsi la courbe de FX passe par les points px1 , F1 q, px2 , F2 q, ... et pxn , Fn q.
Proposition 1 La fonction de répartition satisfait, pour i P t1, .., nu

— L’égalité, FX pxi q “ Fi . $
’
’ 0, si x ă x1 ;
& F1 , si x1 ď x ă x2 ;
’
’
— L’expression de FX est donnée par FX pxq “ F2 , si x2 ď x ă x3 ;
Fi , si xi ď x ă xi`1 ;
’
’
’
’
1, si x ě xn .
%
La représentation graphique de la fonction de répartition doit passer par une courbe en

escalier. On considère l’exemple 5, alors la fonction cumulative /de répartition est donnée
par :
5. Indicateur de position 11
b caractète quantitatif continu
La courbe de FX est nulle avant x1 , constante égale à 1 après xn et joint les points
px0 , 0q, px1 , F1 q, ..., pxn , 1q par des segments de droites.
On considère l’exemple 6, alors la fonction de répartition est donnée par :
5 Indicateur de position
Ces indicateurs sont des paramètres calculés à partir de la série statistique dans le but de
donner un résumé interprétable et exhaustif de l’information contenue dans cette série.
5.1 Les moyennes
La moyenne est un indicateur de tendance centrale qui permet de déterminer le centre de

la distribution, la moyenne arithmétique est la moyenne est la plus utilisée, mais il existe
d’autres types de moyennes utilisées dans le calcul de la tendance centrale de distributions
statistiques telles que la moyenne géométrique et la moyenne quadratique.
a moyenne arithmetique
La moyenne arithmétique est la somme de toutes les données observées divisées par le
nombre des individus de l’échantillon.
n
1ÿ
x“ xi
n i“1
si les données sont représentés dans un tableau statistique dans le quel chaque modalité est
associée à fréquence absolue ou relative alors on calcule la moyenne arithmétique pondérée
ainsi :
k k
1ÿ ÿ
x“ ni xi , ou X “ f i xi .
n i“1 i“1
Remarque: Dans le cas d’une variable continu on remplace xi par ci le centre de la

classe rei , ei`1 r.
b Moyenne géométrique
la moyenne géométrique d’une série statistique brute est donnée par

d
źn
xG “ n
xi .
i“1
Pour les données groupés, elle est calculée au moyen de

a
xG “ n xn1 1 xn2 2 ...xnk k .
c Moyenne harmonique
La moyenne harmonique est la moyenne de l’inverse de la variable x, ou bien l’inverse de

la moyenne arithmétique, elle est calculée ainsi pour des données brutes :
n
1ÿ 1
xh “ .
n i“1 xi
Pour les données groupées, elle est calculée au moyen de la formule suivante :
k
1ÿ ni
xh “ .
n i“1 xi
La moyenne harmonique permet de calculer la moyenne des grandeurs obtenues à partir

d’un rapport de deux variables tels que le taux de change, l’indice du prix le taux de
chômage. . .
5. Indicateur de position 13
d Moyenne quadratique
La moyenne quadratique permet de calculer la moyenne des carrés des caractères, pour
une série de données brute elle est calculée au moyen de la formule suivante
n
1ÿ
xq “ x2 .
n i“1 i
Pour les données groupés, elle est calculée au moyen de la formule suivante :
k
1ÿ
xq “ ni x2i .
n i“1
Remarque: L’ensemble des moyennes calculées pour un caractère doivent vérifier l’in-
égalité suivante :
min xi ď xh ď xg ď x ď xq ď max xi .
Exemple 9 On considère la distribution des logements suivant les nombres de pièces

donnée par le tableau suivant :
xi ni ni xi xni i 1
xi
x2i
1 5 5 1 1 5
2 9 18 512 0.5 36
3 3 9 27 0.33 27
4 7 28 16384 0.25 112
5 2 10 25 0.2 50
Total n “ 26 70 / / /
Dans cet exemple on a
x “ 2.3 xg “ 1.45 xh “ 0.08 xq “ 8.84
5.2 Mode
Le mode correspond à la modalité la plus fréquente, il est noté M0 . Pour un caractère

continu ou discrèt pour le quel les données sont groupées en classes, la classe modale
correspond à celle associée à l’effectif le plus élevé ou graphiquement au plus haut rectangle
de l’histogramme.
Dans ce cas le mode est calculé à partir du centre de la classe modale selon la méthode
suivante :
si le mode appartient à la classe rei , ei`1 r alors

` d1 ˘
M0 “ ei ` ˆ ai
d1 ` d2
Remarque: On peut avoir plus qu’un mode ou rien
5.3 Médiane
La médiane, notée Me est la modalité qui divise la série des données statistiques en deux
parties égales après avoir ranger ces données en ordre croissant (ou décroissant). Plus
précisément, il y a autant d’individus pour lesquels on a observé une valeur supérieure à
Me que d’individus pour lesquels on a observé une valeur inférieure à Me .
a Caractère discrèt
Lorsqu’on possède la série des données brutes et distribution (non classeé), on doit ranger
les n observations en ordre croissant.
` ˘ème
‚ si n est impair, la médiane est n`1 2
observation.
‚ si n est pair, la médiane est habituellement définie comme étant le point milieu entre
` n ˘ème ` ˘ème
2
et n2 ` 1 observation.
b Caractère continu
C’est la modalité x tel que F pMe q “ 0.5.

Pour calculer la médiane on doit déterminer la classe médiane à partir des fréquences
cumulées croissant, puis on calcule la valeur ponctuelle de la médiane selon l’hypothèse
de l’uniformité de la répartition des individus à l’intérieur de la classe médiane.
Si Me appartient à la classe rei , ei`1 r alors
` 0.5 ´ Fi´1 ˘
Me “ ei ` ˆ ai .
Fi ´ Fi´1
6. Indicateur de dispersion 15
Exemple 10
Exemple 11 On considère le caractère de l’exemple 9, alors

‚ le mode correspond à 2.
‚ la médiane correspond à 1.
5.4 Les quantiles
Ce sont les indicateurs qui divisent la distribution en quatre parties égales.

‚ Le premier quantile est indicateur noté Q1 tel que
PpX ď Q1 q “ 0.25.
‚ Le troisième quatile est noté Q3 ,
PpX ď Q3 q “ 0.75.
6 Indicateur de dispersion
Pour analyser une distribution on peut utiliser en plus des indicateurs de tendance cen-
trale, telles que la médiane ou la moyenne, d’autres indicateurs qui permettent de mesurer
la dispersion ou l’éparpillement de la série dans le but de bien décrire la distribution d’une
variable. Par exemple, les deux séries d’observations suivantes :
‚ -20,-10,0,10,20
‚ -2000,-1000,0,1000,2000.
Possèdent la même moyenne et la même médiane (0) mais se diffèrent selon un autre
indicateur qui mesure l’écart des ses observations par rapport à la valeur centrale. On va
présenter dans cette partie les mesures de dispersion les plus utilisées : l’étendue, l’écart
interquartile, la variance, l’écart-type et le coefficient de variation.
6.1 L’étendu
L’étendue est un paramètre qui mesure l’écart entre la valeur la plus élevée et la valeur
la plus faible de la distribution
e “ xmax ´ xmin .
6.2 Variance, écart-type
L’écart type est l’indicateur de dispersion le plus utilisé et le plus simple à interpréter.
Il permet de comparer les distributions dont la tendance centrale est identique. Il donne
la variation moyenne de la distribution autour de la moyenne arithmétique. Pour calculer
l’écart type on doit d’abord calculer la variance de X qui est égale à la somme des carrés
des écarts à la moyenne divisée par l’effectif n, par la suite l’écart-type est égal à la racine
de la variance. n
1ÿ
V arpXq “ pxi ´ xq2 ,
n i“1
cette forme peut égaelement s’écrire sous la forme :
k
1ÿ
V arpXq “ ni pxi ´ xq2 ,
n i“1
où k désigne le nombre de valeurs distinctes de X et fi “ nn1 est la fréquence de la valeur

xi .
Une autre formule importante permettant de calculer la variance est :
n
1ÿ
V arpXq “ x2 ´ pxq2 .
n i“1 i
a
σX “ V arpXq.
6.3 Le coefficient de variation
Lorsqu’on veut comparer la dispersion ou l’étalement de deux séries d’observations qui

n’ont pas le même ordre de grandeur ou qui portent sur des variables différentes, on ne
peut pas utiliser directement les écarts types. Le coefficient de variation se définit comme
le rapport de l’écart type divisé par la moyenne, exprimé en pourcentage.
σx
Cv “ .
x
Exemple 12 On considère le caractère étudié dans l’exemple 9, alors on a
xi ´ x pxi ´ xq2 ni pxi ´ xq2

-1.3 1.69 8.45
-0.3 0.09 0.18
0.7 0.49 1.47
1.7 2.89 11.56
2.7 7.29 36.45
Ainsi
VarpXq “ 2.235 σX “ 1.49 et Cv “ 0.64.
Chapitre II
Statistiques bivariées
1 Introduction
Dans le chapitre précédent, on a présenté présenté les méthodes qui permettent de résumer
et représenter les informations relatives à une variable. Un même individu peut être étudié
à l’aide de plusieurs caractères (ou variables). Par exemple
‚ On observe simultanément sur un échantillon de 200 foyers, le nombre d’enfants X et

le nombre de chambre Y .
‚ On observe sur un échantillon de 20 foyers, le revenu mensuel X en Dinars et les

dépenses mensuelles Y .
‚ Une entreprise mène une étude sur la liaison entre les dépenses mensuelles en publicité
X et le volume des ventes Y qu’elle réalise.
‚ Une entreprise mène une étude sur les salaries en regardant l”ancienneté et le niveau
d’étude des salariés.
‚ On observe la croissance d’un enfant en regardant son poids et sa taille.
Dans la suite, On introduit l’étude globale des relations entre deux variables.
2 Distribution jointe-Distribution marginales
2.1 Le tableau de contingence
Soit X une variable statistique pouvant prendre K modalités x1 , ..., xK et Y une variable
statistique pouvant prendre L modalités y1 , ..., yL . On construit le tableau suivant appelé
tableau de contingence :
17
18 Statistiques bivariées
X/Y y1 .... yL Total

x1 n11 ou f11 .... n1L ou f1L n1. ou f1.
.. .. .. .. ..
. . . . .
xi ni1 ou fi1 ni. ou fi.
.. .. .. .. ..
. . . . .
xK nK1 ou fK1 nKL ou fKL nK. ou fK.
Total n.1 ou f.1 n.L ou f.L n (1)
Dans cette présentation on a : A chaque couple pxi , yj q on a nij est l’effectif qui représente
le nombre d’individus qui prennent en même temps la valeur xi et yj . On note fij “ nnij .
L
ÿ K
ÿ K ÿ
ÿ L
nk. “ nkl n.l “ nkl n“ nkl
l“1 k“1 k“1 l“1
Exemple 13 La distribution des logements : nombre de pièces (X) en fonction de la

superficie en m2 (Y ) :
X/Y r10, 30r r30, 50r r50, 70r r70, 90r Total
1 3 1 0 0 4
2 1 14 3 0 18
3 0 1 7 4 12
4 0 0 10 7 17
Total 4 16 20 11 51
2.2 Les distributions marginales
Sur la marge du tableau de contingence, on peut extraire les données seulement par rap-
port à X et seulement par rapport à Y .
On appelle distribution marginale des fréquences (des effectifs) la distribution des fré-
quences (effectifs) obtenue dans la marge d’un tableau de contingence, en ajoutant les
fréquences (effectifs) ligne par ligne, ou colonne par colonne.
a Loi marginale par rapport à Y
K K
ÿ n.j ÿ
n.j “ nij , f.j “ “ fij .
i“1
n i“1
b Loi marginale par rapport à X
L L
ÿ ni. ÿ
ni. “ nij fi. “ “ fij .
j“1
n i“1
2. Distribution jointe-Distribution marginales 19
Remarque: On a
K ÿ
ÿ L L ÿ
ÿ K
nij “ nij “ n.
i“1 j“1 j“1 i“1
K ÿ
ÿ L L ÿ
ÿ K
fij “ fij “ 1.
i“1 j“1 j“1 i“1
2.3 La distribution jointe
nij
PpX “ i, Y “ jq “ fij “ .
n
Remarque: Dans le cas continu, xi et yj représentent respectivement le centre des classes
de X et Y , c’est à dire
ei`1 ´ ei ej`1 ´ ej
xi “ et yj “ .
2 2
Exercice 1 On considère 10 salariés qui sont observés à l’aide de deux variables "age"
et "salaire". Les informations brutes sont données dans le tableau suivant :
Age 15 26 20 43 47 37 52 34 50 44
salaire 6000 7400 7500 8200 8207 8900 9100 9900 9950 10750
1. Déterminer le tableau de contingence (X âge et Y salaire). Pour l’âge et le salaire

former respectivement des classes de pas de 10 et de 1000).
2. Calculer f21 , f12 , et f33 .
3. Déterminer les effectifs marginaux de X et de Y . Tracer le nuages de points.
4. Déterminer le tableau statistique de deux séries marginales X et Y .
2.4 La distribution conditionelle
a Série conditionelle par rapport à X
Elle st notée X|yj , on dit que c’est la série conditionelle de X sachant que Y “ yj . On
calcule dans ce cas
nij fij
fi|j “ PpX “ k|Y “ lq “ “ .
n.j fij
On a aussi la moyenne conditionnelle xj , qui est définit par

K
ÿ
xj “ fi|j xi .
i“1
a
Pour l’écart type conditionnelle on a σXj “ V arpXj q avec
K
ÿ
VarpXj q “ “ fi|j pxi ´ xj q2 .
i“1
b Série conditionelle par rapport à Y
Elle est otée Y |xj on dit que c’est la série conditionelle de Y par rapport à X “ xj . On
calcule dans ce cas
fij
fj|i “ PpY “ j|X “ iq “ .
fi.
3 Notion de covariance et correlation
3.1 Covariance
La covariance entre deux variables X et Y notée CovpX, Y q est le paramètre qui donne la
variabilité de X par rapport à Y .
La covariance se calcule au moyen de la formule suivante

K ÿ L
1ÿ
CovpX, Y q “ xy ´ xy “ nij xi yj ´ xy.
n i“1 j“1
3.2 Indépendance
Définition 2 On dit que deux variables statistiques X et Y sont indépendantes si et

seulement si, pour tout i et j,
fij “ fi. ˆ f.j
3. Notion de covariance et correlation 21
Il suffit que cette égalité ne soit pas vérifiée dans une seule cellule pour que les deux
variables ne soient pas indépendantes.. De manière équivalente, pour tout i et j,
n ˆ nij “ ni. ˆ n.j .
Dans ce cas, si X et Y sont indépendantes alors (réciproque est fausse)
CovpX, Y q “ 0.
Cette définition donne une interprétation intéressante de d’indépendance ; elle signifie que
dans ce cas, les effectifs des modalités conjointes peuvent se calculer uniquement à partir
des distributions marginales, supposées « identiques » aux distributions de X et Y dans
la population ; en d’autres termes, si X et Y sont indépendantes, les observations séparées
de X et de Y donnent la même information qu’une observation conjointe.
3.3 Coefficient de correlation
Les coefficients de corrélation permettent de donner une mesure synthétique de l’intensité

de la relation entre deux caractères et de son sens lorsque cette relation est monotone.
Le coefficient de corrélation de Pearson permet d’analyser les relations linéaires (voir
cidessous). Il existe d’autres coefficients pour les relations non-linéaires et non-monotones,
mais ils ne seront pas étudiés dans le cadre de ce cours.
Définition 3 La quantité
CovpX, Y q
ρXY “ ,
σX σY
s’appelle le coefficient de corrélation.
Proposition 2 Le coefficient de corrélation ρXY est compris entre r´1, 1s

|ρXY | ď 1.
Le coefficient ρXY mesure le degré de liaison linéaire entre X et Y . Nous avons les deux
caractéristiques suivantes :
‚ Plus le module de ρXY est proche de 1 plus X et Y sont liées linéairement.
‚ Plus le module de ρXY est proche de 0 plus il y absence linéaire entre X et Y .
Remarque: Par définition si ρXY “ 0 alors X et Y sont indépendantes.
Exercice 2 Nous considérons 10 joueurs et soient :

— Y la variable qui représente le nombre de jeux auquel un joueur joue.
— X la variable qui représente le gain ou perte (+1 s’il gagne 10 Dinars et 1 s’il perd
10 Dinars et 0 sinon).
Nous avons le tableau de contingence suivant,
X|Y 1 2 3 4 ni.“
-1 0 1 2 2
0 1 1 0 1
1 0 1 1 0
n.j
1. Compléter le tableau.
2. Calculer CovpX, Y q, conclure.

Proba Stat20 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Proba Stat20 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre I

1.1 Statistique descriptive :

1.2 Statistique inférentielle :

Exemple 1 Si l’échantillon est un groupe TD de L2 Info :

2.1 Les types d’un caractère statistique

Le caractère est le phénomène étudié en statistique, il représente l’objet de l’observation

Exemple 3 Les modalités de la variable situation amoureuse sont célibataire, ma-

d caractère quantitatif discrèt (nominal)

e caractère quantitatif continu (métrique)

f série de données statistique

3 Répresentation des données statistiques

Etudiants couleur des yeux Sexe Mention au Bac Note/Stat

3.1 Tableau statistique

Le tableau statistique permet de résumer la série statistique en faisant un regroupement

Exemple 4 Tableau de la répartition de la variable Mention au Bac

b caractère quantitatif discrèt

De façon général, à chaque valeur k d’une variable quantitative discrète correspond un

Exemple 5 Tableau de la répartition de la variable "Note à l’examen de sta-

c caractère quantitatif continu

Classes Effectif (fréquence absolue)

Exemple 6 La répartition des employés suivant les salaires annuels.

3.2 Représentation graphique

A partir de l’observation d’une variable qualitative, deux diagrammes permettent de re-

Diagramme en secteurs (camembert) Les diagrammes circulaires, ou semi-circulaires,

b Caractère quantitatif discrèt

De façon génèrale, à chaque valeur k d’un caractère quantitatif discrèt correspond un

Exemple 7 On considère la variable quatitative ’Note à l’examen de statistique’, alors

variable classée Effectifs Fréquences

Sous cette répartition la représentation graphique sera de la forme suivante :

c Caractère quatitatif continu

Histogramme : L’histogramme des fréquences est un graphique qui permet de repré-

Exemple 8 On considère la variable quatitative continu dans l’exemple 6, la représenta-

4 Fonction cumulative (de répartition) d’un carac-

Définition 1 La fonction de répartition d’un caractère X est définie par

C’est la proportion des individus ayant des modalités inférieures ou égale à x.

4.1 Effectifs cumulés

L’effectif cumulé de la deuxième classe est le nombre N2 d’individus pour lesquels

Plus généralement, l’effectif cumulé de la ième classe est le nombre Ni d’individus

4.2 Fréquences cumulées

La fréquence cumulées de la ième classe est définie par

où fl est la fréquence cumulée de la lème classe. Ainsi on a

X(modalité) Ni (effectif) fi (fréquence) Fi (fréquence cumulée)

4.3 Représentation graphique de la foction cumulative

a Caractère quantitatif discrèt

Pour tout i P t1, ..., nu, on a Fx pxi q “ Fi

Proposition 1 La fonction de répartition satisfait, pour i P t1, .., nu

La représentation graphique de la fonction de répartition doit passer par une courbe en

b caractète quantitatif continu

5.1 Les moyennes

La moyenne est un indicateur de tendance centrale qui permet de déterminer le centre de

Remarque: Dans le cas d’une variable continu on remplace xi par ci le centre de la

la moyenne géométrique d’une série statistique brute est donnée par

Pour les données groupés, elle est calculée au moyen de

La moyenne harmonique est la moyenne de l’inverse de la variable x, ou bien l’inverse de

La moyenne harmonique permet de calculer la moyenne des grandeurs obtenues à partir

Exemple 9 On considère la distribution des logements suivant les nombres de pièces

Dans cet exemple on a

x “ 2.3 xg “ 1.45 xh “ 0.08 xq “ 8.84

Le mode correspond à la modalité la plus fréquente, il est noté M0 . Pour un caractère

si le mode appartient à la classe rei , ei`1 r alors

Remarque: On peut avoir plus qu’un mode ou rien

C’est la modalité x tel que F pMe q “ 0.5.

Exemple 11 On considère le caractère de l’exemple 9, alors