Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUES
Université de Kara
Email: kpanzout@gmail.com
HARMATTAN 2021-2022
Table des matières
i
TABLE DES MATIÈRES KPANZOU T.A./FaST/UK
Dénition 1.1.2 Deux ensembles nis E et F sont dits équipotents s'il existe une
bijection de l'un dans l'autre. Donc, deux ensembles sont équipotents s'ils ont le
même cardinal.
1
CHAPITRE 1. DÉNOMBREMENT ET CALCUL DE PROBABILITÉ VARIABLES ALÉATOIRES ET LOIS
USUELLES KPANZOU T.A./FaST/UK
Exemple 1.1 Le nombre de nombres de 3 chires pouvant être formés à l'aide des
chires 1, 2, 3, · · · , 9 vaut 93 = 729.
Exemple 1.3 Soit A une partie propre de E . {A, Ā} forme une partition de E .
En eet, A et Ā sont non vides car A est une partie propre de E , A ∩ Ā = ∅ et
A ∪ Ā = E .
Triangle de Pascal :
En utilisant les relations Cn0 = 1, Cn1 = n, Cnn = 1 et Cnp = Cn−1 p p−1
+ Cn−1 , on
peut tracer un tableau triangulaire composé de lignes numérotées 0, 1, 2, · · · , n
et de colonnes numérotées 0, 1, 2, · · · , p de telle façon que les Cnp gure dans
la case intersection de la ligne n et de la colonne p. Il s'agit du triangle de Pascal,
qui permet d'obtenir rapidement les coecients de la forme Cnp d'un développement
binomial.
a) Algèbre d'évènements
Une famille A , non vide, d'évènements de Ω est une algèbre d'évènements si :
i) ∀A ∈ A , Ā ∈ A ;
ii) ∀A ∈ A , ∀B ∈ A , A ∪ B ∈ A .
b) Tribu
Soit A une algèbre d'évènements de Ω (l'ensemble fondamental est inni). A est
une tribu si pour toute suite innie dénombrable A1 , A2 , · · · , Ai , · · · d'éléments
∞
de A on a Ai ∈ A .
[
i=1
∞
Conséquence : Ai ∈ A .
\
i=1
b) Evènements incompatibles
Soient (Ω, A ) un espace probabilisable et A et B deux évènements de A . On dit
que A et B sont incompatibles si A et B ne peuvent se réaliser en même temps.
d) Espace probabilisé
Soit (Ω, A ) un espace probabilisable. Une probabilité est une application p de A
dans R+ telle que :
i) p(Ω) = 1
ii) ∀A ∈ A , ∀B ∈ A tels que A ∩ B = ∅, p(A ∪ B) = p(A) + p(B) et
si A1 , A2 , · · · , Ai , · · · est une suite dénombrable d'évènements deux à
deux incompatibles, alors :
∞
! ∞
[ X
p Ai = p(Ai ).
i=1 i=1
i=1
1.3.2 Equiprobabilité
Soit Ω = {a1 , a2 , · · · , an } tel que card(Ω) = n ∈ N∗ . L'application
p : P(Ω) → [0, 1]
1
{ai } 7→
n
est une probabilité sur (Ω, P(Ω)). Etant donné que pour tout i = 1, 2, . . . , n,
P ({ai }) = n1 , on parle déquiprobabilité sur Ω.
card(A)
De façon générale on a : ∀A ∈ P(Ω), p(A) = .
card(Ω)
1.3.3 Propriétés
i) ∀A ∈ A , p Ā = 1 − p(A).
ii) p(∅) = 0.
iii) ∀A ∈ A , 0 ≤ p(A) ≤ 1.
iv) ∀A ∈ A , ∀B ∈ A , p(A ∪ B) = p(A) + p(B) − p(A ∩ B).
n=0
F : R → [0, 1]
x 7→ F (x) = p(X ≤ x) où (X ≤ x) = {ω ∈ Ω / X(ω) ≤ x}.
Dans le cas d'une variable aléatoire discrète nie telle que card(X(Ω)) = n, la
fonction de répartition se dénit de la façon suivante :
si
0 x < x1
si
x1 ≤ x < x2
p1
.. .. ..
. . .
F (x) = j
pi si xj ≤ x < xj+1
P
i=1
.. .. ..
. . .
si
1 x ≥ xn
a) Propriétés
i) ∀x, y ∈ R / x ≤ y, F (x) ≤ F (y).
ii) lim F (x) = 1.
x→+∞
1.5.3 Moments
a) Moments d'ordre k
On appelle moment d'ordre k d'une variable aléatoire X , le réel mk (X) déni par :
n
pi xki si X(Ω) est ni
P
i=1
mk (X) = ∞
pi xki si X(Ω) est dénombrable et la série converge absolument.
P
i=1
b) Espérance mathématique
L'espérance mathématique d'une variable aléatoire X est égale au moment d'ordre
1 de X , s'il existe. Elle se note E(X).
X
E(X) = m1 (X) = pi x i .
i
d) Variance et écart-type
La variance Var(X) d'une variable aléatoire X est son moment centré d'ordre 2 :
Var(X) = µ2 (X).
Propriété
Var(X) = m2 (X) − (m1 (X))2 .
F : R → [0, 1]
x 7→ F (x) = p(X ≤ x).
On dit que X est une variable aléatoire continue s'il existe une fonction numérique
f dénie sur R telle que :
i) ∀x ∈ R, f (x) ≥ 0.
ii) f est continue sur R sauf peut-être aux points pour lesquels elle admet une
limite nie à gauche et à droite.
iii) ∀x ∈ R, F (x) = −∞ f (t)dt et lim F (x) = lim −∞ f (t)dt =
Rx Rx
x→+∞ x→+∞
f (t)dt est bien dénie et est égale à 1.
R +∞
−∞
Dans ces conditions, f est alors une densité de probabilité de la variable aléatoire X .
Exemple 1.7 Soit f (x) = λe−λx 1R+ (x) avec λ > 0. Montrer que f est bien une
fonction de densité.
1.6.1 Moments
Soit X une variable aléatoire continue de densité f . On dénit, en supposant la
convergence des intégrales, les notions suivantes :
b) L'espérance mathématique
Z +∞
E(X) = m1 (X) = xf (x)dx.
−∞
Remarque :
1. Une variable aléatoire continue peut ne pas avoir d'espérance mathématique
(l'intégrale n'est pas convergente !)
2. Si f est paire (c'est-à-dire : ∀x ∈ R, f (x) = f (−x)) et si E(X) existe,
alors E(X) = 0.
d) La variance
Z +∞
Var(X) = µ2 (X) = (x − E(X))2 f (x)dx.
−∞
c) Loi de Bernoulli
Loi de probabilité : P (X = 1) = p = 1 − P (X = 0).
Espérance et variance : E(X) = p, Var(X) = p(1 − p).
d) Loi binomiale
Loi de probabilité : ∀k ∈ {0, 1, . . . , n}, P (X = k) = Cnk pk (1−p)n−k .
Espérance et variance : E(X) = np, Var(X) = np(1 − p).
f) Loi de Poisson
Loi de probabilité : ∀k ∈ N, P (X = k) = λk! e−λ .
k
1 (x−µ)2
fX (x) = √ e− 2σ2 .
σ 2π
où Z +∞
Γ(p) = xp−1 e−x dx.
0
On a en intégrant E(X) = p
λ
and Var(X) = p
λ2
.
Remarque 1.2
L
Noter que pour p = 1 on a la loi exponentielle de paramètre λ, i.e. γ(1, λ) =
E (λ).
Si X1 , X2 , . . . , Xn sont des variables aléatoires réelles indépendantes de
même loi E (λ), alors X1 + X2 + . . . + Xn ; γ(n, λ).
L
On remarque que χ2n = Γ n2 , 2 , si bien que E(X) = n et Var(X) = 2n. De
1
Cette loi a une expérance innie, i.e. E(X) = +∞. On prend souvent θ = 0 et
donc
1
fX (x) = .
π (1 + x2 )
Tn a pour densité
− n+1
x2
1 2
fX (x) = √ 1 + , x ∈ R,
nβ 21 , n2
n
avec
1
Γ(p)Γ(q)
Z
β(p, q) = x p−1
(1 − x) q−1
dx = pour p, q ∈ N .
?
0 Γ(p + q)
On prouve que la loi de Student est centrée comme la loi normale. On a E(Tn ) = 0
et Var(Tn ) = n−2
n
pour n > 2.
Exemple 2.1 Les étudiants de l'université de Kara, les salariés d'une entreprise,
la production d'automobiles d'une année, le stock des machines à une date donnée.
Exemple 2.2 Si la population étudiée est constituée des étudiants de la faculté des
sciences, les caractères étudiés peuvent être : le parcours, la spécialité, l'âge, le sexe,
le nombre de crédits capitalisés, etc.
14
CHAPITRE 2. ÉTUDE D'UNE SÉRIE STATISTIQUE À UNE VARIABLE KPANZOU T.A./FaST/UK
Exemple 2.3 Les deux modalités du caractère sexe sont : masculin et féminin.
a) Caractères qualitatifs
Les caractères qualitatifs ou variables catégorielles sont des caractères dont les dif-
férentes modalités ne sont pas mesurables. Elles sont non numériques dans le sens
où les opérations de base n'ont pas de sens.
On distingue deux types de caractères qualitatifs : les caractères qualitatifs nomi-
naux et les caractères qualitatifs ordinaux (ou ordonnés).
Caractères qualitatifs nominaux : les diérentes modalités ne sont que des noms
ou des catégories qui ne suivent pas un ordre naturel. C'est le cas par exemple de la
race, la couleur des yeux, la marque de voiture, le sexe, etc.
Caractères qualitatifs ordonnés : les modalités suivent un ordre naturel ou
peuvent être classées dans un ordre spécique. C'est le cas par exemple du niveau
d'éducation, du degré de satisfaction, etc. Ces variables sont repérables selon un
type d'échelle plus ou moins légitime. Les catégories pourront alors donner lieu à un
codage par les rangs qui ouvrira une autre gamme de traitements possibles proches
de ceux des variables quantitatives.
Il s'agit des caractères (ou variables) dont les modalités sont mesurables, c'est-à-dire
appartiennent à R. On distingue deux types de variables quantitatives : les variables
discrètes et les variables continues.
Variable discrète : les valeurs sont obtenues par dénombrement. C'est le cas par
exemple du nombre d'élèves. Une variable discrète peut ne prendre que certaines
valeurs isolées (dans N). C'est le cas du nombre de personnes qui composent un
ménage. Elle peut prendre une innité de valeurs dénombrables, mais elle peut aussi
n'en prendre que quelques unes.
Variable continue : peut prendre toutes les valeurs à l'intérieur d'un intervalle. Le
nombre de modalités possibles d'une telle variable est alors inni. C'est le cas par
exemple de la taille, la température, le salaire, le PIB par habitant, etc.
b) Percentile
Le p-ième percentile est la valeur telle qu'au moins p pour cent des observations ont
une valeur inférieure ou égale à cette valeur, et (100 − p) pour cent des observations
ont une valeur supérieure ou égale à cette valeur.
Calcul du p-ième percentile
Étape 1 : classer les données dans l'ordre croissant.
p
Étape 2 : calculer l'index i = × n où n le nombre d'observations.
100
Étape 3 (décision) : si i n'est pas un nombre entier naturel, la position du p-ième
percentile correspond à l'entier E(i) + 1, où E(i) désigne la partie entière de i ; si
i est un nombre entier, le p-ième percentile correspond à la moyenne des valeurs des
observations i et i + 1.
c) Quartile
Les quartiles sont des percentiles particuliers. Les étapes de calcul des percentiles
peuvent être directement appliquées au calcul des quartiles. Il y a trois quartiles :
Q1 = Premier quartile soit 25e percentile,
Q2 = Deuxième quartile soit 50e percentile,
Q3 = Troisième quartile soit 75e percentile.
d) Médiane
La médiane (M e) d'une distribution est la valeur de la variable statistique qui
partage en deux eectifs égaux les individus de la population rangés selon la valeur
croissante du caractère. C'est le cas où p = 50.
Si F est la fonction de répartition représentée par les fréquences cumulées, la médiane
est la valeur statistique telle que F (M e) = 0, 5.
Exercice 2.2 Les données sur les salaires mensuels initiaux (en euros) des em-
ployés d'une agence de voyage sont : 2850 2950 3050 2880 2755 2710 2890 3130 2940
3325 2920 2880. Déterminer le 10e percentile ainsi que les quartiles Q1 , Q2 et Q3 .
e) Moyenne arithmétique
La moyenne arithmétique d'une variable statistique est la somme, pondérée par les
fréquences, des valeurs.
m m
X 1X
x̄ = fi xi = ni xi .
i=1
n i=1
f) Moyenne de sous-populations
La moyenne x̄ d'une population P composée de p sous-populations Pj peut être
exprimée en fonction des moyennes x̄j des sous-populations :
p nj
fj x̄j , où
X X
x̄ = x̄j = fij xij .
j=1 i=1
g) Moyenne harmonique
La moyenne harmonique (H ) est utilisée pour estimer la moyenne des inverses quand
la grandeur a une dimension de vitesse. Elle est dénie par :
1 1
H = = .
1 Pm n
i Pm f
i
n i=1 xi i=1 xi
h) Moyenne géométrique
La moyenne géométrique (G) est utilisée quand on étudie les variations relatives, en
particulier les accroissements. Elle est dénie par :
v
um
uY n
n
G= t xi i .
i=1
i) Moyenne quadratique
La moyenne quadratique (Q2 ) est utilisée pour calculer la moyenne des carrés des
observations. m X
Q2 = fi x2i .
i=1
b) Variance et écart-type
La variance V (X) se calcule par la formule
m m m
1X 2
X
2
X
V (X) = ni (xi − x̄) = fi (xi − x̄) = fi x2i − x̄2 .
n i=1 i=1 i=1
c) Coecient de variation
C'est le rapport de la moyenne arithmétique à l'écart type, déni par :
σX
CV (X) = .
x̄
Le CV permet d'apprécier la représentativité de la moyenne par rapport à l'ensemble
des observations. Il donne une bonne idée du degré d'homogénéité d'une série. Il faut
qu'il soit le plus faible possible (< 0.15 en pratique).
d) Moment d'ordre k
m
1X
mk = ni xki .
n i=1
m
1X
µk = ni (xi − x̄)k .
n i=1
Exercice 2.3 Lors d'une journée, on a relevé les âges de 20 personnes venant se
présenter à l'examen théorique du permis de conduire : 19, 20, 20, 24, 37, 22, 58, 24,
23, 20, 19, 19, 21, 22, 20, 27, 33, 20, 22, 21. (a) Préciser la population, l'échantillon et
le caractère étudiés. Quelle est la nature de ce caractère ? (b) Déterminer la moyenne
arithmétique, géométrique, harmonique et quadratique de cette série. (c) Déterminer
la médiane, le mode, la variance, l'écart-type, le coecient de variation et l'écart
inter-quartile de cette distribution d'âges. (d) La distribution est-elle homogène ?
Justier.
b) Amplitude de classe
La valeur de l'amplitude d'une classe est calculée par la diérence entre la valeur de
la borne supérieure et celle de la borne inférieure. Il arrive que la borne inférieure de
la première classe et la borne supérieure de la dernière classe ne soient pas données.
Pour estimer les bornes absentes, nous disposons des possibilités suivantes :
Rééchir à ce que pourrait être la valeur de cette borne.
Donner à la première classe l'amplitude de la deuxième classe et à la dernière
l'amplitude de l'avant dernière.
Les classes peuvent avoir une amplitude variable ou constante. Par exemple, la va-
riable âge est souvent subdivisée en classes d'amplitude de 5 ans, 0 à moins de
5 ans, 5 ans à moins de 10 ans, etc. 0, 5, 10, etc. sont les extrémités des classes.
c) Centre de classe
Pour mener des calculs statistiques sur des séries classées, les classes sont réduites à
une seule donnée, à savoir, le centre de classe. Cela revient à considérer que tous les
individus peuvent être décrits par ce centre de classe. Par dénition, le centre ci de
xi + xi+1
la classe [xi ; xi+1 [ est donné par ci = .
2
b) Percentile
Pour déterminer le p-ième percentile P e dans le cas d'une variable continue, on
détermine d'abord l'intervalle auquel appartient ledit percentile : P e ∈ [xi ; xi+1 [
et F (P e) = p/100 = p̃ avec Fi−1 < p̃ ≤ Fi . Par la formule de l'interpolation
linéaire, on obtient alors :
p̃ − Fi−1 p̃ − Fi−1
P e = xi + ai × = xi + ai × .
Fi − Fi−1 fi
La médiane, M e, est le 50-ième percentile.
b) Ecart inter-quartile
L'écart inter-quartile se dénit par : IQ = Q3 − Q1 . L'intervalle inter-quartile,
[Q1 ; Q3 ], contient 50% des observations.
c) Rapport inter-quartile
Q3
Le rapport inter-quartile est le rapport . C'est un nombre sans dimension qui
Q1
donne une mesure relative des écarts entre les 25% des valeurs les plus basses et les
25% des valeurs les plus élevées.
d) Ecart inter-décile
L'écart inter-décile se dénit par : ID = D9 − D1 . L'intervalle inter-décile,
[D1 ; D9 ], contient 80% de l'eectif de la population, il élimine les 10% des valeurs
les plus élevées et les 10% des valeurs les plus basses.
e) Rapport inter-décile
D9
Le rapport inter-décile vaut . C'est un nombre sans dimension qui compare les
D1
valeurs extrêmes de la distribution en excluant les 10% des valeurs les plus basses
et les 10% des valeurs les plus élevées.
f) Coecient de dispersion
Le coecient de dispersion Cdis est déni par le rapport de l'écart inter-quartile à
la médiane ou encore le rapport de l'écart inter-décile à la médiane, i.e.
Q3 − Q1 D9 − D1
Cdis = ou Cdis = .
Me Me
h) Variance et écart-type
m m m
1X 2
X
2
X
V (X) = ni (ci − x̄) = fi (ci − x̄) = fi c2i − x̄2
n i=1 i=1 i=1
et p
σX = V (X).
i) Coecient de variation
σX
CV (X) = .
x̄
j) Moment d'ordre k
m
1X
mk = ni cki .
n i=1
m
1X
µk = ni (ci − x̄)k .
n i=1
HH
Y
H y1 ··· yj ··· yp E. marg. de X
X HH
H
p
P
x1 n11 ··· n1j ··· n1p n1· = n1j
j=1
.. .. .. .. .. .. ..
. . . . . . .
p
P
xi ni1 ··· nij ··· nip ni· = nij
j=1
.. .. .. .. .. .. ..
. . . . . . .
p
P
xm nm1 ··· nmj ··· nmp nm· = nmj
j=1
E. marg. Pm m
P m
P m
P p
P
n·1 = ni1 · · · n·j = nij ··· n·p = nip n= ni· = n·j
de Y i=1 i=1 i=1 i=1 j=1
L'eectif nij de la classe (i, j) est le nombre d'individus de la population qui pré-
sentent simultanément la modalité xi de la variable X et la modalité yj de la
variable Y . La distribution s'écrit (xi , yj , nij ). Tous les individus présentant ces
deux modalités sont comme équivalents. Le total des lignes et le total des colonnes
dénissent les distributions marginales. Une ligne ou une colonne constitue une dis-
tribution conditionnelle.
26
CHAPITRE 3. ÉTUDE D'UNE SÉRIE STATISTIQUE À DEUX VARIABLES KPANZOU T.A./FaST/UK
De même, la série (yj , n·j ) constitue le prole colonne. La fréquence marginale des
individus présentant la modalité yj est
m
X n·j
f·j = fij = .
i=1
n
p
m X m p
On a la relation suivante : f·j = 1.
X X X
fij = fi· =
i=1 j=1 i=1 j=1
b) Pour la variable Y
p p
1X
Moyenne marginale : ȳ = f·j yj .
X
n·j yj =
n j=1 j=1
p p
1X
Variance marginale : V (Y ) = f·j (yj − ȳ)2 .
2
X
σY2 = n·j (yj − ȳ) =
n j=1 j=1
b) Pour la variable Y
p p
1 X
Moyenne conditionnelle : ȳi = f (yj | xi )yj .
X
nij yj =
ni· j=1 j=1
p p
1 X
Variance conditionnelle : Vi (Y ) = f (yj | xi ) (yj − ȳi )2 .
X
nij (yj − ȳi )2 =
ni· j=1 j=1
Exercice 3.6 La tableau suivant présente les revenus des ménages (RM) en fonc-
tion du niveau d'étude (NE) du chef de ménage.
PP RM
PP
[0 ;25[ [25 ;50[ [50 ;75[ [75 ;100[ [100 ;125[ Total
P
NE PP
PP
Secondaire sans diplôme 9285 4093 1589 541 354 15862
Secondaire avec diplôme 10150 9821 6050 2737 2028 30786
Université sans diplôme 5011 9221 5813 3215 3120 26380
Licence 2138 3985 3952 2698 4748 17521
Master et plus 813 1497 1815 1589 3765 9479
Total 27397 28617 19219 10780 14015 100028
(a) Calculer les fréquences marginales. (b) Quel est le pourcentage des chefs de mé-
nages diplômés d'université et ayant un revenu compris entre 50 et 75 mille francs ?
(c) Calculer le revenu moyen des ménages, le revenu le plus fréquent, la médiane, et
l'écart-type des revenus.
σXY
a0 = et b0 = x̄ − a0 ȳ.
σY2
m
P1 m
P2
avec n1 = ni , n2 = ni et n = n1 + n2 .
i=1 i=1