Vous êtes sur la page 1sur 4

COURS

STATISTIQUES DESCRIPTIVES

1 Rappels
1.1 Définition
La statistique est la discipline qui étudie des phénomènes à travers la collecte de données,
leur traitement, leur analyse, l’interprétation des résultats et leur présentation afin de rendre
ces données compréhensibles par tous.

1.2 Vocabulaire

E
+ Population : Une étude statistique porte toujours sur un ensemble de personnes, d’ani-
maux, de végétaux ou de choses. L’ensemble sur lequel porte l’étude statistique est appelé
population (l’ensemble des élèves de la T S2 est une population, l’ensemble des moutons d’un

Y
troupeau est une population).
+ Individu : Tout élément de la population est appelé individu (Chaque élève de la T S2 est
un individu).

IA
+ Caractère : L’information étudiée sur chaque individu est appelé caractère. Un caractère
est quantitatif lorsqu’il est mesurable par un nombre (taille, poids, note...). Un caractère est dit
qualitatif s’il ne peut pas être exprimé par un nombre (ethnie, situation matrimoniale, groupe
sanguin,...)
D
1.3 Série statistique simple
Soit X le caractère étudié sur une population. Pour chaque individu i, les différentes va-
.N

leurs dexi sont les modalités du caractère. Pour chaque modalité xi , on compte le nombre ni
d’individus ayant cette modalité, ni est l’effectif de la modalité xi .
La donnée des couples (x1 , n1 ); (x2 , n2 ); · · · (xp , np ) est une série statistique simple. Souvent, on
le présente sous forme d’un tableau :
· ·
.L

Modalités x1 x2 xp
Effectif n1 n2 · · np
x1 n1 + x2 n2 + · · · + xp np
Moyenne : La moyenne du caractère X notée x est définie par x =
N
où N = n1 + n2 + · · · + np : effectif total.
A

Variance et écart type


n1 x1 2 + n2 x2 2 + · · · + np xp 2
∗ La variance de X notée V (X) est définie par V (X) = − x2
N
∗ L’écart
q type noté σ(x) est la racine carrée de la variance.
σ(x) = V (X)

2 Série statistique double


Soit l’étude conjointe de deux caractères X et Y . Pour chaque individu, on donne xi et yi
les valeurs de X et de Y .
Les couples (x1 , y1 ); (x2 , y2 ); · · · ; (xp , yp ) constituent une série statistique double.

1
2.1 Présentation
2.1.1 Par un tableau de données ponctuelles
Valeurs de X x1 x2 · · xp
Valeurs de Y n1 n2 · · np
Chaque individu présente un couple (xi , yi )

2.1.2 Par un tableau à double entrée


X
x1 x2 x3 ··· xp Totaux
Y
y1 n11 n21 n31 ... np1 n.1
y2 n12 n22 n32 ... np2 n.2
y3 n13 n23 n33 ... np3 n.3

E
··· ··· ··· ··· ··· ··· ···
yp n1p n2p n3p ··· npp n.p
Totaux n1. n2. n3. ··· np. N

Y
Effectifs marginaux

IA
Soit la colonne xi , la somme ni1 + ni2 + ni3 + · · · + nip = ni. : l’effectif marginal de xi
Soit la ligne yj , la somme n1j + n2j + n3j + · · · + npj = n.j : l’effectif marginal de yj
D
Fréquences marginales
ni.
fi. = est la fréquence marginale de xi
N
n.j
f.j = est la fréquence marginale de yj
.N

Série marginale
x1 x2 · · xp y1 y2 · · yp
n1. n2. · · np. n.1 n.2 · · n.p
.L

Série marginale de X Série marginale de Y

Fréquences conditionnelles
nij
A

La fréquence conditionnelle de xi sachant yj est notée par fi/j =


n.j

2.2 Nuage de points - point moyen


Soit une série double (x1 , y1 ); (x2 , y2 ); · · · ; (xp , yp ).
Dans un repère orthogonal, l’ensemble des points des points Mi (xi , yi ) est le nuage de points
associé à la série.
Le point G(x, y) est le point moyen d’un nuage de points.

2.3 La covariance
y1 ); (x2 , y2 ); · · · ; (xp , yp ). La covariance de X et Y notée cov(X, Y )
Soit une série double (x1 ,P
xi yi
est définie par cov(X, Y ) = − x.y
N
2
2.4 Ajustement linéaire par la méthode des moindres carrées
L’ajustement linéaire consiste à tracer une droite qui passe par le plus près possible de tous
les points du nuage.
La méthode des moindres carrées permet de déterminer deux droites, appelées droite de régres-
sion.

2.4.1 Droite de régression de y en x.


(x1 , y1 ); (x2 , y2 ); · · · ; (xp , yp ) telle que V (X) 6= 0. La droite de régression de y en x notée
cov(X, Y )
Dy/x passe par le point moyen G(x, y) et a pour coefficient directeur le nombre a =
V (X)
On a Dy/x : y − y = a(x − x)

E
2.4.2 Droite de régression de x en y.
(x1 , y1 ); (x2 , y2 ); · · · ; (xp , yp ) telle que V (Y ) 6= 0. La droite de régression de x en y notée
cov(X, Y )

Y
Dx/y passe par le point moyen G(x, y) et a pour coefficient directeur le nombre a0 =
V (Y )
On a Dx/y : x − x = a0 (y − y)

2.4.3 Coefficient de corrélation linéaire


IA
Soit une série double (x1 , y1 ); (x2 , y2 ); · · · ; (xp , yp ). Le coefficient de corrélation linéaire entre
X et Y notée par r est défini par r = q
cov(X, Y )
D
V (X)V (Y )
Propriétés
+ −1 6 r 6 1
.N

+ a; a0 et r ont le même signe, en plus r2 = a × a0 . √


3
+ On dit que la corrélation est forte lorsque |r| > . Dans ce cas, on peut alors faire un
2
ajustement linéaire par la méthode des moindres carrées, et par conséquent faire des estimations.
Si r est proche de 0, la corrélation est faible.
.L

2.5 Exercice d’application


Le tableau de contingence suivant la répartition de 150 familles dans une ville en fonc-
tion du nombre personnes résidents (X) et du nombre de décès (Y ) dans cette même famille.
X
A

5 10 15 20 25
Y
0 10 12 10 5 8
1 1 7 9 13 16
2 0 2 3 9 15
3 0 2 2 12 14
1. a. Que signifie le nombre 7 en gras dans le tableau ?
b. Combien y a -t-il de familles ayant 15 habitants et 2 décès ?
c. Est -il possible de trouver une famille de 30 habitants et dont le nombre de décès est
1?
2. a. Déterminer les séries marginales associées aux caractères X et Y .
b. Calculer les moyennes marginales de ces deux séries.

3
3. a. Combien de distributions conditionnelles peut-on obtenir avec la variable X ?
b. En fixant la ligne 2, donner la distribution obtenue sous forme de tableau.
4. Pour étudier l’effet du médicament Artémisia, les autorités sanitaires ont mené une
série d’enquête sur le nombre de patients internés par semaine et traités par Artémisia.
Le tableau suivant donne le nombre de patients xi internés par semaine traités par Ar-
témisia et le nombre yi de guéris avec ce médicament.
xi 15 22 30 25 45 35 50
yi 11 17 24 14 20 10 34

a. Représenter le nuage de points.


b. Déterminer les coordonnées du point moyen G et le placer.
c. Déterminer l’équation de la droite de régression de X en Y puis la tracer.

E
d. Calculer le coefficient de corrélation linéaire r. Apprécier l’effet de l’Artémisia sur la
COVID-19.

Y
IA
D
.N
.L
A

Vous aimerez peut-être aussi