Académique Documents
Professionnel Documents
Culture Documents
1 Terminologies 4
1.1 Population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Echantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Variables ou caractères statistiques . . . . . . . . . . . . . . . 5
1.3.1 Variables quantitatives . . . . . . . . . . . . . . . . . . 5
1.3.2 Variables qualitatives . . . . . . . . . . . . . . . . . . . 5
1
TABLE DES MATIÈRES
Introduction générale
Théoriquement la statistique peut être définie comme une science, une
méthode et une technique qui consiste en l’étude de données observées. La
statistique comprend : la collecte des données, le traitement des données col-
lectées, l’interprétation des données, la présentation afin de rendre les données
compréhensibles par tous. Les domaines d’application de la statistiques sont
nombreux et variés. Elle s’applique entre autres, en météorologie, en assu-
rances, en biologie, en marketing, en médecine, en psychologie, en politique,
à la justice, à la production industrielle, etc.
Terminologies
1.1 Population
La population statistique est l’ensemble des éléments sur lesquels porte
l’étude.
Les éléments de la population sont appelés individus statistiques ou unités
statistiques. La population constitue l’univers de référence de l’étude.
Exemple
1.2 Echantillon
Un échantillon de taille n est un sous-ensemble formé de n individus de
la population (n ≤ N ).
La notion d’échantillon est fondamentale car, dans plusieurs situations, la
population entière n’est pas disponible ou observable. Dans ce cas, seul un
échantillon est étudié et les résultats obtenus sont extrapolés à la population.
4
CHAPITRE 1. TERMINOLOGIES
2.1.1 Définitions
Série statistique
Une série statistique correspond aux différentes modalités d’un caractère
sur un échantillon d’individus appartenant à une population donnée.
Le nombre d’individus qui constituent l’échantillon étudié s’appelle la taille
de l’échantillon.
7
CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE
Données brutes
On appelle données brutes ou tableau élémentaire le tableau relevant pour
chaque unité statistique la modalité de la variable étudiée.
Tri à plat
On appelle tri à plat la transformation qui permet de passer du tableau
des données brutes au tableau de la distribution statistique présentant les
modalités et les effectifs, les modalités étant classées par ordre croissant.
Classes
Pour pouvoir décrire des variables continues, il est parfois nécessaire de
les discrétiser, c’est à dire les répartir en classes : des intervalles de valeurs
successifs. Les classes peuvent être définies en fonction du nombre de classe
que l’on veut obtenir ou selon une amplitude fixe.
Notes sur 20 6 8 10 12 15 18 19
Nombre des étudiants 2 6 9 9 3 3 3
1. Quelles est la population étudiée ?
2. Déterminer la variable et sa nature.
3. Quel est l’effectif des participants ?
4. Calculer les effectifs cumulés croissants et déccroissants.
5. Combien de participants ont une note au moins égales à 10 ?
6. Pour être retenu il faut avoir au moins 12, combien de candidats sont-ils
recalés ?
7. Combien d’étudiants ont une note au plus égales à 18 ?
8. Quelle est la fréquence de la notes 10 ?
9. Quel est le pourcentage des candidats retenus ?
Remarque :
– Le mode peut être calculé pour tous les types de variable, quantitative
et qualitative
– Le mode n’est pas forcément unique.
La médiane
Cas d’une variable quantitative discrete
– Si N est pair
x N + x N +1
2 2
Me =
2
La moyenne
La moyenne (ou moyenne arithmétique) est la somme des valeurs obser-
vées divisée par leur effectif, elle est notée x. On a :
N
x1 + x2 + ... + xN 1 X
x= = xi
N N 1
La moyenne géométrique
Si xi ≥ 0, on appelle moyenne géométrique la quantité
N
! N1
1
Y
G= xi = (x1 × x2 × ... × xN ) N
i=1
La moyenne harmonique
Si xi ≥ 0, on appelle moyenne harmonique la quantité
1
H = PN 1
i=1 xi
La moyenne pondérée
Dans le cas où on n’accorde pas le même poids à toutes les observations,
on peut pondérer les modalités par leurs poids.
Par exemple, en calculant la moyenne des notes pour un programme d’étude,
on peut pondérer les notes de l’étudiant par le nombre de crédits ou par le
nombre d’heures de chaque cours. Si on désigne par wi ≥ 0, i = 1, ..., N les
poids associés à chaque observation, la moyenne pondérée par wi est définie
par : PN
w i xi
xw = Pi=1 N
i=1 wi
Les quantiles
On parle de quantile quand la série est divisé en k sous-ensembles, comme
pour le cas de la médiane où k = 2.
Si k = 4, les quantiles sont appelés quartiles et si k = 10 on parle de déciles.
. Les quartiles
. Les déciles
– Le premier décile est la plus petite valeur de la série telle qu’au moins
un dixième (10%) des valeurs de celle-ci lui sont inférieures ou égales.
– Le neuvième décile est la plus petite valeur de la série telle qu’au
moins neuf dixième (90%) des valeurs de celle-ci lui sont inférieures
ou égales.
La distance interquartile
La distance interquartile est la différence entre le troisième et le premier
quartile.
IQ = Q3 − Q1
La variance
La variance est la somme des carrés des écarts à la moyenne divisée par
le nombre d’observations :
N
1 X
V (x) = (xi − x)2
N i=1
Démonstration
N
1 X
V (x) = (xi − x)2
N i=1
N
1 X 2
= (xi − 2xi x + x2 )
N i=1
N N N
1 X 2 1 X 1 X 2
= x − 2x xi + x
N i=1 i N i=1 N i=1
N
1 X 2
= x − 2x x + x2
N i=1 i
N
1 X 2
= x − 2x2 + x2
N i=1 i
N
1 X 2
= x − x2
N i=1 i
En considérant les modalités distinctes, la variance devient
J
1 X
V (x) = nj (xj − x)2
N i=1
ou encore
J
1 X
V (x) = nj x2j − x2
N i=1
L’écart-type
L’écart-type est la racine carrée de la variance :
p
σx = V (x )
Les moments
. On appelle moment à l’origine d’ordre r ∈ N le paramètre
N
1 X r
m0r = x.
N i=1 i
Remarque Tous les coefficients d’asymétrie ont les mêmes propriétés, ils
sont nuls si la distribution est symétrique, négatifs si la distribution est al-
longée à gauche (left asymmetry), et positifs si la distribution est allongée à
droite (right asymmetry).
Variables qualitatives
.Diagramme en barres
Les modalités de la variable sont placées sur l’axe des abscisse et les effec-
tifs (ou les fréquences) sur l’axe des ordonnées. La hauteur de la barre est
proportionnelle à l’effectif. Les barres ont une certaine épaisseur pour faire
la différence avec les diagrammes en bâtons réservés à des variables quanti-
tatives discrètes.
Exemple 5 Soit la série statistique qui groupe des étudiant selon le type
de sport pratiqué
.Diagramme circulaire
L’effectif total est représenté par un disque. Chaque modalité est représentée
par un secteur circulaire dont les angles au centre sont proportionnels à
l’effectif correspondant. L’angle de la modalité xi est donné par :
ni
αi = × 360◦
N
Variables quantitatives
.Diagramme en bâtons
Les valeurs discrètes xi prises par les variables sont placées sur l’axe des abs-
cisses, et les effectifs (ou les fréquences) sur l’axe des ordonnées. La hauteur
du bâton est proportionnelle à l’effectif correspondant.
Exemple 7 : Soit une enquête portant sur le nombres d’enfant dans trente
quatre familles.
Nbre d’enfants 1 2 3 4 5 6
Effectif 5 2 8 4 10 5
.Histogramme
L’histogramme est utilisé pour les variables quantitatives continues (regrou-
pées en classes). C’est un ensemble de rectangles. Chaque rectangle est associé
à une classe et il a une surface proportionnelle à l’effectif (ou fréquence) de
cette classe.
On distingue deux cas :
N N
1 X 2 1 X 2
V (x) = (xi − x) = xj − x2
N i=1 N i=1
N N
1 X 2 1 X 2
V (y) = (yi − y) = yj − y 2
N i=1 N i=1
21
CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE
3.2.2 Covariance
La covariance généralise à deux variables la notion de la variance. On la
définit comme suit :
N
1 X
cov(x, y) = (xi − x)(yi − y)
N i=1
ou
N
1 X
cov(x, y) = xi y i − x y
N i=1
Remarque
– La covariance peut être positive, négative ou nulle.
– Quand xi = yi , pour tout i = 1, ..., n, la covariance est égale à la
variance.
cov(x, y)
rxy =
σx σy
Remarque
– le coefficient de corrélation est compris entre −1 et 1 (−1 ≤ rxy ≤ 1)
– le coefficient de détermination est compris entre 0 et 1 (0 ≤ rxy ≤ 1)
Interprétation
Le coefficient de corrélation est égal à 1 si l’une des variables est une
fonction affine croissante de l’autre variable, à -1 dans le cas où une variable
est une fonction affine décroissante.
Les valeurs intermédiaires renseignent sur le degré de dépendance linéaire
entre les deux variables.
x 10 15 20 20 25 30 30 30 35 40 45 45 50 60 60
y 35 45 50 55 60 60 65 70 80 80 80 75 75 85 70
Propriétés
– Si le coefficient de corrélation est égale à 1 les points sont alignés le
long d’une droite crossante.
– Si le coefficient de corrélation est égale à −1 sont alignés le long d’une
droite crossante.
– Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de
dépendance linéaire.
x1 , ..., xi , ..., xp
et
y1 , ..., yj , ..., yq
Exemple 11
nij fij
fj|i = =
ni. fi.
nij fij
fi|j = =
n.j f.j
28