Vous êtes sur la page 1sur 7

1 GÉNÉRALITÉS

DEUXIEME PARTIE : STATISTIQUE DESCRIPTIVE

1 Généralités
Les statistiques sont des ensembles des données d’observation : recensement (ce sont des
chiffres). Les probabilités forment une branche de mathématique et sont donc rigoureuses et
exactes. Pour cela, elles travaillent des objets mathématiques parfaitement définis et abstraits.
Le mot statistique a été introduit par l’italien GHISLINI en 1589 et désignait la science des-
criptive des états. Aujourd’hui, ce mot désigne la méthode scientifique dont le but est l’étude
des propriétés numériques des ensembles.
Elle comprend trois phases :

- L’élaboration des données statistiques systématiques sur un sujet quelconque. Cette phase
surtout descriptive compose la collecte de données ainsi obtenues sous forme de tableaux sta-
tistiques et graphiques.

- Leur analyse : le calcul des caractéristiques essentielles, la série statistique,...

- L’interprétation des résultats de l’analyse qui permet de vérifier les hypothèses et de pré-
visions. C’est la phase décisive de l’étude statistique.

Lors qu’on observe et étudie un seul trais de caractère sur une population, on parle de sta-
tistique descriptive uni-variée ou de distribution statistique à une seule variable.

1.1 Population, Individus ou les unités statistiques et les caractères


statistiques
Définition 1 : Une population est un ensemble des personnes (Ex : employés d’une entre-
prise, élèves d’un lycée, etc.) ou d’objets (ex : parc d’automobiles d’un pays, ...).

Définition 2 : On appelle individu ou unité statistique, un composant de la population sur


laquelle l’on mène une enquête ou encore une étude statistique.

1.2 Les caractères ou variables statistiques : qualitatifs et quantitatifs


Définition 3 : On appelle caractère ou variable statistique, l’objet d’étude porté sur les
individus d’une population donnée.
Ainsi l’unité statistique peut être décrite par rapport à un ou plusieurs caractères. ex : dans le
cas du personnel d’une entreprise, on peut étudier les caractères suivants : âge, sexe, ancienneté
dans l’entreprise. On note un caractère par X,Y,Z, etc.
ex : les étudiants d’une classe de L2 peuvent être décrits selon diverses variables statistiques
telles que X= âge, Y=taille.

a) Caractère qualitatif : Un caractère est qualitatif s’il est lié à une observation ne fai-
sant pas l’objet d’une mesure. Ex : la population tchadienne peut être caractérisée par le sexe
(masculin ou féminin), l’état matrimonial(célibataire, mariée, veuve, divorcée,...)

Définition 4 : Les modalités sont des différentes rubriques associées à un caractère quali-
tatif. Ainsi le caractère "sexe" comporte deux modalités qui sont masculin et féminin.

1
1.3 Présentation en tableau 1 GÉNÉRALITÉS

Propriétés 1 : Les modalités d’un caractère doivent former une partition, c’est-à-dire être
exhaustives et disjointes. A chaque individu, on doit pouvoir associer une modalité et une seule.

Définition 5 : On appelle effectif d’une modalité numéro 1 ≤ i ≤ p, le nombre ni d’indi-


vidus permettant cette modalité. En d’autres termes, ni est le nombre de fois que la modalité
i a été observé (apparait dans la série statistique donnée par le caractère X).

Définition 6 : On appelle fréquence d’une modalité i, le rapport de l’effectif de cette mo-


dalité ni par l’effectif total N de la population.
ni
fi =
N

1.3 Présentation en tableau


Modalité i Effectif ni fi
1 n1 f1
.. .. ..
. . .
p np fp
Avec les relations suivantes :
p p
X ni X
N= ni , fi = Pp , fi = 1
i=1 i=1 ni i=1

1.4 Caractère quantitatif


Un caractère est quantitatif s’il est mesurable. Il est :

- discret si les valeurs observées sont isolées ;


- continue s’il peut prendre toute valeur d’un intervalle réel. On traite comme de caractère
continue, tout caractère discret dont on a regroupé les valeurs dans les classes.

Tableau associé à un caractère discret


Valeurs observées xi Effectif ni fi Fréquences cumulées crois-
santes Fi
x1 n1 f1 F1
.. .. .. ..
. . . .
xp np fp Fp

Tableau associé à un caractère continue


Valeurs observées [xi − xi+1 [ Effectif ni fi Fréquences cumulées crois-
santes Fi
[x1 − x2 [ n1 f1 F1
.. .. .. ..
. . . .
[xp − xi=p+1 [ np fp Fp

2
1.5 Représentation graphique
2 ÉLÉMENTS CARACTÉRISTIQUES DES SÉRIES STATISTIQUES

1) Par convention, une classe est un intervalle fermé à gauche et ouvert à droite du type
[xp − xi=p+1 [. Elle est dite bornée si xi 6= −∞ et xi+1 6= +∞.

2) l’effectif ni de la classe [xi − xi+1 [ est le nombre d’individus dont le caractère prend une
valeur ≥ à xi et strictement inférieur à xi+1 (xi < xi+1 ).

3) Le centre d’une classe bornée est donné par :


xi + xi+1
ci =
2

4) L’amplitude d’une classe bornée est donnée par :

yi = xi+1 − xi

5) La densité d’une classe bornée est donnée par :


xi
di =
yi

1.5 Représentation graphique


1.5.1 Caractère qualitatif
Les représentations graphiques des caractères qualitatifs sont très nombreuses et sont des
fonctions de différentes modalités du caractère.

-Diagramme en bandes
Le caractère étant qualitatif, on place sur une droite horizontale, les modalités du caractère.
On porte sur un axe vertical les effectifs ou les fréquences et on trace une bande verticale
proportionnelle à l’effectif associé à cette modalité.

1.5.2 Caractère quantitatif discret


Le caractère étant quantitatif, on porte les valeurs discrètes du caractère sur l’axe des
abscisses et les effectifs (ou fréquences) associées au caractère sur l’axe des ordonnées.

2 Éléments caractéristiques des séries statistiques


2.1 Série statistique
On appelle série statistique, la suite des valeurs prises par une variable X sur les unités
d’observation. Le nombre d’unités d’observation est noté n. Les valeurs de la variable X sont
notées x1 , . . . , xi , . . . , xn .
Exemple : On s’intéresse à la variable ’état-civil’ notée X et ) la série statistique des valeurs
prises par X sur 20 personnes. La codification est

3
2.2 caractéristique de
2 tendance
ÉLÉMENTScentrale
CARACTÉRISTIQUES DES SÉRIES STATISTIQUES

C : célibataire,
M : marié(e)
V : veuf(ve)
D : divorcé(e)
Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante :

MMDCCMCCCM
CMVMVDCCCM
Ici, n = 20, alors x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, ...., x2 0 = M.

2.2 caractéristique de tendance centrale


2.2.1 Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus élevé c’est-à-dire la valeur
la plus fréquente dans une série d’observations. Il est noté xM .

Ex : la série {1; 7; 2; 4; 5; 3} n’a pas de mode. La série {4; 5; 4; 4; 5; 1; 3; 2; 2; 1; 2} a deux modes


à savoir 2 et 4.

2.2.2 La médiane
C’est la valeur qui sépare une série d’observations ordonnées en ordre croissant ou décrois-
sant, en deux parties comportant le même nombre d’observations. On la désigne par la notation
Me.

Méthode de calcul
- Présenter les données sous forme de série. Lorsque les données sont présentées sous forme
de tableau de distribution, les convertir en série.
- Ordonner la série par ordre croissant ou décroissant.
- Déterminer si la série comprend un nombre pair ou impair d’unités statistiques.
Soit N le nombre d’observations :
Cas où N est impair : Dans ce cas la médiane est la valeur qui occupe le rang N2+1 dans la
série ordonnée.
Exemple : Série S = 2 ; 4 ; 4 ; 6 ; 7 ; 8 ; 10 ; 10 ; 12. Ici, la médiane est égale à 7.

N
Cas où N est pair : Dans ce cas la médiane est la moyenne des valeurs de rangs 2
et
N
2
+ 1.

2.2.3 La moyenne arithmétique


La moyenne arithmétique d’un ensemble de données est la somme des valeurs obtenues
divisée par le nombre d’observations. Elle est notée X − pour une variable notée X. Sa formule
est :
N
− 1 X
m=X = Xi
N i=1

4
2.3 caractéristique de dispersion 3 AJUSTEMENT LINÉAIRE

2.2.4 Les quartiles


Ce sont les valeurs du caractère qui partagent la série en quatre sous-ensembles de tailles
égales. Ils sont au nombre de 3 : Q1 , Q2 et Q3
Q1 = F ( 14 )l e premier quartile : 25 % de valeurs inférieures et 75 % de valeurs supérieures.
Q2 = F ( 12 ) deuxième quartile : 50 % de valeurs inférieures et 50 % de valeurs supérieures, Q2
est la médiane.
Q3 = F ( 43 ) le troisième quartile : 75 % des valeurs inférieures et 25 % des valeurs supérieures.

2.3 caractéristique de dispersion


2.3.1 L’étendu ou rang
C’est la différence entre la plus grande et la plus petite valeur observée. E = x( n) − x( 1).

2.3.2 Intervalle interquartile


La distance interquartile est la différence entre le troisième et le premier quartile : IQ =
x3/4 − x1/4 .

2.3.3 La variance
La variance est la somme des carrés des écarts à la moyenne divisée par le nombre d’obser-
vations : n
2 1X
sx = (xi − m)2 .
n i=1
La variance peut aussi s’écrire :
n
1X 2
s2x = x − m2 .
n i=1 i

2.3.4 L’écart-type
p
L’écart-type est la racine carrée de la variance : δx = s2x .

3 Ajustement linéaire
Dans le cas où on peut mettre en évidence l’existence d’une relation linéaire significative
entre deux caractères quantitatifs continus X et Y (la silhouette du nuage de points est étirée
dans une direction), on peut chercher à formaliser la relation moyenne qui unit ces deux variables
à l’aide d’une équation de droite qui résume cette relation. Nous appelons cette démarche
l’ajustement linéaire.

3.1 Coefficient de corrélation


Les coefficients de corrélation permettent de donner une mesure synthétique de l’intensité
de la relation entre deux caractères et de son sens lorsque cette relation est monotone. Le co-
efficient de corrélation de Pearson permet d’analyser les relations linéaires (voir ci-dessous). Il
existe d’autres coefficients pour les relations non-linéaires et non-monotones, mais ils ne seront
pas étudiés dans le cadre de ce cours.

5
3.2 Droite de régression 3 AJUSTEMENT LINÉAIRE

Définition : On appelle coefficient de corrélation, la quantité

Cov(X, Y )
σX Y =
δX δY
Proposition 3 : Le coefficient est compris entre [−1, 1], ou encore |σX Y | ≤ 1
Le coefficient mesure le degré de liaison linéaire entre X et Y.
- Plus le module de σX Y est proche de 1 plus X et Y sont liées linéairement.
- Plus le module de σX Y est proche de 0 plus il y a l’absence de liaison linéaire entre X et Y .

Remarque : Par définition, si σX Y = 0, alors Cov(X, Y ) = 0.

3.2 Droite de régression


L’idée est de transformer un nuage de point en une droite. Celle-ci doit être la plus proche
possible de chacun des points. On cherchera donc à minimiser les écarts entre les points et la
droite.
Pour cela, on utilise la méthode des moindres carrées. Cette méthode vise à expliquer un nuage
de points par une droite qui lie Y à X, c’est à dire,

Y = aX + b,

telle que la distance entre le nuage de points et droite soit minimale. Cette distance matérialise
l’erreur, c’est à dire la différence entre le point réellement observé et le point prédit par la droite.
Si la droite passe au milieu des points, cette erreur sera alternativement positive et négative,
la somme des erreurs étant par définition nulle. Ainsi, la méthode des moindres carrés consiste
à chercher la valeur des paramètres a et b qui minimise la somme des erreurs élevées au carré.
On pose
Xn
e2i = U (a, b),
i=1

avec ei est l’erreur commise sur chaque observation, c’est à dire,

|ei | = |yi − yi∗ | = |yi − axi − b|.

La méthode des moindres carrées consiste donc à minimiser la fonction U (la somme des erreurs
commises). Nous avons la condition de minimisation suivante,

∂U ∂U
= =0
∂a ∂b
avec n
X
U (a, b) = (yi − axi − b)2 .
i=1

L’équation
∂U
=0
∂b
donne n
X
−2(yi − axi − b)
i=1

6
3.2 Droite de régression 3 AJUSTEMENT LINÉAIRE

Ce qui implique que


n n n
X X X 1
( yi − a xi − b 1 = 0) ×
i=1 i=1 i=1
N
Par conséquent, nous obtenons y − − ax− − b = 0 alors

b = y − − ax− .

De même, après calcule,


∂U
=0
∂a
implique que
Cov(X, Y )
a=
V ar(X)
Donc, la droite de régression, qui rend la distance entre elle et les points minimale, est donnée
par
D(Y /X) : Y = aX + b
Remarque :Le coefficient de corrélation σX Y permet de justifier le fait de l’ajustement linéaire.
On adopte les critères numériques suivants :
- Si |σX Y | < 0.7, alors l’ajustement linéaire est refusé (droite refusée).
- Si |σX Y | ≥ 0.7, alors l’ajustement linéaire est accepté (droite acceptée)

Vous aimerez peut-être aussi