Vous êtes sur la page 1sur 11

Chapitre 1

Statistique descriptives

Contents
1.1 Méthodes Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Séries Statistiques a une variable . . . . . . . . . . . . . . . . . . . 2
1.3 Différents types de variables statistiques . . . . . . . . . . . . . . . 2
1.3.1 Échantillons et Histogrammes . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Statistique à deux dimensions . . . . . . . . . . . . . . . . . . . . . 9
1.4.1 Cadre et Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.3 Corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Définition 1.0.1 La Statistique, c’est l’étude des variations observables. C’est une méthode qui
consiste à réunir des données chiffrées sur des ensembles nombreux, puis à les analyser et à les
interpréter.

1.1 Méthodes Statistiques


— 1ère étape : on collecte des données
— Soit de manière exhaustive.
— Soit par sondage.
— 2ème étape : on trie les données que l’on organise en tableaux, diagrammes, etc...
2 Probabilités et Statistiques

— 3ème étape : on interprète les résultats : on les compare avec ceux déduits de la théorie
des probabilités.

1.2 Séries Statistiques a une variable


Définition 1.2.1 (Terminologie)
Population : Ensemble que l’on observe et qui sera soumis à une analyse statistique. Chaque
élément de cet ensemble est un individu ou unité statistique.
Échantillon : C’est un sous ensemble de la population considérée.
Le nombre d’individus dans l’échantillon est la taille de l’échantillon.
Caractère : C’est la propriété ou l’aspect singulier que l’on se propose d’observer dans la
population ou l’échantillon. Un caractère qui fait le sujet d’une étude porte aussi le nom
de variable statistique.

1.3 Différents types de variables statistiques


. Lorsque la variable ne se prête pas à des valeurs numériques, elle est dite qualitative
(exemple : opinions politiques, couleurs des yeux, . . .). Elle peut être ordonnée ou non,
dichotomique ou non.
. Lorsque la variable peut être exprimée numériquement, elle est dite quantitative (ou
mesurable). Dans ce cas, elle peut être discontinue ou continue.
— Elle est discontinue si elle ne prend que des valeurs isolées les unes des autres. Une
variable discontinue qui ne prend que des valeurs entières est dite discrète (exemple :
nombre d’enfants d’une famille).
— Elle est dite continue lorsqu’elle peut prendre toutes les valeurs d’un intervalle fini
ou infini (exemple : diamètre de pièces, salaires, . . .).

1.3.1 Échantillons et Histogrammes


Représentation graphique
Une première façon de se faire une idée d’une série de chiffres est de les représenter graphiquement, il y a
différentes façons de faire,
1) Caractères quantitatifs discrets :
Rafika LASSOUED - (ENIM) 3

Définition 1.3.1 (Diagrammes en bâtons) Un diagramme en bâtons est un moyen de représenter une série
statistique dont le caractère est quantitatif discret. Si x1 , . . . , xp sont les valeurs possibles prises par le caractère
et si les effectifs correspondants sont n1 , . . . , np , il est constitué par les segments qui relient le point (xk , 0) au
point (xk , nk ).

Exemple : Dans une classe, les notes obtenues du QCM à un devoir sont

Notes 1 2 3 4 5 6 7 8 9 10
Effectif 2 1 6 5 2 9 7 1 0 1

Exemple :(Diagramme en bâtons)

Remarque : Dans les diagrammes en bâtons, les longueurs sont alors proportionnelles aux effectifs.
(Caractères quantitatifs discrets).
Représentation graphique
2) Caractères quantitatifs continus :

Définition 1.3.2 (Histogrammes) Un histogramme est un moyen de représenter une série statistique dont le
caractère est quantitatif continu. Si la série statistique est donnée par les classes ([ai , ai+1 [), il est constitué par
des rectangles dont la base est le segment [ai , ai+1 [ (sur l’axe des réels) et l’aire est proportionnelle à l’effectif de
la classe

Exemple : On a demandé la taille des élèves dans une classe de 33 élèves. On obtient les résultats suivants :
4 Probabilités et Statistiques

Taille(en 150- 160- 170- 175- 180- 190-


cm) 160 170 175 180 190 200
Effectif 3 12 9 6 2 1

Exemple :(Histogramme)

Remarque : Dans l’histogramme en rectangle, l’aire qui doit être proportionnelle à l’effectif de la classe et non
la hauteur elle-même. Si toutes les classes ont la même étendue, il n’y a pas de problème. Sinon, on note ni
l’effectif de la classe [ai , ai+1 [. On choisit un rapport de proportionnalité k. La hauteur du n rectangle de base
[ai , ai+1 [ sera alors k ⇥ ni
ai+1 ai
3) Caractères Qualitatifs :

Définition 1.3.3 (Diagrammes circulaires) Un diagramme circulaire est un moyen de représenter une série
statistique dont le caractère est qualitatif. Il est obtenu en découpant un disque en secteurs dont les mesures
d’angle sont proportionnelles à l’effectif.

Exemple : Dans une entreprise, on a demandé aux employés leur moyen de transport pour venir au travail.
Les résultats sont les suivants :

Moyen à pied en voi- en mé-


utilisé ture tro
Effectif 50 110 200

Exemple :(Diagramme circulaire)


Rafika LASSOUED - (ENIM) 5

Fréquence cumulée et courbe de fréquence cumulée

Définition 1.3.4 (Fréquence) On appelle fréquence le rapport entre l’effectif d’une valeur et l’effectif total. Si
ni
N = n1 + n2 + · · · + nt , alors fi = N.

Considérons l’exemple suivant des notes obtenues dans une classe :


Exemple : Dans une classe, les notes obtenues à un devoir sont. Les résultats sont les suivants :

Notes 1 2 3 4 5 6 7 8 9 10
Effectif 2 1 6 5 2 9 7 1 0 1
Fréquence0.059 0.029 0.176 0.147 0.059 0.265 0.206 0.029 0 0.029
Fréquence0.059 0.088 0.264 0.411 0.47 0.735 0.941 0.970 0.970 1
cumu-
lée

Définition 1.3.5 On note gk la fréquence cumulée du caractère xk , c’est-à-dire gk = f1 + · · · + fk où fi = ni


N est
la fréquence du caractère xi . La courbe des fréquences cumulées est celle obtenue en joignant les points (xi , gi ).

Exemple :
6 Probabilités et Statistiques

4) Les paramètres de position :

Considérons les deux séries de chiffres suivantes : S1 := 10; 0; 10; 15; 20 , S2 := 2000; 2000; 2010; 2015; 2020 .
Dans les deux cas, nous avons 5 nombres. Ces deux séries se ressemblent mais leur position est différente. On va
donc regarder certains paramètres.

Lemme 1.3.1 (La moyenne arithmétique) Elle est égale à la somme des valeurs divisées par leur nombre.
Elle donne une idée sur la localisation.
— Cas de données énumérées Dans ce cas, le calcul de la moyenne est très simple. Pour les exemples
précédents, on obtient des moyennes respectives de 11 et 2009.
— Cas de données qualitatives. La formule de la moyenne pondérée. s’écrit pour les valeurs x1 , . . . , xk
n1 x 1 + · · · + nk x k
de la variable x = = f1 x1 + · · · + fk xk
n1 + · · · + nk

Exemple :Dans une classe, les notes obtenues à un devoir sont


2 ⇥ 1 + 1 ⇥ 2 + 6 ⇥ 3 + · · · + 1 ⇥ 10
La moyenne est = 5, 09
34

Notes 1 2 3 4 5 6 7 8 9 10
Effectif 2 1 6 5 2 9 7 1 0 1

Lemme 1.3.2 (La médiane) La médiane d’une série statistique, généralement notée x1/2 , est le nombre qui
sépare la série (ordonnée en valeurs croissantes) en deux groupes de même effectif. Pour trouver cette médiane,
quand la série est discrète, on écrit la liste de toutes les valeurs de la série par ordre croissant, chacune d’entre
elles étant répétée autant de fois que son effectif.

8
>
> x n+1 si n est impair
>
< ( 2 )
La médiane x1/2 :=
>
> x n + x( n2 +1)
>
: (2) si n est pair
2
Rafika LASSOUED - (ENIM) 7

Exemple : Soient S1 et S2 les deux séries statistiques :


— S1 := 0; 0; 10; 15; 20 =) n = 5 et La médiane x1/2 = x3 = 10.
— S10 := 0; 0; 10; 11; 15; 20 =) n = 6 et La médiane x1/2 = x3 +x4
2 = 10, 5.

Lemme 1.3.3 (Le mode) Le mode d’une série statistique est la valeur le plus fréquente. Dans le cas de la série
statistique S1 := 0; 0; 10; 15; 20 le mode est 0.

5) Les paramètres de dispersion :

Considérons deux séries ayant même moyenne et pourtant très différentes S1 := 0; 0; 10; 15; 20 et S2 :=
1000; 1000; 10; 1015; 1020 . On remarque que dans le premier cas les valeurs sont beaucoup plus rapprochées
que dans le second, on peut mesurer cet éloignement de différentes façons.

Lemme 1.3.4 (L’étendue) L’étendue d’une série statistique est la différence entre les deux valeurs extrêmes.
Pour les séries précédentes S1 et S2 , on obtient respectivement 20 et 2020.

Lemme 1.3.5 (La moyenne) Soit une série statistique (xk , nk ) telle que
1 N est l’effectif total de la série.
2 Les valeurs xk sont les valeurs prises par la série.
3 nk est le nombre de fois où la valeur xk est prise.
n1 x 1 + · · · + nk x k
4 x représente la moyenne de la série x :=
N

Lemme 1.3.6 (La variance) On appelle variance de la série statistique (xk , nk ) le nombre :

n1 (x1 x)2 + · · · + nk (xk x)2 n1 x21 + · · · + nk x2k


V = =) V = x2
N N

6) L’écart moyen absolu et l’écart médiant absolu :

p
Lemme 1.3.7 (L’écart-type) L’écart-type est la racine carrée de la variance : = V Dans les séries
précédentes, on a respectivement = ... et = ....

Lemme 1.3.8 (L’écart moyen absolu et l’écart médian absolu) L’écart moyen absolu est défini par
N
1 X
em = |xk x|.
N
k=1
N
1 X
L’écart médiant absolu est défini par e⇤m = |xk x1/2 |.
N
k=1
8 Probabilités et Statistiques

xk 1 2 3 4 5 10 11 12 15 Somme
|xk x|
|xk
x1/2 |

7) Les quartiles et l’intervalle interquartile :

Exemple : Considérons la série statistique suivante :1; 2; 3; 4; 5; 10; 11; 12; 15. On a x = 7 et x1/2 = 5.
On obtient em = 40
9 = 4.44 et e⇤m = 38
9 = 4.22

Les valeurs ont été rangées dans l’ordre croissant, de la plus petite à la plus grande.

Lemme 1.3.9 (Les quartiles) Les quartiles permettent de séparer une série statistique en quatre groupes de
même effectif (à une unité près) :
1 . Un quart des valeurs sont inférieures au premier quartile Q1 .
2 . Un quart des valeurs sont supérieures au troisième quartile Q3 .

Lemme 1.3.10 (l’intervalle interquartile) On appelle intervalle interquartile l’intervalle ]Q1 ; Q3 [. On ap-
pelle écart interquartile la différence Q3 Q1 . Pour déterminer les quartiles Q1 et Q3 d’une série de N valeurs,
on procède de la façon suivante : On calcule la quantité 4.
N
Deux cas sont possibles :

1. Cas 1 : le résultat est entier.


- Q1 est la nième valeur de la série où n = N4 .
- Q3 est la n0 ième valeur de la série où n0 = 3N . 4
2. Cas 2 : le résultat n’est pas entier.
- On arrondit ième valeur de la série.
4 à l’entier supérieur n et Q1 est la n
N

0 ième
- On arrondit 4 à l’entier supérieur n et Q3 est la n
3N 0
valeur de la série.

Exemple : Prenons les valeurs rangées dans l’ordre croissant


S1 := 1; 3; 3; 3; 5; 5; 6; 7; 7; 8; 8; 8; 9; 9; 10; 10; 10; 10; 11; 11; 12; 13; 13; 13; 14; 15; 16; 19 .

Déterminer Q1 et Q3
Exemple : Prenons les valeurs rangées dans l’ordre croissant
S1 := 1; 3; 3; 3; 5; 5; 6; 7; 7; 8; 8; 8; 9; 9; 10; 10; 10; 10; 11; 11; 12; 13; 13; 13; 14; 15; 16; 19 .

Il y a N = 28 valeurs et N4 = 7. Le résultat est un entier =)


- Pour Q1 = 6 (la 7ième valeur de la série rangée dans l’ordre croissant).
- Pour Q3 = 12 (la 21ième valeur de la série rangée dans l’ordre croissant).
Rafika LASSOUED - (ENIM) 9

Interprétation des quartiles :


Si on connait les quartiles Q1 et Q3 d’une série, on peut en déduire les renseignements suivants sur la série
statistique :
1 Au moins un quart (25%) des valeurs sont inférieures ou égales à Q1 .
2 Au moins trois quarts (75%) des valeurs sont inférieures ou égales à Q3 .
3 Environ la moitié des valeurs se trouvent dans l’intervalle interquartile [Q1 ; Q3 ].

1.4 Statistique à deux dimensions

1.4.1 Cadre et Objectifs


On dispose de 2 caractères X et Y . On distingue deux objectifs :
— On cherche à savoir s’il existe un lien entre X et Y
— On cherche à savoir si X a une influence sur Y .
— Liaison entre X et Y . On définit un indice de liaison : coeff de corrélation par exemple , existe-t-il un
lien entre le volume des ventes d’une entrprise et le montant alloué à la publicité ? de même existe-t-il un
lien entre le poids de courrier reçu par une entreprise chaque matin et le nombre de commandes traitées
dans la journée ?
— Estimation des paramètres : méthodes des moindres carré : mesure de l’intensité de la laision Test :
Existence du lien
— Infulence de X sur Y on modélise l’influence de X sur Y régression logistique, analyse de la variance,
régression linéaire , .. Estimation description de l’influence et prédiction

1.4.2 Covariance
n
1X
— Covariance : Cov(x, y) = E [X E(X)][Y E(Y )] = xi x yi y .
n i=1

Propriétés :
— Cov(X, Y ) = E(XY ) E(X)E(Y )

— Cov(X, Y ) = Cov(Y, X)

— Cov(aX + b, cY + d) = acCov(X, Y )

— X et Y indépendants ! Cov(X, Y ) = 0, la réciproque étant fausse.


10 Probabilités et Statistiques

1.4.3 Corrélation linéaire

1.4.3.1 Coefficient du corrélation

Définition 1.4.1 (Coefficient du corrélation) Pour deux variables X et Y , le coef de corrélation linéaire
r = ⇢(X, Y ) vaut :

Cov(X, Y )
⇢(X, Y ) = 2 [ 1, 1]
X Y

⇢ est une mesure symétrique qui mesure le lien linéaire entre X et Y :


— si ⇢ = 1 =) : X et Y sont proportionnels et varient en sens opposé.
— si ⇢ = 1 =) : X et Y sont proportionnels et varient dans le même sens.
— si ⇢ = 0 =) : X et Y ne sont pas corrélés .

Propriétés :
- si X et Y sont indépendants, alors ⇢(X, Y ) = 0.
- si X et Y sont gaussiens, il y a équivalence entre indépendance et corrélation nulle.

1.4.3.2 Estimation du coefficient du corrélation

— Les données : pour chaque individu d’un échantillon de taille n, on relève les valeurs prises par X et Y .
On obtient n couples indépendants les uns des autres notés (xi , yi ) pour i = 1, . . . , n
Xn
xi yi nx.y n n
1X 1X
— Un estimateur de ⇢ est : r = v
u
i=1
avec x = x i et y = yi
u⇣ X n ⌘⇣ X
n ⌘ n i=1 n i=1
u
u
t x2i nx2 yi2 ny 2
i=1 i=1
— Lorsque les points de coordonnées (xi , yi ) pour i = 1, . . . , n sont parfaitement alignés, alors r = 1.
— Lorsqu’on obtient un nuage flou de points, r est proche de 0

1.5 Régression linéaire


Objectif : On souhaite expliquer les variations de la variable Y à partir des valeurs observées pour la
variable X : on cherche une relation entre X et Y .
— Données : on dispose d’un échantillon de n couples (xi , yi ) pour i = 1, . . . , n indépendants les un des
autres.
— Régression linéaire : On suppose que pour tout i : Yi = axi + b
— Droite de régression : y = ax + b à ajuster sur les données au sens des moindres carrées ordinaires
(MCO).
ax + bb avec b
— Droite de régression estimée (meilleure droite ajustée) y = b a estimateur de a et bb estimateur
de b.
Rafika LASSOUED - (ENIM) 11

On cherche les valeurs a et b qui minimisent la somme des carrés des résidus, i.e. les écarts entre les obser-
vations (Yi ) et les prédictions (axi + b) du modèle.
n
X 2
min f (a, b) = min yi axi b ; a, b
a,b a,b
i=1

Pour cela, on développe f . On considère d’abord f comme un trinôme en b. Donc pour minimiser le dérivée
doit être nulle.
Puis, b étant déterminé, on considère f comme un trinôme en a que l’on va minimiser à nouveau. On obtient
alors

cov(x, y)
b=y ax et a =
V (x)

Exercice :(Corrélation)
La corrélation entre deux variables X et Y mesure le lien linéaire entre deux variables. La fonction correl
calcule la corrélation entre deux variables . On considère deux vecturs X = (xn ), n 2 {1, . . . , 100} et y =
(yn ), n 2 {1, . . . , 100}
1) Vérifier que si xn = n et yn = 2xn alors le coefficient de corrélation entre X et Y vaut 1.

2) Vérifier que si xn = n et yn = 2xn alors le coefficient de corrélation entre X et Y vaut 1.

p
3) Calculer le coefficient de corrélation entre X et Y si xn = n et yn = xn .

4) Calculer le coefficient de corrélation entre X et Y si xn = n et yn = x2n .

Pour n = 14 la construition graphique Exercice :

Vous aimerez peut-être aussi