Vous êtes sur la page 1sur 30

Sommaire

Chapitre 1 : Statistiques descriptives

Chapitre 1 : Statistique descriptives

I. MAHFOUDHI & T. MOULAHI

École Nationale d’ingénieurs de Monastir (ENIM)

6 avril 2017

Version provisoire merci de me signaler les erreurs!

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Sommaire
Chapitre 1 : Statistiques descriptives

Plan

1 Chapitre 1 : Statistiques descriptives


Échantillons et Histogrammes
Statistique à deux dimensions
Corrélation linéaire
Régression linéaire

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Définition
La Statistique, c’est l’étude des variations observables. C’est une
méthode qui consiste à réunir des données chiffrées sur des
ensembles nombreux, puis à les analyser et à les interpréter.

I) Méthodes Statistiques

1ère étape : on collecte des données


Soit de manière exhaustive.
Soit par sondage.
2ème étape : on trie les données que l’on organise en tableaux,
diagrammes, etc...
3ème étape : on interprète les résultats : on les compare avec ceux
déduits de la théorie des probabilités.

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

II) Séries Statistiques a une variable :


Définition (Terminologie)
Population : Ensemble que l’on observe et qui sera soumis à une analyse
statistique. Chaque élément de cet ensemble est un individu ou unité
statistique.
Échantillon : C’est un sous ensemble de la population considérée.
Le nombre d’individus dans l’échantillon est la taille de l’échantillon.
Caractère : C’est la propriété ou l’aspect singulier que l’on se propose
d’observer dans la population ou l’échantillon. Un caractère qui fait le
sujet d’une étude porte aussi le nom de variable statistique.

Différents types de variables statistiques

⊲ Lorsque la variable ne se prête pas à des valeurs numériques, elle est


dite qualitative (exemple : opinions politiques, couleurs des yeux, . . .).
Elle peut être ordonnée ou non, dichotomique ou non.

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

⊲ Lorsque la variable peut être exprimée numériquement, elle est


dite quantitative (ou mesurable). Dans ce cas, elle peut être
discontinue ou continue.
Elle est discontinue si elle ne prend que des valeurs isolées
les unes des autres. Une variable discontinue qui ne prend
que des valeurs entières est dite discrète (exemple : nombre
d’enfants d’une famille).
Elle est dite continue lorsqu’elle peut prendre toutes les
valeurs d’un intervalle fini ou infini (exemple : diamètre de
pièces, salaires, . . .).

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Représentation graphique

Une première façon de se faire une idée d’une série de chiffres est de les
représenter graphiquement, il y a différentes façons de faire,
1) Caractères quantitatifs discrets :
Définition (Diagrammes en bâtons)
Un diagramme en bâtons est un moyen de représenter une série statistique
dont le caractère est quantitatif discret.
Si x1 , . . . , xp sont les valeurs possibles prises par le caractère et si les effectifs
correspondants sont n1 , . . . , np , il est constitué par les segments qui relient le
point (xk , 0) au point (xk , nk ).

Exemple : Dans une classe, les notes obtenues du QCM à un devoir sont

Notes 1 2 3 4 5 6 7 8 9 10
Effectif 2 1 6 5 2 9 7 1 0 1

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Exemple (Diagramme en bâtons)

Remarque : dans les dia-


grammes en bâtons, les
longueurs sont alors pro-
portionnelles aux effectifs.
(Caractères quantitatifs dis-
crets).

F IGURE – Diagramme en bâtons

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Représentation graphique

2) Caractères quantitatifs continus :


Définition (Histogrammes)
Un histogramme est un moyen de représenter une série statistique dont le
caractère est quantitatif continu. Si la série statistique est donnée par les
classes ([ai , ai+1 [), il est constitué par des rectangles dont la base est le
segment [ai , ai+1 [ (sur l’axe des réels) et l’aire est proportionnelle à l’effectif de
la classe

Exemple : On a demandé la taille des élèves dans une classe de 33 élèves. On


obtient les résultats suivants :

Taille(en cm) 150-160 160-170 170-175 175-180 180-190 190-200


Effectif 3 12 9 6 2 1

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Exemple(Histogramme)

Remarque : Dans l’histo-


gramme en rectangle, l’aire
qui doit être proportionnelle à
l’effectif de la classe et non la
hauteur elle-même. Si toutes les
classes ont la même étendue,
il n’y a pas de problème. Si-
non, on note ni l’effectif de la
classe [ai , ai+1 [. On choisit un
rapport de proportionnalité k.
La hauteur du rectangle de base
F IGURE – Histogramme [ai , ai+1 [ sera alors k × ai+1n−a
i
i

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Caractères Qualitatifs

3)Caractères Qualitatifs :
Définition (Diagrammes circulaires)
Un diagramme circulaire est un moyen de représenter une série statistique
dont le caractère est qualitatif. Il est obtenu en découpant un disque en
secteurs dont les mesures d’angle sont proportionnelles à l’effectif.

Exemple : Dans une entreprise, on a demandé aux employés leur moyen de


transport pour venir au travail. Les résultats sont les suivants :

Moyen utilisé à pied en voiture en métro


Effectif 50 110 200

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Exemple(Diagramme circulaire)

F IGURE – Diagramme circulaire

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Fréquence cumulée et courbe de fréquence cumulée

Définition (Fréquence)
On appelle fréquence le rapport entre l’effectif d’une valeur et l’effectif total.
Si N = n1 + n2 + · · · + nt , alors fi = nNi .

Considérons l’exemple suivant des notes obtenues dans une classe :


Exemple : Dans une classe, les notes obtenues à un devoir sont les résultats
sont les suivants :

Notes 1 2 3 4 5 6 7 8 9 10
Effectif 2 1 6 5 2 9 7 1 0 1
Fréquence 0.059 0.029 0.176 0.147 0.059 0.265 0.206 0.029 0 0.029
Fréquence 0.059 0.088 0.264 0.411 0.47 0.735 0.941 0.970 0.970 1
cumulée

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Exemple

Définition : On note gk la fréquence


cumulée du caractère xk , c’est-à-dire
gk = f1 + · · · + fk où fi = nNi
est la fréquence du caractère xi . La
courbe des fréquences cumulées est
celle obtenue en joignant les points
(xi , gi ).

F IGURE – Graphique

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Les paramètres de position


4)Les paramètresde position : Considérons
 les deux séries de chiffres
suivantes : S1 := 0; 0; 10; 15; 20 , S2 := 2000; 2000; 2010; 2015; 2020 .
Dans les deux cas, nous avons 5 nombres. On va donc regarder certains
paramètres.

La moyenne arithmétique
La moyenne arithmétique est égale à la somme des valeurs divisées par leur
nombre. Elle donne une idée sur la localisation.
Cas de données énumérées Dans ce cas, le calcul de la moyenne est
très simple. Pour les exemples précédents, on obtient des moyennes
respectives de 9 et 2009.
Cas de données qualitatives . La formule de la moyenne pondérée
s’écrit pour les valeurs x1 , . . . , xk de la variable
n1 x1 + · · · + nk xk
x= = f1 x1 + · · · + fk xk
n1 + · · · + nk

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Les paramètres de position


Exemple : Dans une classe, les notes obtenues à un devoir sont

Notes 1 2 3 4 5 6 7 8 9 10
Effectif 2 1 6 5 2 9 7 1 0 1
2 × 1 + 1 × 2 + 6 × 3 + · · · + 1 × 10
La moyenne est = 5, 09
34
La médiane
La médiane d’une série statistique, généralement notée x1/2 , est le nombre
qui sépare la série (ordonnée en valeurs croissantes) en deux groupes de
même effectif. Pour trouver cette médiane, quand la série est discrète, on écrit
la liste de toutes les valeurs de la série par ordre croissant, chacune d’entre
elles étant répétée autant de fois que son effectif.


 x n+1 si n est impair
 ( 2 )
La médiane x1/2 :=

 x n + x( n2 +1)
 (2) si n est pair
2
I. MAHFOUDHI & T. MOULAHI ENIM-2016
Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Les paramètres de dispersion


Exemple : Soient S1 et S2 les deux séries statistiques :

S1 := 0; 0; 10; 15; 20 =⇒ n = 5 et La médiane x1/2 = x3 = 10.

S′1 := 0; 0; 10; 11; 15; 20 =⇒ n = 6 et La médiane x1/2 = x3 +x
2
4
= 10, 5.
Le mode
Le mode d’une série statistique
 est la valeur
le plus fréquente. Dans le cas de
la série statistique S1 := 0; 0; 10; 15; 20 le mode est 0.

Les paramètres de dispersion


Considérons
 deux séries
ayant même moyenne et pourtant très différentes
S1 := 0; 0; 10; 15; 20 et S2 := − 1000; −1000; 10; 1015; 1020 . On remarque
que dans le premier cas les valeurs sont beaucoup plus rapprochées que dans
le second, on peut mesurer cet éloignement de différentes façons.

L’étendue
L’étendue d’une série statistique est la différence entre les deux valeurs
extrêmes. Pour les séries précédentes S1 et S2 , on obtient respectivement 20 et
2020.
I. MAHFOUDHI & T. MOULAHI ENIM-2016
Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Les paramètres de dispersion

La moyenne Soit une série statistique (xk , nk ) telle que


1 N est l’effectif total de la série.
2 Les valeurs xk sont les valeurs prises par la série.
3 nk est le nombre de fois où la valeur xk est prise.
n1 x1 + · · · + nk xk
4 x représente la moyenne de la série x :=
N

La variance
On appelle variance de la série statistique (xk , nk ) le nombre :

n1 (x1 − x)2 + · · · + nk (xk − x)2 n1 x21 + · · · + nk x2k


V= =⇒ V = − x2
N N

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

L’écart moyen absolu et l’écart médian absolu

L’écart-type

L’écart-type σ est la racine carrée de la variance : σ = V Dans les
séries précédentes, on a respectivement σ = ... et σ = ....

L’écart moyen absolu et l’écart médian absolu

1 X
N
L’écart moyen absolu est défini par eN = |xk − x|.
N
k=1
1 XN
L’écart médian absolu est défini par e∗N = |xk − x1/2 |.
N
k=1

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Les quartiles et l’intervalle interquartile


Exemple : Considérons la série statistique suivante :1; 2; 3; 4; 5; 10; 11; 12; 15.
On a x = 7 et x1/2 = 5.

xk 1 2 3 4 5 10 11 12 15 Somme
|xk − x|
|xk − x1/2 |

Les quartiles et l’intervalle interquartile :


Les valeurs ont été rangées dans l’ordre croissant, de la plus petite à la plus
grande.

Les quartiles
Les quartiles permettent de séparer une série statistique en quatre groupes de
même effectif (à une unité près) :
1 . Un quart des valeurs sont inférieures au premier quartile Q1 .
2 . Un quart des valeurs sont supérieures au troisième quartile Q3 .

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Les quartiles et l’intervalle interquartile

l’intervalle interquartile
On appelle intervalle interquartile l’intervalle ]Q1 ; Q3 [. On appelle écart
interquartile la différence Q3 − Q1 . Pour déterminer les quartiles Q1 et Q3
d’une série de N valeurs, on procède de la façon suivante : On calcule la
quantité N4 . Deux cas sont possibles :
1. Cas 1 : le résultat est entier.
N
- Q1 est la nième valeur de la série où n = 4
.
′ ième ′ 3N
- Q3 est la n valeur de la série où n = 4 .

1. Cas 2 : le résultat n’est pas entier.


N
- On arrondit 4
à l’entier supérieur n et Q1 est la nième valeur de la série.
3N
- On arrondit 4
à l’entier supérieur n′ et Q3 est la n′ ième valeur de la série.

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Exemple

Exemple :
Prenons
 les valeurs rangées dans l’ordre croissant S1 :=
1; 3; 3; 3; 5; 5; 6; 7; 7; 8; 8; 8; 9; 9; 10; 10; 10; 10; 11; 11; 12; 13; 13; 13; 14; 15; 16; 19 .

Déterminer Q1 et Q3

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Exemple
Exemple :
Prenons
 les valeurs rangées dans l’ordre croissant S1 :=
1; 3; 3; 3; 5; 5; 6; 7; 7; 8; 8; 8; 9; 9; 10; 10; 10; 10; 11; 11; 12; 13; 13; 13; 14; 15; 16; 19 .
Il y a N = 28 valeurs et N4 = 7. Le résultat est un entier =⇒
- Pour Q1 = 6 (la 7ième valeur de la série rangée dans l’ordre croissant).
- Pour Q3 = 12 (la 21ième valeur de la série rangée dans l’ordre croissant).
Interprétation des quartiles :
Si on connait les quartiles Q1 et Q3 d’une série, on peut en déduire les
renseignements suivants sur la série statistique :
1 Au moins un quart (25%) des valeurs sont inférieures ou égales à Q1 .
2 Au moins trois quarts (75%) des valeurs sont inférieures ou égales à Q3 .
3 Environ la moitié des valeurs se trouvent dans l’intervalle interquartile
[Q1 ; Q3 ].

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Statistique à deux dimensions

Cadre et Objectifs

On dispose de 2 caractères X et Y. On distingue deux objectifs :


On cherche à savoir s’il existe un lien entre X et Y
On cherche à savoir si X a une influence sur Y.
Liaison entre X et Y. On définit un indice de liaison : coeff de
corrélation par exemple , existe-t-il un lien entre le volume des ventes
d’une entrprise et le montant alloué à la publicité ? de même existe-t-il
un lien entre le poids de courrier reçu par une entreprise chaque matin
et le nombre de commandes traitées dans la journée ?
Estimation des paramètres : méthodes des moindres carré : mesure de
l’intensité de la laision Test : Existence du lien
Infulence de X sur Y on modélise l’influence de X sur Y régression
logistique, analyse de la variance, régression linéaire , .. Estimation
description de l’influence et prédiction

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Covariance

Covariance :
n
 1X  
Cov(x, y) = E [X − E(X)][Y − E(Y)] = xi − x yi − y .
n
i=1
Propriétés :
Cov(X, Y) = E(XY) − E(X)E(Y)
Cov(X, Y) = Cov(Y, X)
Cov(aX + b, cY + d) = acCov(X, Y)
X et Y indépendants −→ Cov(X, Y) = 0, la réciproque
étant fausse.

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Coefficient du corrélation
Définition
Pour deux variables X et Y, le coef de corrélation linéaire r = ρ(X, Y) vaut :

Cov(X, Y)
ρ(X, Y) = ∈ [−1, 1]
σX σY
ρ est une mesure symétrique qui mesure le lien linéaire entre X et Y :

si ρ = −1 =⇒ : X et Y sont proportionnels et varient en sens opposé.


si ρ = 1 =⇒ : X et Y sont proportionnels et varient dans le même sens.
si ρ = 0 =⇒ : X et Y ne sont pas corrélés .

Propriété

- si X et Y sont indépendants, alors ρ(X, Y) = 0.


- si X et Y sont gaussiens, il y a équivalence entre indépendance et
corrélation nulle.
I. MAHFOUDHI & T. MOULAHI ENIM-2016
Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Coefficient du corrélation

Estimation du coefficient du corrélation :

Les données : pour chaque individu d’un échantillon de taille n, on


relève les valeurs prises par X et Y. on obtient n couples indépendants
les uns des autres notés (xi , yi ) pour i = 1, . . . , n
Xn
xi yi − nx.y
i=1
Un estimateur de ρ est : r = v
u n
u X  X
n 
x2i − nx2 y2i − ny2
u
u
t
i=1 i=1
n n
1X 1X
avec x = xi et y = yi
n n
i=1 i=1
Lorsque les points de coordonnées (xi , yi ) pour i = 1, . . . , n sont
parfaitement alignés, alors r = 1.
Lorsqu’on obtient un nuage flou de points, r est proche de 0

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Régression linéaire

La régression simple
Objectif : On souhaite expliquer les variations de la variable Y à partir des
valeurs observées pour la variable X : on cherche une relation entre X et Y.

Données : on dispose d’un échantillon de n couples (xi , yi ) pour


i = 1, . . . , n indépendants les un des autres.
Régression linéaire : On suppose que pour tout i : Yi = axi + b
Droite de régression : y = ax + b à ajuster sur les données au sens des
moindres carrées ordinaires (MCO).
Droite de régression estimée (meilleure droite ajustée) y = bax + b
b
a estimateur de a et b
avec b b estimateur de b.

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Régression linéaire

On cherche les valeurs a et b qui minimisent la somme des carrés des résidus,
i.e. les écarts entre les observations (Yi ) et les prédictions (axi + b) du modèle.

n
 X 2
min f (a, b) = min yi − axi − b ; a, b
a,b a,b
i=1

Pour cela, on développe f . On considère d’abord f comme un trinôme en b.


Donc pour minimiser le dérivée doit être nulle.
Puis, b étant déterminé, on considère f comme un trinôme en a que l’on va
minimiser à nouveau. On obtient alors

cov(x, y)
b = y − ax et a =
V(x)

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Exercice 1 (Corrélation)

La corrélation entre deux variables X et Y mesure le lien linéaire entre deux


variables.
La fonction correl calcule la corrélation entre deux variables .
On considère deux vecturs X = (xn ), n ∈ {1, . . . , 100} et
y = (yn ), n ∈ {1, . . . , 100}
1) Vérifier que si xn = n et yn = 2xn alors le coefficient de corrélation entre
X et Y vaut 1.
2) Vérifier que si xn = n et yn = −2xn alors le coefficient de corrélation
entre X et Y vaut −1.

3) Calculer le coefficient de corrélation entre X et Y si xn = n et yn = xn .
4) Calculer le coefficient de corrélation entre X et Y si xn = n et yn = x2n .

Pour n = 14 la construition graphique

I. MAHFOUDHI & T. MOULAHI ENIM-2016


Échantillons et Histogrammes
Sommaire Statistique à deux dimensions
Chapitre 1 : Statistiques descriptives Corrélation linéaire
Régression linéaire

Exemple

F IGURE – Y = 2X; corr = 1 F IGURE – Y = −2X; corr = −1


F IGURE – Y = X; corr = 0, 988 F IGURE – Y = X2 ; corr = 0, 973
I. MAHFOUDHI & T. MOULAHI ENIM-2016

Vous aimerez peut-être aussi