Académique Documents
Professionnel Documents
Culture Documents
Master Informatique
1
3.1 Généralités sur la statistique
LA STATISTIQUE : La statistique est un
ensemble de méthodes scientifiques qui permettent
de rassembler et d'analyser les données
numériques.
LE DOUBLE SENS DU MOT "STATISTIQUE" : Il
ne faut pas confondre la statistique qui est la
science qui vient d’être définie et une statistique
qui est un ensemble de nombres présentés sous
forme de tableaux ou de graphiques et concernant
un sujet déterminé. 2
LA STATISTIQUE DESCRIPTIVE : On
parle de statistique descriptive lorsqu’on
décrit et analyse des données observées et
qu’on tire des conclusions valables uniquement
pour l’ensemble étudié. Elle peut se résumer
par le schéma suivant :
3
3.2 Analyse descriptive univariée
Terminologie de base
Population: C’est l’ensemble des individus (objets de l’étude)
homogènes auxquels on s’intéresse.
Taille notée : N
Exemples : La population statistique peut être :
– Le personnel d’une entreprise, donc des humains.
– Le parc automobile, donc des voitures,
– Les vaches de la région, donc des animaux.
– Les accidents de voitures en 2015, donc un état non concret.
Recensement: Etude de tous les individus composant une population
finie (pas toujours facile bien sûr).
Échantillon: Lorsque la population est trop
importante, on étudie un échantillon, c’est-à-dire
un sous-ensemble, beaucoup plus petit, de la
population. Le choix de l’échantillon se fait en
respectant certaines règles (théorie des sondages).
n = Taille de l’échantillon
Echantillonnage: L'opération qui consiste à
extraire un échantillon s'appelle échantillonnage.
Une méthode, simple et pratique, d'extraction d'un
échantillon consiste à faire un tirage au hasard.
5
Le but de l'échantillonnage est de substituer, à l'étude,
impossible, de la population globale, supposée de taille
trop grande, l'étude de l'échantillon, choisi de taille plus
réduite. Il doit être convenablement constitué, car la
fiabilité des résultats, et leur crédibilité, en dépend dans
une large mesure.
Par exemple, l’effectif cumulé 24 obtenu pour Xi = 2 signifie que 24 étudiants ont
2 frères et sœurs au maximum. Ce nombre 24 est obtenu en ajoutant les deux nombres :
16 l’effectif cumulé précédent et 8 l’effectif correspondant à Xi = 2. Les fréquences
peuvent aussi être exprimées en pourcentage : par exemple 13% correspond à 0,13.
Exemple 2 :
• On a relevé dans une entreprise de 125 employés le temps, en
minutes, consacré à la pratique d’un sport par semaine. Il
s’agit d’une série statistique à variable continue.
• On obtient le tableau suivant (Tab.2):
Temps en minutes Xi [0 ; 20[ [20 ; 40[ [40 ; 60[ [60 ; 100[ [100 ; 140[ [140 ; 200]
Effectif ni 35 41 30 12 5 2
Effectif cumulé croissant 35 76 106 118 123 125
Fréquence 0.28 0.32 0.24 0.10 0.04 0.02
Fréquence cumulée 1
croissante 0.28 0.60 0.84 0.94 0.98
Variables quantitatives
Variables discrètes (diagramme en bâtons) :
Pour représenter une variable statistique discrète, on utilise un diagramme
en bâtons (chaque bâton a une hauteur proportionnelle à l'effectif et/ou à
la fréquence) ou un diagramme circulaire (chaque secteur est
proportionnel à l'effectif et/ou à la fréquence) (Fig.3).
Fig.3 : Exemple de diagramme en bâtons
Variables continues :
Pour représenter une variable statistique continue, on trace un
histogramme. L'histogramme est constitué de rectangles juxtaposés
dont la surface est proportionnelle à l'effectif de la classe
correspondante.
• Histogramme
En statistiques, un histogramme est un graphique permettant
de représenter la répartition d'une variable continue :
• sur l'axe des abscisses, on repère les classes ;
• sur l'axe des ordonnées, on repère les effectifs ou les
fréquences (souvent exprimées en pourcentage).
Fig. 4 : Exemple d'histogrammes.
Les classes
• L’idée est de regrouper les valeurs dans des classes ([aj1; aj[) j=1...k.
On peut ensuite associer à chaque classe le nombre nj d’observations
(xi) i=1,...,n appartenant à la classe [aj1; aj[.
• Lorsque l’on calcule les fréquences d’une série statistique ou d’une
série regroupée par classe, le calcul est le même:
Classes [a0; a1[ [a1; a2[ . . . [ak1; ak[ total
Effectifs n1 n2 ... nk N
Fréquences f1 f2 ... fk 1
• Les fréquences sont données par fi =ni/N.
• Comment choisir les classes ?
Le choix des classes, soit leur nombre et leurs largeurs, n'est
pas univoque. Pour cela, on se fixe une borne inferieure de
l’échantillon a0 < x1 et une borne supérieure ak>xN.
Un choix fréquent est a0=x(1) 0.025(x(n)x(1)) et
ak=x(n)+0.025(x(n) x(1)).
• On partitionne l’intervalle [a0,ak[, contenant toutes les
observations, en k intervalles [aj1, aj[ appelés classes.
• La largeur de la classe j est hj= aj – aj1. Si toutes les classes
sont de même largeur h = (ak a0)/k, on dit que l’on fait un
histogramme à pas fixe. Si les hj ne sont pas tous égaux,
on dit que l’on fait un histogramme à pas variable.
En pratique, il est conseillé de suivre les règles suivantes :
Le nombre de classes pour la série en utilisant l’une des formules
empiriques suivantes :
La règle de STURGE : Nombre de classes = 1+ (3.3log10(N))
La règle de YULE : Nombre de classes = 2.5 4 N ,
Total 12 35
11 2 3 3 5 4 2 5 1
X 2.9
12
TP : Sous le logiciel R
qualités<-1:5
effectifs<-c(1,3,5,2,1)
weighted.mean(qualités,effectifs)
[1] 2.916667
Quand la série statistique est continue, X, de taille n, on peut la représenter sous forme d'un tableau
du type :
X Effectif Centre de classe ci : (ai+ai+1)/2 n1c1 n2c2 nkck
X
[a1, a2[ n1 c1 n
[a2, a3[ n2 c2 avec : n= n1+ n1+…+ nk
. . .
. . .
[ak-1, ak[ nk ck
Exemple : Soit le Tableau A.2 et d'une série continue suivante :
Notes Effectifs Centres
[0, 5[ 10 2.5
[5, 8[ 8 6.5
[8, 12[ 12 10
[12, 15[ 11 13.5
[15, 20] 9 17.55
Total 50
La médiane
La médiane d'une série statistique d’une variable, X, est la valeur Me qui
partage cette série ordonnée en deux parties (inférieure et supérieure à
Me) de même effectif. Pour la calculer, on distingue trois cas :
1er cas : Si l'effectif total N de la série est impair :
La médiane est la valeur située à la position (N+1)/2 (i.e. X[(N+1)/2]).
Exemple : soit la série (X) :
X: 3 4 1 5 9 4 1 5 11 13 3 1 2
On vérifie que la série comporte N=13 valeurs. Si la série est ordonnée,
on peut affirmer que la médiane est la 7ième valeur. Rangeons cette
série en ordre de grandeur croissant :
X : 1 1 1 2 3 3 4 4 5 5 9 11 13
la médiane vaut donc Me=X[(13+1)/2]=X[7]=4.
TP : Sous le logiciel R
x=c(3,4,1,5,9,4,1,5,11,13,3,1,2)
N=length(x)
X=sort(x)
Me=X[(N+1)/2]
Me
#où
Me=median(x)
Me
[1] 4
2ème cas : Si l'effectif total N de la série est pair :
Dans ce cas, n'importe quelle valeur comprise entre les valeurs aux
positions N/2 et (N/2) + 1 peut être considérée comme une
médiane de la série. En pratique, la médiane est généralement la
moyenne de ces deux valeurs (i.e. (X[N/2]+ X[(N/2)+1])/2)
Exemple : soit la série : X : 2 8 1 7 10 5 10 2 7 4
On vérifie que la série comporte N=10 valeurs. Si la série est
ordonnée, on peut affirmer que la médiane est la 1/2 somme des
5ième et 6ième valeur. Rangeons cette série en ordre de grandeur
croissant :
1 2 2 4 5 7 7 8 10 10
la médiane vaut donc Mé=(X[(10/2)]+X[(10/2)+1])/2=6.
TP : Sous le logiciel R
x=c(2,8,1,7,10,5,10,2,7,4)
X=sort(x)
N=length(x)
Me=(X[N/2]+X[(N/2)+1])/2
Me
#où
Me=median(x)
Me
[1] 6
3ème cas : Si les valeurs prises par le variable étudié, X, sont groupées
en classe.
Dans ce cas, on cherche la classe qui contient la médiane à l’aide de la
moitié de l’effectif total (N/2) soit [xA, xB[.Cette classe peut également
être repérée sur le diagramme des effectifs (ou fréquences) cumulés
croissants. Puis on détermine explicitement la valeur de la médiane en
utilisant (l’interpolation linéaire) :
On récupère ainsi l’expression de la médiane:
N
nA
Me x A 2 x B x A
nB nA
Avec :
• xA : limite inférieure de la classe dans laquelle se trouve le N/2
(classe médiane).
• xB : limite supérieure de la classe dans laquelle se trouve le N/2
(classe médiane).
• nA : l’ effectif cumulé inférieur à xA
• nB : l’ effectif cumulé inférieur à xB .
Il est possible de travailler avec les fréquences plutôt que les
effectifs. Dans ce cas, les seuls modifications à apporter
concernant les effectifs nA, nB et N/2. Cette dernière valeur
devient 0.5 si On travaille avec des proportions, i. e.
0.5 fA
Me x A x B x A
fB fA
et 50(%) si on trvaille avec des pourcentages, i. e,
50 pA
Me x A x B x A
pB pA
Salaire horaire ni ni cumulées croissantes
2-4 5 5
4-6 8 13
6-8 12 25
8-10 10 34
10-12 8 43
Total 43
Détermination du mode :
n i 1 n i 1
Dans le cas de données regroupées en k classes d'effectif ni
(variable continue regroupée en classes ou variable discrète),
la formule de la variance est la suivante :
1 i k
1 i k i k
s 2 ni (x i x )2 ni x i2 x 2 avec n ni
n i 1 n i 1 i 1
TP : Sous le logiciel R
> var.pop <- function(x) var(x)*(length(x)-l)/length(x) # avec le
biais
> var(x)# sans biais
5. Ecart-type
L’écart-type observé correspond à la racine carrée de la
variance observée:
sx s 2
xi
x1 n11· · · · · · · · · · · · · · · · · n1j· · · · · · · · · · n1ℓ n1 .
…
. .
xi ni1· · · · · · · · · · · · · · · · · nij· · · · · · · · · · niℓ ni.
. .
xp np1· · · · · · · · · · · · · · · · npj· · · · · · · · · · npℓ np.
n..
n.j n.1· · · · · · · · · · · · · · · · · n.j· · · · · · · · · · n.q
·= · =
· ·
; ·
·
; sont des
fréquences.
Distribution marginale
Définition:
La distribution marginale de la variable X est
définie par les p couples (xi, ni• ).
X x1· · · · · ·· · ·· · ·xi · · · · · · · · xp
effectif n · · · ·· · n · · · · · · · · n
1• i• p• N
Distribution marginale (suite)
Définition:
La distribution marginale de la variable Y est
définie par les p couples (yj, n•j ).
Y y1· · · · · ·· · ·· · ·yj · · · · · · · · yl
effectif n · · · ·· · n · · · · · · · · n N
•1 •j •ℓ
Distributions conditionnelles
Définition:
La distribution des observations suivant les modalités
de la variable Y sachant que la variable X prend la
modalité xi , est appelée distribution conditionnelle de
Y pour X=xi.
· ·
Variance marginales :
· ·
Principales caractéristiques (2)
Moyenne conditionnelles de x sachant yj :
·
·
Moyenne conditionnelles de y sachant xi :
·
·
Principales caractéristiques (3)
Variance conditionnelles de x sachant yj :
·
·
Variance conditionnelles de y sachant xi :
·
·
Principales caractéristiques (4)
Covariance: :
Independence des deux variables X et Y:
· ·
¹
Ajustement linéaire et corrélation (1)
Exemple: 95
90
Poids
85
Karim 175 73 75
Youssef 168 56 70
60
Amina 185 87
55
Taille
50
150 160 170 180 190 200
x i -x y i -y
Cov x,y
a = i=1
n =
V(x)
x i -x
2
i=1
b a
Dy/x passe par le point moyen (x, y)
Ajustement linéaire et corrélation (5)
Covariance : C ov x,y = 1
n
n
x -x y -y
i=1
i i
Propriétés :
Cov x,y 0 x et y varient dans le même sens
C ov x,y 0 x et y varient en sens contraire
Cov x,y Cov y,x
Cov x,x V(x)
Cov a x + b y , z a Cov x,z b Cov y,z
Ajustement linéaire et corrélation (6)
Corrélation linéaire: ρ = c o v (x ,y )
σ ( x ) σ (y )
Propriétés :
ρ = 1 si a > 0
1 ρ 1 y=ax+b
ρ = -1 si a < 0
ρ 1 Il existe une relation fonctionnelle entre x et y
ρ 0 x et y sont indépendantes
0 ρ 1 Il existe une dépendance linéaire d’autant plus forte que |r| est grand
Ajustement linéaire et corrélation (7)
QUALITE D’UN AJUSTEMENT
On montre
y -y yˆ -y y -yˆ
2 2 2
que
i i i i
L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que
SCR/SCT est proche de 0 ou SCM/SCT est proche de 1.
0 R 1
Ajustement linéaire et corrélation (8)
AJUSTEMENT A UNE FONCTION PUISSANCE
900
800
700
600
500
Droite de régression linéaire de y en x
400
300
200
100
0
0 20 40 60
150
100
50
0
0 10 20 30 40 50 60
Analyse des résidus
-50
Le modèle affine ne
-100
convient pas
-150
Ajustement linéaire et corrélation (9)
AJUSTEMENT A UNE FONCTION EXPONENTIELLE
25,0
Modèle exponentiel
20,0
y = ex exponentielle de base e
15,0
exponentielle de base
10,0
y = ax a
Forme exponentielle
5,0 y = b ax générale
0,0
Changement de variable
0 10 20 30 40 50 60
ln y = ln b + x
ln a avec Y = ln
Y=AX+
B y
X=x
A = ln a
L’ajustement affine de Y en fonction de X donne A B = ln
et B, da ’où b
= eA b = eB , , ety =
le bmodèle
ax
Ajustement linéaire et corrélation (10)
AJUSTEMENT A UNE FONCTION EXPONENTIELLE
25,00
5,00
0,00
0 10 20 30 40 50 60
1,50
1,00
0,50
Analyse des résidus 0,00
0 10 20 30 40 50 60
-0,50
On montre
y -y yˆ -y y -yˆ
2 2 2
i i i i
que
SCM SCR
SCT = SCM + SCR 1
SCT SCT
Somme des carrés Somme des
Somme des carrés
des écarts à la = des écarts du modèle
+ carrés des
moyenne résidus
L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que SCR/SCT est
proche de 0 ou SCM/SCT est proche de 1.
SCM
R = Coefficient de détermination = r² = (coef. de corrélation)²
SCT
0 R 1