Vous êtes sur la page 1sur 16

Table des matières

1 DONNÉES STATISTIQUES 3
1.1 Un peu de vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Démarches statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 ORGANISATION DES DONNÉES 7


2.1 Groupement des données . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Tableau des effectifs et des fréquences . . . . . . . . . . . . . . . . . . 8
2.2.1 Effectifs et fréquences . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 Effectifs et fréquences cumulées . . . . . . . . . . . . . . . . . 9
2.2.3 Amplitude et densité de proportion . . . . . . . . . . . . . . . 11
2.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Variables quantitatives discrètes . . . . . . . . . . . . . . . . . 13
2.3.3 Variables quantitatives continues . . . . . . . . . . . . . . . . 14
2.3.4 Fonction de répartition empirique . . . . . . . . . . . . . . . . 15

3 STATISTIQUE DESCRIPTIVE UNIVARIEE 17


3.1 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.2 Les quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.3 Les moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.1 Étendue et distance inter-quartile . . . . . . . . . . . . . . . . 23
3.2.2 Écart absolu moyen . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.3 Variance et écart-type . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Paramètres de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.1 Variable centrée réduite . . . . . . . . . . . . . . . . . . . . . 26
3.3.2 Moments d’une distribution . . . . . . . . . . . . . . . . . . . 26
3.3.3 Coefficient d’asymétrie de Fisher . . . . . . . . . . . . . . . . 26
3.3.4 Coefficient d’aplatissement . . . . . . . . . . . . . . . . . . . . 27

4 Analyse bi-variée 28
4.1 Tableau de contingence, distributions marginales, distributions condi-
tionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.1 Tableau de contingence . . . . . . . . . . . . . . . . . . . . . . 28
4.1.2 Distributions marginales . . . . . . . . . . . . . . . . . . . . . 29

1
TABLE DES MATIÈRES 2

4.1.3 Distributions conditionnelles . . . . . . . . . . . . . . . . . . . 30


4.1.4 Tableau profils-colonne, tableau profils-ligne . . . . . . . . . . 30
4.2 Indépendance, liaison fonctionnelle . . . . . . . . . . . . . . . . . . . 33
4.2.1 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2.2 Liaison fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . 33
4.3 Résumés numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.3.1 Caractéristiques marginales . . . . . . . . . . . . . . . . . . . 34
4.3.2 Caractéristiques conditionnelles . . . . . . . . . . . . . . . . . 35
4.4 Lien entre caractéristiques marginales et caractéristiques conditionnelles 36
4.5 Mesure de la corrélation . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.5.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.5.2 Coefficient de corrélation linéaire . . . . . . . . . . . . . . . . 38
4.6 Ajustements affines . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.6.1 Méthode des moindres carrées . . . . . . . . . . . . . . . . . . 39
4.6.2 Méthode de MAYER . . . . . . . . . . . . . . . . . . . . . . . 39

Dr KANGA Gérard 2 gerardkanga17@gmail.com


Chapitre 1

DONNÉES STATISTIQUES

La statistique est une méthode scientifique qui consiste à observer et à étudier


une/plusieurs particularité(s) commune(s) chez un groupe de personnes ou de choses.

1.1 Un peu de vocabulaire

Définition 1.1.1 On appelle population statistique, l’ensemble de référence sur


lequel on réalise une enquête statistique. Chaque élément de la population est appelé
individu ou unité statistique et le nombre d’individus est appelé taille de la
population.

Exemple 1.1.1 Ensemble des ménages d’une ville. Un "ménage" est un individu. Le
nombre total de ménages est la taille de la population. On peut extraire les ménages
d’un quartier pour avoir un échantillon.

Remarque 1.1.1 La collecte de données (obtention de l’échantillon à partir de la


population) est une étape clé et délicate. Nous ne traitons pas ici des méthodes
possibles, mais attirons l’attention sur le fait que l’hypothèse sous-jacente est que
l’échantillon d’individus étudiés est choisi "au hasard" parmi tous les individus qui
auraient pu être choisis(échantillon représentatif). Il faut tout mettre en oeuvre pour
que cette hypothèse soit satisfaite. Dans la suite, sauf mention explicite du contraire,
nous considérons que l’étude statistique porte sur la population complète.

Définition 1.1.2 Une variable ou un caractère est une propriété commune aux
individus de la population que l’on souhaite étudier.

Exemple 1.1.2 Couleur préférée ; Niveau d’étude ; nombre d’enfants ; âge sont des
variables que l’on peut étudier sur une population d’employés.

Définition 1.1.3 Les modalités d’une variable sont les "valeurs" possibles de cette
variable.

3
CHAPITRE 1. DONNÉES STATISTIQUES 4

Exemple 1.1.3 – Couleur préférée : rouge, bleu, vert, violet- - -


– Niveau d’étude : primaire, secondaire, supérieur
– nombre d’enfants : 0 ;1 ;2 ;3- - - -
– âge : moins de 25 ans ; de 25 à moins de 30 ans - - -

On distingue plusieurs types de variables statistiques.

Définition 1.1.4 (Typologie des variables statistiques)

1. Une variable qualitative est une variable dont les modalités ne sont pas des
nombres(non mesurable). Exemple : Couleur préférée, niveau d’étude.
(a) S’il est possible d’ordonner les modalités, on dit que la variable est qua-
litative ordinale. Exemple : Niveau d’étude.
(b) Si non, on dit qu’elle est qualitative nominale. Exemple :Couleur pré-
férée.
2. Une variable quantitative est une variable dont les modalités sont des nombres(mesurable).
Exemple : Nombre d’enfants, âge.
(a) Si les valeurs sont des nombres entiers ou "isolés" (en nombre fini), on
dit que la variable est discrète. Exemple : Nombre d’enfants.
(b) Si par contre la variable est susceptible de prendre n’importe quelle valeur
dans un intervalle de R, on dit qu’elle est continue. Exemple :âge.

Définition 1.1.5 Une série statistique est un ensemble de couples {(Mi , ni )}1≤i≤p
ou {(xi , ni )}1≤i≤p où
– p est le nombre de modalités ou valeurs de la variable ;
– les Mi sont les modalités ;
– les xi sont les valeurs de la variable ;
– ni est le nombre d’individus qui présentent la modalité Mi ou la valeur xi .

1.2 Notations

Voici les terminologies et notations usuelles pour les définitions ci-dessus.

Terminologie Notation
Taille de la population N
Population P = {1, . . . N }
Individu u∈P
Variable ou caractère X, Y, . . .
Valeur de la variable X pour l’individu u X(u)
Série statistique simple brute pour X {X(1), X(2), . . . X(N )}
Série statistique double brute pour X et Y {(X(1), Y (1)) , . . . (X(N ), Y (N ))}

Dr KANGA Gérard 4 gerardkanga17@gmail.com


CHAPITRE 1. DONNÉES STATISTIQUES 5

Variable qualita ve nominale

(pas d’ordre)

Variable qualita ve

Variable qualita ve ordinale

(possibilité d’ordonner)

Caractère ou variable
sta s que

Variable quan ta ve discrète

(valeurs précises)

Variable quan ta ve

Variable quan ta ve con nue

(valeurs non précises)

Exemple 1.2.1 Une petite enquête s’intéresse à la marque de voiture préférée de


10 employés d’une société. Les marques proposées sont : Peugeot(P), Renault(R),
Citroen(C), Nissan(N). On obtient la série statistique simple brute suivante :

Employés 1 2 3 4 5 6 7 8 9 10
Tableau 1.2.1
Marque C R C N P P P R C N

La population P est l’ensemble des 10 employés. La taille de la population est


N = 10. Le caractère X est la "marque préférée". C’est un caractère qualitatif
nominal.
X(1) = Citroen, X(7) = P eugeot.

Dr KANGA Gérard 5 gerardkanga17@gmail.com


CHAPITRE 1. DONNÉES STATISTIQUES 6

1.3 Démarches statistiques

Le but de la statistique est d’organiser des données chiffrées sur de grands en-
sembles, de les synthétiser et de les interpréter. Dans le traitement de ces données,
la méthode statistique présente deux approches :

• La statistique descriptive(objet de ce cours)


C’est l’ensemble des méthodes à partir desquelles on recueille, on ordonne, on
réduit, et on condense les données. A cette fin, la statistique descriptive utilise
des tableaux, des graphiques, des paramètres ou indicateurs.

• La statistique inférentielle
C’est la méthode statistique pour laquelle il est possible de déduire les carac-
téristiques quantitatives de toute une population à partir d’une étude sur un
échantillon issu de celle-ci. Elle nécessite des méthodes d’échantillonnage et
des méthodes probabilistes.

Dr KANGA Gérard 6 gerardkanga17@gmail.com


Chapitre 2

ORGANISATION DES
DONNÉES

2.1 Groupement des données

Dans le chapitre précédent nous avons vu des exemples de séries statistiques simples
dont les données sont écrites sous forme brute : {X(1), X(2), . . . X(N )}. Dans la
pratique, le nombre d’individus étant typiquement très grand, il faut réorganiser ces
données en les regroupant. On dit qu’on fait un dépouillement. La première étape
consiste :


– pour une variable qualitative ou quantitative discrète : à identifier les modali-
tés/valeurs prises par la variable, c’est-à-dire à identifier X(P) ;

– pour une variable quantitative continue : à construire des intervalles ou classes


formant une partition de l’ensemble des valeurs possibles de la variable. Si
possible, on fait en sorte que les classes soient d’amplitudes égales, au nombre
de 5 à 20 (de préférence entre 6 et 12), du type [a; b[.

Cependant, lorsque une variable quantitative discrète prend un grand nombre de


valeurs différentes, il est souvent utile de la voir comme une variable quantitative
continue et d’effectuer un regroupement en classes. Cela permet une analyse plus
claire des données.
Voici les notations utilisées dans ce cours.

Terminologie Notation
Nombre de modalités/valeur/classes pour X p
Modalités d’une variable qualitative X X(P) = {m1 , . . . mp }
Valeurs prises par une variable discrète X X(P) = {x1 , . . . xp }
Intervalles pour une variable continue X X(P) = {[a0 ; a1 [, . . . [ap−1 ; ap [}

On a toujours p ≤ N .

7
CHAPITRE 2. ORGANISATION DES DONNÉES 8

Exemple 2.1.1 Si nous reprenons l’exemple 1.2.1 : p = 4, les modalités sont :m1 =
P , m2 = R, m3 = C et m4 = N

2.2 Tableau des effectifs et des fréquences

Afin de retrouver toute l’information de la série statistique brute en utilisant les


regroupements de la section précédente, il faut donner pour chacune des modali-
tés/valeurs/classes son effectif. Ceci nous permet ensuite de définir les fréquences et
fréquences cumulées. Dans toute cette section, nous considérons une population P
de taille N sur laquelle nous étudions une variable X.

2.2.1 Effectifs et fréquences


Définition 2.2.1 Soit i ∈ {1 . . . p}
1. Le nombre ni d’individus pour lesquels la modalité/la valeur de la variable
X est mi /xi /dans[ai−1 ; ai [ est appelé effectif ou fréquence absolue associé à
mi /xi /[ai−1 ; ai [.
2. La fréquence relative ou simplement fréquence associée à mi /xi /[ai−1 ; ai [ est le
rapport de l’effectif sur la taille de la population.
ni
fi =
N
Propriétés 1
p
X p
X
ni = N et fi = 1 (2.1)
i=1 i=1

A l’aide ces quantités, on peut construire un tableau qui permet de résumer ces
données.

Variable X m1 /x1 /[a0 ; a1 [ m2 /x2 /[a1 ; a2 [ ... mp /xp /[ap−1 ; ap [ Total


Effectif n1 n2 ... np N
Fréquence f1 f2 ... fp 1

Exemple 2.2.1 Situation matrimoniale de 50 employés d’une société.

Modalités Marié Célibataire divorcé veuf(ve) Total


Tableau 2.2.1 Effectifs 18 22 7 3 50
Fréquences 0,36 0,44 0,14 0,06 1

Exemple 2.2.2 Nombre d’enfants à charge de 50 employés d’une société.

Nombre d’enfants 0 1 2 3 4 5 Total


Tableau 2.2.2 Effectifs 6 15 17 6 4 2 50
Fréquences 1

Dr KANGA Gérard 8 gerardkanga17@gmail.com


CHAPITRE 2. ORGANISATION DES DONNÉES 9

Exemple 2.2.3 Revenus moyens (en milliers de F) des ménages d’un quartier.
Revenus [75; 100[ [100; 150[ [150; 200[ [200; 300[ [300; 500[ Total
Tableau 2.2.3 Nbre ménages 12 24 36 6 2 80
Fréquences 0,15 0,3 0,45 0,075 0,025 1

2.2.2 Effectifs et fréquences cumulées


Dans cette section, on exclut le cas des variables qualitatives nominales.

– Si la variable X est qualitative ordinale, les modalités m1 , m2 , . . . mp sont or-


données suivant l’ordre croissant naturel (ou hiérarchique ascendant) ;

– si elle est quantitative discrète, les valeurs sont classées en ordre croissant :
x1 < x2 < · · · < xp ;

– si elle est quantitative continue, les intervalles suivent un ordre croissant na-
turel : [a0 ; a1 , [a1 ; a2 , . . . [ap−1 ; ap [.
Définition 2.2.2 Soit k ∈ {1 . . . p}
1. L’effectif cumulé croissant (respectivement décroissant) de la modalité mk /valeur
xk / classe [ak−1 ; ak [, est la somme des effectifs n1 . . . nk (respectivement nk . . . np ).
k
X p
X
νk = nj et νek = nj (2.2)
j=1 j=k

2. La fréquence cumulée croissante (respectivement décroissante) de la modalité


mk /valeur xk / classe [ak−1 ; ak [, est la somme des fréquences f1 . . . fk (respectivement
fk . . . fp ).
k
X p
X
φk = fj et φe
k = fj (2.3)
j=1 j=k

Remarque 2.2.1


 ν1 = n 1
νk+1 = νk + nk+1 ∀k ∈ {1 . . . p − 1} (2.4)


νp = N


 νep = np
νek−1 = νek + nk−1 ∀k ∈ {1 . . . p − 1} (2.5)


νe1 = N


 φ1 = f1
φk+1 = φk + fk+1 ∀k ∈ {1 . . . p − 1} (2.6)


φp = 1



 φep = fp

φek−1 = φek + fk−1 ∀k ∈ {1 . . . p − 1} (2.7)
φe1 = 1

Dr KANGA Gérard 9 gerardkanga17@gmail.com


CHAPITRE 2. ORGANISATION DES DONNÉES 10

INTERPRÉTATIONS
1. CAS D’UNE VARIABLE DISCRÈTE
(a) L’effectif cumulé croissant (νk ) d’une valeur xk représente le nombre d’in-
dividus de la population dont la valeur de la variable est inférieure ou égale à xk ;
(b) L’effectif cumulé décroissant (νek ) d’une valeur xk représente le nombre
d’individus de la population dont la valeur de la variable est supérieure ou égale à xk ;
(c) La fréquence cumulée croissante (φk ) d’une valeur xk représente le pourcentage
d’individus de la population dont la valeur de la variable est inférieure ou égale à xk ;
(d) La fréquence cumulée décroissante (φek ) d’une valeur xk représente le pourcentage
d’individus de la population dont la valeur de la variable est supérieure ou égale à xk ;

2. CAS D’UNE VARIABLE CONTINUE


(a) L’effectif cumulé croissant (νk ) d’une classe [ak−1 ; ak [ représente le nombre
d’individus de la population dont la valeur de la variable est strictement inférieure à ak ;
(b) L’effectif cumulé décroissant (νek ) d’une classe [ak−1 ; ak [ représente le nombre
d’individus de la population dont la valeur de la variable est supérieure ou égale à ak−1 ;
(c) La fréquence cumulée croissante (φk ) d’une classe [ak−1 ; ak [ représente le
pourcentage d’individus de la population dont la valeur de la variable est
strictement inférieure à ak ;
(d) La fréquence cumulée décroissante (φek ) d’une classe [ak−1 ; ak [ représente
le pourcentage d’individus de la population dont la valeur de la variable
est supérieure ou égale à ak−1 ;

APPLICATIONS : Compléter les tableaux suivants :


Nombre d’enfants 0 1 2 3 4 5 Total
Effectifs 6 15 17 6 4 2 50
Fréquences
Tableau 2.2.4 νk
νek
φk
φek

Revenus [75; 100[ [100; 150[ [150; 200[ [200; 300[ [300; 500[ Total
Nbre ménages 12 24 36 6 2 80
Fréquences 0,15 0,3 0,45 0,075 0,025 1
Tableau 2.2.5 νk 12 36 72 78 80
νek 2 8 44 68 80
φk
φek

Dr KANGA Gérard 10 gerardkanga17@gmail.com


CHAPITRE 2. ORGANISATION DES DONNÉES 11

2.2.3 Amplitude et densité de proportion


Dans cette section, on se restreint au cas où la variable X est quantitative conti-
nue, avec les classes [a0 ; a1 [, . . . [ap−1 ; ap [. On a :

Définition 2.2.3 Soit i ∈ {1 . . . p}


1. L’amplitude de la classe [ai−1 ; ai [ est li = ai − ai−1 .
fi
2. La densité de proportion de la classe [ai−1 ; ai [ est di = .
li

Remarque 2.2.2 1. La densité de proportion permet de comparer les effectifs


dans chaque classe en tenant compte de la taille de ces classes.
2. Dans le cas de classes qui ont toutes la même longueur, il n’est pas nécessaire
de calculer la densité de proportion, il est suffisant d’étudier les fréquences
relatives ou absolues (qui sont directement proportionnelles à la densité de
proportion)

APPLICATIONS

Dr KANGA Gérard 11 gerardkanga17@gmail.com


CHAPITRE 2. ORGANISATION DES DONNÉES 12

2.3 Représentations graphiques


Pour chaque type de variable, il existe des représentations graphiques qui illus-
trent les tableaux obtenus dans la section précédente.

2.3.1 Variables qualitatives


Diagrammes circulaires
Dans un diagramme circulaire (ou camembert), les modalités sont représentées
par des secteurs angulaires d’un disque (ou d’un demi-disque), tels que la mesure de
chaque angle soit proportionnelle à l’effectif ou à la fréquence de la modalité qu’il
représente. On effectue donc un produit en croix pour connaître l’angle de chaque
secteur. Dans le cas d’un disque complet, la mesure de l’angle (en degré) est fi ∗ 360.

Exemple 2.3.1 Tableau 2.2.1

Repartition selon la situation


matrimoniale

6%
14%
36%
Marié
Célibataire
Divorcé
44%
Veuf(ve)

Dr KANGA Gérard 12 gerardkanga17@gmail.com


CHAPITRE 2. ORGANISATION DES DONNÉES 13

Diagrammes en barres
Pour obtenir un diagramme en barres, on trace un repère formé d’un axe hori-
zontal non gradué et d’un axe vertical gradué.
- Sur l’axe horizontal, on trace des rectangles de même largeur, représentant les
modalités, que l’on place à des distances régulières les uns des autres ;
- Les hauteurs des rectangles sont proportionnelles aux effectifs ou aux fréquences
des modalités.

Exemple 2.3.2 Tableau 2.2.1

2.3.2 Variables quantitatives discrètes


Diagrammes en bâtons
Pour obtenir un diagramme en bâtons, on trace un repère formé de deux axes
gradués orthogonaux.
-Sur l’axe des abscisses, on place les valeurs x1 , . . . xp prises par la variable.
- Sur l’axe des ordonnées, on place les effectifs ou les fréquences correspondant aux
différentes valeurs.
La courbe joignant les sommets des bâtons est appelée polygones des effectifs ou des
fréquences.

Exemple 2.3.3 Prendre tableau 2.2.2

Dr KANGA Gérard 13 gerardkanga17@gmail.com


CHAPITRE 2. ORGANISATION DES DONNÉES 14

2.3.3 Variables quantitatives continues


Histogrammes
Pour obtenir un histogramme, on trace un repère formé de deux axes gradués
orthogonaux.
- Sur l’axe des abscisses, on place les valeurs des bornes des classes,
- Sur l’axe des ordonnées, on place des pourcentages. Une classe [ai−1 ; ai [ est re-
présentée par un rectangle de largeur l’amplitude li et de hauteur la densité de
proportion di . Cela revient en fait à ce que l’aire de ce rectangle soit la fréquence fi .
En effet, l’aire du rectangle représentant [ai−1 ; ai [ est :

fi
li di = li = fi
li
Exemple 2.3.4

Dr KANGA Gérard 14 gerardkanga17@gmail.com


CHAPITRE 2. ORGANISATION DES DONNÉES 15

2.3.4 Fonction de répartition empirique


Dans cette section, nous nous restreignons au cas des variables quantitatives.

Variables quantitatives discrètes


On suppose que la variable X est discrète et prend les valeurs x1 < · · · < xp

Définition 2.3.1 La fonction de répartition empirique de X est l’application


FX : R → [0, 1] définie par :
– ∀t ∈] − ∞, x1 [, FX (t) = 0;
– ∀i ∈ {1, . . . , p − 1} , ∀t ∈ [xi , xi+1 [, FX (t) = φi ;
– ∀t ∈ [xp , +∞[, FX (t) = 1

REPRÉSENTATION GRAPHIQUE

Dr KANGA Gérard 15 gerardkanga17@gmail.com


CHAPITRE 2. ORGANISATION DES DONNÉES 16

Variables quantitatives continues


On suppose que la variable X est continue et a les classes [a0 , a1 [, . . . [ap−1 , xp [.

Définition 2.3.2 La fonction de répartition empirique de X est l’application


FX : R → [0, 1] définie par :
– ∀t ∈] − ∞, a0 [, FX (t) = 0;
– ∀i ∈ {1, . . . , p} , ∀t ∈ [ai−1 , ai [, FX (t) = φi−1 + di (t − ai−1 ); (convention :
φ0 = 0)
– ∀t ∈ [ap , +∞[, FX (t) = 1.

Remarque 2.3.1 La représentation graphique de la fonction de répartition empi-


rique est est courbe obtenue en reliant par des segments de droite, les points A0 (a0 ; 0)
et Ai (ai ; φi ), i = 1 . . . p.
En effet, une équation de la droite qui passe par deux points consécutifs Ai−1 (ai−1 ; φi−1 ),
et Ai (ai ; φi ), est :
φi − φi−1 φi − φi−1
y= t + φi−1 − ai−1
ai − ai−1 ai − ai−1
Cette courbe est appelée polygone cumulatif croissant.
On peut envisager aussi le polygone cumulatif décroissant en reliant par des segments
de droite les points Aei (ai−1 ; φei ), i = 1 . . . p − 1 ; et Ap (ap ; 0).

REPRÉSENTATION GRAPHIQUE

Dr KANGA Gérard 16 gerardkanga17@gmail.com

Vous aimerez peut-être aussi