Vous êtes sur la page 1sur 18

CSI

COURS DE STATISTIQUE
APPLIQUEE 1

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

SOMMAIRE
I- ANALYSE UNIVARIEE................................................................................2
1-Analyse sur variables quantitatives..............................................................2
a-Indicateurs de position...........................................................................2
b-Indicateurs de dispersion.......................................................................5
2-Analyse sur variables qualitatives......................................................................9
3-Représentations graphiques................................................................................9
a-Caractère quantitatif..............................................................................9
b-Caractère qualitatif..............................................................................12
II - ANALYSE BIVARIEE.................................................................................13
1-Tableaux croisés (quali x quali).................................................................13
2-Tableaux de moyennes (quali x quanti).....................................................15
3-Corrélation (quanti x quanti)......................................................................15

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

PARTIE I : STATISTIQUE DESCRIPTIVE


La statistique descriptive est l’ensemble des méthodes d’analyses qui permettent de
synthétiser l’information contenue dans une base de données. Elles sont réalisées en fonction
du nombre et du type de variables dont ont dispose.

Ainsi distinguera-t-on les analyses univariées (sur variables quantitatives et


qualitatives), les analyses bivariées (tableaux croisés, tableaux de moyenne et corélations) et
les analyses multivariées (ACP, AFC, ACM).

I. ANALYSES UNIVARIEES

Les analyses univariées concernent le traitement d’une seule variable. Elles ont pour
objet de synthétiser et d’analyser les informations disponibles sur cette variable. Elles
dépendent du type de variables ou de données en présence.

1. Analyse sur données quantitatives

Dans le cadre d’un questionnaire, des données quantitatives apparaissent chaque fois
que la personne interrogée se voit demander la valeur (mesure, quantité) qu’elle donne à la
variable concernée. La synthèse de ces données peut être réalisée à travers le calcul de divers
indicateurs qui sont regroupés en deux grandes catégories : les indicateurs de position et les
indicateurs de dispersion.

a. Les indicateurs de position

Ces indicateurs sont le mode, la médiane et la moyenne. Ils permettent de savoir


autour de quelle valeur se situent les valeurs d’une variable statistique.

 Le mode

Le mode est la valeur de la variable qui présente l’effectif le plus élevé (ou la
fréquence la plus élevée).

Exemple 1 : cas d’une variable discrète

Déterminons le mode de la variable relative à cette distribution statistique du


personnel d’une entreprise d’après le nombre d’enfants à charge
Nombre d’enfants (xi) Effectifs (ni)
0 4
1 15
2 29
3 18
4 10
5 3
6 1
Total 80

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI
Le mode est 2 enfants car l’effectif correspondant, 29, est le plus élevé de tous les
effectifs observés

Exemple 2 : cas d’une variable continue

Dans ce cas, la détermination du mode diffère légèrement. Pour chaque classe on


calcul le rapport . Celle qui détient le rapport le plus élevé est alors la classe
modale ou intervalle modal.

Déterminons la classe modale dans la distribution statistique suivante des ouvriers


d’une entreprise d’après leur salaire horaire.

Salaire horaire Effectifs (ni) Rapport


[47,50 ; 52,50[ 10 2
[52,50 ; 57,50[ 30 6
[57,50 ; 60,50[ 60 20
[60,50 ; 63,50[ 72 24
[63,50 ; 67,50[ 40 10
[67,50 ; 73,50[ 24 4
[73,50 ; 80,50[ 14 2
Total 250

La classe modale est [60,5 ; 63,5[ car elle présente le rapport le plus élevé (24).

L’intérêt du mode est évident puisqu’il désigne la valeur de la variable qui revient le
plus souvent à l’occasion des observations faites.

Il n’a de signification véritable

que si l’effectif correspondant est nettement supérieur aux effectifs présentés par les
autres valeurs de la variable.

Il ne doit être retenu que s’il est unique (série unimodale).

 La médiane

La médiane est la valeur de la variable telle que le total des effectifs correspondant à
des valeurs de la variable inférieures à cette médiane, soit égal au total des effectifs
correspondant à des valeurs de la variable supérieures à cette médiane.

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

 Variable discrète

Un candidat a obtenu les notes suivantes, sur 20, à l’occasion des épreuves qu’il a dû
subir.
Notes Cœfficient
14 1
8 1
11 1
12 3
10 1
7 2
Total 9

Rangeons dans l’ordre croissant (ou décroissant) les notes obtenues par ce candidat, la
note sept dont le coefficient est 2, étant écrite deux fois, la note 12 dont le coefficient 3, étant
écrite 3 fois, les autres notes étant écrite une fois.

7 7 8 10 11 12 12 12 14

Dans la série écrite qui compte 9 termes (nombre impair) étant la somme des
cœfficients, ou somme des effectifs, la note médiane est 11.

Si le candidat avait une épreuve supplémentaire, avec coefficient 1 et obtenu à cette


épreuve la note 6, l’ordre croissant des notes sera :

6 7 7 8 10 11 12 12 12 14

Les notes étant cette fois au nombre de 10 (nombre paire) on obtient un intervalle
médian [10 ; 11] ou la rigueur à une médiane égale à 10,5.

 Variable continue

Pour l’illustration de cette partie reprenons des 250 ouvriers d’une entreprise
classés d’après leur salaire horaire.
Effectifs Effectifs cumulés Effectifs cumulés
Salaire horaire
(ni) croissants décroissants
[47,50 ; 52,50[ 10 10 250
[52,50 ; 57,50[ 30 40 240
[57,50 ; 60,50[ 60 100 210
[60,50 ; 63,50[ 72 172 150
[63,50 ; 67,50[ 40 212 78
[67,50 ; 73,50[ 24 236 38
[73,50 ; 80,50[ 14 250 14
Total 250

On recherche le salaire du 125e ouvrier ( ). Le nombre 125 étant


compris entre 100 et 172 l’intervalle médian est [60,50 ; 63,50[

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

Pour déterminer la médiane on procède par interpolation linéaire.

100 125 172

60,50 Me 63,50

Me = 61,54 F

La moyenne

La moyenne est le rapport de la somme des valeurs prises par la variable pondéré de
leur effectif par l’effectif total.

Exemple :
Nombre d’enfants (xi) Effectifs (ni) xi.ni
0 4 0
1 15 15
2 29 58
3 18 54
4 10 40
5 3 15
6 1 6
Total 80 188

enfants

Application : déterminer la moyenne arithmétique de la distribution des salaires


horaires des 250 ouvriers

b. Les indicateurs de dispersions

 L’étendu (ou range)

L’étendu est la différence entre la valeur la plus élevée et la valeur la plus faible prise
par une variable.

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI
D ans le cas de la distribution des salaires horaires des 250 employés l’étendu est

 L’intervalle interquartile

La définition de l’intervalle interquartile suppose la connaissance préalable de la


notion de quartile.

On appelle premier quartile (ou quartile inférieur) d’une distribution statistique, et on


désigne par Q1, la valeur telle que 25% des valeur prises par la variable, donc 25% de
l’effectif total étudié, lui soient inférieures, et 75% supérieures.

On appelle troisième quartile (ou quartile supérieur) d’une distribution statistique, et


on désigne par Q3, la valeur telle que 75% des valeur prises par la variable, lui soient
inférieures, et 25% supérieures.

En conséquence de ces définitions le second quartile, Q2, se confond évidemment


avec la valeur médiane.

L’intervalle interquartile est la différence du troisième quartile et du premier


quartile.

Un quart des effectifs présentant des valeurs de la variable inférieures au premier


quartile, et un quart de ces effectifs présentant des valeurs supérieures au troisième quartile,
l’intervalle interquartile contient des valeurs de la variable présentées par la moitié centrale
des effectifs observés.

Exemple de détermination des quartiles Q1 et Q3, et de l’intervalle interquartile


(distribution des salaires horaires de 250 ouvriers)

Utilisons la colonne des effectifs cumulés croissants


Effectifs Effectifs cumulés
Salaire horaire
(ni) croissants
[47,50 ; 52,50[ 10 10
[52,50 ; 57,50[ 30 40
[57,50 ; 60,50[ 60 100
[60,50 ; 63,50[ 72 172
[63,50 ; 67,50[ 40 212
[67,50 ; 73,50[ 24 236
[73,50 ; 80,50[ 14 250
Total 250

Le premier quartile, Q1, est le salaire correspondant à la 62,5e observation


, les observations étant rangées par ordre de valeurs croissantes. Il se situe
dans l’intervalle [57,50 ; 60,50[.

Nous aurons, alors

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

40 125 100

57,50 Q1 60,50

Le troisième quartile Q3, est le salaire correspondant à la


observation. Il se trouve dans l’intervalle [63,50 ; 67,50[.

L’intervalle interquartile est donc

NB : de manière analogue, on détermine l’intervalle interdécile (D9 – D1)

 Ecart moyen

Les caractéristiques de dispersion ont pour objectif de permettre d’apprécier la


dispersion (l’étalement) des valeurs observées d’une variable statistique autour de ses valeurs
centrales.

Si nous retenons comme valeur centrale la moyenne arithmétique nous sommes


conduits à calculer, pour chaque valeur xi, l’écart entre cette valeur et la moyenne
arithmétique , à multiplier chacun de ces écarts par l’effectif correspondant, à totaliser les
produits obtenus, à diviser enfin le

total obtenu par l’effectif de la population. On obtient ainsi l’écart moyen (em) :

ou

Exemple de calcul de l’écart moyen (avec )


Centre des Effectifs
Salaire horaire (xi)
Classes (xi) (ni)
[47,50 ; 52,50[ 50 10 12,176 121,760
[52,50 ; 57,50[ 55 30 7,176 215,280
[57,50 ; 60,50[ 59 60 3,176 190,560
[60,50 ; 63,50[ 62 72 0,176 12,672
65,50 132,960
[63,50 ; 67,50[ 40 3,324
[67,50 ; 73,50[ 70,50 24 8,324 199,776
[73,50 ; 80,50[ 77 14 14,824 207,536
Total 250 1080,544

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

D’où . Ainsi en moyenne, les salaires horaires considérés


s’écartent d’environ 4,322 F du salaire moyen.

 Variance, Ecart-type

La variance est la moyenne arithmétique des carrés des écarts des valeurs de la
variable à leur moyenne arithmétique. On désigne par (lire "sigma carré"), ou par

L’écart-type, désigné par , est la racine carrée positive de la variance.

Exemple de calcul d’une variance et d’un écart-type avec


Centre des Effectifs
Salaire horaire (xi)
Classes (xi) (ni)
[47,50 ; 52,50[ 50 10 -12,176 148,254 1482,550
[52,50 ; 57,50[ 55 30 -7,176 51,495 1544,850
[57,50 ; 60,50[ 59 60 -3,176 10,087 605,219
[60,50 ; 63,50[ 62 72 -0,176 0,0310 2,230
65,50 11,049 441,952
[63,50 ; 67,50[ 40 +3,324
[67,50 ; 73,50[ 70,50 24 +8,324 69,289 1662,935
[73,50 ; 80,50[ 77 14 +14,824 219,751 3076,514
Total 250 8816,256

D’où Variance et Ecart-type

 Coefficient de variation

Les indicateurs présentés précédemment s’exprime dans la même unité que la variable
étudiée. Ils ne sont pas adéquats pour comparer la dispersion de deux distributions qui ne
s’exprime pas dans la même unité. Le coefficient de variation supprime ce défaut. Il se calcul
comme le rapport de l’ecart-type à la moyenne.

c’est donc un indicateur de dispersion affranchit de dimension. Cette propriété fait du


coefficient de variation un indicateur utile pour comparer les distributions exprimer dans
différentes unités. De deux distributions, la plus dispersée sera celle dont le coefficient de

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI
variation est le pus élevé. On peut ainsi comparer la dispersion des salaires entre les employés
de deux entreprises.

2. Analyse sur données qualitatives

L’analyse sur données qualitatives se fait par détermination des pourcentages des
individus appartenant aux différentes modalités.

Exemple : sur 250 personnes interrogées


 13 sont veufs
 96 mariés
 112 célibataires
 29 divorcés

La distribution des 250 élèves en fonction des années de préparations du concours est
la suivante :
%tage Angle (°)
Années Effectif (ni)
(%)
Divorcés 29 11,6 42
Célibataires 112 44,8 161
Mariés 96 38,4 138
Veufs 13 5,2 19
Total 250 100 360

1. Représentation graphique

La représentation graphique des données relatives à un caractère unique repose sur la


proportionnalité des longueurs, ou des aires, des graphiques, aux effectifs, ou aux fréquences,
des différentes modalités du caractère.

a. Caractère qualitatif

Pour un caractère qualitatif, on utilise principalement trois types de représentation


graphique : la représentation par tuyaux d'orgue, la représentation par secteurs et la
représentation en barre

 La représentation par tuyaux d’orgue

Au niveau de la représentation par tuyaux d’orgue on porte également en abscisses les


modalités de la variable, de façon arbitraire mais en ordonnées des rectangles dont la longueur
est proportionnelle aux effectifs, ou aux fréquences, de chaque modalité.

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

Exemple

 La représentation par secteur

Les diagrammes circulaires, ou semi-circulaires, consistent à partager un disque ou un


demi-disque, en tranches, ou secteurs, correspondant aux modalités observées et dont la
surface est proportionnelle à l'effectif, ou à la fréquence, de la modalité.

Exemple

 Le diagramme en barres

Le diagramme en barres se réalise par le partage d’une barre en plusieurs rectangles


dont les hauteurs sont proportionnelles aux pourcentages données les différentes modalités de
la variable.

Exemple

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

b. Caractère quantitatif

La représentation graphique d’un caractère quantitatif se fait selon le fait qu’il soit
discret ou continue. Ainsi utilise-on le diagramme en bâton lorsqu’il est discret,
l’histogramme et les polygones cumulatifs croissant ou décroissant s’il est continu.

 Le diagramme en bâton

En chacun des points correspondant aux valeurs prisent par la variable, on trace
parallèlement à l’axe des ordonnées un bâtons de longueur proportionnelle à l’effectif
correspondant. Nous obtenons ainsi un diagramme en bâton.

Exemple

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI
 L’histogramme

Un histogramme est un ensemble de rectangles accolées dont les bases sont les
amplitudes des classes et les hauteurs les différents rapports Effectifs / amplitudes relatifs.

Exemple
Amplitude Effectifs Effectif Effectif /
(Base des Effectifs Cumulés cumulés amplitude
Salaire horaire (xi)
rectangles) (ni) croissants décroissants (hauteur des
rectangles)
[47,50 ; 52,50[ 5 10 10 250 2
[52,50 ; 57,50[ 5 30 40 240 6
[57,50 ; 60,50[ 3 60 100 210 20
[60,50 ; 63,50[ 3 72 172 150 24
[63,50 ; 67,50[ 4 40 212 78 10
[67,50 ; 73,50[ 6 24 236 38 4
[73,50 ; 80,50[ 7 14 250 14 2
Total 250

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI
 Le polygone cumulatif croissant

Un polygone cumulatif croissant s’établit en construisant dans un repère cartésien


orthogonal les points de coordonnées : (47,50 ; 0) ; (52,50 ;10) ; (57,50 ;40) ; (60,50 ;100) ;
(63,50 ;172) ; (67,50 ;212) ; (73,50 ;236) ; (80,50 ;250) points dont les abscisses sont égales
aux bornes supérieures des classes, sauf pour le premier point, et dont les ordonnées sont les
effectifs cumulés croissants correspondants. Puis en les joignant par des segments de droite.

 Le polygone cumulatif décroissant

Il a le même principe de construction que celui qui précède à la seule différence que
les abscisses sont égales aux bornes inférieure des classes, sauf pour le dernier point et dont
les ordonnées sont les effectifs cumulés décroissants correspondants.

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI
II. ANALYSES BIVARIEES
C’est une analyse qui prend en compte deux variables en même temps. Elle a pour but
d’identifier l’effectif ou le pourcentage d’individus qui présentent simultanément deux
caractéristiques représentées par des variables.

Elles diffèrent selon le type de variables en présences. Ainsi réalise-t-on un tableau


croisé lorsque nous avons affaire à deux variables qualitatives, un tableau de moyenne
pour deux variables dont l’une qualitative et l’autre quantitative et nous recherchons la
corrélation quant-il s’agit de deux variables quantitatives.

1) Tableau croisé

On réalise un tri (tableau) croisé lorsqu’on veut étudier l’influence significative de


deux variables nominales de manière simultanée.

Ce tableau croisé et son analyse diffèrent selon que l’on choisisse de les établir selon
les pourcentages en ligne, en colonne ou au total.

a. Tableau des effectifs


b. Pourcentage en ligne
Les pourcentages étant établir sur des pourcentages en ligne on obtient un tableau de la
sorte :
Tableau : croisement du type de carburant utilisé et du niveau de satisfait.
CONSOMMATION Pas Moyenn satisfait TOTAL
CARBURANT satisfait ement
Sans plomb 52,4% 28,6% 19,0% 100%
Gasoil 0,0% 23,3% 76,7% 100%
GPL 0,0% 4,3% 95,7% 100%
Essence 57,6% 33,9% 8,5% 100%
TOTAL 25,6% 25,0% 49,4% 100%
Analyser le pourcentage encadré (52,4%) : Parmi les personnes qui utilisent du
carburant sans plomb, 52,4% ne sont pas satisfaites.

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

c. Pourcentage en colonne

Les pourcentages étant établir sur des pourcentages en colonne on obtient un tableau
de la sorte :

Tableau : croisement du type de carburant utilisé et du niveau de satisfait.

CONSOMMATION Pas Moyenn satisfait TOTAL


CARBURANT satisfait ement
Sans plomb 24,4% 13,6% 4,6% 11,9%
Gasoil 0,0% 38,6% 64,4% 41,5%
GPL 0,0% 2,3% 25,3% 13,1%
Essence 75,6% 45,5% 5,7% 33,5%
TOTAL 100% 100% 100% 100%
Analyser le pourcentage encadrer (24,4%) : Parmi les personnes qui ne sont pas
satisfaites, 24,4% utilisent du carburant sans plomb.

d. Pourcentage au total

Les pourcentage étant établir sur des pourcentage au total on obtient un tableau de la
sorte :

Tableau : croisement du type de carburant utilisé et du niveau de satisfait.

CONSOMMATION Pas Moyenn satisfait TOTAL


CARBURANT satisfait ement

Sans plomb 6,3% 3,4% 2,3% 11,9%


Gasoil 0,0% 9,7% 31,8% 41,5%
GPL 0,0% 0,6% 12,5% 13,1%
Essence 19,3% 11,4% 2,8% 33,5%
TOTAL 25,6% 25,0% 49,4% 100%

Analyser le pourcentage encadrer (24,4%) : dans notre base de données, il y a 6,3%


de personnes qui utilisent du carburant sans plomb et qui ne sont pas satisfaites.

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

2) Tableau de moyenne

On obtient ce type de tableau en croisant une variable fermée nominale avec une
ou plusieurs variables numériques. Observons l’exemple suivant :

Tableau : croisement du type de carburant utilisé et du niveau des dépenses.

DEPENSE
CARBURANT

Sans plomb 888,10


Gasoil 973,29
GPL 1206,52
Essence 1383,90
TOTAL 1131,25

La dépense moyenne en carburant des personnes interrogées est de 1131,25. Celle de


ceux qui utilisent le gasoil (973,29) est la faible tandis que nous enregistrons la dépense la
plus élevé chez ceux qui utilisent l’essence (1383,90).

3) Corrélation

L’analyse de deux variables numériques se réalise par la détermination d’un


coefficient (r) appelé coefficient de corrélation.

Si les deux variables numériques sont x et y alors r est donné par la formule suivante :

Si :

- r est proche de 1 alors, forte relation positive entre les deux variables.
- r est proche de -1 alors, forte relation négative entre les deux variables.
- r est proche de o alors, faible relation entre ces deux variables.
Lorsque dans un repère orthonormé, on représente toutes les observations ayant pour
abscisse x et pour ordonnée y, on parle de nuage de points.

Au-delà du coefficient de corrélation et du nuage de point, une droite tend à regrouper


le maximum de points obtenus : c’est la droite de régression. Elle est donnée par la formule
suivante :

 ; et .

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68
CSI

Exemple :

16 20 -10,1 -10,4 102,01 108,16 +105,04


18 24 -8,1 -6,4 65,61 49,96 +51,84
23 28 -3,1 -2,4 9,61 5,76 +7,44
24 22 -2,1 -8,4 4,41 70,56 +17,64
28 32 +1,9 +1,6 3,61 2,56 +3,04
29 28 +2,9 -2,4 8,41 5,76 -6,96
26 32 -0,1 +1,6 0,01 2,56 -0,16
31 36 +4,9 +5,6 24,01 31,36 +27,44
32 41 +5,9 +10,6 34,81 112,36 +62,54
34 41 +7,9 +10,6 62,41 112,36 +83,74
261 304 0 0 314,90 492,40 +351,60

, donc il existe une relation positive entre x et y. Lorsque x

croit, y croit dans le même sens que x.

 ; et .

et

Arthur Ouattara, Economiste Statisticien Sénior, Consultant Formateur 1


ouattaraarthur@yahoo.fr / (+225) 03 05 07 30 / 09 33 13 68

Vous aimerez peut-être aussi