Vous êtes sur la page 1sur 16

UNIVERSITE DE DOUALA

FACULTE DES LETTRES ET SCIENCES HUMAINES

DEPARTEMENT DE psychologie

COURS DE STATISTIQUES
NIVEAU I
Par
Dr. NDINGA Henri
Doctorat PhD en Marketing , Stratégie et organisations
PLAN DU COURS DE STATISTIQUES NIVEAU I

Objectifs du cours : Amener l’étudiant à se familiariser avec les notions élémentaires de la statistique
descriptive liée à l’observation des faits.

Mots clés : Population, caractéristiques de tendance centrale, la dispersion, caractère, probabilité,


dénombrement, univers statistique.

Ce cours est divisé en deux parties : la première est consacrée à l’initiation aux statistiques
descriptives appliquée sur un environnement où l’information à traiter est supposée connue et la
deuxième partie consacrée aux probabilités c’est-à-dire l’apprentissage du traitement des données
dans un environnement incertain

Chapitre I : Notion de population, caractère, variable et regroupement des données

Section I : notions de population, caractère, modalités et variable

Section II : regroupements des données quantitatives

Chapitre II : Les tableaux statistiques à un caractère et représentations graphiques

Section I : tableaux statistiques à un caractère

Section II : représentations graphiques

Chapitre III : Etude des caractéristiques de tendance centrale et de dispersion

Section I : les caractéristiques de tendance centrale

Section ii : Les caractéristiques de dispersion. Notion de changement d’échelle et d’origine


INTRODUCTION :
Le 18 e siècle est l’époque à laquelle le mot « statistique » est introduit par l’économiste
allemand GOTTFRIED Achewal, à la suite de son prédécesseur STAATKUNDE .
La statistique est un ensemble de méthodes ayant pour objet : la collecte, le traitement et
l’interprétation des données d’observations relatives à un groupe d’individus ou unités
statistiques.
C’est un instrument d’aide à la décision. En effet, la statistique fournit au chercheur, ou autre
décideur une grille d’observations et d’outils d’analyse par le biais des nombres .Au langage
des mots, la statistique oppose le langage des chiffres. En tant que méthode quantitative, La
statistique vise à simplifier, résumer et synthétiser l’information collectée sur le terrain, afin de
mettre à la disposition du décideur des données « digestes » lui permettant de trouver des
solutions au problème qui se pose à lui.

CHAPITRE I : TERMINOLOGIE
SECTION I : Notion de : population, d’individu, de caractère
1- Notion de population
Les ensembles étudiés en statistiques descriptives portent le nom général de population
ou univers .Une population en statistique est un ensemble d’individus faisant l’objet
d’étude ou d’observation.
Exemple : l’ensemble des étudiants de sociologie 1.
Cette terminologie que la statistique a héritée de son premier camp d’action : La
démographie, s’applique aussi bien à des ensembles de personnes humaines qu’à des
ensembles d’objets concrets ou abstraits.
2- Notion d’individu
En statistique descriptive, un individu est un élément de la .population d’étude. C’est
l’objet d’observation ou d’étude. cet objet peut être un animal, un être humain, ou un
objet immatériel.
Exemple :les réunion académiques tenues au département de sociologie., l’étudiant de
sociologie1
3- Notion de caractère
Un caractère est la propriété ou l’aspect singulier que l’on se propose d’observer
dans la population.
Exemple : Le sexe, l’âge, le salaire
Il existe plusieurs types de caractère : Le caractère qualitatif et le caractère quantitatif.
Un caractère est dit qualitatif lorsque ses différentes modalités ne sont pas mesurables
Exemple : le sexe, le rang occupé par un étudiant de par ses performances académiques
Alors qu’un caractère est qualitatif si ses différentes modalités sont mesurables et
repérables.
Exemple : l’âge, le nombre de malade fréquentant un hôpital.
4- Notion modalité et de variable
4-1- Notion de modalité
Une modalité est la position à laquelle se trouve un caractère. Ce terme d’abord utilisé :
Exemple : pour le caractère « sexe » on peut avoir comme modalité : masculin ou
féminin.
Remarque : La définition des modalités d’un caractère, comme d’ailleurs celle de la
population étudiée, doit faire l’objet de soins très attentifs au stade de l’élaboration de
l’information. Les règles doivent être énoncées sans ambiguïté pour tout individu d’une
part s’il appartient ou non à la population et d’autre part à quelle modalité du caractère,
il correspond.
Exemple : si on veut mener une enquête auprès des étudiants de sociologie 1, il faudra
préciser s’il s’agit des étudiants : présents, inscrits, ou réguliers
4-2 –Notion de variable
La variable quant à elle est la valeur numérique que peut prendre un caractère
quantitatif.
Exemple : pour le caractère « âge » des étudiants de sociologie 1, on peut avoir : 14
ans, 15 ans……..
Il existe deux types de variables : la variable discrète et la variable continue
Une variable est dite discrète si ses valeurs possibles sont des nombres isolés
Une variable est dite continue si ses valeurs possibles sont à priori en nombres infini
et quelconque dans un intervalle de valeurs.

SectionII : Le regroupement des données ou dépouillement


C’est la première étape du traitement des informations collectées sur le terrain.il consiste à
regrouper les données par affinité de valeur de la variable ou par modalité. Nous distinguerons
les cas de la variable discrète, du caractère qualitatif, de celui de la variable continue.
1- Cas de la variable discrète
Lorsque la variable est discrète le regroupement des données statistique suit les étapes
suivantes :
 Identifier les différentes valeurs de la variable
 Les classer par ordre croissant sur la première colonne d’un tableau de
distribution (cf chapitre suivant)
 Compter le nombre d’apparition de la valeur de la variable parmi les données.
Ce nombre d’apparition représente l’effectifs de cette valeur de variable notée
ni.
 Placer ce nombre à la deuxième colonne du tableau de distribution

Exemple : il a été demandé à 14 étudiants de sociologie 1 de donner leurs âges


respectifs. Les données d’observation collectées sont les suivantes : 15 ;
14 ;18 ;15 ;17 ;35 ;25 ;18 ;21 ;18 ;14 ;33 ;18 ;15

Valeur de la Effectifs (ni)


variable (xi)
14 2
15 3
17 1
18 4
21 1
25 1
33 1
35 1
total 14

2-Cas du caractère qualitatif


Lorsque le caractère est qualitatif, le regroupement des données suit le schéma
suivant :
 Identifier les différentes modalités qui figurent parmi les données ;
 Les classer dans la première colonne du tableau de distribution
 Enumérer le nombre d’apparition de chaque modalité
 Placer ce nombre dans la 2e colonne du tableau de distribution
Exemple : le chef de département a voulu identifier l’unité
d’enseignement la plus redoutée par les étudiants de sociologie 1.Les
résultats collectés auprès de 17 étudiants est le suivant :
St, m,cs,fobi,o,st, m,fobi, st,cs, st,st, ,st,fobi,o,m,st,
Avec : Statistiques (st), méthode de recherche(m), formation bilingue
(fobi), option(o), courant sociologique (cs)

Intitulé de l’UE Effectifs(ni)


statistiques 7
Méthodes de 3
recherche
Courant 2
sociologique
Formation bilingue 3
Option 2
Total 17

3-Cas de la variable continue


3-1-Règles régissant le regroupement en classes de valeurs de variable
La variable continue est caractérisée par la forte présence des classes de valeur. La formation
de ces classes obéit à certaines règles qu’il est préférable de respecter, bien que ce ne soit pas
toujours possible :

 R1 : Le nombre de classes ne doit être ni trop, ni trop petit. Un nombre se situant entre
5 et 15 est généralement suffisant.
 R2 : Les classes doivent être définies sans ambiguïté de sorte qu’il soit toujours aisé de
déterminer la classe à laquelle appartient une observation.
Pour ce faire, on exige des classes adjacentes les unes aux autres. Par convention, on
donne à chaque classe la forme d’un intervalle fermé à gauche et ouvert à droite.[a ;b)
ou [a ;b[ avec a ϵ[a ;b) et b n’appartient pas à [a ;b)
 R3 : Les longueurs d’intervalle associées à chacune des classes doivent être égales.
 R4 : Les classes contiennent toutes au moins une observation

3-2-Constitution des classes


Soit N le nombre total d’observations et I le nombre total des classes à former.
Etant donné que les I classes sont adjacentes et correspondent à des intervalles de la
forme [bo ;b1) ; les extrémités des I classes sont déterminées par le I+1 nombres que
l’on note b0,b1,b2b,…………..,bi-1,bI et que l’on nomme « borne des classes ».Ces
nombres sont tels que bo<b1< 𝑏2 <……………<bi-1<Bi.
La construction de la première classe consiste à identifier la plus petite valeur de la
variable bo. Celle -ci devient la borne inférieure de cette classe. Pour former sa borne
supérieure, il faut connaitre l’amplitude de la classe à former Ai ou longueur de
l’intervalle. Ainsi si b1 est la borne supérieure de cette première classe alors : b1=b0+Ai
Comme les classe sont adjacentes, cette borne supérieure de la première classe devient
la borne inférieure de la 2e classe [b1 ; b2) et b2=b1+Ai .
Ce processus continue jusqu’à l’obtention de la dernière classe [bi-1 ; bi).
Remarque : La connaissance des bornes d’une classe permet de déterminer son
amplitude Ai et son centre ci

𝑏𝑖−1+𝑏𝑖
ci= Ai= bi -bi-1
2

Exemple : à supposer que les âges avancés par les étudiants soient les suivants :
15 ;12 ;20 ; 22 ;24 ;23 ;25 :27 :30 ;31 ;32 ;34 ;35 ;39 ;40 ;45 ;40 ;23 ;22 ;21 ;et que
l’amplitude Ai soit de 5. Nous aurons les classes suivantes :
[12 ;17) ; [17 ;22) ; [22 ;27 ) ; [27 ;32) ;[32 ;37) ; [37 ;42)

3-3-opération de regroupement des données


Une fois les classes formées, on les place dans cet ordre dans la première colonne du
tableau de distribution et on comptabilise le nombre d’observation appartenant à chaque
classe. Dans le cas de l’exemple précédent, nous obtenons le tableau suivant :
Ages en classes de valeurs Effectifs (ni)
[12 ;17) 2
[17 ;22) 2
[22 ;27) 6
[27 ;32) 3
[32 ;37) 3
[37 ;42) 4
TOTAL 20

CHAPITRE II : Distribution statistique à un caractère et


représentation graphique
Dans ce chapitre verrons d’une part les tableaux statistiques, expression chiffrée de
la description statistique et d’autre part, la représentation graphique qui traduit
l’expression visuelle des données préalablement traduites dans le tableau de
distribution.

Section I : Tableaux statistiques selon le type de caractère ou de variable


1) Cas du caractère qualitatif
Soit C un caractère comportant k modalités notées par c1,c2,c3, …..ci….ck.
Le traitement de l’information relative au caractère c auprès de la population p
consiste à observer pour chacun des individus, le nombre d’individus qui présente
cette modalité. Nous désignerons par ni ce nombre.
La présentation du tableau est la suivante :
Modalités du C1 C2 C3 total
caractère (ci)
Effectifs (ni) n1 n2 n3 N

EXEMPLE : TABLEAU DE DISTRIBUTION des étudiants de sociologie1 selon leur


pays d’origine
Pays Tchad Guinnée Cameroun Congo Gabon Autres total
d’origine equatorial
s 80 10 430 6 5 30 561

2-CAS DE LA VARIABLE DISCRETE

Lorsque la variable est discrète, le tableau de distribution se présente comme suit :

Valeurs de la X1 X2 ……… xk Total


variable
Effectifs (ni) n1 n2 ……… nk N

Exemple : Tableau de distribution des étudiants de sociologie1 selon leurs âges.


Ages 15 17 35 total
Effectifs 30 300 46 376

3-Cas de la variable continue


Lorsque la variable est continue, ses valeurs sont des classes de valeurs possibles
définies par les extrémités de classe.
De façon générale et comme vu précédemment, désignons les extrémités des classes
par : e0,e1, ……….ei….ek.La classe no i correspond à l’intervalle fermé à gauche et
ouvert à droite ei-1≤xi<ei ou [ei-1 ;ei).

Le tableau statistique se présente comme suit :


classei [eo ;e1) [e1 ;e2) …………… [ei-1 ;ei) Total
Effectifs(ni) n1 n2 …………… ni N
Exemple : soit le tableau de distribution d’étudiants suivant en fonction du nombre
d’associations auxquelles ils adhèrent.
Nombre [0 ;1) [1 ;2) [2 ;3) [3 ; et +)
d’association en
classes
EFFECTIFS 34 65 15 10

SECTION II : Représentation graphique


La représentation graphique donne une image du tableau de distribution d’un caractère
ou une variable. Elle se fait selon le type de caractère ou de variable.
1) Cas du caractère qualitatif
Nous avons ic deux possibilités de représentation : les secteurs circulaires et les
tuyaux d’orgue ou le diagramme à bandes.
1-1 – Les secteurs circulaires.
Il est question de ressortir l’importance relative de chaque modalité par rapport
à l’ensemble .ceci n’est possible qu’en convertissant chaqu’effectif ni en
angle𝜃𝑖. En effet, nous savons qu’un tour complet correspond à un angle de 360
degrés Celsius, qui à son tour est l’équivalent de l’effectif total N.
Pour un effectif quelconque ni d’une distribution son correspondant 𝜃𝑖 est égale
360 𝑋 𝑛𝑖
à: 𝜃𝑖 =
𝑁
pays
d'origine effectifs
TCHAD 65
RCA 12
CAMEROUN 412
GABON 10 effectifs
CONGO 11
AUTRES 30
TOTAL 540

TCHAD RCA CAMEROUN GABON CONGO AUTRES TOTAL

1-2-Les tuyaux d’orgue ou diagramme à bandes


Chaque tuyau d’orgue a une base constante et une hauteur proportionnelle à la
fréquence ou l’effectif ni
Exemple précédent sur l’origine des étudiants de sociologie1

pays d'origine effectifs


TCHAD 65
RCA 12
CAMEROUN 412
GABON 10
CONGO 11
AUTRES 30
TOTAL 540 effectifs
600

500

400

300

200

100

0
TCHAD RCA CAMEROUN GABON CONGO AUTRES TOTA

2-cas de la variable discrète : le diagramme en bâtons

Le diagramme en bâtons représente les effectifs ni correspondant aux diverses


valeurs possibles xi.
Exemple :
Considérons la distribution suivante des étudiants de sociologie 1 selon le
nombre de langues parlées

nombre de langues parlées effectifs


0 9
1 412
2 100
3 23
total 544

effectifs
600

500

400

300

200

100

0
0 1 2 3 total

3-Cas de la variable continue : L’histogramme


La variable étant continue, nous attribuons à chacun des intervalles associés aux valeurs
observées un rectangle dont la base correspond à la longueur de cet intervalle et la hauteur à
l’effectif associé.
Exemple : soit la distribution suivante des étudiants de sociologie 1 en fonction de leurs âges
en classes d’amplitude 3.
¨Tranches d'âge effectifs
[15;18[ 245
[18;21[ 152
[21;24[ 95
[24;27[ 30
[27;30[ 25
Total 547
histogramme

600
500
400
300
200
100
0
effectifs

[15;18[ [18;21[ [21;24[ [24;27[ [27;30[ Total

Notion de polygone des fréquences


Le polygone des fréquences est une courbe construite à partir de l’histogramme
.Le procédé de construction consiste à adjoindre aux deux extrémités de
l’histogramme les point-milieux de tous les sommets des rectangles

4) Notion de fréquence relative, d’effectifs cumulés


La fréquence relative ou proportion ou pourcentage d’un caractère ou une variable se calcule
par la formule suivante :

𝑛𝑖𝑋100
fi= 𝑁
Le cumul des effectifs ou effectifs cumulés notée N est la somme des effectifs dont l’indice
est inférieur ou égal à i. c’est-à-dire Ni=n1 +n2+……..+ni

NB : il est conseillé de placer les effectifs cumulés sur les lignes pour la détermination de la
médiane.

CHAPITRE III : LES CARACTERISTIQUES DE TENDANCE CENTRALE ET DE


DISPERSION
Dans ce chapitre nous verrons tour à tour la médiane, la moyenne arithmétique, le mode
comme caractéristiques de tendance centrale et l’écart type comme caractéristique de
dispersion, ainsi que les quartiles.
SECTTION I : Les caractéristiques de dispersions
1) La médiane
1-1-Définition
La médiane d’une variable statistique est la valeur de cette variable qui partage les
individus supposés rangés par ordre croissant ou décroissant de la variable, en deux
effectifs égaux.
1-2-Determination de la valeur médiane
a) Si la variable est discrète
La médiane correspond à la valeur xi située entre les deux lignes où les effectifs cumulés
encadrent la moitié de l’effectif total.

Exemple : soit la distribution suivante des salaires mensuels des employés dans une
entreprise.
Salaires Effectifs N
mensuels(en (ni)
milliers de
francs) 0
125 3 3
3 N/2
130 5 8
135 3 11
200 2 11 13
215 1
14
Total 14

Pour calculer la médiane lorsque la variable est discrète, on suit les étapes suivantes :
 On divise l’effectif total par 2
 On repère les deux valeurs de l’effectif cumulé qui encadre la moitié de l’effectif
total
 On sélectionne la valeur xi située dans la colonne correspondante
Pour le tableau ci- contre on a :
𝑁 14
 = =7
2 2
 7𝜖[3 ;8) dans la distribution des Ni

 Donc la médiane est égale à 130

b) Signification de la médiane
La médiane se situe à la lisière de 50% d’effectifs cumulés. Soit 50% avant la valeur de
la variable et 50% après cette valeur.
Dans l’exemple précédent on dira que 50% des employés de cette entreprise ont un
salaire inférieur à 130 000frs
c) Cas de la variable continue
Dans le cas de la variable continue, il faut d’abord déterminer la classe médiane par le
procédé décrit dans le cas de la variable discrète puis nous appliquons la formule
suivante :

𝑁
−𝑁𝑒𝑖−1
2
Me=ei-1 +Ai𝑁𝑒𝑖−𝑁𝑒𝑖−1

Exemple : Soit le tableau de distribution suivant des employés d’une entreprise selon
leur niveau d’ancienneté.

Ancienneté [0 ;2) [2 ;4) [4 ;6) [6 ;8) [8 ;et plus) TOTAL


en nombre
d’années
Effectifs 10 15 10 8 6 49
Ni
10 43
25 35 49
5

Détermination de la classe médiane


49
N /2 = = 24.5 𝜖[10 ; 25[dans la distribution des Ni
2
Donc Me 𝜖[2 ;4[

Calcul de Me

𝑁
−𝑁𝑒𝑖−1
2
Me= ei-1 +Ai𝑁𝑒𝑖−𝑁𝑒𝑖−1
24.5−10
Me= 2+2
25−10

14.5
Me=2+2
15
Me= 3.93
Traduction : 50% des employés ont une durée d’ancienneté inférieure ou égale à
3.93 ans

2) Le mode :
C’est la valeur de la variable ou la modalité ayant l’effectif le plus élevé ou la fréquence
la plus élevée.
Dans le cas de la variable continue on parle de classe modale.

3) La moyenne arithmétique
La notion de moyenne d’une variable statistique a été introduite à l’origine dans le cas
des grandeurs financières (salaires, revenu, bénéfices…). Ainsi, le salaire moyen d’un
ensemble d’individus est le salaire que chacun percevrait si la masse salariale totale était
répartie de façon égalitaire entre les individus considérés. Elle est symbolisée par 𝑋̅
Elle se calcule par les formules suivantes :

∑𝑁
𝑖=0 𝑛𝑖𝑋𝑖
𝑋̅= Si la variable est discrète
𝑁

∑𝑛
𝑖=0 𝑋𝑖
𝑋̅= Si le caractère est qualitatif avec N= nombre de modalités
𝑁

∑𝑁
𝑖=0 𝑛𝑖𝑐𝑖
𝑋̅= Si variable est continue. Avec ci le centre de la classe i
𝑁

Exemple : Soit la distribution suivante des étudiants selon les jours de retard à l’examen
de fin d’année

Jour de L M Me J V Total
retard
Effectifs 20 10 22 12 11 75

Le caractère étant qualitatif on utilise la formule :

∑𝑛
𝑖=0 𝑋𝑖 75
𝑋̅= AN 𝑋̅= 5 =15
𝑁
SECTION II : Les caractéristiques de dispersion

1) L’ETENDUE
Une première façon de mesurer la dispersion d’une variable statistique consiste à
déterminer l’intervalle dans lequel la variable prend ses valeurs. La différence entre
ces deux nombres est l’étendue de la variable statistique.

L= en-eo avec en = la plus grande valeur de la variable et eo = plus petite valeur


de la variable

2) L’écart-type
L’écart type est la mesure de dispersion la plus usuelle. Cette caractéristique mesure
la concentration de la distribution d’une variable autour de la moyenne arithmétique.
L’idée sous-jacente au concept d’écart type est d’analyser globalement les
déviations observées entre les valeurs prises par une variable et la moyenne de celle-
ci . Il est noté par σ(xi).
Pour calculer l’écart type on calcule d’abord la variance V(x) ou 𝜎 2
Ainsi :
∑𝑁 2
𝑖=0 𝑛𝑖𝑋𝑖
 V(x) = - 𝑋̅ 2 Si la variable est discrète avec N= effectif
𝑁
total

∑𝑁 2
𝑖=0 𝑥𝑖
 V(x)= - 𝑋̅ 2 si le caractère est qualitatif Avec N= nombre de
𝑁
modalités

∑𝑁
𝑖=0 𝑛𝑖𝑐𝑖
2
 V(x) = - 𝑋̅ 2 Si la variable est continue avec N= effectif
𝑁
total

𝜎(x)=√𝑉(𝑥)

3) Autres caractéristiques de dispersions : les quartiles


Il est possible de caractériser la dispersion en subdivisant une distribution en quatre
parties égale. Ceci permet de former la famille des quartiles.
Il existe trois quartiles :
 Le quartile 𝑄1 d’ordre ¼
 Le quartile 𝑄2 d’ordre ½ C’est la médiane
 Le quartile 𝑄3 d’ordre ¾

La détermination de ces quartiles suit le même procédé que celle de la médiane

 Si la variable est discrète


On calcule d’abord N/4 pour Q1 et 3N/4 pour Q3, puis on détermine les deux valeurs
de l’effectif cumulé qui encadrent N/4 pour Q1 et 3N/4 pour Q3 et enfin on sélectionne
la valeur soit de Q1 OU de Q3.
 Si la variable est continue
On détermine d’abord la classe contenant soit Q1 ou Q3 puis on applique l’une des
formules suivantes.

𝑁
4
−𝑁𝑒𝑖−1
Q1= 𝑒𝑖−1 + Ai
𝑁𝑒𝑖 −𝑁𝑒𝑖−1
𝑁
3 4 −𝑁𝑒𝑖−1
Q3= 𝑒𝑖−1 + Ai
𝑁𝑒𝑖 −𝑁𝑒𝑖−1

Exemple : Soit la distribution suivante de quelques étudiants de sociologie 1 suivant


leurs âges
Tranche d’âge Effectifs Ni
[15 ;20[ 45 45
[20 ;25[ 100
145
[25 ;30[ 110
255
[30 ;35[ 23
[35 ;40[ 14 278
292
total 292

Détermination des classes contenants Q1 et Q3

Pour Q1 :
292
N/4= = 73 𝜖[45 ; 145[dans la distribution des Ni
4
Donc Q1 𝜖[20 ; 25[

Pour Q3
3N /4= 219𝜖[145 ; 255[dans la distribution des Ni
Donc Q3𝜖[25 ;30[

Détermination de Q1 ET Q3

𝑁
4
−𝑁𝑒𝑖−1
Q1= 𝑒𝑖−1 + Ai
𝑁𝑒𝑖 −𝑁𝑒𝑖−1

73−45
=20+ 5145−45
140
=20+100
= 20+1.4
=21.4
𝑁
3 4 −𝑁𝑒𝑖−1
Q3= 𝑒𝑖−1 + Ai
𝑁𝑒𝑖 −𝑁𝑒𝑖−1
𝟐𝟏𝟗−𝟏𝟒𝟓
=25+5𝟐𝟓𝟓−𝟏𝟒𝟓
𝟑𝟕𝟎
=25+𝟏𝟏𝟎= 28.36

Vous aimerez peut-être aussi