Vous êtes sur la page 1sur 16

Chapitre 1 : NOTIONS DE BASE

I - GENRALITES
1- Définitions
La statistique est un ensemble de méthodes visant collecter les données,
à les traiter et à les analyser en vue de prendre des décisions.

EXEMPLE : pour ouvrir un restaurant dans un quartier de votre ville, vous


pouvez réaliser une collecte d’informations auprès des habitants de ladite
localité pour mesurer leurs habitudes alimentaire afin. L’analyse des
résultats issus de cette collecte vous indiquera les produits à offrir à vos
clients.

Le terme « statistique » peut aussi désigner un ensemble de données


numériques concernant une catégorie de faits.

EXEMPLE : les statistiques sur le chômage, les statistiques sur la réussite


des étudiants de la FASEG, les statistiques sur la santé, les statistique de
l’OMS, les statistiques de la CENI,…..

En tant que méthode, la statistique comprend plusieurs niveaux.


- La statistique descriptive : c’est le niveau le plus connu : il s’agit de faire
une première analyse de l’information : c’est un ensemble de procédés,
de présentation (tableaux, graphiques, courbes) et de mesure (moyenne,
rapport, indice,…..) qui résume la masse des renseignements numériques
existant : Elle donne un aperçu rapide ou une synthèse de la situation et
permet de prendre rapidement des décisions : C’est ce niveau qui est
développé dans ce cours.

2- Domaine d’application

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


1
Le champ d’application de la statistique est très large et intéresse aussi
bien les acteurs économiques des administrations publiques et privées
que les chercheurs, enseignants, etc.
La production des données statistiques et leur utilisation, souvent à la base de
décisions importantes, accentuent le caractère à la fois rigoureux et
fascinant du métier de statisticien.
Posséder une compétence reconnue en statistique permet de travailler dans
la plupart des secteurs et d’activités et de recherche. Il peut s’agir des
domaines comme : les sciences sociales, la politique, le commerce, la
démographie, l’environnement, la santé, le marketing, la finance,
l’hôtellerie, la télécommunication, l’informatique……
3- Rôle de la statistique
La statistique est directement liée à l’action ou à la préparation de l’action.
Elle joue aussi un rôle de calmant puisqu’elle donne l’impression de
comprendre la réalité complexe ou de prévoir le futur. C’est aussi un outil
de publicité ou d’intoxication. Enfin, elle reste une arme puissante pour
impressionner ou dissuader ses adversaires.
II- LE VOCABULAIRE DE LA STATISTIQUE
Etant une discipline, la statistique possède aussi un vocabulaire que tout
apprenant doit maitriser .IL S’agit des termes ou « mot » que l’on finit
par maitriser facilement à force de les utiliser .Ce document vous en
fournit quelques-uns :
1- Population et unité statistique
LES ensembles étudiés en statistique portent le nom de « Population » ou
« Univers statistique » .les éléments qui les composent sont appelés
« unités » ou « individus » EXEMPLE :
Les étudiants du semestre 1 de Les employés de la BB Lomé
Population ou univers
l’année 2021 à LUCAS University SA

M. SAGA ; M. KOLA ; Mme


Unités ou individus Mlle Grace ; Mlle Bérénice ; Koudjo
GAGLO ; Mlle ASSIH…

2- Caractère, modalités et variable

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


2
Le caractère est une qualité attachée à la population étudiée. Il est commun à tous
les individus de la population.

La modalité désigne les différentes valeurs que prend le caractère. C’est un


critère qui permet de classer les individus. L’ensemble des modalités d’un
caractère doit être exhaustif ; c’est-à-dire qu’il faut disposer d’une liste
complète. Tous les cas de figure doivent êtres prévus et incompatibles ; c’est-
à-dire que chaque individu doit se placer dans une seule modalité.

La Variable statistique désigne une valeur ou une situation possible qu’on


peut attribuer à un caractère quantitatif.

On distingue deux types de variables :


• Variable discrète ou isolée : les modalités sont des entiers naturels,
• Variable continue : les modalités sont sous forme d’intervalles
(appelés classes).
EXEMPLES :

Caractère sexe Etat Résultat au BAC Moyenne CAHT en


matrimonial annuelle FCFA
Modalités Masculin ; Marié ; Admis ; ajourné ; 12 ; 14,52 ; 12 000 000 ;
Féminin célibataire … admissible… 18… 80 000 000 ;
27 000 000

3- Echantillon de taille n.

C’est un ensemble de n individus prélevés dans une population statistique donnée.


Exemple : l’ensemble des élèves de la classe de seconde
d’un lycée.

4- Sondage
On parle de sondage, lorsque la collecte d’informations porte sur une partie de
la population totale.
5- Enquête statistique

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


3
C’est une opération qui consiste à recueillir des données (informations).
Elle se fait généralement par le biais de questionnaires.
Lorsque l’enquête concerne :

• Une partie de la population, on parle de sondage ou


d’échantillonnage, • Toute la population, on parle de
recensement.
6- Recensement

Il s’agit tout simplement du dénombrement d’une population statistique


considérée.
7- Effectif
C’est le nombre total d’individus (ou d’unités) statistiques qui composent la
population étudiée.
II. Dépouillement et présentation des résultats

1- Cas d’un caractère qualitatif

L’enquête effectuée dans une classe de Tle G2 relativement au sexe a


donné les résultats suivants :
MFFFFMFFMMFMFMFMFFMFMFMFMFFFFFMMM.
Dépouillons ce résultat dans un tableau statistique.
On obtient :
Sexe Pointage Effectif
Féminin (F) 19
Masculin (M) 14
Total 33

2- Cas d’un caractère quantitatif : variable continue et variable discrète

2.1. Dépouillement d’un caractère quantitatif discret


Ce type de caractère prends des valeurs numériques isolées ou
discrètes
Exemple :
On a procédé au recensement dans les 45 foyers d’un village en ce qui
concerne le nombre d’enfants à la charge de chacun d’eux. Les résultats
obtenus sont les suivants :

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


4
Section du Effectifs Fréquences Angles
baccalauréat 𝑛𝑖 𝑓𝑖 𝛼𝑖
Economie et gestion 25 50% 180°
Mathématiques 15 30% 108°
Sciences exp. et autres 10 20% 72°
Ensemble 50 100% 360°

2 3 6 0 4 7 6 5 3 2 1 1 4
4 0 1 2 3 4 3 2 0 8 5 2 7
6 6 8 3 2 5 6 3 4 5 3 2 1
3 1 2 4 5 6

TAF : Faire le dépouillement de ces résultats dans un tableau.

Représentations graphiques

Cas d’une variable qualitative


Il y a plusieurs manières de représenter graphiquement une variable
qualitative. Le choix du type de la représentation dépend des différentes
modalités du caractère. On distingue essentiellement le diagramme
circulaire, appelé aussi diagramme à secteurs et le diagramme à bandes,
encore appelé diagramme en tuyau d’orgues.

Exemple
Une enquête menée à l’Ecole Supérieure de Commerce de Tunis sur la
répartition selon la section du baccalauréat est reportée dans le tableau
suivant :

TAF : Construire le diagramme circulaire et les tuyaux d’orgue de cette sériez statistique.

Solution
 Construisons le diagramme circulaire. Les degrés des différents secteurs devront
être calculé en rapport avec les fréquences calculées.

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


5
 Construction du diagramme à tuyaux d’orgues : il est obtenu à partir des tuyaux
d’orgue.

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


6
Figure 2: diagramme en bande

3- Variable quantitative continue

Dans le cas de ces variables, suivant la grandeur mesurée et la sensibilité de la méthode


utilisée, il est fréquent d’obtenir autant de valeurs différentes que de données si bien
que la représentation graphique n’a dans ces conditions aucun sens. On est donc
généralement amené à regrouper les données en classes.

A la différence des VA discrètes, une classe donnée ne contient pas une seule valeur
mais une infinité de valeurs possibles sur un intervalle défini (appelé intervalle de
classe). Cet intervalle permet de définir également une amplitude de classe (différence
entre les valeurs supérieure et inférieure de la classe). La valeur centrale de la classe est
appelée centre de classe.

L’Histogramme
C’est un ensemble de rectangles accolés ayant les caractéristiques précises :
Exemple :
L’exemple suivant montre la distribution des poids de naissance de nouveau-nés dans
une maternité (données extraites de : D. Schwartz, méthodes statistiques)

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


7
Distribution des poids de naissance

Dans cet exemple, toutes les classes ont même amplitude (200 g) et il y a au total 16
classes ce qui est un nombre suffisant pour représenter la distribution initiale (200
valeurs). On remarquera qu’une partie de l’information initiale a été perdue puisqu’à la
vue du tableau il n’est plus possible de différencier les nouveau-nés d’une même classe.

A partir de ce tableau de valeurs, on peut tracer les histogrammes des effectifs absolus,
des fréquences relatives et des densités de fréquence.

Histogramme des effectifs absolus

Distribution des poids à la naissance

La courbe de fréquence/polygone des fréquences

Les données issues de séries statistiques doubles avec une variable qualitative, l’autre
quantitative, sont représentées graphiquement par une série de courbes de fréquence ou
d’histogrammes. Chaque courbe ou histogramme se rapporte alors à une catégorie de

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


8
la variable.

Courbes de fréquences relatives

Polygone de fréquences absolues (cumulées)


D’autres formes de représentations graphiques peuvent être également étudiées
notamment statistiques descriptives.
III- TABLEAU DE CONTINGENCE
Encore appelé TABLEAU A PLUSIEURS ENTREES, il regroupe les données sur plusieurs
variables. Quand il s’agit des données sur deux variables on parle de TABLEAU A DOUBLE
ENTREE. On peut donc calculer les fréquence-ligne (tableau profil-ligne) ou les fréquence-
colonnes (tableau Profil-colonnes)

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


9
Activité : Dans le souci de disposer des informations structurées sur les employés de la
société RMA, le directeur élabore le tableau suivant qui renferment des données sur le sexe,
le diplôme obtenu et la boisson alcoolisées préférées des différents employés.
N° sexe diplôme boisson N° Sexe diplôme boisson N° Sexe diplôme boisson
1 M BAC BIERE 11 F LICENCE LIQUEUR 21 M LICENCE AUCUNE
2 F BAC LIQUEUR 12 F BAC BIERE 22 M BAC LIQUEUR
3 M LICENCE AUCUNE 13 M LICENCE AUCUNE 23 F BAC AUCUNE
4 M BAC BIERE 14 F MASTER LIQUEUR 24 F LICENCE AUCUNE
5 M MASTER SODABI 15 M MASTER SODABI 25 M MASTER LIQUEUR
6 M MASTER LIQUEUR 16 M BAC BIERE 26 M MASTER AUCUNE
7 F BAC BIERE 17 M LICENCE LIQUEUR 27 F MASTER AUCUNE
8 M LICENCE LIQUEUR 18 M LICENCE BIERE 28 M LICENCE LIQUEUR
9 M LICENCE SODABI 19 M LICENCE SODABI 29 F BAC AUCUNE
10 F MASTER AUCUNE 20 F MASTER BIERE 30 M BAC AUCUNE

1-Faites la répartition des employés selon le sexe et le diplôme.


2-Faites la répartition des employés selon le diplôme et la boisson préférée.
3-Présentez les tableaux de Profil-ligne et de profil-colonne pour le 1-).

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


10
Chapitre 2 : DESCRIPTION NUMERIQUE D’UNE
VARIABLE STATISTIQUE
Calcul de quelques paramètres statistiques.

Introduction
On parlera essentiellement des caractéristiques de tendance centrale. Encore
appelés paramètre de position, Les paramètres de tendance centrale ou « mesures
de tendance centrale » sont des grandeurs susceptibles de représenter au mieux
un ensemble de données. L'appellation « tendance centrale » vient du fait que ces
paramètres donnent une idée de ce qui se passe au centre d'une distribution, d'un
ensemble de données.
Il s’agit notamment de :
La moyenne ;
Le mode ;
La médiane.
Tous les trois ne décrivent pas la même chose et sont, de ce fait, complémentaires
dans la description et l'analyse d'une distribution.
Ces statistiques ne se calculent que dans le cas où nous avons à faire à des variables
quantitatives. Dans le cas où nous avons des variables qualitatives, on procède aux
fréquences. Avant d’analyser ces trois indicateurs de position, nous allons d’abord
aborder la notion de la fréquence.
1- Les fréquences : absolue, relative et cumulée
A chaque modalité de variable X, peut correspondre un ou plusieurs individus dans
l'échantillon de taille n.
On appelle effectif de la modalité 𝐱𝐢, le nombre 𝐧𝐢. Il est aussi appelé fréquence
absolue.
𝒏𝒊
La fréquence relative est le nombre fi tel que : 𝒇𝒊 =
𝒏
La fréquence cumulée croissante est cependant le nombre 𝑭𝒊 tel que :

Exemple : le tableau statistique suivant renferme les informations sur le nombre


d’enfants à charge de 50 employés de la SNB Lomé.
TAF : calculer et interpréter les fréquences relatives et fréquences cumulées

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


11
Xi ni fi FCC FCD

1 8 8/50=0,16 0,16 1

2 18 18/50=0,36 0,16+0,36=0,52 1-0,16=0,84

3 14 14/50=0,28 0,52+0,28=0,8 0,84-0,36=0,48

4 10 10/50=0,2 0,8+0,2=1 0,48-0,28=0,2

Total 50 1 - -

Remarque : on peut également calculer, les effectifs cumulés croissants et


décroissants (ECC et ECD)

2- Calcul des caractéristiques de tendance centrale


1.1. La moyenne
La moyenne constitue l’un des paramètres fondamentaux de tendance centrale
mais non suffisant pour caractériser une distribution. Complémentaire du mode et
surtout de la médiane, la moyenne constitue à n'en point douter, la mesure la plus
calculée et la plus utilisée lors de la description de séries statistiques.
Il existe plusieurs types de moyennes, chacun adapté à des situations précises : la
moyenne arithmétique, Géométrique, Harmonique et Quadratique.
Cependant la plus utilisée est la moyenne Arithmétique.

2.1.1. La moyenne arithmétique


C'est la plus simple et la communément utilisée et ce, pas toujours à bon escient.
Elle se note la plupart du temps par 𝑿. Elle peut être simple ou pondérée.

La moyenne arithmétique simple


Sa version simple correspond à une somme de résultats divisée par le nombre de
∑ 𝑥𝑖
résultats et s'écrit : 𝑥̅ =
𝑛
Elle est calculée généralement pour les variables discrètes.

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


12
La moyenne arithmétique pondérée
La moyenne arithmétique pondérée, donne dans son utilisation classique (c'est-à
dire lorsque tous les individus ont le même poids), le même résultat que la
moyenne arithmétique simple. Sa formule est cependant différente puisqu'elle
introduit la notion de poids via un terme supplémentaire qui peut s'avérer utile
dans certaines situations, notamment lorsque justement les individus composant
une population n'ont pas le même poids ou coefficient : certains individus, pour
diverses raisons, ont davantage d'influence dans ladite population que les autres.
Ce peut être le cas par exemple lorsque l'on a affaire à une série de notes dont le
coefficient n'est pas le même. Cette moyenne s’écrit de la manière suivante :
∑ 𝒙𝒊. 𝒏𝒊 ∑ 𝑪𝒊. 𝒏𝒊
𝑿= 𝒐𝒖 𝑿 =
𝒏 𝒏
Avec Ci les centres des classes si les données sont groupées en classes :
𝒃𝒔 + 𝒃𝒊
𝑪𝒊 =
𝟐
1.2. Le Mode
Le mode, 𝑴𝒐 d’une série statistique est la valeur du caractère la plus fréquente ou
dominante dans l'échantillon. Autrement dit, c’est la valeur qui a la fréquence
(absolue ou relative) la plus élevée. Lorsque la distribution a plus d’un mode, on
parle d’une distribution « multimodale » (bimodale, tri-modale, etc).
Par contre, si l'on est en présence de données groupées en classes, le mode se
rapportera à la classe comportant le plus grand nombre d'individus : on parlera
alors de classe modale.
(𝒏𝒐 − 𝒏𝟏)
𝐌𝐨 = 𝐋𝟏 + 𝐊
(𝒏𝒐 − 𝒏𝟏) + (𝒏𝒐 − 𝒏𝟐)
Avec :
L1 : la borne inférieure de la classe modale (CMo)
K : l’amplitude de la CMo
no : l’effectif de la CMo ; n1 l’effectif de la classe qui précède la CMo et n2 l’effectif de
la classe qui suit la CMo ;
La Classe modales (CMo) étant celle qui contient l’effectif le plus élevé de la série.
1.3. La médiane
Dans le calcul de la médiane, on distingue deux cas :
- Si la variable est discrète
On désigne par n le nombre d’observations.

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


13
 Si n est pair : la médiane est alors égale à la moyenne des valeurs encadrant
le milieu de la série.
 Si n est impair alors il est possible d'identifier simplement la valeur qui
partage la population en deux effectifs égaux. Le rang central étant égal à
[(n+1)/2].
- Si la variable est continue et qu’elle est groupée en classe,
𝒏
On cherche la classe contenant le individus de l’échantillon. Cette classe est
𝟐
appelée la classe médiane.
La médiane (Me) est ainsi calculée :
A partir des effectifs
𝒏
( − 𝑵𝟏)
𝑴𝒆 = 𝑳𝟏 + 𝑲 𝟐
𝒏𝒆
A partir des fréquences :
(𝟓𝟎 − 𝑭𝟏)
𝑴𝒆 = 𝑳𝟏 + 𝑲
𝒇𝒆
Avec :
L1 : la borne inférieure de la classe médiane (CMe)
K : l’amplitude de la CMe
𝒏
N1 : l’ECC directement inférieur à
𝟐
ne : l’effectif de la CMe
F1 : la FCC directement supérieure à 50%
fe : la fréquence relative de la CMe ;
la classe médiane (CMe) étant celle qui contient l’ECC directement supérieur
𝒏
à ou la FCC directement supérieure à 50%.
𝟐

Remarques : on peut également calculer les QUANTILES OU FRACTILES.


Il existe plusieurs fractiles à savoir : les Quartiles, Déciles, les Centiles (Percentiles),
etc.
Les quartiles sont notés respectivement Q1, Q2 et Q3. Ils représentent
respectivement 25%, 50% et 75% des effectifs de la population.
De la même manière, et dans le but de préciser et d'affiner encore l'analyse de la
dispersion d'une distribution, on peut faire appel aux notions de déciles et de
centiles. Le principe demeure le même que pour les quartiles à la différence que la
population est ici divisée respectivement en 10 et 100 sous-populations d'égal
effectifs.

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


14
Cas d’Application
Soit la distribution suivante concernant la rémunération versée à des ouvriers
de SOGEA BTP (en millier de franc CFA).

Rémunération Effectifs
[16 ; 19[ 21

[19 ; 21[ 50
[21 ; 24[ 20
[24 ; 30⁆ 09
Total 100
TAF :
1- Indiquez la rémunération minimum et maximum des ouvriers.
2- Calculez les effectifs cumulés croissants et les fréquences simples de cette
série.
3- Calculez puis interprétez la Moyenne arithmétique de la série.
4- Indiquez la classe modale de la série
5- Calculez puis interprétez le Mode de la série.
6- Quelle est la classe médiane de cette série ?
7- Calculez la Médiane et l’interpréter.
8- Calculez le troisième quartile (Q3), le septième décile (D7) et 99ème
percentile (P99).

2 AUTRES CARACTERISTIQUES/PARAMETRES DE DISPERSION


1- La variance et l’écart-type
Si l’on veut tenir compte de l’ensemble des distances à la moyenne sans pâtir d’une
somme nulle, résultat de la compensation entre écarts négatifs et écarts positifs, il est
nécessaire d’élever au carré chaque écart de telle sorte que l’on est : ∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅ )
Que pensez-vous alors de la moyenne calculée de ces écarts élevés au carré?
1 𝑛
σ = ∑ (𝑥𝑖 − 𝑋̅)2
2
𝑛 𝑖=1
Ce paramètre 𝝈𝟐 est la variance. Elle peut être notée aussi Vx. La variance satisfait à
toutes les exigences énoncées plus haut relativement à la mesure de la dispersion d’une
distribution. La variance pose toutefois le problème de proposer un résultat en unité
élevée au carré.
Il faut noter que la valeur de 𝝈𝟐 est la variance de la population; la variance de
l’échantillon est de ce fait :

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


15
𝟏 𝒏
𝟐
𝑺 = ̅ )𝟐
∗ ∑ (𝒙𝒊 − 𝑿
𝒏−𝟏 𝒊=𝟏

Pour revenir à l’unité initiale, il faut extraire la racine carrée de la variance. C’est ce qui
nous donne l’écart-type.

𝝈= √𝜎 2

Remarque : Comme ce fut le cas pour le calcul de la moyenne de données groupées,


pour calculer la variance des données groupées, il faut prendre en compte le centre de
chaque classe et considérer que les individus d’une même classe ont tous la même
valeur, celle du centre de leur classe.
On aura donc
𝟏 𝒏
𝟐 ̅ )𝟐
𝛔 = ∑ 𝒏𝒊 ∗ (𝑪𝒊 − 𝑿
𝒏 𝒊=𝟏

2- Le coefficient de variation
L’écart-type, malgré sa pertinence dans la mesure de la dispersion d’une distribution,
possède un inconvénient majeur : il est exprimé dans l’unité de la variable à laquelle il
se rapporte. Il est alors impossible de comparer les dispersions de deux distributions
ayant un lien entre elles (lien de causalité ou autre) et dont les valeurs s’expriment dans
des unités différentes.
Pour comparer la dispersion de deux séries qui ne sont pas exprimées dans les mêmes
unités, on utilise le coefficient de variation. Cette statistique est une mesure neutre qui
s’exprime la plupart du temps en pourcentage. Il se calcule en divisant l’écart-type par
la moyenne :
𝝈
𝑪𝑽 = × 𝟏𝟎𝟎
̅
𝑿
NB : Si le CV est élevé on dit la dispersion est grande.

Application (voir cas précédent)

GENERALITES SUR LESMETHODES QUANTI/M1- LUCAS ------- M. RAGOUENA


16

Vous aimerez peut-être aussi