Statistque Descriptive

REPUBLIQUE DU BENIN
UNIVERSITE DE PARAKOU
FACULTE D’AGRONOMIE
DEPARTEMENT D’AMENAGEMENT ET GESTION DES RESSOURCES NATURELLES
Licence professionnelle Conseil aux Exploitations Agricoles et aux OPs
MONOGRAPHIE DE STATISTIQUE
DESCRIPTIVE
Préparé par
Dr. Ir. Arcadius Y. J. AKOSSOU
2011
© Aux termes de la loi béninoise, sur le droit d’auteur, seul l’auteur a le droit de reproduire cet ouvrage ou d’en autoriser la reproduction de
quelque manière et sous quelque forme que ce soit. Toute photocopie ou reproduction sous une autre forme est donc faite en violation de la
loi.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Table des matières
Table des matières ..................................................................................................................3
Au sujet de la monographie ....................................................................................................4
Chapitre 1 : Généralités ..........................................................................................................7
1. Introduction.....................................................................................................................7
2. Echantillonnage statistique ..............................................................................................7
2.1. Population, échantillon et unité statistique .................................................................7
2.2. Méthodes d’échantillonnage ......................................................................................9
3. Nature des données........................................................................................................14
Exercices ..............................................................................................................................16
CHAPITRE 2 : Statistique descriptive à une dimension........................................................22
1. Introduction...................................................................................................................22
2. Tableaux statistiques .....................................................................................................22
2.1. Séries statistiques ....................................................................................................22
2.2. Distributions non groupées ......................................................................................23
2.3. Distributions groupées.............................................................................................25
3. Représentation graphique ..............................................................................................28
3.1. Diagramme de fréquences non cumulées .................................................................28
3.2. Diagramme de fréquences cumulées ........................................................................36
4. Indicateurs numériques..................................................................................................37
4.1. Indicateur de position ..............................................................................................37
4.2. Indicateurs de dispersion .........................................................................................42
4.3. Indicateurs de forme ................................................................................................46
Exercices ..............................................................................................................................49
CHAPITRE 3 : Statistique descriptive à deux dimensions ....................................................54
1. Introduction...................................................................................................................54
2. Tableaux statistiques .....................................................................................................54
2.1. Séries statistiques doubles .......................................................................................54
2.2. Distribution de fréquences .......................................................................................55
2.3. Distributions marginales et distributions conditionnelles .........................................57
3. Représentations graphiques ...........................................................................................59
3.1. Diagrammes de dispersion ou nuages de points .......................................................59
3.2. Représentation des distributions de fréquences ........................................................59
4. Paramètres statistiques...................................................................................................60
5. Liaison entre deux variables ..........................................................................................62
5.1. Deux variables quantitatives ....................................................................................62
5.2. Une variable quantitative et une qualitative .............................................................65
5.3. Deux variables qualitatives......................................................................................66
Exercice ...............................................................................................................................68
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Au sujet de la monographie
Intitulé de UE : Statistique
Dénomination de l’ECU : Statistique descriptive
Durée : 20 heures
Titulaire : Arcadius AKOSSOU
Langue : Langue française
Contacts : Arcadius Akossou, (Assistant)
Enseignement et recherche
00(229) 97 72 58 83
Sakos90@hotmail.com
Introduction
Le cours de statistique descriptive est destiné aux étudiants de la première année de licence
d’agronomie. Il vise comme objectif général de familiariser les étudiants à l’utilisation des
outils mathématiques de description dans la résolution des problèmes pratiques d’analyse et de
prise de décision. On distingue en général trois grands chapitres :
- 1er chapitre : Généralités;
- 2ème chapitre : Statistique descriptive à une dimension;
- 3ème chapitre : Statistique descriptive à deux dimensions..
Objectifs
À la fin de ce cours, l’étudiant sera en mesure de :
€ Maitriser les notions de base relatives à la collecte et au traitement des données statistiques ;
€ Résumer des données sous forme de tableaux, de graphiques et de paramètres ;
€ Faire des interprétations des phénomènes étudiés en s’appuyant sur les indicateurs obtenus
lors du traitement des données statistiques.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Devoir
Le présent cours comporte trois grands chapitres comme nous l’avions indiqué dans
l’introduction. Le contenu de chaque partie du cours est annexé au document.
Travail à faire : Préparation du cours (durée : 16 heure).
1- Lecture approfondie de chaque chapitre du cours (durée : 12 heures)
Chapitre 1 : 2 heures
Les apprenants doivent faire recours à leurs connaissances antérieures en
mathématique. Il est souhaitable de reprendre les exemples donnés dans le cours.
2- En dehors des questions de compréhension à poser lors des regroupements, chaque

apprenant doit identifier sur chaque chapitre dix questions pertinentes. Ces questions
seront utilisées lors des regroupements.
3- L’apprenant doit traiter les exercices. Les corrections des exercices seront fournies lors
du regroupement (durée : 6 heures).
Mode d’évaluation
A la fin du cours, pendant la période de regroupement, une évaluation sommative écrite d’une
heure (01 heure) sera organisée.
L’ECU sera validé si et seulement si l’apprenant obtient une note supérieure ou égale à 8 sur
20 (note = 08/20) pour toute l’épreuve.
Méthodes pédagogique
- Lecture individuelle par les apprenants. Quelques semaines avant le regroupement, les
monographies seront adressées à chaque apprenant qui se chargera de faire une lecture
approfondie du contenu et de formuler dix (10) questions pertinentes.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
- Pendant le regroupement : Brève exposé présenté par le chargé du cours, réponse aux
questions des apprenants, échanges puis synthèse.
(Durée de cette phase : 03 heures)
Bibliographie et Matériels pédagogiques
- Monographie produite par le chargé du cours ;

- DAGNELIE P. [2007]. Statistique théorique et appliquée. Tome 1 : statistique descriptive
et bases de l'inférence statistique. Bruxelles, De Boeck, 511 p.
Vos commentaires
Lorsque vous aurez achevé ce cours, nous vous serions très reconnaissants de prendre
quelques instants pour nous en transmettre vos commentaires, par exemple :
€ Sur le contenu et la structure du cours.
€ Sur les activités d’apprentissage, les travaux, les évaluations.
€ Sur la durée du cours et les efforts à y consacrer.
Vos commentaires, vos idées et vos suggestions seront très appréciés et nous aideront
sûrement à améliorer le cours.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Chapitre 1 : Généralités
1. Introduction
La statistique est une méthode scientifique qui consiste à réunir des données chiffrées sur des
ensembles nombreux, puis à analyser, à commenter et à critiquer ces données. Il ne faut pas
confondre la statistique qui est la science qui vient d’être définie et une statistique qui est un
ensemble de données chiffrées sur un sujet précis.
Toute étude statistique peut être décomposée en deux principales phases : la collecte des
données et leur analyse ou leur interprétation.
La collecte des données peut se faire soit en milieu réel c’est-à-dire par la simple observation
des phénomènes auxquels on s’intéresse, tels qu’ils se produisent naturellement, soit en milieu
contrôlé, c’est-à-dire par expérimentation, en provoquant leur apparition.
L’analyse statistique quant à elle peut être décomposée en deux étapes, l’une déductive ou
descriptive, l’autre inductive.
2. Echantillonnage statistique
2.1. Population, échantillon et unité statistique
2.1.1. Population
Une étude statistique porte sur une population. La population est l’ensemble de tous les
éléments (individus, animaux, plantes, objets, faits) dont on aimerait obtenir une information.
Pour bien identifier la population d’une étude il faut se poser la question : « A quel ensemble
pourrais-je étendre les résultats de mon étude »
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Exemple. : Étude sur les revenus des ménages du département de l’Atacora-Donga
Lors d’une étude sur les revenus des ménages dans le département de l’Atacora-Donga, la
consultation de la base de données relatif au recensement général de la population révèle que
le nombre total de ménages dans l’Atacora-Donga = 130 000.
La population de l’étude est constituée des 130 000 ménages du département l’Atacora-
Donga.
2.1. 2. Echantillon
Lorsqu’on veut réduire l’importance du travail de la collecte des données, une partie
seulement des individus ou des éléments de la population sont réellement observés. La partie
de la population qui est réellement observée constitue l’échantillon et le nombre d’éléments
qui la compose correspond à la taille d’un échantillon. Pour que les résultats observés lors
d’une étude soient généralisables à la population statistique, l’échantillon doit être
représentatif de cette dernière, c’est-à-dire qu’il doit refléter fidèlement sa composition et sa
complexité.
Compte tenu du coût et du temps trop long pour réaliser l’étude sur tous les ménages, les
enquêteurs ont décidé de prendre les informations dans 390 ménages.
Tous les ménages n’ont pas été interrogés. Les enquêteurs ont pris 390 ménages. Ces 390
ménages constituent l’échantillon (caractéristique = représentativité) et la taille de
l’échantillon est 390.
2.1.3. Unités statistiques
Chaque élément de la population ou élément à partir duquel l’information est obtenue est
appelé unités de base ou unités statistiques. Ces unités peuvent être aussi bien des personnes
humaines que des animaux, des plantes, des groupes de personnes (familles, ménages, etc.),
des groupes d’animaux, des groupes de plantes, ou des éléments de toute autre nature
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
(entreprises industrielles ou commerciales, exploitations agricoles, machines d’un type donné,
etc.).
Chaque ménage constitue une unité statistique
Les trois définitions données peuvent être schématisées de la manière suivante :
Population
Échantillon
Unités
statistiques
Relation : UN, QUELQUES-UN et TOUS
2.2. Méthodes d’échantillonnage
2.2.1. Définition
Exemple.
En 1936, la revue Literary Digest a fait parvenir 12 000 000 questionnaires à des américains.
Elle en a reçu 2 500 000. A l’aide de cet échantillon, elle prédit une victoire de Alf Landon,
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
candidat républicain aux élections présidentielles. Et pourtant, c’est Franklin Roosevelt qui a
été élu.
D’un autre côté, George Gallup, avec un échantillon de 2000 personnes a pour sa part prédit
la victoire de Roosvelt. Son échantillon était 1000 fois plus petit.
Une analyse des prédictions a montré que la revue Literary Digest avait sélectionné ses
éléments à partir des propriétaires d’automobiles. Or en 1936, seulement ceux qui étaient
financièrement à l’aise possédaient une automobile ou le téléphone. Cet échantillon n’était
donc pas représentatif de la population américaine en 1936. En conclusion, nous dirons que la
quantité ne compense jamais le manque de représentativité ?
Au cours d’une enquête, les questions fondamentales qu’il faut se poser sont : Comment dois-
je choisir les éléments de mon échantillon? Et Est-ce que mon échantillon va me donner des
résultats fiables?
Pour répondre à ces questions plusieurs démarches sont adoptées.
En statistique, l’ensemble des opérations qui ont pour but de collecter de manière organisée
des informations relatives à un groupe d’individus ou d’éléments observés dans leur milieu ou
dans leur cadre habituel est appelé enquête ou inventaire.
Lorsque toutes les unités de la population considérée sont observées individuellement,

l’enquête est dite complète ou exhaustive on parle aussi de recensement.
Lorsqu’on veut s’intéresser à une partie de la population, deux catégories de techniques

d’échantillonnage sont à distinguer. Les méthodes aléatoires et les méthodes non aléatoires.
2.2.2. Méthodes aléatoires
Une méthode d’échantillonnage est aléatoire ou probabiliste si les éléments de l’échantillon

sont pris au hasard et que chacun des éléments de la population à la même chance qu’un autre
d’être choisi. Il est alors possible de faire des calculs et de mesurer l’exactitude des résultats.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
- Échantillonnage aléatoire simple
C’est la méthode la plus simple. A partir d’une liste complète, on attribue un numéro à chacun
des éléments de la population, et on tire au hasard des numéros jusqu’à ce qu’on atteigne le
nombre désiré d’éléments devant constituer l’échantillon. Différentes techniques sont utilisées
pour choisir les numéros: Tables des nombres aléatoires, des billets numérotés tirés d’un
chapeau, etc.
Exemple.
On dispose de la liste des ménages. Les ménages sont numérotés de 1 à 130 000. Ensuite à
l’aide d’un programme informatisé générant les nombres aléatoires, on choisit les numéros
des 390 ménages devant figurés dans l’échantillon.
- Échantillonnage systématique
Il s’agit de créer un système pour choisir les éléments de l’échantillon. Le système tient
compte du nombre d’éléments dans la population et du nombre d’éléments désirés dans
l’échantillon pour calculer ce qu’on appelle le « pas » de sondage :
Pas = (taille de la population) / (taille de l’échantillon)
Ensuite on choisit au hasard le numéro du premier élément entre 1 et le numéro égal au « pas
», et cela à partir de la liste complète et numéroté de la population. Pour le choix des autres
éléments, on ne fait qu’ajouter la valeur du « pas » au numéro précédent, jusqu’à ce qu’on
atteigne le nombre désiré d’éléments dans l’échantillon.
Exemple.
On dispose de la liste des ménages. Les ménages sont numérotés de 1 à 130 000.
Pas = 130000/390 = 333
On choisit au hasard un numéro allant de 1 à 333. Supposons que le hasard fasse que ce soit le
ménage ayant le numéro 108 qui soit choisi, les autres ménages sélectionnés auront donc les
numéros 441; 774; 1107; …; 129667.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
- Échantillonnage stratifié
Il se peut qu’une population ne soit pas homogène. Elle peut être composée de strates ou sous-
groupes homogènes. Un échantillonnage stratifié consiste à prendre au hasard, peu importe la
technique, des éléments de chaque strate, en attribuant aux strates les mêmes proportions dans
l’échantillon que dans la population.
Cette méthode est utilisée lorsqu’il est possible de croire que les résultats obtenus peuvent
varier d’une strate à l’autre.
Exemple.
Supposons que parmi les 130 000 ménages 10% cultivent du riz, 15% de l’anacarde, 50% du
« CmiA », 10% du karité et 15% autres cultures. On choisira les 390 ménages en respectant
les pourcentages de chacune des spéculations. Ainsi, on prendra au hasard:
10% des 390 ménages, soit environ 39 ménages parmi ceux qui pratiquent le riz
15% des 390 ménages, soit environ 59 ménages parmi ceux qui pratiquent de l’anacarde
50% des 390 ménages, soit environ 195 ménages parmi ceux qui pratiquent le coton
10% des 390 ménages, soit environ 39 ménages parmi ceux qui pratiquent le karité
15% des 390 ménages, soit environ 59 ménages parmi ceux qui pratiquent autres cultures
- Échantillonnage par grappes
Il arrive qu’une population soit constituée de plusieurs groupes similaires. Ainsi, au lieu de
choisir les éléments individuellement, on choisit des grappes ou amas d’éléments. On gagne
ainsi en temps et en argent.
Cette méthode est utilisée lorsqu’il est plausible de croire que les résultats sont très variés à
l’intérieur de chaque grappe, mais similaire d’une grappe à l’autre.
Exemple.
Supposons qu’on décide de regrouper les 130 000 ménages et d’en faire 13000 groupes de 10
ménages homogènes. Ainsi, constituer un échantillon de 390 ménages revient à choisir au
hasard 39 groupes des 13000 groupes de ménages homogènes.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
2.2.3. Méthodes non aléatoires
Une méthode d’échantillonnage est non aléatoire si les éléments de l’échantillon ne sont pas
pris au hasard. C’est une méthode qui n’offre pas à tous les éléments de la population une
chance égale ou prédéterminée d’être sélectionnés.
La probabilité de sélection d’un élément est donc inconnue. Il devient impossible de calculer
la précision des résultats ainsi obtenus et d’utiliser les résultats pour extrapoler sur l’ensemble
de la population.
Cette impossibilité réside essentiellement dans le fait que les éléments choisis peuvent ne pas
être représentatifs de la population.
- Échantillonnage par quotas
C’est une méthode qui ressemble à l’échantillonnage stratifié, sauf que pour atteindre son
objectif, l’enquêteur peut demander à n’importe qui de faire partir de son échantillon, pourvu
qu’il soit dans la strate qui lui manque du monde. C’est l’enquêteur qui choisi et non le
hasard. Ainsi le problème de non répondant ne se pose pas.
Exemple :
On choisira :
10% des 390 ménages, soit environ 39 ménages parmi ceux qui pratiquent le riz
15% des 390 ménages, soit environ 59 ménages parmi ceux qui pratiquent de l’anacarde
50% des 390 ménages, soit environ 195 ménages parmi ceux qui pratiquent le coton
10% des 390 ménages, soit environ 39 ménages parmi ceux qui pratiquent le karité
15% des 390 ménages, soit environ 59 ménages parmi ceux qui pratiquent autres cultures
Advenant qu’un ménage refuse de répondre, il sera automatiquement remplacé par un autre
pratiquant la même spéculation. Chaque ménage est choisi par l’enquêteur et ce choix n’est
pas au hasard
- Échantillonnage à l’aveuglette ou accidentel
Dans cette méthode, les éléments qui sont choisis pour faire partie de l’échantillon sont ceux
qui sont présents au moment opportun.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Exemple.
On décide de choisir ceux qui seront présents dans leur ménage lors du passage de
l’enquêteur.
- Échantillonnage de volontaire
Se retrouve souvent dans les sondages de radio ou de télévision et dans les expériences en
psychologie et en médecine.
Exemple.
On décide de recevoir les ménages désireux de participer à l’enquête à la suite d’un appel à
tous les ménages.
- Échantillonnage au jugé
Cette méthode consiste à choisir les éléments de l’échantillon parmi ceux que l’on croit des
représentants typiques de la population. Ce jugement peut se faire par expérience, soit par
analyse critique de la situation.
Exemple.
On décide de choisir les chefs de ménage en espérant qu’ils pourront donner des informations
sur tous les autres membres du ménage.
3. Nature des données
En fonction de l’objectif de l’étude, les observations à réaliser au cours d’une enquête doivent
être parfaitement définies.
Les données qualitatives concernent les caractères ou attributs que les éléments étudiés
peuvent posséder ou ne pas posséder.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Lorsque les données qualitatives présentent deux niveaux tels que présence ou absence d’une
maladie, la variable qualitative (données qualitatives) est dite binaire ou alternatives ou
indicatrices.
Lorsqu’il y a un ordre de grandeur d’appréciation au niveau des observations, par exemple,

pas de douleur, douleur moyenne, douleur forte et douleur très forte, on parle de variable
qualitative ordinale.
Lorsque les variantes ou modalités du caractère ne peuvent pas être ordonnées par exemple,
les professions, dans un recensement de population ou les types d’exploitation dans un
recensement agricole, de telles données sont dites nominales.
Exemples de caractères qualitatifs.
La couleur de la carrosserie d'un véhicule automobile

Le lieu de travail des habitants d'un quartier
Le sexe et la situation matrimoniale des salariés d'une entreprise
Les données quantitatives concernent les observations numériques. Elles sont de deux
ordres.
Les données quantitatives discrètes ou discontinues concernent les dénombrements, les

comptages. Ces données s’expriment en nombre entier, non négatifs (nombre de fruits par
rameau, le nombre de bétail par exploitation agricole, etc.)
Les mesures ou mensurations (mesurées par une unité de grandeur) comme les données de
hauteurs ou de poids sont des données caractérisant une donnée quantitative continue.
Exemples de caractères quantitatifs.
La puissance fiscale d'un véhicule automobile.

Le chiffre d'affaire d'une P.M.E.
L'âge, le salaire des salariés d'une entreprise.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Exercices
Exercice 1
Votre boucher vous a vendu 10 paquets de viande. Il vous a affirmé qu’il préparait toujours
des paquets de 2 kg. Vous avez vérifié ses dires en pesant vous-même les 10 paquets que vous
avez achetés.
a) Quelle est l’unité

statistique ?...................................................................................................................
b) Quel est
l’échantillon ?....................................................................................................................
..........
c) Quelle est la
population ?.......................................................................................................................
..
d) Quelle est la
variable ?...........................................................................................................................
....
e) Quel est le type de
variable ?....................................................................................................................
f) Quel sera le nombre de
données ?...........................................................................................................
Exercice 2
Un responsable en stratégie politique a commandé une enquête en vue d’avoir une idée sur les
tendances des élections présidentielles auprès des étudiants. Pour ce faire, un sondage fut
mené un mardi après midi auprès des 500 étudiants présents dans les Salles de cours de
l’Université.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
a) quelle est la population ………………………………………………………………
visée ? ……………
b) quel est l’échantillon ? ………………………………………………………………
……………
c) quelle est l’unité statistique ? ………………………………………………………………
……………
d) quelle est la méthode d’échantillonnage …………………………………………
utilisée ? ……….…………………………………
………………..
Exercice 3
Lors des élections, on retrouve couramment sur les cartes d’électeur les informations reprises
ci-dessous. Donnez la nature de chacune de ces variables.
a) Numéro de la carte d’électeur : …………………………….....…………………………………

b) Nom :…………………………………………………………….. ……………………………
c) Sexe : ……………………………..................................................……………………………
d) Profession : ……………………………………………...………………………………………
e) Résidence (N° carré) : ………………………………………….………………………………
f) Numéro téléphone : ……………………………………………………………………………
g) Age : …..…………………………………..……………………………………………………
h) Numéro d’inscription : …………………………………………………………………………
i) Poste d’inscription : ……………………..………………………………………………………
j) Arrondissement : ………………………………………………………………………………
k) Commune : ……………………………..………………………………………………………
l) Département : …………………………..………………………………………………………
Exercice 4
En vue d'établir rationnellement le nombre de postes de travail nécessaires pour assurer à sa

clientèle un service satisfaisant, une agence de voyage a fait relever, minute par minute, le
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
nombre d'appels téléphoniques reçus au cours d'une période de 30 jours. Cette opération a
fourni, pour la tranche horaire de pointe qui se situe entre onze heures et midi, les résultats
suivants :
Nombre d’appels téléphoniques par Nombre de

minute minutes
0 93
1 261
2 416
3 393
4 308
5 174
6 93
7 42
8 et plus 20
a) Quelle est la population étudiée ?

b) Quel est le caractère observé et quelle est sa nature ?
Exercice 5
Une banque vient d’entreprendre une étude visant à mieux connaître la situation et le
comportement bancaire de sa clientèle. Elle souhaite notamment définir des types homogènes
de clients afin de pouvoir élaborer des politiques différenciées pour chacun d’eux. Pour cela,
la banque a constitué un échantillon de cinquante titulaires d’un compte courant appartenant à
des ménages distincts. Pour décrire chacun d’eux, elle retient les quinze variables suivantes:
SOLD : solde moyen du compte courant;
CHEQ : montant moyen des chèques tirés pendant le dernier semestre ;
NDEC : nombre de mois avec découvert au cours de l’année précédente;
MDEC : montant cumulé du découvert de l’année précédente;
NBPR : nombre de produits de la banque utilisés en plus du compte courant;
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
NEMP : nombre d’emprunts effectués lors des cinq dernières années;
MEMP : montant total des emprunts lors des cinq dernières années;
VADD : pourcentage de variation des dépôts sur les comptes d’épargne (pour les 12 derniers
mois);
DEPO : montant total des dépôts sur les comptes d’épargne effectués lors de l’année
précédente;
RETR : montant total des retraits sur les comptes d’épargne effectués lors de l’année
précédente;
VARR : pourcentage de variation des retraits sur les comptes d’épargne (pour les 12 derniers
mois);
TAIL : taille du ménage du titulaire du compte courant;
AGEC : âge du client titulaire du compte courant ;
SITMA : situation maritale ;
CATSP : catégorie socio-professionnelle.
a) donnez la nature de chacune de ces variables ;

b) donnez la ou les représentation(s) que l’on peut faire de chacune de ces variables ?
Exercice 6
Au cours d'une enquête de marketing, on étudie le statut marital des acheteurs d'une voiture.
On obtient la série suivante : où C=Célibataire, M=Mariée D=Divorcé et V=veuf.
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
xi C M D V V M D M M C D M D M C
Quelle est la variable étudiée ? Quelles sont ses modalités ?
Exercice 7
Pour chaque variable statistique implicite dans les exemples ci-dessous, donner sa nature.
a) appartenance ethnique d’un étudiant des Universités du Bénin
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
b) durée de vie d’une ampoule
c) nombre d’épis par pied d’un champ de maïs
d) numéro de téléphone d’un étudiant des Universités du Bénin
Exercice 8
Afin de mieux connaître le profil et les opinions des salariés du département Ressources
Humaines (RH) d’une grande entreprise, on a élaboré un questionnaire, dont les extraits sont
présentés ci-après. Chaque salarié devait soit entourer sa réponse parmi plusieurs choix
proposés, soit compléter les réponses pré-établies.
Q1 : Sexe :
I. Masculin
II. Féminin
Q2 : Age :
I. 18 – 25 ans
II. 26 – 35 ans
III. 36 – 45 ans
IV. 46 ans et plus
Q3 : Indiquer ci-après le nombre d’années d’expérience que vous avez en RH :

… années
Q4. Donnez votre appréciation du nouveau logiciel de gestion des carrières:

V. Très utile
VI. Assez utile
VII. Assez inutile
VIII. Tout à fait inutile
Q5. Le nombre de vos heures de travail et leur répartition permettent un bon équilibre
professionnel / personnel :
i. Tout à fait d’accord
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
ii. Plutôt d’accord
iii. Pas vraiment d’accord
iv. Pas du tout d’accord
Q6. Donnez une note comprise entre 0 et 10, concernant l’équipement informatique actuel que
vous utilisez au sein du département :
Note sur 10 :
Identifiez, la nature de chaque type de variables et justifier la réponse.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
CHAPITRE 2 : Statistique descriptive à une dimension
1. Introduction
La statistique descriptive a pour but de résumer et de présenter les données observées d’une
manière telle qu’on puisse en prendre connaissance facilement. Elle peut concerner une, deux
ou plus de deux variables ou caractéristiques. Selon le cas, on parle de statistique descriptive à
une dimension, à deux dimensions ou à plus de deux dimensions.
A une dimension, le but de simplification des données peut être atteint de trois manières
distinctes : les tableaux statistiques, les diagrammes et les paramètres.
2. Tableaux statistiques
Les tableaux statistiques permettent de présenter les données sous forme numérique de
distribution de fréquences.
2.1. Séries statistiques
La forme la plus simple de présenter les données est évidemment de les énumérer.
x1 , x2 , …, xi , …, xn
Une telle énumération est appelée série statistique.
La valeur n désigne le nombre total d’observations encore appelé effectif.
Exemple. Ages de 26 peuplements de teck.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Au cours d’un inventaire forestier relatif à la modélisation de la production des peuplements
de teck (Tectona grandis) au sud Bénin [AKOSSOU, 1998], l’âge de 26 peuplements ont été
déterminés et sont repris ci-après.
7 7 9 10 11 12 12 17 29 29 32 32 33
37 37 37 37 40 40 40 41 41 44 44 46 46
Ces données rangées par ordre croissant constituent une série statistique.
2.2. Distributions non groupées
Lorsque les données collectées sont nombreuses, il est intéressant voir nécessaire de les
condenser sous forme de distribution de fréquences.
Le nombre d’occurrence ou d’apparition d’une même valeur est sa fréquence absolue ou

simplement fréquence.
La distribution de fréquences est formée des différentes valeurs observées x1 , x2 , …, xi , …,
xn rangées par ordre croissant et des fréquences correspondantes n1 , n2 , …, ni , …, nn .
On peut également exprimer les fréquences en valeurs relatives ou en pourcentages du

nombre total d’observations. Les fréquences relatives ainsi définies sont notées ni' :
ni' € ni / n ou ni' € 100ni / n
Lorsqu’on additionne de proche en proche les fréquences observées on parle de distribution

de fréquences cumulées. Celles-ci peuvent être obtenues sur les fréquences absolues et
relatives. On a ainsi une fréquence cumulée, qui est la somme des fréquences correspondant à
cette valeur et à l’ensemble des valeurs inférieures. La fréquence relative cumulée sera notée
N i' .
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Si nous reprenons la série relative à l’âge des peuplements, la distribution de fréquences qui la
concerne est consignée dans le tableau ci-dessous, en fréquences absolues non cumulées, en
fréquences relatives non cumulées, en fréquences absolues cumulées et en fréquences
relatives cumulées.
Distribution de fréquences des âges des peuplements de teck.
Fréquences
Fréquences
Ages Fréquences Fréquences relatives
absolues absolues
xi relatives ni' cumulées
ni cumulées '
N i ( xi )
7 2 0,077 2 0,077
9 1 0,038 3 0,115
10 1 0,038 4 0,154
11 1 0,038 5 0,192
12 2 0,077 7 0,269
17 1 0,038 8 0,308
29 2 0,077 10 0,385
32 2 0,077 12 0,462
33 1 0,038 13 0,500
37 4 0,154 17 0,654
40 3 0,115 20 0,769
41 2 0,077 22 0,846
44 2 0,077 24 0,923
46 2 0,077 26 1
Totaux 26 1
Exemple. Répartition des systèmes agroforestiers de la commune de Gogounou selon les spéculations
présentes dans les champs en 2007.
Fréquences Fréquences Fréquences

Fréquences relatives cumulées
Spéculations présentes '
absolues ni relatives ni absolues cumulées '
N i ( xi )
Coton -Karité-Néré 129 23,33 129 23,33
Maïs- Karité-Néré 214 38,70 343 62,03
Maïs- Karité 3 0,54 346 62,57
Sorgho-Karité-Néré 46 8,32 392 70,89
Autres 161 29,11 553 100
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Sur les 553 systèmes dénombrés dans la commune de Gogounou. En fonction du type de spéculations, le
système Maïs + Karité + Néré apparaît le plus dominant alors que le système avec les spéculations Maïs +
Karité apparaît comme le moins représenté.
2.3. Distributions groupées
Lorsqu’on est en possession d’un nombre important d’observations distinctes, il est plus
judicieux de les regrouper en classes ou catégories. On obtient ainsi des distributions
groupées.
Chaque classe est caractérisée par son point central ou point médian, par ses valeurs extrêmes,
par ses valeurs limites et par son amplitude.
La limite inférieure d’une classe, confondue avec la limite supérieure de la classe

précédente, est située à mi chemin entre la valeur la plus petite de la classe considérée et la
valeur la plus élevée de la classe précédente.
L’écart entre les limites des classes est appelé amplitude ou intervalle ou module de classe.
Le point central ou point médian d’une classe est situé à mi-chemin entre les limites de
classes correspondantes.
La fréquence d’une classe est le nombre d’observations qui y sont contenues.
L’ensemble des limites de classes, de leurs valeurs extrêmes ou de leurs points centraux,
d’une part, et des fréquences de classes d’autre part, constitue la distribution groupée.
On peut définir de la même manière comme dans le cas des distributions non groupées, les
fréquences relatives et les fréquences cumulées.
Pour la définition du nombre de classes, il n’existe pas de méthode générale ; les choix sont
effectués par l’utilisateur qui doit évidemment tenir compte des données, de leur nature et des
informations dont il dispose a priori. Il est généralement compris entre 10 et 20. Il est réduit
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
lorsque le nombre d’observation est faible et élevé lorsque le nombre d’observations est
important. Il est recommandé de considérer un nombre de classes impair, pour disposer d’une
classe centrale souvent utile dans les représentations graphiques.
Toutefois, diverses formules empiriques permettent d’établir le nombre de classes pour un

échantillon de taille ni .
La règle de STURGE : Nombre de classes = 1 • 3,3 log(n) .
La règle de YULE : Nombre de classes = 2,54 n .
L’intervalle entre chaque classe est obtenu ensuite de la manière suivante :
Intervalle de classe = ( x max ‚ xmin ) / Nombre de classes.
Avec xmax et xmin , respectivement la plus grande et la plus petite valeur de x dans la série
statistique.
Lorsque les fréquences varient de manière importante d’une extrémité à l’autre, on utilise
parfois des intervalles de classes variables, afin de réduire l’écart entre les fréquences des
différentes classes.
Pour rendre comparable les fréquences d’une classe à l’autre et d’une distribution à l’autre, on
divise les fréquences relatives par les intervalles de classes correspondants :
ni'' € ni' / ƒxi
On obtient ainsi les fréquences unitaires ou densité.
Exemple. Longueur de la rectrice centrale.
Parmi les caractères mesurés pour étudier la structure de la population d’une espèce
d’animaux abattue par les chasseurs figure la longueur de la rectrice centrale (plume de la
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
queue). Les résultats observés exprimés en millimètres sur un échantillon de 50 mâles
juvéniles sont notés dans la série ci-dessous :
153 165 160 150 159 151 163 160 158 149 154 153 163 140 158 150 158 155 163
159 157 162 160 152 164 158 153 162 166 162 165 157 174 158 171 162 155 156
159 162 152 158 164 164 162 158 156 171 164 158
Les longueurs varient entre 140 et 174. En fonction des valeurs observées, nous allons
procéder à un regroupement en classe. Le nombre de classes donné par les deux règles est :
Règle de STURGE : nombre de classes = 1 • 3,3 log(50) € 6,60 .
Règle de YULE : Nombre de classes = 2,54 50 € 6,64 .
Les deux valeurs sont très peu différentes.
L’intervalle de classe est : IC = (174-140)/6,60=5,15 que l’on arrondit à 5.
En fonction de ces résultats, les valeurs extrêmes des classes sont : 140 et 145, 145 et 150,
150 et 155, 155 et 160, 160 et 165, 165 et 170, 170 et 175.
Les limites des classes sont approximativement : 140, 145, 150, 155, 160, 165, 170 et 175
La distribution de fréquences de la longueur de la rectrice centrale en terme de valeurs

extrêmes, de points centraux, de fréquences absolues non cumulées, de fréquences relatives
non cumulées, de fréquences absolues et de fréquences relatives cumulées, sont présentées
dans le tableau ci-dessous.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Distribution des fréquences des longueurs de la rectrice centrale
Fréquences Fréquences
Points Fréquences Fréquences
Classes inf sup absolues relatives
centraux absolues relatives
cumulées cumulées
1 140 145 142,5 1 0,02 1 0,02
2 145 150 147,5 1 0,02 2 0,04
3 150 155 152,5 9 0,18 11 0,22
4 155 160 157,5 17 0,34 28 0,56
5 160 165 162,5 16 0,32 44 0,88
6 165 170 167,5 3 0,06 47 0,94
7 170 175 172,5 3 0,06 50 1
3. Représentation graphique
Un exposé à base de figure ou de schéma vaut mieux qu’un long discours. Toute étude
statistique doit donc être précédée d’une étude exploratoire, en privilégiant les représentations
graphiques. C’est la seule manière de se familiariser avec les données et surtout de détecter
les sources de problèmes (présence de données anormales par exemple). Cette représentation
dépend de la nature des données étudiée : données quantitatives continues, quantitatives
discrètes ou qualitatives et des distributions de fréquences.
3.1. Diagramme de fréquences non cumulées
Il est facile de représenter graphiquement la répartition des observations suivant une variable
qualitative, ordinale ou quantitative. Il existe de nombreuses méthodes disponibles dans la
plupart des tableurs comme Excel, et les erreurs sont dues fréquemment à des choix
malheureux. Les représentations des distributions de fréquences non cumulées (absolues ou
relatives) fondamentales sont :
- les diagrammes, dans le cas des données qualitatives, quantitatives discrètes ou

ordinales ;
- les histogrammes, dans le cas des données quantitatives.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Dans la plupart des cas, on reporte les modalités ou les valeurs observées, les limites des
classes, ou les points centraux des classes, en abscisses et les fréquences en ordonnées.
Il est toutefois préférable dans la quasi-totalité des cas de représenter non les effectifs
correspondants à chaque modalité ou à chaque valeur entière, mais les proportions ou
fréquence relatives. Les deux méthodes sont équivalentes, mais la représentation des
pourcentages permet de comparer deux diagrammes entre eux indépendamment des effectifs
totaux.
3.1.1. Diagramme en bâtons
La plupart des erreurs, dans les graphiques concernant les variables qualitatives, viennent du
codage de ces données par des chiffres qui n’a en réalité aucun sens numérique ni ordinal. Le
sexe peut être codé par 1 pour féminin et par 2 pour masculin ou inversement, cela n’a aucune
importance. L’ordre des valeurs n’a pas de sens particulier et peut être modifié.
Les variables quantitatives discrètes sont définies par des grandeurs numériques exprimées en
nombres entiers. On peut les représenter par des diagrammes comme les variables
qualitatives, mais le codage a un sens numériques, et on ne peut pas inverser l’ordre des
valeurs.
La représentation la plus utilisée est le diagramme en bâtons, appelé fréquemment et

improprement histogramme.
Ce diagramme représente les effectifs ou les pourcentages suivant chaque modalité de la

variable qualitative. Le diagramme en bâtons est élémentaire : on reporte le long de l’axe des
abscisses la liste des modalités de la variable et le long de l’axe des ordonnées l’effectif
correspondant à chacune d’elles.
Remarque. L’assistant du tableur Excel propose un certain nombre de graphiques, parmi

lesquels des histogrammes qui sont en réalité des diagrammes en bâtons. L’histogramme est
obtenu en modifiant l’option des paramètres du graphique.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Figure. Diagramme en bâtons des âges
Exemple. Répartition des systèmes agroforestiers de la commune de Gogounou selon les

spéculations présentes dans les champs en 2007.
La figure montre le diagramme en bâtons des spéculations présentes dans les systèmes
agroforestiers de la commune de Gogounou (nord Bénin).
Figure. Diagramme en bâtons des systèmes
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
3.1.2. Histogrammes
Nous abordons ici le cas des variables quantitatives appelées continues, caractérisées par le
fait qu’elles peuvent prendre n’importe quelle valeur entre deux valeurs données.
Dans toutes les analyses statistiques, on donne une représentation particulière de la répartition
des observations, appelée histogramme.
Les histogrammes se composent de rectangles contigus, dont les intervalles de classes sont les
bases, et les fréquences les hauteurs, de telle sorte que les aires des rectangles soient
proportionnelles aux fréquences.
Exemple. Longueur de la rectrice centrale
L’histogramme des longueurs de la rectrice centrale est donné à la figure ci-après.
Figure. Histogramme des longueurs de la rectrice centrale.
Les histogrammes font apparaître une classe dont la fréquence est plus grande que les autres.
Cette classe correspond à la classe modale.
Une classe modale peut être unique : la répartition (ou histogramme) est dite « unimodale ».
Lorsqu’il y en a plusieurs, elle est qualifiée de « plurimodale » ; ce dernier cas peut se
produire lorsque les observations proviennent de populations différentes.
L’histogramme donné à la figure ci-dessus est unimodal.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
3.1.3. Autres diagrammes
- Les polygones de fréquences sont construits en joignant par une ligne brisée les extrémités
des segments voisins des diagrammes en bâtons relatifs aux distributions non groupées.
Figure. Polygone de fréquences des âges.
- Le diagramme stem-and-leaf ou branches et feuilles constitue une autre forme de

représentation des données très comparables aux diagrammes en bâtons et aux histogrammes,
à la différence qu’elles utilisent les chiffres mêmes des valeurs observées. Cette représentation
se présente en trois colonnes : à gauche on a les dénombrements cumulés des valeurs vers le
centre de la figure depuis ses extrémités supérieure et inférieure ; au milieu (nombre entre
parenthèses), correspondant à la "branche" on a le dénombrement des valeurs de la ligne
contenant la médiane (les parenthèses entourant la ligne médiane sont omises si cette médiane
se situe entre deux lignes du graphique affiché) ; à droite ("feuilles") : chaque valeur s'affiche
en un seul chiffre à ajouter à la suite des chiffres de la branche pour représenter la valeur
d'une donnée. L'unité de la feuille indique où doit se placer la virgule de chaque nombre.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Stem-and-leaf ‘Age’ N = 26
3 0 779
7 1 0122
8 17
8 2
10 2 99
13 3 223
13 3 7777
9 4 0001144
2 4 66
Figure. Diagramme stem-and-leaf des âges des peuplements de teck.
Exemple. Longueurs de la rectrice centrale.
Stem-and-leaf ‘Longueur’ N = 50
1 14 0
2 14 9
11 15 001223334
(17) 15 55667788888888999
22 16 0002222223334444
6 16 556
3 17 114
Figure. Diagramme stem-and-leaf de la longueur de la rectrice centrale.
- Les boxplots ou boîte à moustaches concernent les séries statistiques simples, non
transposées en distribution. Une boîte à moustaches se compose d'une boîte, de moustaches
et de valeurs aberrantes.
Observations aberrantes
La plus grande valeur comprise dans la zone

définie par la limite supérieure : Q3+1,5(Q3-Q1)
*
Troisième quartile (Q3) Médiane
Premier quartile (Q1) La plus petite valeur comprise dans la zone définie
par la limite inférieure : Q1-1,5(Q3-Q1)
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Le bas de la boîte est le premier quartile (Q1) et le haut est le troisième quartile (Q3). Les
moustaches sont les lignes qui s'étirent du haut et du bas de la boîte aux valeurs adjacentes, à
savoir la plus petite et la plus grande observation encore comprises dans la zone définie par
les limites suivantes :
Limite inférieure : Q1 - 1,5 (Q3 - Q1)
Limite supérieure : Q3 + 1,5 (Q3 - Q1)
Les valeurs aberrantes sont les points à l'extérieur des limites inférieure et supérieure, et sont
tracées avec des astérisques (*).
Figure. Boxplot des longueurs de la rectrice centrale.
- Le diagramme circulaire est constitué d’un disque représentant la totalité de l’échantillon.

Chaque modalité de la variable qualitative est caractérisée par un secteur circulaire dont l’aire,
et par suite l’angle au centre, représente l’effectif de l’échantillon correspondant. Si p désigne
la proportion d’une modalité, l’aire du secteur angulaire correspondant à cette proportion est
égale à px360°.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Exemple. Répartition des systèmes agroforestiers de la commune de Gogounou selon les spéculations
présentes dans les champs en 2007.
Figure. Répartition des systèmes agroforestiers de la commune de Gogounou.
Exemple. Répartitions des animaux selon le sexe
Si nous supposons qu’une étude de dénombrement d’une espèce d’animaux a conduit selon le
sexe à la répartition suivante : 40% de femelle et 60% de males. Le diagramme circulaire de
ces informations est donné à la figure 1.6.
Figure 3.1.3.6. Diagramme circulaire des animaux par sexes.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
3.2. Diagramme de fréquences cumulées
Les distributions de fréquences cumulées sont surtout représentées par des polygones de
fréquences.
Pour les distributions non groupées, le polygone de fréquences est construit en escalier. Pour
construire ce polygone, on dessine des segments de droites de longueurs proportionnelles aux
fréquences, en les décalant progressivement vers le haut, de telle sorte que l’origine de chacun
d’eux soit située à hauteur de l’extrémité du précédent.
Par contre, pour les distributions groupées, on joint par une ligne brisée les points obtenus en
portant en regard les limites supérieures des classes des ordonnées égales aux fréquences
cumulées absolues ou relatives.
Figure. Polygone de fréquences cumulées des âges de peuplements de teck.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Figure. Polygone de fréquences cumulées des longueurs de la rectrice centrale.
4. Indicateurs numériques
Le dernier niveau de description statistique est le résumé numérique d’une distribution

statistique par des indicateurs numériques ou paramètres caractéristiques.
Ces derniers représentent une transition entre la statistique purement descriptive et

l’estimation des paramètres qui caractérisent les distributions de probabilité.
4.1. Indicateur de position
4.1.2. Moyenne
Soit un échantillon de n valeurs observées x1 , x2 , …, xi , …, xn d’un caractère quantitatif

X , on définit sa moyenne observée x comme la moyenne arithmétique de n valeurs :
n
1
x€
n „x
i €1
i
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Si les données observées xi sont regroupées p classes d’effectif ni (caractère continu
regroupé en classe ou caractère discret), il faut les pondérer par les effectifs correspondants :
p
1 p
x€ „ ni xi avec
n i €1
„n
i €1
i €n
Remarque : Une des propriétés de la moyenne arithmétique est que la somme des écarts à la
n
moyenne est nulle : „ (x
i €1
i ‚ x) € 0
Exemple.
Dans le cas de l’étude des peuplements de teck, l’âge moyen est :
32 • 37 • 37 • ... • 7 • 12 • 12
x€ € 29,62 … 30 ans
26
Dans le cas de l’étude du dimorphisme sexuel, la longueur moyenne de la rectrice principale

du male juvénile est :
- données non groupées

153 • 165 • 160 • ... • 171 • 164 • 158 7943
x€ € € 158,9 mm
50 50
- données groupées
1 p 7960
x € „ ni xi € € 159,2 mm
n i €1 50
Remarque : La moyenne obtenue après regroupement des données en classe peut être
légèrement différentes de la moyenne obtenue sans regroupement ceci en raison d’une perte
d’information. Si l’échantillonnage n’est pas de type aléatoire simple, les deux moyennes
peuvent être très différentes.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Il existe d’autres moyennes, notamment :
1/ n
‹ n ˆ
- la moyenne géométrique : x g € x1 ...x n € ‰‰ Œ xi †† ;
Š i €1 ‡
n
n
- la moyenne harmonique : x h €
1 / x1 • .. • 1 / x n
€n „1 / x
i €1
i ;
1 n 2
- la moyenne quadratique : x q € „ xi
n i €1
De manière générale, la moyenne de degré k d’une série statistique ou d’une distribution de

fréquences peut être définie de la manière suivante :
1/ k 1/ k
‹1 n ˆ ‹1 p ˆ
x k € ‰ „ xik † ou ‰‰ „ ni x ik ††
Š n i €1 ‡ Š n i €1 ‡
4.1.2. Médiane
La médiane ~x est la valeur du caractère pour laquelle la fréquence relative cumulée est égale
à 0,5 ou 50%. Elle correspond donc au centre de la série statistique classée par ordre croissant,
ou à la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont
inférieures.
Dans le cas où les valeurs prises par le caractère étudié ne sont pas regroupées en classe,
- si n est impair, alors n = 2m+1 et la médiane est la valeur du milieu ~
x € x m •1 ,
- si n est pair, alors n = 2m et une médiane est une valeur quelconque entre x m et x m •1 .
Dans ce cas il peut être commode de prendre le milieu : ~

x € ( x m • x m •1 ) / 2 .
Les thèmes en indices représentent l’ordre de l’observation dans la série.
Dans le cas où les valeurs prises par le caractère étudié sont groupées en classe, on cherche la
classe contenant le nème/2 individu de l’échantillon. En supposant que tous les individus de
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
cette classe sont uniformément répartis à l’intérieur, la position exacte du nème/2 est
déterminée par interpolation linéaire :
~ '
0,50 ‚ N ' ( x i' )
x € xi • ƒx i
n i'
dans laquelle i est l’indice de la classe médiane, xi' la limite inférieure de cette classe, N ' ( x i' )
la fréquence relative cumulée de la classe qui précède la classe médiane, ni' la fréquence
relative de la classe médiane et ƒxi son intervalle.
La médiane peut être également déterminée graphiquement en recherchant sur le polygone de

fréquences cumulées, l’abscisse du point d’ordonnées n/2 ou 1/2.
Exemple.
Dans le cas de la distribution d’âges des peuplements, la valeur de la médiane est :

n € 50 donc ~
x •[ x25 , x26 ] ,
soit ~x • [33 ans,37 ans] ou ~x € 35 ans
Dans le cas des longueurs de la rectrice centrale on a :

ème
n € 50 la 25 valeur se situe dans la classe 155-160 qui contient les individus de 12 à 28. La
limite inférieure de cette classe es : xi' € 155 , la fréquence relative cumulée de la classe qui
précède la classe médiane est N ' ( xi' ) € 0,22 , la fréquence relative de la classe médiane est :
ni' € 0,34 et son intervalle ƒxi € 5 .
0,50 ‚ 0,22
D’où ~
x € 155 • 5 € 159,1 mm
0,34
Remarque : La médiane ne s’applique qu’aux échelles ordinales, d’intervalles et de rapport,

car elle nécessite un ordre linéaire entre les données.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Si la distribution des valeurs est symétrique, la valeur de la médiane est proche de la valeur de
la moyenne arithmétique ~x … x . Par contre, pour les distributions dissymétriques, la médiane
diffère généralement de la moyenne : la médiane est normalement inférieure ou supérieure à
la moyenne, selon que la dissymétrie est gauche ou droite.
4.1.3. Mode
Le mode xmo d’une série statistique est la valeur du caractère la plus fréquente ou dominante
dans l’échantillon. Le mode correspond à la classe de fréquence maximale dans la distribution
des fréquences.
On peut identifier le mode comme la valeur de la médiane de la classe de fréquence maximale
ou bien effectuer une interpolation linéaire pour obtenir la valeur exacte du mode comme
suit :
' ƒx i ƒi
x mo € xim •
ƒs • ƒi
avec
'
xim : limite inférieure de la classe d’effectif maximal
ƒx i : intervalle de classe
ƒi : écart d’effectif entre la classe modale et la classe inférieure la plus proche
ƒs : écart d’effectif entre la classe modale et la classe supérieure la plus proche
Exemple.
Dans le cas de la distribution d’âge des peuplements de teck, la valeur du mode est :
xmo € 37 ans avec ni € 4
Dans le cas de la distribution de la longueur de la rectrice centrale, la valeur approchée est : la

classe de fréquence maximale est [155,160] avec ni € 17 d’où x mo € 157,5 mm .
5Ž8
La valeur exacte est : xmo € 155 • € 159,44 ans
1• 8
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
'
avec xim € 155 mm , ƒx i € 5 mm , ƒi € 17 ‚ 9 € 8 , ƒs € 17 ‚ 16 € 1
Remarque : Une distribution de fréquences peut présenter un seul mode (distribution

unimodale) ou deux ou plusieurs modes (distribution bi ou plurimodale).
Si la distribution des valeurs est symétrique, la valeur du mode est proche de la valeur de la
moyenne arithmétique : xmo … x .
4.2. Indicateurs de dispersion
Ces paramètres ont pour but dans le cas d’un caractère quantitatif de caractériser la variabilité
des données dans l’échantillon.
Les indicateurs de dispersion fondamentaux sont la variance observée et l’écart-type observé.
4.2.1. Variance observée
Soit un échantillon de n valeurs observées x1 , x2 , …, xi , …, xn d’un caractère quantitatif
X , et soit x sa moyenne observée. On définit la variance observée notée s ² comme la
moyenne arithmétique des carrés des écarts à la moyenne :
1 n
s² € „ ( xi ‚ x)²
n i €1
Pour des facilités de calcul, on se sert de la formule suivante pour le calcul de la variance :
1 n 2
s² € „ xi ‚ x ²
n i €1
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Dans le cas des données regroupées en p classes d’effectif ni (variable continue regroupée en
classes ou variable discrète), la formule de la variance est :
1 p
s² € „ ni ( xi ‚ x)²
n i €1
La formule développée est :
1 p
s ² € „ ni x i2 ‚ x ²
n i €1
L’écart-type observé correspond à la racine carrée de la variance observée : s € s ² .
Exemple.
Dans le cas de l’étude des peuplements de teck, la variance observée de l’âge est :
26
2
„x i €1
i € 27538 et x € 29,62 ans
27538
s² € ‚ (29,62)² € 182,08 d’où s € 13,49 ans … 13 ans
26
Dans le cas de l’étude du dimorphisme sexuel, la variance observée de la longueur de la

rectrice centrale du mâle juvénile est :
cas des données non groupées
50
2
„x
i €1
i € 1263647 et x € 158,86 mm
1263647
s² € ‚ (158,86)² € 36,44 d’où s € 6,04 mm
50
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
cas des données groupées
„ nx
i €1
2
i € 1269012,5 et x € 159, 20 mm
1269012,5
s² € ‚ (159,20)² € 35,61 et s € 5,97 mm
50
Remarque : De part sa définition, la variance est toujours un nombre positif. Sa dimension

est le carré de celle de la variable. Il est toutefois difficile d’utiliser la variance comme mesure
de dispersion car le recours au carré conduit à un changement d’unités. Elle n’a donc pas de
sens biologique direct contrairement à l’écart-type qui s’exprime dans les mêmes unités que la
moyenne.
4.2.2. Coefficient de variation
La variance et l’écart-type observés sont des paramètres de dispersion absolue qui mesurent la
variation absolue des données indépendamment de l’ordre de grandeur des données. Le
coefficient de variation noté CV est un indice de dispersion relatif prenant en compte ce biais
et est défini comme suit :
s
CV € 100
x
Exprimé en pour cent, il est indépendant du choix des unités de mesure permettant la
comparaison des distributions de fréquences d’unité différente.
Exemple.
Le coefficient de variation des longueurs de la rectrice centrale est égal à :
6,09
CV € 100 € 3,83%
158,86
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
4.2.3. Quantiles et écart interquartile
Plutôt que d’étudier la fonction de distribution des observations, on préfère souvent en

déduire les quantiles, qui caractérisent la répartition des n observations en classes de même
effectif.
Les quantiles sont utilisés lorsque le nombre d’observations est important. On peut considérer
que les classes doivent avoir un effectif d’au moins 5 observations, d’où les conditions
d’effectifs proposées ci-dessous :
Médiane ~
x Deux classes d’effectifs n/2 50% n • 10
Quartiles q1 , q 2 € x~ , q3 Quatre classes d’effectifs n/4 25% n • 20
Quintiles r1 , r2 , r3 , r4 , r5 Cinq classes d’effectifs n/5 20% n • 25
Déciles d1 , d 2 , …, d 9 Dix classes d’effectifs n/10 10% n • 50
Centiles c1 , c 2 , …, c 99 Cent classes d’effectifs n/100 1% n • 500
L’interquartile ou interquartile est la différence q3 - q1 . Il englobe la moitié, ou

approximativement la moitié des observations qui se situent au centre de la distribution.
Ces paramètres présentent les mêmes inconvénients de calcul que la médiane. En général, on
procède par interpolation linéaire pour donner une valeur précise.
Une application des quantiles est la vérification de la symétrie de la répartition. Dans la

pratique, on considèrera que la répartition est symétrique si :
- la médiane et la moyenne sont à peu près égales ;
- la médiane est à peu près la moyenne des quartiles q1 et q3 , des décile d1 et d9 , d 2 et
d8 , etc.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Une seconde application des quantiles est le calcul du rapport entre la plus petite et la plus
grande des valeurs d’une série d’observations. Dans la mesure où ces observations sont tirées
au hasard, ce rapport peut varier considérablement d’un tirage à l’autre et son instabilité le
rend discutable.
4.3. Indicateurs de forme
4.3.1. Moments
Le moment d’ordre k par rapport au point c d’une série statistique est défini comme suit :
1 n k 1 p
„ ( x i ‚ c ) ou „ [ ni ( xi ‚ c) k ]
n i €1 n i €1
En pratique, on utilise les moments par rapport à l’origine ou moments centrés ak obtenus
lorsque c € 0 et les moments par rapport à la moyenne mk obtenus lorsque c € x .
D’une manière générale les moments d’ordre pair sont comme les paramètres de dispersion.
Par contre, les moments d’ordre impair sont des indices de dissymétrie. Ils sont nuls pour les
distributions symétriques et différents de zéro pour les distributions dissymétriques.
4.3.2. Paramètres de symétrie et d’aplatissement
Le coefficient de Pearson b1 et b2 permettent de caractériser l’un le degré de symétrie, l’autre

le degré d’aplatissement d’une distribution :
b1 € m32 / m23 € m32 / s 6 et b2 € m 4 / m 22 € m 4 / s 4
Les coefficients de Fisher g1 et g 2 jouent un rôle similaire à celui des coefficients de

Pearson.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
g 1 € m3 / m 23 / 2 € m3 / s 3 et g 2 € m 4 / m 22 ‚ 3 € m 4 / s 4 ‚ 3
Ils sont tels que :
g12 € b1 et g 2 € b2 ‚ 3
Lorsque b1 et g1 sont nuls et la distribution est unimodale, on a une distribution symétrique.
S’ils sont différents de zéro, la distribution est dissymétrique. Le signe de g1 indique le sens
de la dissymétrique. Lorsque g1 < 0 et distribution unimodale alors le mode est supérieur à la
moyenne. Si par contre g1 > 0 alors le mode est supérieur à la moyenne.

Lorsque le coefficient d'asymétrie est positif, la distribution est plus étalée à droite : on dit
qu'il y a oblicité à gauche.
Lorsque le coefficient d'asymétrie est négatif, la distribution est plus étalée à gauche : on dit
qu'il y a oblicité à droite.
Pour une distribution uniforme on a b2 € 1,8 et g 2 € ‚1,2 .
Pour une distribution en U, on a b2 • 1,8 et g 2 • ‚1, 2 .
Pour une distribution en cloche on a b2 ‘ 1,8 et g 2 ‘ ‚1,2 .
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Exemple.
Pour les données d’âge des peuplements de teck on a : g1 € ‚0,60 et g2 € ‚1,27

La distribution est donc dissymétrique droite.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Exercices
Exercice 1
Le tableau ci-dessous présente les différentes mesures qu’il est possible d’évaluer en fonction
des différents types de variables. Cochez les cellules appropriées.
Mode Médiane et Moyenne et Coefficient de

quartiles écart-type variation
Qualitative
nominale
Qualitative
ordinale
Quantitative
discrète
Quantitative
continue
Exercice 2
Dans une revue d’éducation, d’information et de retraite, il a été publiée la distribution

suivante concernant l’âge des individus de 15 ans et plus, pour 1989.
Point Fréquence Fréquence Fréquence

âge relative
central relatives cumulée unitaire
858
947
2152
1814
1243
1071
1253
Total 9338
a) Identifier la variable à l’étude.

b) De quel type de variable s’agit-il ?
c) Quelle est l’unité statistique ?
d) Déterminez l’amplitude (a) de chacune des classes d’âges.
e) Quelle est l’étendue des données ?
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
f) Complétez le tableau de distribution de la variable.
g) Trouvez le mode et donnez-en la signification dans le contexte du problème.
h) Trouvez la médiane et donnez-en la signification dans le contexte du problème.
i) Trouvez la moyenne, donnez-en la signification dans le contexte du problème.
j) Trouvez l’écart type de cette variable.
k) Est-ce que les données sont homogènes ? Justifiez votre réponse par un calcul.
l) Représentez la distribution de cette variable par un histogramme.
m) En considérant l’histogramme que vous venez de tracer et la valeur du mode, de la
médiane et de la moyenne, que pouvez vous-dire de la symétrie de la distribution de la
variable ?
n) Déterminez la mesure de tendance centrale à privilégier pour cette distribution.
Justifiez votre choix et donnez cette mesure.
Exercice 3
On donne les salaires bruts journaliers de 50 ouvriers (en millier de FCFA).
36 47 51 56 61
37 47 52 57 61
39 47 53 57 61
40 48 53 58 61
41 49 54 58 62
42 49 54 59 63
44 50 55 59 64
45 50 55 60 66
45 51 55 60 66
47 51 56 60 74
a) Quel est le nombre de classes souhaitable ?

b) Regroupez ces données en classes en utilisant 36 comme limite inférieure de la première
classe.
c) Dans quelle classe se situe le plus grand nombre d’observations ?
d) Quel pourcentage d’ouvriers a un salaire brut journalier :
i. inférieur à 60000 FCFA ?
ii. supérieur à 60000 FCFA ?
e) Tracez l’histogramme, le polygone de fréquences et le polygone cumulatif de la
distribution obtenue en b).
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Exercice 4
On dispose des résultats d’une enquête concernant les loyers mensuels des appartements
d’une commune donnée.
Loyers
Effectifs
(FCFA x 1000)
[4; 6[ 20
[6; 8[ 40
[8; 10[ 80
[10; 15[ 30
[15; 20[ 20
[20; 40[ 10
a) Quelle est la représentation graphique convenant pour ces données ? Justifier.

b) Dessiner ce diagramme.
Exercice 5
A chacune des questions suivantes cochez la ou les bonnes réponses.
a) Soit la série suivante : 2, 6, 5, 12, 11, 9. La Médiane a pour valeur :
2 7,5
9 12
b) Soit la série suivante : 2, 6, 5, 12, 11, 9. Le premier quartile Q1 a pour valeur :
2,25 5
6 4,25
c) Soit la série suivante : 2, 6, 5, 12, 11, 9. Le troisième quartile Q3 a pour valeur :
11,25 9
12 11
d) La représentation graphique d'un caractère qualitatif peut s'effectuer par :
un histogramme des nuages de points
un camenbert un diagramme en bâtons
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
e) Lorsque la distribution d’une caractéristique statistique est symétrique :
la valeur des coefficients de symétrie b1 et g1 est égale à 0
la valeurs des coefficients de symétrie b1 et g1 est égale à 1
la valeur de la moyenne est supérieure à celle de la médiane
la valeur de la moyenne est sensiblement égale à celle de la médiane
Exercice 6
Dans le but de comparer les rendements de maïs obtenus pour la campagne 2003-2004 dans
trois zones du pays (Sud, Centre, Nord), on extrait de l’annuaire statistique le tableau ci-
dessous relatif à la répartition des communes en pourcentage selon le rendement obtenu.
Rendement en
Nord Centre Sud
Kg/ha
=500 3,70 6,67 0,00
[500-1000[ 14,81 80,00 77,14
[1000-1500[ 51,85 13,33 17,14
[1500-2000[ 25,93 0,00 2,86
=2000 3,70 0,00 2,86
Total 100 100 100
Effectif 27 15 35
a) Décrire les disparités de rendements à l’aide du mode, de la médiane et de la moyenne.

b) Pour chaque zone considérée dans le tableau, calculer les quartiles Q1 et Q3 , puis
représenter le boxplot des rendements. Interpréter les résultats ainsi obtenus.
c) Pour chaque zone considérée dans le tableau, calculer la variance et le coefficient de
variation. Essayer d’approfondir les résultats obtenus au niveau des questions a et b.
Exercice 7
La figure ci-dessous donne la répartition des données de hauteur observées pour une espèce
d’arbre dans une forêt donnée. Le calcul des paramètres statistiques montre que la valeur de la
médiane est égale à 19,89 m.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Déterminer :
- la moyenne =……………………………………………………………………………
- le mode =………………………………………………………………………………..
- le coefficient de dissymétrie de Pearson =…………………………………………….
Exercice 8
Le tableau suivant indique la distribution du dosage d’un métabolite (en ’g par litre) parmi
une population de 300 sujets sains.
Classe effectif
0,65-0,85 22
0,85-0,95 42
0,95-1,05 63
1,05-1,15 75
1,15-1,25 54
1,25-1,35 30
1,35-1,55 14
a) Calculer : la moyenne, le mode, la médiane, la variance, l’écart-type, le coefficient de

variation et le coefficient de dissymétrie de Pearson ;
b) Commenter brièvement ces résultats ;
c) Si vous deviez représenter cette distribution à l’aide d’un histogramme, quelle devrait être
la hauteur du rectangle construit au-dessus de la classe 0,95 à 1,05 et quelle serait sa surface ?
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
CHAPITRE 3 : Statistique descriptive à deux dimensions
1. Introduction
La statistique descriptive à deux dimensions permet de mettre en évidence les relations qui
existent entre deux séries d’observations considérées simultanément. Ces observations
peuvent être de même nature ou de nature différente (quantitative, qualitative, continue ou
discontinue, ...).
Comme à une dimension, la description des données doit être envisagée sous trois aspects :
l’élaboration de tableaux statistiques, les représentations graphiques et le calcul de paramètres
statistiques.
2. Tableaux statistiques
2.1. Séries statistiques doubles
La manière la plus simple dont se présente les observations relatives à deux variables et n
individus est une série statistique double ou la suite de n couple de valeurs observées
( xi , yi ).
Exemple. Age et hauteur moyenne de 26 peuplements de teck.
Le premier exemple du chapitre précédent concerne en fait l’âge et la hauteur de 26

peuplements de teck. Les observations relatives aux deux variables sont reprises dans le
tableau ci-après.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Age 32 37 37 37 41 29 29 32 33 40 40 44 41
Hauteur 25,27 27,18 25,16 28,57 29,32 25,66 23,73 26,6 22 26,12 28,14 27,91 25,58
Age 37 17 46 46 40 44 9 11 7 10 7 12 12
Hauteur 24,24 18,07 28,51 32,27 26,35 32,35 14,87 16,53 14,61 15,94 13,03 15,96 14,51
2.2. Distribution de fréquences
Les distributions de fréquences sont des tableaux statistiques à double entrée dont une ligne
est réservée à chaque valeur observée d’une des deux variables x par exemple et une colonne
à la deuxième variable y . Les fréquences nij représentent, pour chaque cellule du tableau, le
nombre de couple d’observations ( xi , y j ), c’est-à-dire le nombre d’individus pour lesquels les
valeurs observées sont exactement xi et y j . L’ensemble des valeurs xi et y j d’une part, et
des fréquences nij d’autre part, constitue une distribution de fréquences à deux dimensions.
Lorsque le nombre de lignes et le nombre de colonnes du tableau sont trop grands, il est
possible également de condenser les observations en une distribution groupée, en réunissant
en classes les diverses valeurs observées de x et de y . En général, les intervalles de classes
sont choisis de telle sorte que le nombre de classes ne dépasse pas dix ou quinze pour chacune
des deux variables. Il est possible d’avoir des distributions de type mixte, dans lesquelles
seules les valeurs observées d’une des deux séries sont groupées en classes.
Représentation d’une distribution de fréquence à deux dimensions.
y
x Totaux
y1 y2 … yj … yq
x1 n11 n12 … n1 j … n1q n1.
x2 n 21 n 22 … n2 j € n 2q n 2.
€ € € € € € €
xi ni1 ni 2 … nij … niq ni.
€ € € € € € € €
xp n p1 n p2 … n pj … n pq n p.
Totaux n.1 n.2 … n. j … n.q n
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Les fréquences relatives nij' sont définies par :
nij' € nij / n
et lorsque les intervalles de classe ne sont pas constants, les fréquences unitaires sont
définies par :
nij'' € nij' /(ƒx i ƒy i )
ƒx i et ƒy j sont respectivement les intervalles de classes de x et de y .
Les fréquences cumulées sont obtenues en additionnant de proche en proche les fréquences
observées, absolues ou relatives comme pour les distributions à une dimension, on obtient
ainsi la fonction cumulative de fréquences.
Exemple. Age et hauteur de 26 peuplements de teck
Distribution de fréquences à deux dimensions.
10-15 15-20 20-25 25-30 30-35 Totaux

1-10 3 1 0 0 0 4
11-20 1 3 0 0 0 4
20-30 0 0 1 1 0 2
31-40 0 0 2 8 0 10
41-50 0 0 0 4 2 6
Totaux 4 4 3 13 2 26
Tableau des fréquences relatives
[10-15[ [15-20[ [20-25[ [25-30[ [30-35[ Totaux

[01-10[ 0,12 0,04 0,00 0,00 0,00 0,15
[10-20[ 0,04 0,12 0,00 0,00 0,00 0,15
[20-30[ 0,00 0,00 0,04 0,04 0,00 0,08
[31-40[ 0,00 0,00 0,08 0,31 0,00 0,38
[41-50[ 0,00 0,00 0,00 0,15 0,08 0,23
Totaux 0,15 0,15 0,12 0,50 0,08 1
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
2.3. Distributions marginales et distributions conditionnelles
Lorsqu’on calcule les totaux relatifs aux différentes lignes et aux différentes colonnes, on
obtient les fréquences marginales ou totales ni. et n. j , qui sont définies comme suit :
q p
ni. € „j €1
nij et n. j € „n
i €1
ij
Les distributions marginales ou totales sont obtenues en associant respectivement aux

différentes valeurs xi de x , et y j de y , les fréquences ni. et n. j .
Les fréquences relatives correspondantes ni'. et n.' j sont définies par les relations :
ni'. € ni. / n et n.' j € n. j / n
Lorsqu’on considère une ligne particulière du tableau à double entrée, on définit par
l’ensemble des valeurs y j et des fréquences correspondantes nij , une distribution à une
dimension, appelée distribution conditionnelle ou liée de y sous la condition x € xi .
Par analogie, on peut définir, pour les différentes colonnes autant de distributions
conditionnelles de x que de valeurs observées ou de clases de y .
Les fréquences relatives correspondantes, appelées fréquences conditionnelles ou liées, se

calculent comme suit :
n •ji € nij / ni. € nij' / ni'. et nij' € nij / n. j € nij' / n.' j
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Pour les données de l’exemple précédent, les fréquences marginales qui concernent les âges
sont reprises dans la dernière colonne du tableau et celles qui concernent les hauteurs, dans la
dernière ligne du même tableau.
En considérant ligne par ligne puis colonne par colonne, nous avons d’une part cinq
distributions conditionnelles de hauteurs des peuplements et d’autre part cinq distributions
conditionnelles d’âges des peuplements.
Distributions marginales des âges et des hauteurs de 26 peuplements de teck
Ages ni
[01-10[ 4
[10-20[ 4
[20-30[ 2
[31-40[ 10
[41-50[ 6
Hauteur Totaux
[10-15[ 4
[15-20[ 4
[20-25[ 3
[25-30[ 13
[30-35[ 2
Distribution conditionnelle des âges pour des hauteurs comprises entre 25 et 30 m
Ages ni
[01-10[ 0
[10-20[ 0
[20-30[ 1
[31-40[ 8
[41-50[ 4
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
3. Représentations graphiques
3.1. Diagrammes de dispersion ou nuages de points
Les diagrammes de dispersion sont une représentation graphique des points. Ceux-ci sont
obtenus en représentant chaque couple d’observations ( xi , y j ) par un point dans le plan ( x, y) .
Figure. Diagramme de dispersion de la hauteur des peuplements en fonction de leur âge.
3.2. Représentation des distributions de fréquences
Les diagrammes en bâtons sont surtout la forme de représentation des distributions non
groupées. Ils sont établis en traçant perpendiculairement au plan ( x, y) , et en chaque point
( x i , y j ) , un segment de longueur égale à nij ou nij' .
Les stéréogrammes sont la forme de représentation des distributions groupées. Ils sont
composés de parallélépipèdes rectangles ou de prismes carrés, juxtaposés dont les bases
correspondent chacune à une cellule du tableau à double entrée et dont les hauteurs sont
égales ou proportionnelles aux fréquences absolues ou relatives. Si on considère comme
hauteurs les fréquences unitaires, le volume total des parallélépipèdes rectangles est égal à
l’unité, et le stéréogramme est dit normé.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
4. Paramètres statistiques
Deux types de paramètres sont utilisés pour caractériser les séries statistiques à double entrée
et les distributions de fréquences.
Les uns servent à caractériser individuellement les diverses distributions marginales et
conditionnelles. Les autres servent à décrire les relations existant entre les deux séries
d’observations considérées simultanément. Nous mentionnerons essentiellement dans ce
chapitre la première catégorie de paramètres. La deuxième catégorie sera abordée au cours
des chapitres qui vont suivre.
Pour caractériser les distributions marginales et les distributions conditionnelles, on utilise les
paramètres habituels de la statistique descriptive à une dimension.
Les moyennes marginales x et y
1 n 1 p 1 n 1 q
x€ „ i
n i €1
x ou x € „ i. i
n i €1
( n x ) et y € „ i
n i €1
y ou y € „ ( n. j y j )
n j €1
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Les variances marginales s x2 et s 2y
1 n 1 p
s x2 € „ i ( x ‚ x )² ou s 2
x € „ ni. ( xi ‚ x )²
n i €1 n i €1
et
1 n 1 q
s y2 € „ ( y i ‚ y )² ou s 2y € „ n. j ( y i ‚ y )²
n i €1 n j €1
Les moyennes conditionnelles x j et yi (ou x y et y x )
p q
1 1
xj €
n. j
„
i €1
(nij xi ) et y i €
ni.
„ (n
j €1
ij yj)
Les variances conditionnelles s x•2j et s y2•i (ou s x•2y et s 2y•x )
1 p 1 q
s x•2j € „ [nij ( x i ‚ x j )²] et s 2y•i € „ [n ij ( y j ‚ y i )²]
n. j i €1 ni . j €1
Les moyennes marginales x et y
1 n 1 n
x€ „ xi = 29,62 et
n i €1
y€ „ y i = 23,40
n i €1
Les variances marginales s x2 et s 2y
1 n
s x2 € „ ( xi ‚ x )² = 189,3376
n i €1
et
1 n
s y2 € „ ( y i ‚ y )² = 34,9281
n i €1
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Moyenne conditionnelle des âges pour des hauteurs comprises entre 25 et 30 m
p
1
xj €
n. j
„ (n
i €1
ij xi ) = 37,31
Variances conditionnelle des âges pour des hauteurs comprises entre 25 et 30 m
1 p
s x2•j € „ [nij ( xi ‚ x j )²] = 33,14
n. j i €1
5. Liaison entre deux variables
L’étude simultanée des deux séries d’observations fait intervenir diverses notions qui seront
abordées de manière plus approfondie dans d’autres chapitres. L’objectif général de ces
méthodes est de mettre en évidence une éventuelle variation simultanée des deux variables,
que nous appelons liaison.
5.1. Deux variables quantitatives
Le nuage de points défini au point 3.1 est un graphique très commode pour représenter les
observations simultanées de deux variables quantitatives. L’ensemble des points de cette
représentation donne en général une idée assez bonne de la variation conjointe des deux
variables.
Le coefficient de corrélation linéaire est un indice rendant compte numériquement de la

manière dont les deux variables considérées varient simultanément. Il est défini à partir de la
covariance qui généralise à deux variables la notion de variance :
1 n 1 p q
cov( x, y ) € „ i
n i €1
[( x ‚ x )( y i ‚ y ) ] ou cov( x , y ) € „ „ [nij ( xi ‚ x )( y j ‚ y )] .
n i €1 j €1
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
La covariance est une forme bilinéaire symétrique qui peut prendre toute valeur réelle et dont
la variance est la forme quadratique associée. Elle dépend des unités de mesure dans
lesquelles sont exprimées les variables considérées ; en ce sens, ce n’est pas un indice de
liaison “intrinsèque”. C’est la raison pour laquelle on définit le coefficient de corrélation
linéaire (parfois appelé coefficient de Pearson ou de Bravais-Pearson), rapport entre la
covariance et le produit des écarts-types :
cov( x, y )
corr ( x, y ) € r €
sx sy
Le coefficient de corrélation est égal à la covariance des variables centrées et réduites

x‚x y‚ y
respectivement associées à x et y : corr ( x, y ) € cov( , ) . Par conséquent,
sx sy
corr ( x, y ) est indépendant des unités de mesure de x et de y .
Le coefficient de corrélation est symétrique et prend ses valeurs entre -1 et +1.
Notons pour mémoire la possibilité d’utiliser d’autres indicateurs de liaison entre variables
quantitatives. Construits sur les rangs (corrélation de Spearman) ils sont plus robustes faces
à des situations de non linéarité ou des valeurs atypiques mais restent très réducteurs.
Pour avoir une première idée de la manière dont varie en moyenne la variable y , dite
variable dépendante en fonction de la variable x , dite variable indépendante ou
explicative, on représente sur un diagramme les points moyens conditionnels ( xi , yi ). Cette
représentation est appelée diagramme de régression de y en fonction de x .
Quand le diagramme de dispersion et éventuellement le diagramme de régression ont une

forme généralement linéaire ou approximativement linéaire, on peut tenter de préciser la
relation qui lie la variable y toujours considérée comme variable dépendante, à la variable x ,
considérée comme variable indépendante , par la recherche de l’équation d’une droite qui
s’ajuste au mieux aux valeurs observées. Cette droite dite droite de régression ou droite de
régression de y en x est généralement déterminée par la méthode des moindres carrés, c’est-
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
à-dire de manière à rendre minimum la somme des carrés des écarts entre les points observés
et les points correspondants de la droite.
Si l’équation de la droite est : y € a • bx
La somme des carrés des écarts à minimiser est, en fonction des observations ( xi , yi ) :
n n
„ “y ” “ ”
2 2
i ‚ y ( x i ) € „ y i ‚ a ‚ bx i
i €1 i €1
Les valeurs xi et yi étant connues, la somme ne dépend uniquement des paramètres a et b .

Le minimum peut être obtenu en annulant les dérivées partielles de cette somme par rapport à
a
et par rapport à b . On obtient les équations appelées équations normales. La solution
du système d’équations ainsi constitué est :
a € y ‚ bx
cov( x, y )
b€
s x2
On appelle résidus de y en fonction de x les écarts : y i ‚ y ( x i ) € y i ‚ a ‚ bx i
L’examen des résidus peut donner des indications utiles au sujet de la manière dont la droite
de régression s’ajuste à l’ensemble des points observés, et aussi quant à l’existence éventuelle
de valeurs tout à fait exceptionnelles ou anormales.
La variance résiduelle de y est la variance des résidus de la régression de y en x :
1 p q
s 2y . x €
1 n
“
„ y i ‚ y( xi )
n i €1
”2
ou „„
n i €1 j €1
• “
nij y i ‚ y ( x i )
2
”–
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
5.2. Une variable quantitative et une qualitative
Soit x la variable qualitative considérée, supposée à p modalités et soit y la variable

quantitative. Chaque modalité de x définit un sous-échantillon de l’échantillon de départ :
c’est l’ensemble des individus, sur lesquels on a observé une modalité donnée de x ; on
obtient ainsi une partition de y en p classes. La restriction à chacune de ces modalités
permet de définir les moyennes conditionnelles et les variances conditionnelles présentées au
point 4.
Une façon commode de représenter les données dans le cas de l’étude simultanée d’une
variable quantitative et d’une variable qualitative consiste à réaliser des boxplots parallèles ; il
s’agit, sur un même graphique doté d’une échelle unique, de représenter pour y un boxplot
pour chacune des sous-échantillons définis par x . La comparaison de ces boxplots donne une
idée assez claire de l’influence de x sur les valeurs de y , c’est-à-dire de la liaison entre les
deux variables.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Dans le cas d’une variable quantitative x associée à une variable binaire y pouvant prendre
les valeurs 0 et 1 par exemple le coefficient de corrélation devient :
n.1n.2 ( x 2 ‚ x1 )
corr ( x, y ) € r €
ns x
n.1 et n.2 sont les fréquences marginales correspondant au valeur de y € 0 et y € 1 , x 2 et x1
sont les moyennes conditionnelles de x respectivement pour y € 0 et y € 1 . Ce coefficient est

appelé coefficient de corrélation bisséral de point.
On peut également chercher à modéliser la probabilité d’obtenir une modalité donnée, en

utilisant la régression logistique. Cette méthode ne sera pas développée dans ce chapitre.
5.3. Deux variables qualitatives
On considère deux variables qualitatives observées simultanément sur n individus. On

suppose que la première, notée x , possède p modalités et que la seconde, notée y , possède q
modalités. Ces données sont présentées dans le tableau de distribution de fréquences à double
entrée présenté au point 2.2, appelé table de contingence.
Il est courant en statistique de comparer une table de contingence observée, d’effectif conjoint
générique nij , à une table de contingence donnée a priori et appelée standard, d’effectif
conjoint générique mij , en calculant la quantité :

p q
(nij ‚ mij )²
„„
i €1 j €1 mij
De façon naturelle, pour mesurer la liaison sur une table de contingence, on utilise un la
statistique appelée khi-deux et défini comme suit :
ni. n. j
p q (nij ‚ )²
n
€² € „„
i €1 j €1 ni. n. j
n
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Ceci revient à réaliser un test d’indépendance € ² entre les deux variables. Le coefficient € ²
est toujours positif ou nul et il est d’autant plus grand que la liaison entre les deux variables
considérées est forte. Malheureusement, il dépend aussi des dimensions p et q de la table
étudiée, ainsi que de la taille n de l’échantillon observé. Il est existe des tables pour accepter
ou pour rejeter le test d’indépendance entre les deux variables. Ces aspects seront aborder en
profondeur ultérieurement.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Exercice
Exercice 1
Soit une série statistique double. On multiplie par 10 les valeurs de la caractéristiques x et par
100 les valeurs de la caractéristique y. Les moyennes conditionnelles de y sous la condition x:
sont inchangées
sont multipliées par 10
sont divisées par 10
sont divisées par 100
Exercice 2
On considère deux variables x et y définies sur la même population. Répondre aux 4

questions théoriques en justifiant votre réponse.
a) Le point donné par les deux moyennes ( x ; y ) ) appartient-il à la droite de

régression
b) Peut-on avoir r( x ; y ) = 1,25 ?
c) Peut-on avoir Cov( x ; y ) = -125 ?
d) Si r( x ; y ) = 0, quelle conclusion pouvez vous en tirer ?
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Exercice 3
Chacune des 4 équations (E1, E2, E3 et E4) des moindres carrés suivantes ainsi que chacun
des 4 coefficients de corrélation (r1, r2, r3 et r4) suivants correspond à un des 4 diagrammes
(A, B, C et D) ci-dessus. En répondant directement sur l’épreuve, associer l’équation et le
coefficient de corrélation avec le bon diagramme.
Equations Diagrammes
E1 : y = 0,32x + 7,43 ……………………………………………….
E2 : y = -0,2369x + 8,6169 ……………………………………………….
E3 : y = -0,4787x + 11,516 ……………………………………………….
E4 : y = 0,2791x + 4,1209 ……………………………………………….
Coefficients de corrélation Diagrammes

r1= -0,45 ……………………………………………….
r2= -0,97 ……………………………………………….
r3= 0,34 ……………………………………………….
r4= 0,66 ……………………………………………….
A B
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
C D
Exercice 4
Le tableau ci-dessous donne le pourcentage de travailleurs d’une société âgés de 15 ans et

plus très satisfaits de leur emploi, en fonction de l’âge de ces travailleurs.
Age 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5
% des
très 45 48 52 50 56 60 66 64 69 71
satisfaits
a) Tracez le nuage des points.

b) Déterminez l’équation de la droite de la régression, tracez-la sur le graphique
précédent et interprétez le coefficient de régression.
c) Calculez le coefficient de corrélation et interprétez.
d) A combien estimez-vous le pourcentage moyen de ceux qui sont très satisfaits de leur
emploi, chez les individus âgés de 45 ans ?
Exercice 5
Pour réaliser une étude sur l’impact d’une publicité on observe une population de 5 individus.
A chaque individu on présente l’affiche publicitaire en question et on lui demande de lui
attribuer une note de 0 à 10. Parallèlement et à l’insu de cet individu, on mesure le temps (en
secondes) qu’il a passé à regarder cette affiche. Ainsi à chaque individu i on associe un couple
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
d’observations (xi, yi) où xi désigne la note attribuée par cet individu à l’affiche et yi le temps
qu’il a mis à la regarder.
On note X la variable note et Y la variable temps. On obtient les 5 couples d’observations
suivants :
xi 5 6 7 8 9
ln(xi) 1,61 1,79 1,95 2,08 2,20
yi 20 25 40 45 50
On donne :
5 5 5 5 5
„ xi € 25
i €1
„ ln( xi) € 9,62
i €1
„ yi € 180
i €1
„ xi² € 255
i €1
„ [ln( xi)]² € 18,74
i €1
5 5 5
„ yi ² € 7150
i €1
„ xiyi € 1340
i €1
„ [ln( xi)] yi € 358,26
i €1
Ajuster le modèle logarithmique (y = a + b ln x) à ces données. Apprécier la qualité de

l’ajustement.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Statistque Descriptive

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistque Descriptive

Transféré par

Droits d'auteur :

Formats disponibles

REPUBLIQUE DU BENIN

Licence professionnelle Conseil aux Exploitations Agricoles et aux OPs

- 1er chapitre : Généralités;

- 2ème chapitre : Statistique descriptive à une dimension;

- 3ème chapitre : Statistique descriptive à deux dimensions..

À la fin de ce cours, l’étudiant sera en mesure de :

€ Résumer des données sous forme de tableaux, de graphiques et de paramètres ;

Travail à faire : Préparation du cours (durée : 16 heure).

1- Lecture approfondie de chaque chapitre du cours (durée : 12 heures)

2- En dehors des questions de compréhension à poser lors des regroupements, chaque

Bibliographie et Matériels pédagogiques

- Monographie produite par le chargé du cours ;

€ Sur le contenu et la structure du cours.

€ Sur les activités d’apprentissage, les travaux, les évaluations.

€ Sur la durée du cours et les efforts à y consacrer.

2.1. Population, échantillon et unité statistique

Exemple. : Étude sur les revenus des ménages du département de l’Atacora-Donga

2.1.3. Unités statistiques

Exemple. : Étude sur les revenus des ménages du département de l’Atacora-Donga

Chaque ménage constitue une unité statistique

Les trois définitions données peuvent être schématisées de la manière suivante :

Relation : UN, QUELQUES-UN et TOUS

2.2. Méthodes d’échantillonnage

Lorsque toutes les unités de la population considérée sont observées individuellement,

Lorsqu’on veut s’intéresser à une partie de la population, deux catégories de techniques

2.2.2. Méthodes aléatoires

Une méthode d’échantillonnage est aléatoire ou probabiliste si les éléments de l’échantillon

- Échantillonnage par grappes

- Échantillonnage par quotas

- Échantillonnage à l’aveuglette ou accidentel

3. Nature des données

Lorsqu’il y a un ordre de grandeur d’appréciation au niveau des observations, par exemple,

Exemples de caractères qualitatifs.

La couleur de la carrosserie d'un véhicule automobile

Les données quantitatives discrètes ou discontinues concernent les dénombrements, les

Exemples de caractères quantitatifs.

La puissance fiscale d'un véhicule automobile.

a) Quelle est l’unité

a) Numéro de la carte d’électeur : …………………………….....…………………………………

En vue d'établir rationnellement le nombre de postes de travail nécessaires pour assurer à sa

Nombre d’appels téléphoniques par Nombre de

a) Quelle est la population étudiée ?

a) donnez la nature de chacune de ces variables ;

Quelle est la variable étudiée ? Quelles sont ses modalités ?

a) appartenance ethnique d’un étudiant des Universités du Bénin

Q3 : Indiquer ci-après le nombre d’années d’expérience que vous avez en RH :

Q4. Donnez votre appréciation du nouveau logiciel de gestion des carrières:

Identifiez, la nature de chaque type de variables et justifier la réponse.

2.1. Séries statistiques

Une telle énumération est appelée série statistique.

La valeur n désigne le nombre total d’observations encore appelé effectif.

Exemple. Ages de 26 peuplements de teck.

2.2. Distributions non groupées

Le nombre d’occurrence ou d’apparition d’une même valeur est sa fréquence absolue ou

La distribution de fréquences est formée des différentes valeurs observées x1 , x2 , …, xi , …,

xn rangées par ordre croissant et des fréquences correspondantes n1 , n2 , …, ni , …, nn .

On peut également exprimer les fréquences en valeurs relatives ou en pourcentages du

ni' € ni / n ou ni' € 100ni / n

Lorsqu’on additionne de proche en proche les fréquences observées on parle de distribution

Distribution de fréquences des âges des peuplements de teck.

Fréquences Fréquences Fréquences

Coton -Karité-Néré 129 23,33 129 23,33

Maïs- Karité-Néré 214 38,70 343 62,03