Académique Documents
Professionnel Documents
Culture Documents
UNIVERSITE DE PARAKOU
FACULTE D’AGRONOMIE
DEPARTEMENT D’AMENAGEMENT ET GESTION DES RESSOURCES NATURELLES
MONOGRAPHIE DE STATISTIQUE
DESCRIPTIVE
Préparé par
Dr. Ir. Arcadius Y. J. AKOSSOU
2011
© Aux termes de la loi béninoise, sur le droit d’auteur, seul l’auteur a le droit de reproduire cet ouvrage ou d’en autoriser la reproduction de
quelque manière et sous quelque forme que ce soit. Toute photocopie ou reproduction sous une autre forme est donc faite en violation de la
loi.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Table des matières
Table des matières ..................................................................................................................3
Au sujet de la monographie ....................................................................................................4
Chapitre 1 : Généralités ..........................................................................................................7
1. Introduction.....................................................................................................................7
2. Echantillonnage statistique ..............................................................................................7
2.1. Population, échantillon et unité statistique .................................................................7
2.2. Méthodes d’échantillonnage ......................................................................................9
3. Nature des données........................................................................................................14
Exercices ..............................................................................................................................16
CHAPITRE 2 : Statistique descriptive à une dimension........................................................22
1. Introduction...................................................................................................................22
2. Tableaux statistiques .....................................................................................................22
2.1. Séries statistiques ....................................................................................................22
2.2. Distributions non groupées ......................................................................................23
2.3. Distributions groupées.............................................................................................25
3. Représentation graphique ..............................................................................................28
3.1. Diagramme de fréquences non cumulées .................................................................28
3.2. Diagramme de fréquences cumulées ........................................................................36
4. Indicateurs numériques..................................................................................................37
4.1. Indicateur de position ..............................................................................................37
4.2. Indicateurs de dispersion .........................................................................................42
4.3. Indicateurs de forme ................................................................................................46
Exercices ..............................................................................................................................49
CHAPITRE 3 : Statistique descriptive à deux dimensions ....................................................54
1. Introduction...................................................................................................................54
2. Tableaux statistiques .....................................................................................................54
2.1. Séries statistiques doubles .......................................................................................54
2.2. Distribution de fréquences .......................................................................................55
2.3. Distributions marginales et distributions conditionnelles .........................................57
3. Représentations graphiques ...........................................................................................59
3.1. Diagrammes de dispersion ou nuages de points .......................................................59
3.2. Représentation des distributions de fréquences ........................................................59
4. Paramètres statistiques...................................................................................................60
5. Liaison entre deux variables ..........................................................................................62
5.1. Deux variables quantitatives ....................................................................................62
5.2. Une variable quantitative et une qualitative .............................................................65
5.3. Deux variables qualitatives......................................................................................66
Exercice ...............................................................................................................................68
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Au sujet de la monographie
Intitulé de UE : Statistique
Dénomination de l’ECU : Statistique descriptive
Durée : 20 heures
Titulaire : Arcadius AKOSSOU
Langue : Langue française
Contacts : Arcadius Akossou, (Assistant)
Enseignement et recherche
00(229) 97 72 58 83
Sakos90@hotmail.com
Introduction
Le cours de statistique descriptive est destiné aux étudiants de la première année de licence
d’agronomie. Il vise comme objectif général de familiariser les étudiants à l’utilisation des
outils mathématiques de description dans la résolution des problèmes pratiques d’analyse et de
prise de décision. On distingue en général trois grands chapitres :
Objectifs
€ Maitriser les notions de base relatives à la collecte et au traitement des données statistiques ;
€ Faire des interprétations des phénomènes étudiés en s’appuyant sur les indicateurs obtenus
lors du traitement des données statistiques.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Devoir
Le présent cours comporte trois grands chapitres comme nous l’avions indiqué dans
l’introduction. Le contenu de chaque partie du cours est annexé au document.
Chapitre 1 : 2 heures
Chapitre 2 : 4 heures
Chapitre 3 : 4 heures
Les apprenants doivent faire recours à leurs connaissances antérieures en
mathématique. Il est souhaitable de reprendre les exemples donnés dans le cours.
3- L’apprenant doit traiter les exercices. Les corrections des exercices seront fournies lors
du regroupement (durée : 6 heures).
Mode d’évaluation
A la fin du cours, pendant la période de regroupement, une évaluation sommative écrite d’une
heure (01 heure) sera organisée.
L’ECU sera validé si et seulement si l’apprenant obtient une note supérieure ou égale à 8 sur
20 (note = 08/20) pour toute l’épreuve.
Méthodes pédagogique
- Lecture individuelle par les apprenants. Quelques semaines avant le regroupement, les
monographies seront adressées à chaque apprenant qui se chargera de faire une lecture
approfondie du contenu et de formuler dix (10) questions pertinentes.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
- Pendant le regroupement : Brève exposé présenté par le chargé du cours, réponse aux
questions des apprenants, échanges puis synthèse.
(Durée de cette phase : 03 heures)
Vos commentaires
Lorsque vous aurez achevé ce cours, nous vous serions très reconnaissants de prendre
quelques instants pour nous en transmettre vos commentaires, par exemple :
Vos commentaires, vos idées et vos suggestions seront très appréciés et nous aideront
sûrement à améliorer le cours.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Chapitre 1 : Généralités
1. Introduction
La statistique est une méthode scientifique qui consiste à réunir des données chiffrées sur des
ensembles nombreux, puis à analyser, à commenter et à critiquer ces données. Il ne faut pas
confondre la statistique qui est la science qui vient d’être définie et une statistique qui est un
ensemble de données chiffrées sur un sujet précis.
Toute étude statistique peut être décomposée en deux principales phases : la collecte des
données et leur analyse ou leur interprétation.
La collecte des données peut se faire soit en milieu réel c’est-à-dire par la simple observation
des phénomènes auxquels on s’intéresse, tels qu’ils se produisent naturellement, soit en milieu
contrôlé, c’est-à-dire par expérimentation, en provoquant leur apparition.
L’analyse statistique quant à elle peut être décomposée en deux étapes, l’une déductive ou
descriptive, l’autre inductive.
2. Echantillonnage statistique
2.1.1. Population
Une étude statistique porte sur une population. La population est l’ensemble de tous les
éléments (individus, animaux, plantes, objets, faits) dont on aimerait obtenir une information.
Pour bien identifier la population d’une étude il faut se poser la question : « A quel ensemble
pourrais-je étendre les résultats de mon étude »
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exemple. : Étude sur les revenus des ménages du département de l’Atacora-Donga
Lors d’une étude sur les revenus des ménages dans le département de l’Atacora-Donga, la
consultation de la base de données relatif au recensement général de la population révèle que
le nombre total de ménages dans l’Atacora-Donga = 130 000.
La population de l’étude est constituée des 130 000 ménages du département l’Atacora-
Donga.
2.1. 2. Echantillon
Lorsqu’on veut réduire l’importance du travail de la collecte des données, une partie
seulement des individus ou des éléments de la population sont réellement observés. La partie
de la population qui est réellement observée constitue l’échantillon et le nombre d’éléments
qui la compose correspond à la taille d’un échantillon. Pour que les résultats observés lors
d’une étude soient généralisables à la population statistique, l’échantillon doit être
représentatif de cette dernière, c’est-à-dire qu’il doit refléter fidèlement sa composition et sa
complexité.
Compte tenu du coût et du temps trop long pour réaliser l’étude sur tous les ménages, les
enquêteurs ont décidé de prendre les informations dans 390 ménages.
Tous les ménages n’ont pas été interrogés. Les enquêteurs ont pris 390 ménages. Ces 390
ménages constituent l’échantillon (caractéristique = représentativité) et la taille de
l’échantillon est 390.
Chaque élément de la population ou élément à partir duquel l’information est obtenue est
appelé unités de base ou unités statistiques. Ces unités peuvent être aussi bien des personnes
humaines que des animaux, des plantes, des groupes de personnes (familles, ménages, etc.),
des groupes d’animaux, des groupes de plantes, ou des éléments de toute autre nature
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
(entreprises industrielles ou commerciales, exploitations agricoles, machines d’un type donné,
etc.).
Population
Échantillon
Unités
statistiques
2.2.1. Définition
Exemple.
En 1936, la revue Literary Digest a fait parvenir 12 000 000 questionnaires à des américains.
Elle en a reçu 2 500 000. A l’aide de cet échantillon, elle prédit une victoire de Alf Landon,
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
candidat républicain aux élections présidentielles. Et pourtant, c’est Franklin Roosevelt qui a
été élu.
D’un autre côté, George Gallup, avec un échantillon de 2000 personnes a pour sa part prédit
la victoire de Roosvelt. Son échantillon était 1000 fois plus petit.
Une analyse des prédictions a montré que la revue Literary Digest avait sélectionné ses
éléments à partir des propriétaires d’automobiles. Or en 1936, seulement ceux qui étaient
financièrement à l’aise possédaient une automobile ou le téléphone. Cet échantillon n’était
donc pas représentatif de la population américaine en 1936. En conclusion, nous dirons que la
quantité ne compense jamais le manque de représentativité ?
Au cours d’une enquête, les questions fondamentales qu’il faut se poser sont : Comment dois-
je choisir les éléments de mon échantillon? Et Est-ce que mon échantillon va me donner des
résultats fiables?
Pour répondre à ces questions plusieurs démarches sont adoptées.
En statistique, l’ensemble des opérations qui ont pour but de collecter de manière organisée
des informations relatives à un groupe d’individus ou d’éléments observés dans leur milieu ou
dans leur cadre habituel est appelé enquête ou inventaire.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
- Échantillonnage aléatoire simple
C’est la méthode la plus simple. A partir d’une liste complète, on attribue un numéro à chacun
des éléments de la population, et on tire au hasard des numéros jusqu’à ce qu’on atteigne le
nombre désiré d’éléments devant constituer l’échantillon. Différentes techniques sont utilisées
pour choisir les numéros: Tables des nombres aléatoires, des billets numérotés tirés d’un
chapeau, etc.
Exemple.
On dispose de la liste des ménages. Les ménages sont numérotés de 1 à 130 000. Ensuite à
l’aide d’un programme informatisé générant les nombres aléatoires, on choisit les numéros
des 390 ménages devant figurés dans l’échantillon.
- Échantillonnage systématique
Il s’agit de créer un système pour choisir les éléments de l’échantillon. Le système tient
compte du nombre d’éléments dans la population et du nombre d’éléments désirés dans
l’échantillon pour calculer ce qu’on appelle le « pas » de sondage :
Pas = (taille de la population) / (taille de l’échantillon)
Ensuite on choisit au hasard le numéro du premier élément entre 1 et le numéro égal au « pas
», et cela à partir de la liste complète et numéroté de la population. Pour le choix des autres
éléments, on ne fait qu’ajouter la valeur du « pas » au numéro précédent, jusqu’à ce qu’on
atteigne le nombre désiré d’éléments dans l’échantillon.
Exemple.
On dispose de la liste des ménages. Les ménages sont numérotés de 1 à 130 000.
Pas = 130000/390 = 333
On choisit au hasard un numéro allant de 1 à 333. Supposons que le hasard fasse que ce soit le
ménage ayant le numéro 108 qui soit choisi, les autres ménages sélectionnés auront donc les
numéros 441; 774; 1107; …; 129667.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
- Échantillonnage stratifié
Il se peut qu’une population ne soit pas homogène. Elle peut être composée de strates ou sous-
groupes homogènes. Un échantillonnage stratifié consiste à prendre au hasard, peu importe la
technique, des éléments de chaque strate, en attribuant aux strates les mêmes proportions dans
l’échantillon que dans la population.
Cette méthode est utilisée lorsqu’il est possible de croire que les résultats obtenus peuvent
varier d’une strate à l’autre.
Exemple.
Supposons que parmi les 130 000 ménages 10% cultivent du riz, 15% de l’anacarde, 50% du
« CmiA », 10% du karité et 15% autres cultures. On choisira les 390 ménages en respectant
les pourcentages de chacune des spéculations. Ainsi, on prendra au hasard:
10% des 390 ménages, soit environ 39 ménages parmi ceux qui pratiquent le riz
15% des 390 ménages, soit environ 59 ménages parmi ceux qui pratiquent de l’anacarde
50% des 390 ménages, soit environ 195 ménages parmi ceux qui pratiquent le coton
10% des 390 ménages, soit environ 39 ménages parmi ceux qui pratiquent le karité
15% des 390 ménages, soit environ 59 ménages parmi ceux qui pratiquent autres cultures
Il arrive qu’une population soit constituée de plusieurs groupes similaires. Ainsi, au lieu de
choisir les éléments individuellement, on choisit des grappes ou amas d’éléments. On gagne
ainsi en temps et en argent.
Cette méthode est utilisée lorsqu’il est plausible de croire que les résultats sont très variés à
l’intérieur de chaque grappe, mais similaire d’une grappe à l’autre.
Exemple.
Supposons qu’on décide de regrouper les 130 000 ménages et d’en faire 13000 groupes de 10
ménages homogènes. Ainsi, constituer un échantillon de 390 ménages revient à choisir au
hasard 39 groupes des 13000 groupes de ménages homogènes.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
2.2.3. Méthodes non aléatoires
Une méthode d’échantillonnage est non aléatoire si les éléments de l’échantillon ne sont pas
pris au hasard. C’est une méthode qui n’offre pas à tous les éléments de la population une
chance égale ou prédéterminée d’être sélectionnés.
La probabilité de sélection d’un élément est donc inconnue. Il devient impossible de calculer
la précision des résultats ainsi obtenus et d’utiliser les résultats pour extrapoler sur l’ensemble
de la population.
Cette impossibilité réside essentiellement dans le fait que les éléments choisis peuvent ne pas
être représentatifs de la population.
C’est une méthode qui ressemble à l’échantillonnage stratifié, sauf que pour atteindre son
objectif, l’enquêteur peut demander à n’importe qui de faire partir de son échantillon, pourvu
qu’il soit dans la strate qui lui manque du monde. C’est l’enquêteur qui choisi et non le
hasard. Ainsi le problème de non répondant ne se pose pas.
Exemple :
On choisira :
10% des 390 ménages, soit environ 39 ménages parmi ceux qui pratiquent le riz
15% des 390 ménages, soit environ 59 ménages parmi ceux qui pratiquent de l’anacarde
50% des 390 ménages, soit environ 195 ménages parmi ceux qui pratiquent le coton
10% des 390 ménages, soit environ 39 ménages parmi ceux qui pratiquent le karité
15% des 390 ménages, soit environ 59 ménages parmi ceux qui pratiquent autres cultures
Advenant qu’un ménage refuse de répondre, il sera automatiquement remplacé par un autre
pratiquant la même spéculation. Chaque ménage est choisi par l’enquêteur et ce choix n’est
pas au hasard
Dans cette méthode, les éléments qui sont choisis pour faire partie de l’échantillon sont ceux
qui sont présents au moment opportun.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exemple.
On décide de choisir ceux qui seront présents dans leur ménage lors du passage de
l’enquêteur.
- Échantillonnage de volontaire
Se retrouve souvent dans les sondages de radio ou de télévision et dans les expériences en
psychologie et en médecine.
Exemple.
On décide de recevoir les ménages désireux de participer à l’enquête à la suite d’un appel à
tous les ménages.
- Échantillonnage au jugé
Cette méthode consiste à choisir les éléments de l’échantillon parmi ceux que l’on croit des
représentants typiques de la population. Ce jugement peut se faire par expérience, soit par
analyse critique de la situation.
Exemple.
On décide de choisir les chefs de ménage en espérant qu’ils pourront donner des informations
sur tous les autres membres du ménage.
En fonction de l’objectif de l’étude, les observations à réaliser au cours d’une enquête doivent
être parfaitement définies.
Les données qualitatives concernent les caractères ou attributs que les éléments étudiés
peuvent posséder ou ne pas posséder.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Lorsque les données qualitatives présentent deux niveaux tels que présence ou absence d’une
maladie, la variable qualitative (données qualitatives) est dite binaire ou alternatives ou
indicatrices.
Lorsque les variantes ou modalités du caractère ne peuvent pas être ordonnées par exemple,
les professions, dans un recensement de population ou les types d’exploitation dans un
recensement agricole, de telles données sont dites nominales.
Les données quantitatives concernent les observations numériques. Elles sont de deux
ordres.
Les mesures ou mensurations (mesurées par une unité de grandeur) comme les données de
hauteurs ou de poids sont des données caractérisant une donnée quantitative continue.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exercices
Exercice 1
Votre boucher vous a vendu 10 paquets de viande. Il vous a affirmé qu’il préparait toujours
des paquets de 2 kg. Vous avez vérifié ses dires en pesant vous-même les 10 paquets que vous
avez achetés.
Exercice 2
Un responsable en stratégie politique a commandé une enquête en vue d’avoir une idée sur les
tendances des élections présidentielles auprès des étudiants. Pour ce faire, un sondage fut
mené un mardi après midi auprès des 500 étudiants présents dans les Salles de cours de
l’Université.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
a) quelle est la population ………………………………………………………………
visée ? ……………
b) quel est l’échantillon ? ………………………………………………………………
……………
c) quelle est l’unité statistique ? ………………………………………………………………
……………
d) quelle est la méthode d’échantillonnage …………………………………………
utilisée ? ……….…………………………………
………………..
Exercice 3
Lors des élections, on retrouve couramment sur les cartes d’électeur les informations reprises
ci-dessous. Donnez la nature de chacune de ces variables.
Exercice 4
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
nombre d'appels téléphoniques reçus au cours d'une période de 30 jours. Cette opération a
fourni, pour la tranche horaire de pointe qui se situe entre onze heures et midi, les résultats
suivants :
Exercice 5
Une banque vient d’entreprendre une étude visant à mieux connaître la situation et le
comportement bancaire de sa clientèle. Elle souhaite notamment définir des types homogènes
de clients afin de pouvoir élaborer des politiques différenciées pour chacun d’eux. Pour cela,
la banque a constitué un échantillon de cinquante titulaires d’un compte courant appartenant à
des ménages distincts. Pour décrire chacun d’eux, elle retient les quinze variables suivantes:
SOLD : solde moyen du compte courant;
CHEQ : montant moyen des chèques tirés pendant le dernier semestre ;
NDEC : nombre de mois avec découvert au cours de l’année précédente;
MDEC : montant cumulé du découvert de l’année précédente;
NBPR : nombre de produits de la banque utilisés en plus du compte courant;
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
NEMP : nombre d’emprunts effectués lors des cinq dernières années;
MEMP : montant total des emprunts lors des cinq dernières années;
VADD : pourcentage de variation des dépôts sur les comptes d’épargne (pour les 12 derniers
mois);
DEPO : montant total des dépôts sur les comptes d’épargne effectués lors de l’année
précédente;
RETR : montant total des retraits sur les comptes d’épargne effectués lors de l’année
précédente;
VARR : pourcentage de variation des retraits sur les comptes d’épargne (pour les 12 derniers
mois);
TAIL : taille du ménage du titulaire du compte courant;
AGEC : âge du client titulaire du compte courant ;
SITMA : situation maritale ;
CATSP : catégorie socio-professionnelle.
Exercice 6
Au cours d'une enquête de marketing, on étudie le statut marital des acheteurs d'une voiture.
On obtient la série suivante : où C=Célibataire, M=Mariée D=Divorcé et V=veuf.
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
xi C M D V V M D M M C D M D M C
Exercice 7
Pour chaque variable statistique implicite dans les exemples ci-dessous, donner sa nature.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
b) durée de vie d’une ampoule
c) nombre d’épis par pied d’un champ de maïs
d) numéro de téléphone d’un étudiant des Universités du Bénin
Exercice 8
Afin de mieux connaître le profil et les opinions des salariés du département Ressources
Humaines (RH) d’une grande entreprise, on a élaboré un questionnaire, dont les extraits sont
présentés ci-après. Chaque salarié devait soit entourer sa réponse parmi plusieurs choix
proposés, soit compléter les réponses pré-établies.
Q1 : Sexe :
I. Masculin
II. Féminin
Q2 : Age :
I. 18 – 25 ans
II. 26 – 35 ans
III. 36 – 45 ans
IV. 46 ans et plus
Q5. Le nombre de vos heures de travail et leur répartition permettent un bon équilibre
professionnel / personnel :
i. Tout à fait d’accord
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
ii. Plutôt d’accord
iii. Pas vraiment d’accord
iv. Pas du tout d’accord
Q6. Donnez une note comprise entre 0 et 10, concernant l’équipement informatique actuel que
vous utilisez au sein du département :
Note sur 10 :
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
CHAPITRE 2 : Statistique descriptive à une dimension
1. Introduction
La statistique descriptive a pour but de résumer et de présenter les données observées d’une
manière telle qu’on puisse en prendre connaissance facilement. Elle peut concerner une, deux
ou plus de deux variables ou caractéristiques. Selon le cas, on parle de statistique descriptive à
une dimension, à deux dimensions ou à plus de deux dimensions.
A une dimension, le but de simplification des données peut être atteint de trois manières
distinctes : les tableaux statistiques, les diagrammes et les paramètres.
2. Tableaux statistiques
Les tableaux statistiques permettent de présenter les données sous forme numérique de
distribution de fréquences.
La forme la plus simple de présenter les données est évidemment de les énumérer.
x1 , x2 , …, xi , …, xn
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Au cours d’un inventaire forestier relatif à la modélisation de la production des peuplements
de teck (Tectona grandis) au sud Bénin [AKOSSOU, 1998], l’âge de 26 peuplements ont été
déterminés et sont repris ci-après.
7 7 9 10 11 12 12 17 29 29 32 32 33
37 37 37 37 40 40 40 41 41 44 44 46 46
Ces données rangées par ordre croissant constituent une série statistique.
Lorsque les données collectées sont nombreuses, il est intéressant voir nécessaire de les
condenser sous forme de distribution de fréquences.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exemple. Ages de 26 peuplements de teck.
Si nous reprenons la série relative à l’âge des peuplements, la distribution de fréquences qui la
concerne est consignée dans le tableau ci-dessous, en fréquences absolues non cumulées, en
fréquences relatives non cumulées, en fréquences absolues cumulées et en fréquences
relatives cumulées.
Fréquences
Fréquences
Ages Fréquences Fréquences relatives
absolues absolues
xi relatives ni' cumulées
ni cumulées '
N i ( xi )
7 2 0,077 2 0,077
9 1 0,038 3 0,115
10 1 0,038 4 0,154
11 1 0,038 5 0,192
12 2 0,077 7 0,269
17 1 0,038 8 0,308
29 2 0,077 10 0,385
32 2 0,077 12 0,462
33 1 0,038 13 0,500
37 4 0,154 17 0,654
40 3 0,115 20 0,769
41 2 0,077 22 0,846
44 2 0,077 24 0,923
46 2 0,077 26 1
Totaux 26 1
Exemple. Répartition des systèmes agroforestiers de la commune de Gogounou selon les spéculations
présentes dans les champs en 2007.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Sur les 553 systèmes dénombrés dans la commune de Gogounou. En fonction du type de spéculations, le
système Maïs + Karité + Néré apparaît le plus dominant alors que le système avec les spéculations Maïs +
Karité apparaît comme le moins représenté.
Lorsqu’on est en possession d’un nombre important d’observations distinctes, il est plus
judicieux de les regrouper en classes ou catégories. On obtient ainsi des distributions
groupées.
Chaque classe est caractérisée par son point central ou point médian, par ses valeurs extrêmes,
par ses valeurs limites et par son amplitude.
L’écart entre les limites des classes est appelé amplitude ou intervalle ou module de classe.
Le point central ou point médian d’une classe est situé à mi-chemin entre les limites de
classes correspondantes.
L’ensemble des limites de classes, de leurs valeurs extrêmes ou de leurs points centraux,
d’une part, et des fréquences de classes d’autre part, constitue la distribution groupée.
On peut définir de la même manière comme dans le cas des distributions non groupées, les
fréquences relatives et les fréquences cumulées.
Pour la définition du nombre de classes, il n’existe pas de méthode générale ; les choix sont
effectués par l’utilisateur qui doit évidemment tenir compte des données, de leur nature et des
informations dont il dispose a priori. Il est généralement compris entre 10 et 20. Il est réduit
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
lorsque le nombre d’observation est faible et élevé lorsque le nombre d’observations est
important. Il est recommandé de considérer un nombre de classes impair, pour disposer d’une
classe centrale souvent utile dans les représentations graphiques.
Avec xmax et xmin , respectivement la plus grande et la plus petite valeur de x dans la série
statistique.
Lorsque les fréquences varient de manière importante d’une extrémité à l’autre, on utilise
parfois des intervalles de classes variables, afin de réduire l’écart entre les fréquences des
différentes classes.
Pour rendre comparable les fréquences d’une classe à l’autre et d’une distribution à l’autre, on
divise les fréquences relatives par les intervalles de classes correspondants :
Parmi les caractères mesurés pour étudier la structure de la population d’une espèce
d’animaux abattue par les chasseurs figure la longueur de la rectrice centrale (plume de la
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
queue). Les résultats observés exprimés en millimètres sur un échantillon de 50 mâles
juvéniles sont notés dans la série ci-dessous :
153 165 160 150 159 151 163 160 158 149 154 153 163 140 158 150 158 155 163
159 157 162 160 152 164 158 153 162 166 162 165 157 174 158 171 162 155 156
159 162 152 158 164 164 162 158 156 171 164 158
Les longueurs varient entre 140 et 174. En fonction des valeurs observées, nous allons
procéder à un regroupement en classe. Le nombre de classes donné par les deux règles est :
En fonction de ces résultats, les valeurs extrêmes des classes sont : 140 et 145, 145 et 150,
150 et 155, 155 et 160, 160 et 165, 165 et 170, 170 et 175.
Les limites des classes sont approximativement : 140, 145, 150, 155, 160, 165, 170 et 175
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Distribution des fréquences des longueurs de la rectrice centrale
Fréquences Fréquences
Points Fréquences Fréquences
Classes inf sup absolues relatives
centraux absolues relatives
cumulées cumulées
1 140 145 142,5 1 0,02 1 0,02
2 145 150 147,5 1 0,02 2 0,04
3 150 155 152,5 9 0,18 11 0,22
4 155 160 157,5 17 0,34 28 0,56
5 160 165 162,5 16 0,32 44 0,88
6 165 170 167,5 3 0,06 47 0,94
7 170 175 172,5 3 0,06 50 1
3. Représentation graphique
Un exposé à base de figure ou de schéma vaut mieux qu’un long discours. Toute étude
statistique doit donc être précédée d’une étude exploratoire, en privilégiant les représentations
graphiques. C’est la seule manière de se familiariser avec les données et surtout de détecter
les sources de problèmes (présence de données anormales par exemple). Cette représentation
dépend de la nature des données étudiée : données quantitatives continues, quantitatives
discrètes ou qualitatives et des distributions de fréquences.
Il est facile de représenter graphiquement la répartition des observations suivant une variable
qualitative, ordinale ou quantitative. Il existe de nombreuses méthodes disponibles dans la
plupart des tableurs comme Excel, et les erreurs sont dues fréquemment à des choix
malheureux. Les représentations des distributions de fréquences non cumulées (absolues ou
relatives) fondamentales sont :
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Dans la plupart des cas, on reporte les modalités ou les valeurs observées, les limites des
classes, ou les points centraux des classes, en abscisses et les fréquences en ordonnées.
Il est toutefois préférable dans la quasi-totalité des cas de représenter non les effectifs
correspondants à chaque modalité ou à chaque valeur entière, mais les proportions ou
fréquence relatives. Les deux méthodes sont équivalentes, mais la représentation des
pourcentages permet de comparer deux diagrammes entre eux indépendamment des effectifs
totaux.
La plupart des erreurs, dans les graphiques concernant les variables qualitatives, viennent du
codage de ces données par des chiffres qui n’a en réalité aucun sens numérique ni ordinal. Le
sexe peut être codé par 1 pour féminin et par 2 pour masculin ou inversement, cela n’a aucune
importance. L’ordre des valeurs n’a pas de sens particulier et peut être modifié.
Les variables quantitatives discrètes sont définies par des grandeurs numériques exprimées en
nombres entiers. On peut les représenter par des diagrammes comme les variables
qualitatives, mais le codage a un sens numériques, et on ne peut pas inverser l’ordre des
valeurs.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exemple. Ages de 26 peuplements de teck.
La figure montre le diagramme en bâtons des spéculations présentes dans les systèmes
agroforestiers de la commune de Gogounou (nord Bénin).
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
3.1.2. Histogrammes
Nous abordons ici le cas des variables quantitatives appelées continues, caractérisées par le
fait qu’elles peuvent prendre n’importe quelle valeur entre deux valeurs données.
Dans toutes les analyses statistiques, on donne une représentation particulière de la répartition
des observations, appelée histogramme.
Les histogrammes se composent de rectangles contigus, dont les intervalles de classes sont les
bases, et les fréquences les hauteurs, de telle sorte que les aires des rectangles soient
proportionnelles aux fréquences.
Les histogrammes font apparaître une classe dont la fréquence est plus grande que les autres.
Cette classe correspond à la classe modale.
Une classe modale peut être unique : la répartition (ou histogramme) est dite « unimodale ».
Lorsqu’il y en a plusieurs, elle est qualifiée de « plurimodale » ; ce dernier cas peut se
produire lorsque les observations proviennent de populations différentes.
L’histogramme donné à la figure ci-dessus est unimodal.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
3.1.3. Autres diagrammes
- Les polygones de fréquences sont construits en joignant par une ligne brisée les extrémités
des segments voisins des diagrammes en bâtons relatifs aux distributions non groupées.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exemple. Ages de 26 peuplements de teck.
Stem-and-leaf ‘Age’ N = 26
3 0 779
7 1 0122
8 17
8 2
10 2 99
13 3 223
13 3 7777
9 4 0001144
2 4 66
Stem-and-leaf ‘Longueur’ N = 50
1 14 0
2 14 9
11 15 001223334
(17) 15 55667788888888999
22 16 0002222223334444
6 16 556
3 17 114
- Les boxplots ou boîte à moustaches concernent les séries statistiques simples, non
transposées en distribution. Une boîte à moustaches se compose d'une boîte, de moustaches
et de valeurs aberrantes.
Observations aberrantes
Premier quartile (Q1) La plus petite valeur comprise dans la zone définie
par la limite inférieure : Q1-1,5(Q3-Q1)
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Le bas de la boîte est le premier quartile (Q1) et le haut est le troisième quartile (Q3). Les
moustaches sont les lignes qui s'étirent du haut et du bas de la boîte aux valeurs adjacentes, à
savoir la plus petite et la plus grande observation encore comprises dans la zone définie par
les limites suivantes :
Les valeurs aberrantes sont les points à l'extérieur des limites inférieure et supérieure, et sont
tracées avec des astérisques (*).
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exemple. Répartition des systèmes agroforestiers de la commune de Gogounou selon les spéculations
présentes dans les champs en 2007.
Si nous supposons qu’une étude de dénombrement d’une espèce d’animaux a conduit selon le
sexe à la répartition suivante : 40% de femelle et 60% de males. Le diagramme circulaire de
ces informations est donné à la figure 1.6.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
3.2. Diagramme de fréquences cumulées
Les distributions de fréquences cumulées sont surtout représentées par des polygones de
fréquences.
Pour les distributions non groupées, le polygone de fréquences est construit en escalier. Pour
construire ce polygone, on dessine des segments de droites de longueurs proportionnelles aux
fréquences, en les décalant progressivement vers le haut, de telle sorte que l’origine de chacun
d’eux soit située à hauteur de l’extrémité du précédent.
Par contre, pour les distributions groupées, on joint par une ligne brisée les points obtenus en
portant en regard les limites supérieures des classes des ordonnées égales aux fréquences
cumulées absolues ou relatives.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exemple. Longueurs de la rectrice centrale.
4. Indicateurs numériques
4.1.2. Moyenne
n
1
x€
n „x
i €1
i
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Si les données observées xi sont regroupées p classes d’effectif ni (caractère continu
regroupé en classe ou caractère discret), il faut les pondérer par les effectifs correspondants :
p
1 p
x€ „ ni xi avec
n i €1
„n
i €1
i €n
Remarque : Une des propriétés de la moyenne arithmétique est que la somme des écarts à la
n
moyenne est nulle : „ (x
i €1
i ‚ x) € 0
Exemple.
32 • 37 • 37 • ... • 7 • 12 • 12
x€ € 29,62 … 30 ans
26
Remarque : La moyenne obtenue après regroupement des données en classe peut être
légèrement différentes de la moyenne obtenue sans regroupement ceci en raison d’une perte
d’information. Si l’échantillonnage n’est pas de type aléatoire simple, les deux moyennes
peuvent être très différentes.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Il existe d’autres moyennes, notamment :
1/ n
‹ n ˆ
- la moyenne géométrique : x g € x1 ...x n € ‰‰ Œ xi †† ;
Š i €1 ‡
n
n
- la moyenne harmonique : x h €
1 / x1 • .. • 1 / x n
€n „1 / x
i €1
i ;
1 n 2
- la moyenne quadratique : x q € „ xi
n i €1
1/ k 1/ k
‹1 n ˆ ‹1 p ˆ
x k € ‰ „ xik † ou ‰‰ „ ni x ik ††
Š n i €1 ‡ Š n i €1 ‡
4.1.2. Médiane
La médiane ~x est la valeur du caractère pour laquelle la fréquence relative cumulée est égale
à 0,5 ou 50%. Elle correspond donc au centre de la série statistique classée par ordre croissant,
ou à la valeur pour laquelle 50% des valeurs observées sont supérieures et 50% sont
inférieures.
Dans le cas où les valeurs prises par le caractère étudié ne sont pas regroupées en classe,
- si n est impair, alors n = 2m+1 et la médiane est la valeur du milieu ~
x € x m •1 ,
- si n est pair, alors n = 2m et une médiane est une valeur quelconque entre x m et x m •1 .
Dans le cas où les valeurs prises par le caractère étudié sont groupées en classe, on cherche la
classe contenant le nème/2 individu de l’échantillon. En supposant que tous les individus de
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
cette classe sont uniformément répartis à l’intérieur, la position exacte du nème/2 est
déterminée par interpolation linéaire :
~ '
0,50 ‚ N ' ( x i' )
x € xi • ƒx i
n i'
dans laquelle i est l’indice de la classe médiane, xi' la limite inférieure de cette classe, N ' ( x i' )
la fréquence relative cumulée de la classe qui précède la classe médiane, ni' la fréquence
Exemple.
précède la classe médiane est N ' ( xi' ) € 0,22 , la fréquence relative de la classe médiane est :
0,50 ‚ 0,22
D’où ~
x € 155 • 5 € 159,1 mm
0,34
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Si la distribution des valeurs est symétrique, la valeur de la médiane est proche de la valeur de
la moyenne arithmétique ~x … x . Par contre, pour les distributions dissymétriques, la médiane
diffère généralement de la moyenne : la médiane est normalement inférieure ou supérieure à
la moyenne, selon que la dissymétrie est gauche ou droite.
4.1.3. Mode
Le mode xmo d’une série statistique est la valeur du caractère la plus fréquente ou dominante
dans l’échantillon. Le mode correspond à la classe de fréquence maximale dans la distribution
des fréquences.
On peut identifier le mode comme la valeur de la médiane de la classe de fréquence maximale
ou bien effectuer une interpolation linéaire pour obtenir la valeur exacte du mode comme
suit :
' ƒx i ƒi
x mo € xim •
ƒs • ƒi
avec
'
xim : limite inférieure de la classe d’effectif maximal
ƒx i : intervalle de classe
Exemple.
Dans le cas de la distribution d’âge des peuplements de teck, la valeur du mode est :
5Ž8
La valeur exacte est : xmo € 155 • € 159,44 ans
1• 8
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
'
avec xim € 155 mm , ƒx i € 5 mm , ƒi € 17 ‚ 9 € 8 , ƒs € 17 ‚ 16 € 1
Si la distribution des valeurs est symétrique, la valeur du mode est proche de la valeur de la
moyenne arithmétique : xmo … x .
Ces paramètres ont pour but dans le cas d’un caractère quantitatif de caractériser la variabilité
des données dans l’échantillon.
Les indicateurs de dispersion fondamentaux sont la variance observée et l’écart-type observé.
1 n
s² € „ ( xi ‚ x)²
n i €1
Pour des facilités de calcul, on se sert de la formule suivante pour le calcul de la variance :
1 n 2
s² € „ xi ‚ x ²
n i €1
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Dans le cas des données regroupées en p classes d’effectif ni (variable continue regroupée en
classes ou variable discrète), la formule de la variance est :
1 p
s² € „ ni ( xi ‚ x)²
n i €1
La formule développée est :
1 p
s ² € „ ni x i2 ‚ x ²
n i €1
Exemple.
Dans le cas de l’étude des peuplements de teck, la variance observée de l’âge est :
26
2
„x i €1
i € 27538 et x € 29,62 ans
27538
s² € ‚ (29,62)² € 182,08 d’où s € 13,49 ans … 13 ans
26
50
2
„x
i €1
i € 1263647 et x € 158,86 mm
1263647
s² € ‚ (158,86)² € 36,44 d’où s € 6,04 mm
50
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
cas des données groupées
„ nx
i €1
2
i € 1269012,5 et x € 159, 20 mm
1269012,5
s² € ‚ (159,20)² € 35,61 et s € 5,97 mm
50
La variance et l’écart-type observés sont des paramètres de dispersion absolue qui mesurent la
variation absolue des données indépendamment de l’ordre de grandeur des données. Le
coefficient de variation noté CV est un indice de dispersion relatif prenant en compte ce biais
et est défini comme suit :
s
CV € 100
x
Exprimé en pour cent, il est indépendant du choix des unités de mesure permettant la
comparaison des distributions de fréquences d’unité différente.
Exemple.
6,09
CV € 100 € 3,83%
158,86
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
4.2.3. Quantiles et écart interquartile
Les quantiles sont utilisés lorsque le nombre d’observations est important. On peut considérer
que les classes doivent avoir un effectif d’au moins 5 observations, d’où les conditions
d’effectifs proposées ci-dessous :
Médiane ~
x Deux classes d’effectifs n/2 50% n • 10
Ces paramètres présentent les mêmes inconvénients de calcul que la médiane. En général, on
procède par interpolation linéaire pour donner une valeur précise.
d8 , etc.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Une seconde application des quantiles est le calcul du rapport entre la plus petite et la plus
grande des valeurs d’une série d’observations. Dans la mesure où ces observations sont tirées
au hasard, ce rapport peut varier considérablement d’un tirage à l’autre et son instabilité le
rend discutable.
4.3.1. Moments
Le moment d’ordre k par rapport au point c d’une série statistique est défini comme suit :
1 n k 1 p
„ ( x i ‚ c ) ou „ [ ni ( xi ‚ c) k ]
n i €1 n i €1
En pratique, on utilise les moments par rapport à l’origine ou moments centrés ak obtenus
lorsque c € 0 et les moments par rapport à la moyenne mk obtenus lorsque c € x .
D’une manière générale les moments d’ordre pair sont comme les paramètres de dispersion.
Par contre, les moments d’ordre impair sont des indices de dissymétrie. Ils sont nuls pour les
distributions symétriques et différents de zéro pour les distributions dissymétriques.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
g 1 € m3 / m 23 / 2 € m3 / s 3 et g 2 € m 4 / m 22 ‚ 3 € m 4 / s 4 ‚ 3
g12 € b1 et g 2 € b2 ‚ 3
S’ils sont différents de zéro, la distribution est dissymétrique. Le signe de g1 indique le sens
de la dissymétrique. Lorsque g1 < 0 et distribution unimodale alors le mode est supérieur à la
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exemple.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exercices
Exercice 1
Le tableau ci-dessous présente les différentes mesures qu’il est possible d’évaluer en fonction
des différents types de variables. Cochez les cellules appropriées.
Exercice 2
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
f) Complétez le tableau de distribution de la variable.
g) Trouvez le mode et donnez-en la signification dans le contexte du problème.
h) Trouvez la médiane et donnez-en la signification dans le contexte du problème.
i) Trouvez la moyenne, donnez-en la signification dans le contexte du problème.
j) Trouvez l’écart type de cette variable.
k) Est-ce que les données sont homogènes ? Justifiez votre réponse par un calcul.
l) Représentez la distribution de cette variable par un histogramme.
m) En considérant l’histogramme que vous venez de tracer et la valeur du mode, de la
médiane et de la moyenne, que pouvez vous-dire de la symétrie de la distribution de la
variable ?
n) Déterminez la mesure de tendance centrale à privilégier pour cette distribution.
Justifiez votre choix et donnez cette mesure.
Exercice 3
36 47 51 56 61
37 47 52 57 61
39 47 53 57 61
40 48 53 58 61
41 49 54 58 62
42 49 54 59 63
44 50 55 59 64
45 50 55 60 66
45 51 55 60 66
47 51 56 60 74
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exercice 4
On dispose des résultats d’une enquête concernant les loyers mensuels des appartements
d’une commune donnée.
Loyers
Effectifs
(FCFA x 1000)
[4; 6[ 20
[6; 8[ 40
[8; 10[ 80
[10; 15[ 30
[15; 20[ 20
[20; 40[ 10
Exercice 5
2 7,5
9 12
2,25 5
6 4,25
11,25 9
12 11
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
e) Lorsque la distribution d’une caractéristique statistique est symétrique :
Exercice 6
Dans le but de comparer les rendements de maïs obtenus pour la campagne 2003-2004 dans
trois zones du pays (Sud, Centre, Nord), on extrait de l’annuaire statistique le tableau ci-
dessous relatif à la répartition des communes en pourcentage selon le rendement obtenu.
Rendement en
Nord Centre Sud
Kg/ha
=500 3,70 6,67 0,00
[500-1000[ 14,81 80,00 77,14
[1000-1500[ 51,85 13,33 17,14
[1500-2000[ 25,93 0,00 2,86
=2000 3,70 0,00 2,86
Total 100 100 100
Effectif 27 15 35
Exercice 7
La figure ci-dessous donne la répartition des données de hauteur observées pour une espèce
d’arbre dans une forêt donnée. Le calcul des paramètres statistiques montre que la valeur de la
médiane est égale à 19,89 m.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Déterminer :
- la moyenne =……………………………………………………………………………
- le mode =………………………………………………………………………………..
Exercice 8
Le tableau suivant indique la distribution du dosage d’un métabolite (en ’g par litre) parmi
une population de 300 sujets sains.
Classe effectif
0,65-0,85 22
0,85-0,95 42
0,95-1,05 63
1,05-1,15 75
1,15-1,25 54
1,25-1,35 30
1,35-1,55 14
c) Si vous deviez représenter cette distribution à l’aide d’un histogramme, quelle devrait être
la hauteur du rectangle construit au-dessus de la classe 0,95 à 1,05 et quelle serait sa surface ?
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
CHAPITRE 3 : Statistique descriptive à deux dimensions
1. Introduction
La statistique descriptive à deux dimensions permet de mettre en évidence les relations qui
existent entre deux séries d’observations considérées simultanément. Ces observations
peuvent être de même nature ou de nature différente (quantitative, qualitative, continue ou
discontinue, ...).
Comme à une dimension, la description des données doit être envisagée sous trois aspects :
l’élaboration de tableaux statistiques, les représentations graphiques et le calcul de paramètres
statistiques.
2. Tableaux statistiques
La manière la plus simple dont se présente les observations relatives à deux variables et n
individus est une série statistique double ou la suite de n couple de valeurs observées
( xi , yi ).
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Age 32 37 37 37 41 29 29 32 33 40 40 44 41
Hauteur 25,27 27,18 25,16 28,57 29,32 25,66 23,73 26,6 22 26,12 28,14 27,91 25,58
Age 37 17 46 46 40 44 9 11 7 10 7 12 12
Hauteur 24,24 18,07 28,51 32,27 26,35 32,35 14,87 16,53 14,61 15,94 13,03 15,96 14,51
Les distributions de fréquences sont des tableaux statistiques à double entrée dont une ligne
est réservée à chaque valeur observée d’une des deux variables x par exemple et une colonne
à la deuxième variable y . Les fréquences nij représentent, pour chaque cellule du tableau, le
des fréquences nij d’autre part, constitue une distribution de fréquences à deux dimensions.
Lorsque le nombre de lignes et le nombre de colonnes du tableau sont trop grands, il est
possible également de condenser les observations en une distribution groupée, en réunissant
en classes les diverses valeurs observées de x et de y . En général, les intervalles de classes
sont choisis de telle sorte que le nombre de classes ne dépasse pas dix ou quinze pour chacune
des deux variables. Il est possible d’avoir des distributions de type mixte, dans lesquelles
seules les valeurs observées d’une des deux séries sont groupées en classes.
y
x Totaux
y1 y2 … yj … yq
x1 n11 n12 … n1 j … n1q n1.
x2 n 21 n 22 … n2 j € n 2q n 2.
€ € € € € € €
xi ni1 ni 2 … nij … niq ni.
€ € € € € € € €
xp n p1 n p2 … n pj … n pq n p.
Totaux n.1 n.2 … n. j … n.q n
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Les fréquences relatives nij' sont définies par :
nij' € nij / n
et lorsque les intervalles de classe ne sont pas constants, les fréquences unitaires sont
définies par :
Les fréquences cumulées sont obtenues en additionnant de proche en proche les fréquences
observées, absolues ou relatives comme pour les distributions à une dimension, on obtient
ainsi la fonction cumulative de fréquences.
Lorsqu’on calcule les totaux relatifs aux différentes lignes et aux différentes colonnes, on
obtient les fréquences marginales ou totales ni. et n. j , qui sont définies comme suit :
q p
ni. € „j €1
nij et n. j € „n
i €1
ij
Les fréquences relatives correspondantes ni'. et n.' j sont définies par les relations :
Lorsqu’on considère une ligne particulière du tableau à double entrée, on définit par
l’ensemble des valeurs y j et des fréquences correspondantes nij , une distribution à une
Par analogie, on peut définir, pour les différentes colonnes autant de distributions
conditionnelles de x que de valeurs observées ou de clases de y .
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exemple. Age et hauteur de 26 peuplements de teck
Pour les données de l’exemple précédent, les fréquences marginales qui concernent les âges
sont reprises dans la dernière colonne du tableau et celles qui concernent les hauteurs, dans la
dernière ligne du même tableau.
En considérant ligne par ligne puis colonne par colonne, nous avons d’une part cinq
distributions conditionnelles de hauteurs des peuplements et d’autre part cinq distributions
conditionnelles d’âges des peuplements.
Ages ni
[01-10[ 4
[10-20[ 4
[20-30[ 2
[31-40[ 10
[41-50[ 6
Hauteur Totaux
[10-15[ 4
[15-20[ 4
[20-25[ 3
[25-30[ 13
[30-35[ 2
Ages ni
[01-10[ 0
[10-20[ 0
[20-30[ 1
[31-40[ 8
[41-50[ 4
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
3. Représentations graphiques
Les diagrammes de dispersion sont une représentation graphique des points. Ceux-ci sont
obtenus en représentant chaque couple d’observations ( xi , y j ) par un point dans le plan ( x, y) .
Les diagrammes en bâtons sont surtout la forme de représentation des distributions non
groupées. Ils sont établis en traçant perpendiculairement au plan ( x, y) , et en chaque point
Les stéréogrammes sont la forme de représentation des distributions groupées. Ils sont
composés de parallélépipèdes rectangles ou de prismes carrés, juxtaposés dont les bases
correspondent chacune à une cellule du tableau à double entrée et dont les hauteurs sont
égales ou proportionnelles aux fréquences absolues ou relatives. Si on considère comme
hauteurs les fréquences unitaires, le volume total des parallélépipèdes rectangles est égal à
l’unité, et le stéréogramme est dit normé.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
4. Paramètres statistiques
Deux types de paramètres sont utilisés pour caractériser les séries statistiques à double entrée
et les distributions de fréquences.
Les uns servent à caractériser individuellement les diverses distributions marginales et
conditionnelles. Les autres servent à décrire les relations existant entre les deux séries
d’observations considérées simultanément. Nous mentionnerons essentiellement dans ce
chapitre la première catégorie de paramètres. La deuxième catégorie sera abordée au cours
des chapitres qui vont suivre.
Pour caractériser les distributions marginales et les distributions conditionnelles, on utilise les
paramètres habituels de la statistique descriptive à une dimension.
1 n 1 p 1 n 1 q
x€ „ i
n i €1
x ou x € „ i. i
n i €1
( n x ) et y € „ i
n i €1
y ou y € „ ( n. j y j )
n j €1
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Les variances marginales s x2 et s 2y
1 n 1 p
s x2 € „ i ( x ‚ x )² ou s 2
x € „ ni. ( xi ‚ x )²
n i €1 n i €1
et
1 n 1 q
s y2 € „ ( y i ‚ y )² ou s 2y € „ n. j ( y i ‚ y )²
n i €1 n j €1
p q
1 1
xj €
n. j
„
i €1
(nij xi ) et y i €
ni.
„ (n
j €1
ij yj)
1 p 1 q
s x•2j € „ [nij ( x i ‚ x j )²] et s 2y•i € „ [n ij ( y j ‚ y i )²]
n. j i €1 ni . j €1
1 n 1 n
x€ „ xi = 29,62 et
n i €1
y€ „ y i = 23,40
n i €1
1 n
s x2 € „ ( xi ‚ x )² = 189,3376
n i €1
et
1 n
s y2 € „ ( y i ‚ y )² = 34,9281
n i €1
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Moyenne conditionnelle des âges pour des hauteurs comprises entre 25 et 30 m
p
1
xj €
n. j
„ (n
i €1
ij xi ) = 37,31
1 p
s x2•j € „ [nij ( xi ‚ x j )²] = 33,14
n. j i €1
L’étude simultanée des deux séries d’observations fait intervenir diverses notions qui seront
abordées de manière plus approfondie dans d’autres chapitres. L’objectif général de ces
méthodes est de mettre en évidence une éventuelle variation simultanée des deux variables,
que nous appelons liaison.
Le nuage de points défini au point 3.1 est un graphique très commode pour représenter les
observations simultanées de deux variables quantitatives. L’ensemble des points de cette
représentation donne en général une idée assez bonne de la variation conjointe des deux
variables.
1 n 1 p q
cov( x, y ) € „ i
n i €1
[( x ‚ x )( y i ‚ y ) ] ou cov( x , y ) € „ „ [nij ( xi ‚ x )( y j ‚ y )] .
n i €1 j €1
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
La covariance est une forme bilinéaire symétrique qui peut prendre toute valeur réelle et dont
la variance est la forme quadratique associée. Elle dépend des unités de mesure dans
lesquelles sont exprimées les variables considérées ; en ce sens, ce n’est pas un indice de
liaison “intrinsèque”. C’est la raison pour laquelle on définit le coefficient de corrélation
linéaire (parfois appelé coefficient de Pearson ou de Bravais-Pearson), rapport entre la
covariance et le produit des écarts-types :
cov( x, y )
corr ( x, y ) € r €
sx sy
Notons pour mémoire la possibilité d’utiliser d’autres indicateurs de liaison entre variables
quantitatives. Construits sur les rangs (corrélation de Spearman) ils sont plus robustes faces
à des situations de non linéarité ou des valeurs atypiques mais restent très réducteurs.
Pour avoir une première idée de la manière dont varie en moyenne la variable y , dite
variable dépendante en fonction de la variable x , dite variable indépendante ou
explicative, on représente sur un diagramme les points moyens conditionnels ( xi , yi ). Cette
représentation est appelée diagramme de régression de y en fonction de x .
La somme des carrés des écarts à minimiser est, en fonction des observations ( xi , yi ) :
n n
„ “y ” “ ”
2 2
i ‚ y ( x i ) € „ y i ‚ a ‚ bx i
i €1 i €1
a € y ‚ bx
cov( x, y )
b€
s x2
L’examen des résidus peut donner des indications utiles au sujet de la manière dont la droite
de régression s’ajuste à l’ensemble des points observés, et aussi quant à l’existence éventuelle
de valeurs tout à fait exceptionnelles ou anormales.
1 p q
s 2y . x €
1 n
“
„ y i ‚ y( xi )
n i €1
”2
ou „„
n i €1 j €1
• “
nij y i ‚ y ( x i )
2
”–
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exemple. Age et hauteur de 26 peuplements de teck
Une façon commode de représenter les données dans le cas de l’étude simultanée d’une
variable quantitative et d’une variable qualitative consiste à réaliser des boxplots parallèles ; il
s’agit, sur un même graphique doté d’une échelle unique, de représenter pour y un boxplot
pour chacune des sous-échantillons définis par x . La comparaison de ces boxplots donne une
idée assez claire de l’influence de x sur les valeurs de y , c’est-à-dire de la liaison entre les
deux variables.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Dans le cas d’une variable quantitative x associée à une variable binaire y pouvant prendre
les valeurs 0 et 1 par exemple le coefficient de corrélation devient :
n.1n.2 ( x 2 ‚ x1 )
corr ( x, y ) € r €
ns x
Il est courant en statistique de comparer une table de contingence observée, d’effectif conjoint
générique nij , à une table de contingence donnée a priori et appelée standard, d’effectif
De façon naturelle, pour mesurer la liaison sur une table de contingence, on utilise un la
statistique appelée khi-deux et défini comme suit :
ni. n. j
p q (nij ‚ )²
n
€² € „„
i €1 j €1 ni. n. j
n
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Ceci revient à réaliser un test d’indépendance € ² entre les deux variables. Le coefficient € ²
est toujours positif ou nul et il est d’autant plus grand que la liaison entre les deux variables
considérées est forte. Malheureusement, il dépend aussi des dimensions p et q de la table
étudiée, ainsi que de la taille n de l’échantillon observé. Il est existe des tables pour accepter
ou pour rejeter le test d’indépendance entre les deux variables. Ces aspects seront aborder en
profondeur ultérieurement.
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exercice
Exercice 1
Soit une série statistique double. On multiplie par 10 les valeurs de la caractéristiques x et par
100 les valeurs de la caractéristique y. Les moyennes conditionnelles de y sous la condition x:
sont inchangées
Exercice 2
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
Exercice 3
Chacune des 4 équations (E1, E2, E3 et E4) des moindres carrés suivantes ainsi que chacun
des 4 coefficients de corrélation (r1, r2, r3 et r4) suivants correspond à un des 4 diagrammes
(A, B, C et D) ci-dessus. En répondant directement sur l’épreuve, associer l’équation et le
coefficient de corrélation avec le bon diagramme.
Equations Diagrammes
E1 : y = 0,32x + 7,43 ……………………………………………….
E2 : y = -0,2369x + 8,6169 ……………………………………………….
E3 : y = -0,4787x + 11,516 ……………………………………………….
E4 : y = 0,2791x + 4,1209 ……………………………………………….
A B
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
C D
Exercice 4
Age 17,5 22,5 27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5
% des
très 45 48 52 50 56 60 66 64 69 71
satisfaits
Exercice 5
Pour réaliser une étude sur l’impact d’une publicité on observe une population de 5 individus.
A chaque individu on présente l’affiche publicitaire en question et on lui demande de lui
attribuer une note de 0 à 10. Parallèlement et à l’insu de cet individu, on mesure le temps (en
secondes) qu’il a passé à regarder cette affiche. Ainsi à chaque individu i on associe un couple
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011
d’observations (xi, yi) où xi désigne la note attribuée par cet individu à l’affiche et yi le temps
qu’il a mis à la regarder.
On note X la variable note et Y la variable temps. On obtient les 5 couples d’observations
suivants :
xi 5 6 7 8 9
ln(xi) 1,61 1,79 1,95 2,08 2,20
yi 20 25 40 45 50
On donne :
5 5 5 5 5
„ xi € 25
i €1
„ ln( xi) € 9,62
i €1
„ yi € 180
i €1
„ xi² € 255
i €1
„ [ln( xi)]² € 18,74
i €1
5 5 5
„ yi ² € 7150
i €1
„ xiyi € 1340
i €1
„ [ln( xi)] yi € 358,26
i €1
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Monographie de Statistique descriptive - Dr. Ir. Akossou A. Y. J. – Faculté d’Agronomie, Université de Parakou - 2011