PS-CHAP 1 - Statistique Descriptive

Introduction Typologie de variables Par. De Position Par. De dispersion Par. De forme Stati. Desc.
Bivariée
Probabilités et Statistiques
Z. Bahou, EMI
2019/2020
Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Introduction Typologie de variables Par. De Position Par. De dispersion Par. De forme Stati. Desc. Bivariée
Plan du cours:
▪ Statistiques Descriptives
‐ Introduction
‐ Présentation des données
‐ Description des données
▪ Probabilités
‐ Calcul des probabilités
‐ Distribution des Probabilités Variables Aléatoire Discrètes
‐ Distribution des Probabilités Variables Aléatoire Continues
▪ Statistiques Mathématiques
‐ Échantillonnage
‐ Estimation Paramétrique
‐ Tests Statistiques Paramétriques

Chapitre 1 :Statistique descriptive

Qu’est-ce-que la statistique ?
• La statistique c’est la science des grands nombres regroupant l'ensemble de méthodes
mathématiques qui, à partir du recueil et de l'analyse de données réelles, permettent l'élaboration de
modèles probabilistes autorisant les prévisions. (Larousse).
• Autre définition, moins académique celle-ci :

‐ la statistique est un ensemble de méthodes permettant de prendre une bonne décision face à
l’incertitude (Wallis & Roberts, The Nature of Statistics)
‐ C’est aussi un ensemble d’outils et de méthodes qui permettent de synthétiser et de résumer
des grands volumes de données, des grandes matrices d’informations.
• les deux principales branches de la statistique :
‐ La statistique descriptive
‐ La statistique mathématique ou inférentielle
*Inférence: Opération intellectuelle par laquelle on passe d'une vérité à une autre vérité, jugée telle en raison de son lien avec la première. La
déduction est une inférence.

La statistique descriptive
Ensemble des méthodes permettant de décrire une population par le biais des
individus qui la composent. La statistique descriptive s’intéresse donc à décrire et
caractériser un ensemble d’individus représenté la plupart du temps sous la forme de
tableaux (tableaux de données), à résumer et synthétiser ces tableaux par
l’intermédiaire de graphiques et de paramètres appropriés (fréquences, distribution,
moyenne, dispersion, etc.). Elle s’attachera à éventuellement rechercher des
corrélations (liaisons statistiques) entre les éléments de ces tableaux (variables et
individus).

La statistique descriptive
Exemple :
Les températures moyennes mensuelles à Ifrane sur la période 1971-2000
►Le « simple » passage d'un tableau de données plus ou moins

important à un graphique et/ou à quelques indicateurs
pertinents telle que la moyenne constituent une opération
relevant de la statistique descriptive.

La statistique mathématique ou inférentielle

Permet de savoir à quel point l'on peut résumer sans perdre des informations essentielles et quel
est le meilleur résumé avec le moins d'erreur. Cette branche des statistiques s’intéresse davantage à
extrapoler des résultats issus d’échantillons en vue de caractériser une population mère
inconnue, de faire des prévisions de comportements basées sur le calcul de probabilités
Exemple :
En période électorale, on interroge 1 000 personnes sur leur intention de vote. A partir des
résultats obtenus sur cet échantillon, on prévoit, avec une certaine précision le résultat des
élections. C’est ce qu’on appel l’inférence statistique et c’est le principe même du sondage
d’opinion par exemple.

Le lien entre les statistiques inférentielle et descriptive
►Le lien de complémentarité

entre statistique inférentielle et
statistique descriptive est évident :
la première collecte et fournit à
la seconde la « matière première
» à décrire et à et analyser qui,
retournée à la première est
extrapolée.

Terminologie et notation standard de la statistique

❖ Population : ensemble des individus (ou unités statistiques) présentant un caractère commun. Pour une thématique
donnée, la population regroupe toujours la totalité des individus relatif à cette thématique (notion d'exhaustivité).
Exemples :
‐ la population africaine: ensemble des individus résidant sur le territoire africain à un moment donné.
‐ Le parc automobile marocain : ensemble des automobiles immatriculées sur le territoire marocain.
‐ Le lot 9 718 du médicament « alpha » : ensemble boîtes de « alpha » produit sous le n°. de lot 9 718.
La population est en général notée P
L'effectif total d'une population est noté N
❖ Unité statistique (ou individu) : élément de base constitutif de la population à laquelle il appartient. Il est indivisible
et peut être un animal, un végétal, un humain ou un objet.
Exemples : une automobile, un logement, une vache, une ampoule, une ville, etc. noté i
❖ Échantillon : sous-ensemble construit et représentatif d'une population donnée. Lorsque l'on parle d'échantillon on
parle en général de population mère, c'est-à-dire de la population dont est issu l'échantillon. L'échantillon est
fréquemment noté s


❖ Dénombrement : comptage exhaustif des individus composant une population donnée. Le recensement de la
population est un dénombrement.
❖ Caractère(s) : caractéristique(s) de l'individu intégrant la population étudiée. Exemple : la couleur, le sexe, le poids, la
taille, la marque, le modèle, l'espèce, le prix, la surface, etc.
❖ Variable : une variable est une caractéristique pouvant prendre plusieurs des valeurs d'un ensemble d'observations
possibles auquel une mesure ou une qualité peut être appliquée.
❖ Modalité : valeur qualitative ou quantitative que peut prendre le caractère précédemment défini. Exemple : sexe
féminin ou masculin, poids 45 kg, couleur verte, etc. Attention, les modalités sont exhaustives et mutuellement
exclusives. Chaque individu doit pouvoir être classé dans une et une seule modalité.
Récapitulatif intermédiaire par l'exemple:

- Population : Une résidence privée - Individu : Un logement
- Caractère : Taille du logement - Modalité : Nombre de pièces de ce logement


❖ Classe : il est fréquent qu'une population soit divisée en sous-ensembles cohérents construits à partir de critères
déterminés de façon à réduire la taille des tableaux de données et à en faciliter la lecture, l'analyse et l'interprétation.
Cette division induit une regroupement des individus et la formation de classes rassemblant chacune des individus
présentant des caractères similaires.
Exemple : les classes d'âge d'une population, deux possibilités (suggestion)
❖ On appelle série statistique la suite des valeurs prises par une variable X sur les unités d’observation. Le
nombre d’unités d’observation est note n. Les valeurs de la variable X sont notées x1, . . . , xi , . . . , xn.

Typologie des variables

Une donnée ou une variable est obligatoirement de type qualitatif ou de type quantitatif. Le type
qualitatif est également appelé type « non-métrique » par opposition au type quantitatif dit type «
métrique ».
• Variable qualitative : La variable est dite qualitative quand ses modalités sont des catégories,
c'est-à-dire quand elle contient des valeurs qui expriment une qualité, un état, comme le sexe, la
couleur ou bien encore la catégorie socioprofessionnelle.
► Les opérations arithmétiques que l'on peut réaliser sur ce type de variable sont relativement
réduites et se limitent au comptage des effectifs par modalité (fréquences absolues) et au
calcul de pourcentage (fréquences relatives) et le mode.


Variable qualitative nominale : La variable est dite qualitative nominale quand ses modalités ne peuvent pas être
ordonnées « non hiérarchique ». En d'autres termes, ses éléments ne peuvent pas se ranger dans une gradation logique,
selon une hiérarchie naturelle.
► Exemple : la variable « couleur » est de type qualitative nominale, (vert, jaune, noir, rouge, …) aucune
hiérarchie n’est applicable entre les modalités recensées (on peut en aucun cas écrire jaune > rouge ou vert =
noir).
► Effectifs, fréquences et tableau statistique

On note J le nombre de valeurs distinctes ou de modalités. Les valeurs distinctes sont notées x1, . . . , xj , . . . , xJ .
On appelle effectif d’une modalité ou d’une valeur distincte, le nombre de fois que cette modalité (ou valeur
distincte) apparait. On note nj l’effectif de la modalité xj . La fréquence d’une modalité est l’effectif divise par le
nombre d’unités d’observation.


Exemple 1 : On s’intéresse à la variable ► Le tableau statistique d’une variable qualitative nominale peut être
‘état-civil’ notée X et à la série statistique représente par deux types de graphique. Les effectifs sont
des valeurs prises par X sur 20 personnes. représentes par un diagramme en barres et les fréquences par
La codification est C : Célibataire, M : un diagramme en secteurs (ou camembert ou pie chart en
Marié(e), V : Veuf (ve), D : Divorcé (e). anglais)
Diagramme en barres des Diagramme en secteurs des

effectifs fréquences


• Variable qualitative ordinale : La variable est dite qualitative ordinale quand ses modalités peuvent être ordonnées.
Elle possède toutes les propriétés de la variable qualitative nominale avec en plus la possibilité de positionner et de
hiérarchiser les individus entre eux selon la valeur attachée à leur caractère.
► Les opérations autorisées pour l'échelle qualitative ordinale sont, en plus du comptage par modalité (fréquences
absolues et fréquences relatives et mode), la médiane.
►Exemple : la variable « niveau de confort d'un logement » est de type qualitative ordinale, les valeurs pouvant être
prises par celle-ci étant bien de type nom (médiocre, moyen, bon, très bon) et une hiérarchie existe entre les modalités.
► Si la variable est ordinale, on peut calculer les effectifs cumulés :
► On peut également calculer les fréquences cumulées :


Exemple 2 : On interroge 50 personnes sur leur dernier diplôme obtenu (variable Y ). La codification a été faite
selon le Tableau ci-dessous. On a obtenu la série.
Table 1 : Codification de la variable Y
Table 2 : Série statistique de la variable Y


► Les fréquences d’une
variable qualitative ordinale
sont représentées au moyen
d’un diagramme en
secteurs, Les effectifs et les
effectifs cumulés sont
représentes au moyen d’un
diagramme en barres
Tableau statistique complet
Conclusion:
Une variable qualitative, qu'elle soit nominale ou ordinale, est
toujours de nature discrète, contrairement à une variable
quantitative qui peut être soit de nature discrète, soit de
nature continue.


• Variable quantitative : Une variable est dite quantitative si toute ses valeurs possibles sont
numériques. La taille, le poids, la surface, la distance, le revenu, l'âge, le chiffre d'affaire ou bien
encore la population (dans le sens du nombre d'habitants) sont des variables quantitatives.
►Toutes les opérations arithmétiques simples et complexes sont applicables aux variables
quantitatives, du dénombrement (fréquences absolues) et autre calcul de pourcentage
(fréquences relatives) en passant par la moyenne, la médiane et l'écart-type jusqu'à la
modélisation numérique.


• Variable quantitative discrète : Une variable est dite discrète, si l’ensemble des valeurs possibles est
dénombrable. En d'autres termes, le passage d'une modalité à une autre est « brutal », sans continuité,
sans glissement progressif.
► Comme pour les variables qualitatives ordinales, on peut
calculer les effectifs, les effectifs cumulés, les fréquences,
Exemple : Un quartier est composé de 50 ménages,
les fréquences cumulées. A nouveau, on peut construire
et la variable Z représente le nombre de personnes
le tableau statistique :
par ménage. Les valeurs de la variable sont


Quand la variable est discrète, les effectifs sont représentes par des bâtonnets, et les fréquences par un Polygone


• Variable quantitative continue : Une variable est dite continue, si l’ensemble des valeurs
possibles est continu. Celle-ci peut en effet prendre une infinité de valeurs quelles que soient les
limites retenues. Par exemple, entre 10 et 12 °C.
► Cependant, pour faire des représentations graphiques et construire le tableau statistique, il faut procéder à des
regroupements en classes. Le tableau regroupé en classe est souvent appelé distribution groupée. Si [𝒄− 𝒋 ; 𝒄+
𝒋[
désigne la classe j, on note, de manière générale :
‐ 𝒄−𝒋 la borne inferieure de la classe j.
‐ 𝒄+𝒋 la borne supérieure de la classe j.
‐ cj = (𝐜𝐣+ + 𝐜𝐣− )/2 le centre de la classe j.
‐ aj = 𝐜𝐣+ − 𝐜𝐣− l’amplitude de la classe j.
‐ nj l’effectif de la classe j.
‐ Nj l’effectif cumulé de la classe j.
‐ fj la fréquence de la classe j.
‐ Fj la fréquence cumulée de la classe j.

La répartition en classes des données nécessite de définir a priori le nombre de classes J et donc l’amplitude de chaque classe.
En règle générale, on choisit au moins cinq classes de même amplitude. Cependant, il existent des formules qui nous
permettent d’établir le nombre de classes et l’intervalle de classe (l’amplitude) pour une série statistique de n observations.
– La règle de Sturges : J = 1 + (3.3 𝒍𝒐𝒈𝟏𝟎 (n)).

– La règle de Yule : J = 2.5 𝟒 𝒏.
L’intervalle de classe est obtenue ensuite de la manière suivante : longueur de l’intervalle = (Xmax − Xmin)/J,
Exemple : On mesure la taille en centimètres de 50 élevés d’une classe :
On a les classes de tailles On construit le tableau statistique

définies préalablement

L’histogramme consiste à représenter les effectifs (aussi les fréquences) des classes par des rectangles contigus dont la
surface (et non la hauteur) représente l’effectif (ou la fréquence). Pour un histogramme des effectifs, la hauteur du
𝒏𝒋
rectangle correspondant à la classe j est donc donnée par : 𝒉𝒋 = « On appelle 𝒉𝒋 la densité d’effectif ».
𝒂𝒋
𝒇𝒋
Pour un histogramme des fréquences on a 𝒅𝒋 = « On appelle 𝒅𝒋 la densité de fréquence ».
𝒂𝒋

Autres représentation graphique



Exercice :
Un établissement de transfusion sanguine a dressé le bilan de sa collecte de sang pendant un an
Age du donneur % Correspondant

Moins de 20 ans 4%
Entre 20 et 29 ans 14 %
Plus de 50 ans 26 %
Représenter cette série statistique par un diagramme circulaire.

Statistique descriptive univariée

Introduction:
L’objectifs fondamentaux et le défis de la statistique descriptive : résumer de façon simple de grandes séries
statistiques tout en en conservant au mieux le contenu informationnel en limitant au maximum la perte
d'informations inhérente à ce processus réducteur. Afin d'y parvenir, la statistique a développé un certain nombre
d'outils pour d'une part caractériser et résumer au mieux des distributions statistiques et pour d'autre part mettre en
évidence, voire exacerber, le cas échéant, leurs différences. Deux groupes complémentaires de paramètres
permettent d'atteindre ces objectifs :
• Les paramètres de tendance centrale

• Les paramètres de dispersion
Ces deux groupes de paramètres sont complémentaires pour la description et le résumé de distributions statistiques
et on ne saurait faire abstraction de l'un ou de l'autre pour ces opérations

Le mode
Noté Mo, il correspond à la valeur qui apparaît le plus souvent dans une distribution, autrement la valeur qui a la fréquence (absolue ou
relative) la plus élevée. S'il s'agit de données non groupées, la valeur modale est clairement identifiable. Par contre, si l'on est en
présence de données groupées en classes, le mode se rapportera à la classe comportant le plus grand nombre d'individus : on parlera
alors de classe modale.
Attention ! Le mode est la seule mesure centrale qui peut être relevée et utilisée aussi bien pour des données qualitatives que
quantitatives.
Exemple 1 : en relevant les notes à un examen d'une classe de 28 élèves,
on obtient la série suivante :
S1 = {9;11;13;5;8;14;6;12;5;10;16;3;12;13;8;13;8;7;13;13;9;17;10;13;6;13;7;14}
qui triée devient :
S1 = {3;3;5;5;6;6;7;7;8;8;8;9;9;10;10;11;12;12;13;13;13;13;13;13;14;14;16;17}
à partir de laquelle on peut dresser le tableau de fréquences et l'histogramme suivants :
► La note « 13 » apparaît 6 fois. Elle est, avec une fréquence relative de (6/28)*100 = 21,4 %
la note la plus représentée de la distribution. Le mode Mo est donc ici égale à 13.

Le mode
Exemple 2: Examinons les notes obtenues au même examen par la classe voisine composée de 30 élèves:
S2 = {9;11;2;10;5;8;14;6;12;5;10;16;3;12;10;18;7;13;7;7;13;11;9;17;10;7;6;10;7;17} qui une fois triée devient :
S2 = {2;3;5;5;6;6;7;7;7;7;7;8;9;9;10;10;10;10;10;11;11;12;12;13;13;14;16;17;17;18} On obtient dès lors le tableau de fréquences et
l'histogramme suivants:
► Dans ce cas-ci, deux modalités présentent les fréquences les plus élevées :
les notes « 7 » et « 10 » avec toutes deux une fréquence relative
de 16,6 % (5 occurrences chacune).
La distribution comporte ici deux modes,
Mo1 = 7 et Mo2 = 10. On parle alors de distribution bimodale.

Le mode
Exemple 3: Dans une troisième classe, composée de 24 élèves, les notes obtenues au même examen sont les suivantes:
S3 = {3;12;16;5;3;7;10;7;16;5;11;13;11;9;13;9;10;12;8;15;15;8;19} qui une fois triée devient :
S3 = {3;3;5;5;7;7;8;8;9;9;10;10;11;11;12;12;13;13;15;15;16;16;19} On obtient par le fait le tableau de fréquences et l'histogramme
suivants:
► Dans cet exemple, le mode est une mesure non-significative.

C'est souvent le cas lorsque l'on est en présence d'une distribution contenant
peu de résultats. Le mode n'est évidemment pas suffisant pour caractériser
et résumer une distribution, On a donc inventer d 'autres paramètres,
d'autres mesures susceptibles de mieux caractériser et/ou différencier
es distribution. C'est le cas de la médiane.

Le mode
❖ Variable quantitative continue

Le mode ► Dans le cas où les classes ont la même amplitude on trouve la

même valeur du mode en se servant des effectifs ou des
densités. La valeur trouvée par calcul représente effectivement
celle à partir du graphe.

Le mode
Démonstration :

La médiane
Étymologiquement « médiane » signifie milieu, et c'est bien de ça dont il s'agit car la médiane est réellement le milieu
d'une distribution. Noté Me, la médiane correspond à la valeur de la distribution qui partage l'effectif total en deux sous-
effectifs de même taille de telle sorte que l'on puisse dire que 50 % des individus d'une population sont caractérisés par
une valeur supérieure à celle de la médiane et que 50 % des individus de cette même population ont une valeur inférieure
à la médiane.
Exemple: la médiane des revenus pour une population donnée correspond à la valeur du revenu pour laquelle on a 50 %
de la dite population dont le revenu est supérieur à cette valeur et 50 % dont le revenu est inférieur. On parle alors de
revenu médian. Le revenu médian par ménage dans le quartier Riyad était, en 2002, de 34 506 DH contre 17 640 DH
pour quartier Agdal.
Attention ! Contrairement au mode, la médiane est une mesure centrale qui ne peut être calculée et utilisée que pour des
variables quantitatives, continues ou discrètes et les variables qualitatives ordinales.

La médiane Pour le calcul de la note médiane il faut:

Comment calculer la médiane ? 1. Classer les valeurs de la série par ordre croissant. Cette opération a pour but
d'affecter un rang à chaque valeur et ainsi de déterminer plus facilement le milieu de
la série donc la médiane

La médiane
2. Déterminer si la série comporte un nombre n pair ou impair de valeurs. Deux cas peuvent alors se
présenter:
• Si n est pair , il n'y a pas possibilité d'identifier simplement la valeur qui partage la population en deux
effectifs égaux. Deux valeurs se situent au centre de la série et jouent ce rôle respectivement de rang
(n/2) et [(n/2)+1]. La médiane est alors égale à la moyenne des valeurs encadrant le milieu de la série.
C'est le cas dans la série de notes de la classe 1 composée de 28 valeurs. La médiane se situe entre le 14e
et le 15e rang et sa valeur est donc comprise entre 10 et 11. L'application de la règle sus mentionnée
nous donne donc une médiane Me de (10 + 11)/2 = 10,5
• Si n est impair alors il est possible d'identifier simplement la valeur qui partage la population en deux
effectifs égaux. Le rang central étant égal à [(n+1)/2]. C'est le cas dans la série de notes de la classe 3
composée de 23 valeurs. La médiane se situe au niveau du 12e rang et sa valeur est lue directement en
face de ce 12e rang, dans notre Me = 10

La médiane

La médiane
La médiane est la solution de l'équation F(x) = 0, 5. Pour la déterminer, on commence par déterminer la classe
médiane ]xi , xi+1] qui vérifie F(xi) < 0, 5 et F(xi+1) ≥ 0, 5
La médiane m (qui appartient à la classe médiane) est ensuite déterminée à partir d'une interpolation linéaire.
Prenons l'exemple ci-dessous « salaires mensuels (en milliers de dirhams) du personnel d'une entreprise »

La médiane
On a F(4) = 0, 44 < 0.5 et F(6) = 0.69 ≥ 0.5, la classe médiane est donc ]4, 6]. Nous utiliserons la courbe des
fréquences cumulées pour déterminer m. En considérant les triangles ABD et AIC de la figure à coté, on a

La moyenne
La moyenne constitue un autre paramètre de tendance centrale fondamental mais non suffisant pour caractériser une
distribution. Complémentaire du mode et surtout de la médiane, la moyenne constitue à n'en point douter, la mesure
la plus calculée et la plus utilisée lors de la description de séries statistiques. Il existe plusieurs types de moyennes,
chacun adapté à des situations précises :

❖ La moyenne arithmétique : C'est la plus simple et la communément utilisée. Elle peut être
simple ou pondérée.
Attention ! On ne peut pas calculer de moyenne arithmétique sur des données qualitatives.
• La moyenne arithmétique simple Sa version simple correspond à une somme de résultats
divisée par le nombre de résultats et s'écrit :
n=nombre de résultats (ou nombre d ' individus ou effectif total)

xi=valeur pour i=1 jusqu' à n
Exemple : la moyenne d’un élève qui a obtenu en mathématiques les 4 notes suivantes 15; 13; 9; 11 est :
15 + 13 + 9 + 11
ഥ=
𝒙 = 12
𝟒

❖ La moyenne arithmétique pondérée La moyenne arithmétique pondérée, donne dans son utilisation classique (c'est-à dire
lorsque tous les individus ont le même poids), le même résultat que la moyenne arithmétique simple.
Sa formule est cependant différente puisqu'elle introduit la notion de poids via un terme supplémentaire qui peut s'avérer utile dans
certaines situations, notamment lorsque justement les individus composant une population n'ont pas le même poids ou coefficient :
► En considérant un ensemble de données X ={x1, x2, x3, .. , xi ,... , xn } et une ensemble de poids non négatifs correspondants :
W ={w1,w2,w3,.. ,wi ,...,wn } Dans le cas général le poids wi représente l'influence de l'élément x i par rapport aux autres. La
formule de la moyenne pondérée s'écrit alors :
Exemple : Si le professeur pondère les notes des devoirs en attribuant des coefficient, par exemple, la moyenne pondérée sera
(15x1) + (13x1) + (9x2) + (11x2)
: 𝟔
= 11,33

❖ La moyenne géométrique : Sa définition purement mathématique est un peu rébarbative mais son utilité est grande comme
nous allons le démontrer. La moyenne géométrique de n valeurs positives xi est la racine nième du produit de ces valeurs., elle
s'écrit :
La moyenne géométrique est un instrument permettant de calculer des taux moyens, notamment des taux moyens annuels. Son
utilisation n’a un sens que si les valeurs ont un caractère multiplicatif.
Exemple : Les prix des voitures ont augmenté ces 8 dernières années de la façon suivante :
► En utilisant la moyenne arithmétique simple, on obtiendrait une évolution moyenne de
Année Variation annuelle (%)
(2 + 2 + 4 + 5 + 5 + 7 + 8 +10) / 8 = 43 / 8 = 5,375 % mais ce résultat est faux
1 2 compte tenu de la relation entretenue par les taux d'une année sur l'autre. L'utilisation
2 2 de la moyenne géométrique permet de solutionner ce problème :
3 4
4 5 𝟖 𝟖
ഥ=
𝑮 𝟐 × 𝟐 × 𝟒 × 𝟓 × 𝟓 × 𝟕 × 𝟖 × 𝟏𝟎 = 𝟐𝟐𝟒𝟎𝟎𝟎 = 𝟒, 𝟔𝟔%
5 5
6 7
Soit une hausse moyenne annuelle de 4,66 % contre 5,375 % avec la moyenne
7 8
arithmétique.
8 10

❖ La moyenne harmonique : On utilise la moyenne harmonique lorsqu’on veut déterminer un rapport moyen dans des domaines
ou ils existent des liens de proportionnalité inverse.
Exemples:
• Pour une distance donnée, le temps de trajet est d’autant plus court que la vitesse est élevée.
La moyenne harmonique de N valeurs est le nombre dont l'inverse est la moyenne arithmétique des inverses des dites valeurs. C'est
un peu compliqué comme définition ! Voilà ce que ça donne sous une forme mathématique :
La moyenne harmonique permet de calculer des moyennes sur des fractions si le dénominateur change. C'est le cas du calcul de la
vitesse moyenne parcourue dans un trajet aller/retour, la vitesse étant la valeur représentée par distance / temps.
Exemple: Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h,
20 km/h. calculer sa vitesse moyenne ?

.
– Si on calcule la moyenne arithmétique des vitesses, on obtient 𝒙
ഥ = (10 + 30 + 40 + 20)/ 4 = 25 km/h.
– Si on calcule la moyenne harmonique des vitesses, on obtient H = 4 /(1 /10 + 1/ 30 + 1/ 40 + 1/ 20) = 19.2
km/h. La moyenne harmonique est donc la manière appropriée de calculer la vitesse moyenne
❖ La moyenne quadratique : Une moyenne qui trouve des applications lorsque l'on a affaire à des phénomène
présentant un caractère sinusoïdal avec alternance de valeurs positives et de valeurs négatives. Elle est, de ce
fait, très utilisée en électricité. Elle permet notamment de calculer la grandeur d'un ensemble de nombre, elle s'écrit
:
Exemple : considérons les nombre suivants {-2, 5, -8, 9, -4 } Nous pouvons en calculer la moyenne arithmétique avec
l'inconvénient de voir se neutraliser les valeurs positives et négatives et d'aboutir à un résultat nul sans que cela ne nous
apprenne quoi que ce soit. En effet, x=0 Le calcul de la moyenne quadratique pour la même série donne 6,16

La moyenne
Relation entre les différentes moyennes D'une façon générale, pour une même
distribution, les résultats obtenus par les différentes moyennes décrites s'organisent
de la façon suivante :
Moyenne Harmonique ≤ Moyenne Géométrique ≤ Moyenne Arithmétique ≤

Moyenne Quadratique

Les quantiles
❖ Les quantiles sont les valeurs qui partagent la population en n parts égales.
1ère étape : Les données d’une population sont ordonnées de façon croissante.
2ème étape : La population étudiée est divisée en groupes d’effectif égal. Chaque groupe comporte le même nombre d’individus.
Les quantiles ont différents noms selon le nombre de parts dans la population.
- Si la population est séparée en 2, c’est une médiane.
- Si la population est séparée en 4, ce sont des quartiles.
- Si la population est séparée en 5, ce sont des quintiles.
- Si la population est séparée en 10, ce sont des déciles.
- Si la population est séparée en 100, ce sont des centiles.
Remarque
La médiane est le quantile d’ordre p = 1/2.On utilise souvent :
- x1/4 le premier quartile,
- x3/4 le troisième quartile,
- x1/10 le premier décile ,
- x1/5 le premier quintile,
- x4/5 le quatrième quintile,
- x9/10 le neuvième décile,

Les quantiles
Comment déterminer les quartiles Q1 et Q3 d'une série de N valeurs ?
on calcule la quantité ¼ de N = 1/4 × N = 0,25 × N =N:4
Deux cas sont possibles: soit le résultat est entier (la division tombe juste), soit non.
cas n°1: le résultat est entier (la division tombe juste)

- on vérifie que les valeurs sont rangées par ordre croissant
- Q1 est la nième valeur où n = N:4 - Q3 est la nième valeur où l'entier n' = ¾ de N = 3 /4×N =
3×N : 4
Exemple
Prenons les valeurs rangées dans l'ordre croissant : 1-3-3-3-5-5-6-7-7-8-8-8-9-9-10-10-10-10-11-11-12-
13-13-13-14-15-16-19 Il y a N = 28 valeurs, qui est divisible par 4 car 28:4=7 qui est entier n=N:4 = 7
donc Q1 = la 7ème valeur de la série rangée dans l'ordre croissant= 6 et n' = 3N:4 = 21 donc Q3 = la
21ème valeur de la série rangée dans l'ordre croissant= 13

Les quantiles
cas n°2: le résultat n'est pas entier
- on vérifie que les valeurs sont rangées par ordre croissant
- on arrondit le décimal N:4 à l'entier supérieur : l'entier n ; Q1 est la nième valeur
- on arrondit le décimal ¾ de N = 3 /4×N = 3N:4 à l'entier supérieur : l'entier n' ; Q3 est la n' ième valeur
Exemple
Prenons les valeurs rangées dans l'ordre croissant : 3-5-5-6-7-8-8-9-9-10-10-10-10-11-11-12-13-13-13-14-15-16-19 Il y
a N = 23 valeurs; N:4 = 5,75 donc Q1 est la 6ème valeur de la série rangée dans l'ordre croissant donc Q1= 8, 3N:4 =
17,25 donc Q3 est la 18 ème valeur de la série rangée dans l'ordre croissant donc Q3= 13
Comment interpréter des quartiles donnés?

si on connait les quartiles Q1 et Q3 d'une série, que peut-on en déduire?
• Au moins un quart (25%) des valeurs sont inférieures ou égales à Q1.
• Au moins trois quarts (75%) des valeurs sont inférieures ou égales à Q3.
• Environ la moitié des valeurs se trouvent dans l'intervalle interquartile [Q1 ; Q3]

Les quantiles
Des techniques similaires à celles utilisées pour déterminer la médiane dans le cas continue permettent de déterminer ces
indicateurs.
Pour le premier quartile
Pour le troisième quartile

Les quantiles

Exercice 1:
On considère les deux séries statistiques définies par les tableaux T1 et T2 ci-dessous :
T1
Valeurs -80 -40 0 40 80
Effectifs 15 27 10 23 25
T2
Valeurs 20 60 100 140 180
Effectifs 15 27 10 23 25
1) Calculer la moyenne de la série statistique correspondant à T1 Déduire de ce résultat la moyenne de la série
correspondant à T2
2) Lors de l'étude sur la résistance d'un type de fil, on a réalisé cent expériences de rupture et on a noté à chaque fois la
charge limite provoquant la rupture. Les résultats sont consigné dans le tableau suivant:
Charges(en g) [700;740[ [740;780[ [780;820[ [820;860[ [860;900[

Effectifs 15 27 10 23 25
Utilisez un des deux résultats précédents pour obtenir rapidement la moyenne de la charge de rupture

Exercice 1: « Correction »
1. La moyenne de la série statistique correspondant à T1 est égale à :
On remarque que les valeurs de la série statistique du tableau T2 sont égales à celles du tableau T1 augmentées de 100,
les effectifs correspondants étant identiques.
La moyenne de la série correspondant à T2 est donc égale à celle de de la série correspondant à T1 augmentée de 100,
donc : X2=X1+100=106,4.
1. Pour calculer la moyenne de la charge de rupture, il faut considérer les milieux de chaque classe, donc la série
statistique :
On reconnaît les valeurs de la série statistique correspondant à T2 augmentées de 700.

La moyenne de la charge de rupture vaut donc X2+700=106,4+700=806,4 grammes

Exercice 2:
Un relevé des durées des communications téléphoniques effectués dans un central téléphonique a fourni les
informations consignées dans le tableau suivant (l'unité de durée est la minute)
Intervalle de durée [0;2[ [2;4[ [4;6[ [6;8[ [8;10[ [10;12[
Effectif 14 16 25 15 17 13
1) Calculer la durée moyenne d'un appel

2) On regroupe les classes par deux, ce qui revient à considérer les classes [0;4[, [4,8[ et [8;12[.Calculer la durée
moyenne d'un appel pour cette nouvelle série
3) Quelle conclusion pouvez-vous formuler ?

1) Pour calculer la moyenne de cette série statistique, on prend en compte le milieu des classes, à savoir :
La durée moyenne d’un appel vaut donc :
2) La nouvelle série statistique est donc:
Pour calculer la moyenne de cette série statistique, on prend en compte le milieu des classes, à savoir :
3) Selon la manière de regrouper les communications

téléphoniques, les résultats peuvent être différents.

Exercice 3:
Le tableau ci-dessous donne la répartition des salaires mensuels, en euros, des employés d’une
entreprise :
Salaire [800 ;900[ [900 ;1000[ [1000 ;1050[ [1050 ;1150[ [1150 ;1300[
Effectif 42 49 74 19 16
1) Calculer le salaire moyen dans cette entreprise. Que penser d’un tel résultat ?
2) Calculer de manière précise le mode, la médiane , et les quartiles Q1 et Q3 .

1) Pour calculer le salaire moyen de l’entreprise, il faut considérer le milieu de chaque classe :
Le calcul de la moyenne est donc : 993 euros

Le salaire moyen dans cette entreprise est donc de 993 €. Il n’est pas forcément très représentatif de cette entreprise,
car plus de la moitié des employés y gagnent plus de 1000 euros !
2) Pour répondre à cette question, il faut dresser le tableau des effectifs cumulés croissants :
165 employés gagnent au plus 1050 euros

Exercice 4:
La température est relevée chaque heure pendant 4 jours dans une forêt. Les 97 résultats
obtenus ont été triés et sont rassemblés dans le tableau suivant :
Température 14,5 15 15,5 16 16,5 17 17,5 18 18,5 19 19,5
Nbr de fois ou cette température a été relevée 5 7 10 12 15 10 11 9 7 7 4
1) Déterminer la médiane M, les quartiles Q1 et Q3 de cette série statistique.

2) On appelle premier décile (noté D1) la plus petite valeur de la température telle qu’au
moins 10% des valeurs sont inférieures ou égales à D1. On appelle neuvième décile (noté
D9) la plus petite valeur telle qu’au moins 90% des valeurs lui sont inférieures ou égales.
Justifier que D1 = 15 et calculer D9.

1. (97+1)/2 = 49 ; en faisant les cumuls la

médiane tombe sur 16,5 °, Q1 à 16 ° et Q3 à 18 °.
2. 10 % de 97 = 9,7 d’où D1 = 15 ° ; 90 % de 97
est 87,3 donc D9 vaut 19 °

Exercice 5:
Un industriel a commandé à un sous-traitant un lot de 40 pièces dont le diamètre doit mesurer 80 mm et il est
convenu que le lot ne sera accepté que si les deux conditions suivantes sont simultanément réalisées : Première
condition : l’écart entre 80 mm et la moyenne x du lot est inférieur à 0,05 mm Deuxième condition : Au moins 60
% des pièces du lot ont un diamètre d tel que 80 - 0,05 ≤ d ≤ 80 + 0,05 (1) Les mesures faites sur le lot sont les
suivantes :
Mesure de d à 79,75 79,80 79,85 79,90 79,95 80 80,05 80,10 80,15 80,20
0,05 mm près
Nbr de pièce 1 2 3 5 6 14 5 2 1 1
1) Le lot est-il accepté ou refusé par l’industriel ? Justifier la réponse

Exercice 5: Correction »
La moyenne des mesures faites vaut :
• Le nombre de pièces dont le diamètre d vérifie la double inégalité (1) est égal à
6+14+5=25, soit un pourcentage égal à 25/40 *100 = 62,5%
• L’écart entre la moyenne x et 80 mm étant égal à 80−79,9725=0,0275<0,05, et plus de 60
% des pièces ayant un diamètre d vérifiant la double inégalité (1), le lot sera accepté.

Les paramètres de dispersion

Pour caractériser et résumer une distribution il est nécessaire de fournir deux mesures : une
reflétant le centre de la distribution (mesures de tendance centrale) et une autre renseignant sur
la dispersion ou l'éparpillement des données autour notamment des paramètres de tendance
centrale. Nous étudierons quatre paramètres de dispersion :
• Minimum, maximum, étendue et rapport de variation

• L'intervalle interquartile
• La variance
• L'écart-type

Minimum, maximum, étendue et rapport de variation d'une

distribution
Minimum et maximum d'une série statistique correspondent respectivement et comme leur nom
l'indique à la valeur minimale et à la valeur maximale rencontrées dans ladite série. Ces deux
paramètres ont une triple utilité: ils permettent,
1. de calculer l'étendue de la distribution, également appelée intervalle de variation (IV), c'est-à-

dire l'écart entre le minimum et le maximum. La connaissance de ce paramètre est indispensable
à toute opération de discrétisation. Il permet également, pour une même variable, de comparer
plusieurs distributions IV =Max−Min
2. de calculer le rapport de variation (RV) , c'est-à-dire le rapport de la valeur maximale de la
distribution à la valeur minimale de la même distribution. Utile également lorsque l'on souhaite
comparer, pour une même variable, différentes distribution entre elles. RV= V max/ V min


distribution
Exemple: les notes d'élèves de deux classes au même examen.
Le rapport de variation nous apprend que dans la

classe 1 la meilleure note est 5,7 fois plus élevée
que la note la plus faible. Ce rapport est plus
important dans la classe 3 pour laquelle il est 6,3.


distribution

L'écart interquartile
Q1 étant le premier quartile et Q3 le troisième quartile, l'écart interquartile est la différence entre le
troisième et le premier quartile, il est noté R(Q) = Q3 − Q1.
L'intervalle [Q1, Q3] est appelé intervalle interquartile. Il contient 50% des observations, le reste
se réparti avec 25% à gauche de Q1 et 25% à droite de Q3. L'écart interquartile R(Q) est la largeur
de l'intervalle interquartile. C'est une mesure de longueur de cet intervalle et donc une mesure de
dispersion des données autours de la médiane.
• Plus il est grand, plus les données sont dispersées autours de la médiane.
• Plus il est petit, plus les données sont proches de la médiane.
Reprenons l'exemple de la distribution des salaires mensuels. L'intervalle interquartile est [3, 24; 6,
19] et l'écart interquartile est R(Q) = 6, 19 − 3, 24 = 2, 85

Diagramme en boîte
Ce diagramme est aussi appelé boîte à moustaches. Il utilise
la valeur du 1er quartile Q1 (qui correspond à 25% des
effectifs), la valeur du 2eme quartile Q2 = m (la médiane
qui correspond à 50% des effectifs), la valeur du 3eme
quartile Q3 (qui correspond à 75% des effectifs), l'écart
interquartile R(Q) et les valeurs minimum et maximum de la
série. On représente sur un axe gradué (horizontal ou vertical)
les différentes valeurs de la série Q1, Q2, Q3, Xmin, Xmax
ainsi que Q1 − 1.5 × R(Q) et Q3 + 1.5 × R(Q). Le
diagramme est formé d'un rectangle ayant pour extrémité
inférieure le 1er quartile et pour extrémité supérieure le 3eme
quartile. A l'intérieur de ce rectangle, on trace un segment
représentant la médiane. A gauche et à droite de ce rectangle,
on trace deux segments appelé “moustaches” inférieure et
supérieure qui ont pour extrémité respectivement Q1 − 1.5 ×
R(Q) et Q3 + 1.5 × R(Q).

Diagramme en boîte « boîte à moustaches »

La boîte a pour largeur l'écart interquartile (Q3−Q1). les moustaches
sont basées généralement sur 1.5 fois la largeur de la boîte. Dans ce
cas, une valeur est atypique ou aberrante si elle dépasse de 1.5 fois
l'écart interquartile à gauche du 1er quartile ou à droite du 3eme `
quartile. La boîte à moustaches permet de répondre à certaines
questions :
• Existe-t-il des observations atypiques ? en les repérant et les
identifiant
• La distribution est-elle symétrique ? en repérant la position de la
médiane dans la boîte.
• La partie centrale (50% des effectifs) est-elle plus ou moins
concentrée ou étalée par rapport au reste de la distribution ?
• Comparaisons de distributions selon des groupes ? Pour comparer
les distributions d'une même variable selon les groupes, on juxtapose
sur le même graphique les boîtes à moustaches définies
respectivement pour les groupes en utilisant la même échelle.

Interprétation d’une boîte à moustaches
1. Distribution symétrique
2. Distribution peu dispersée
3. Distribution étalée vers les valeurs élevées
4. Distribution étalée vers les valeurs faibles

La variance et l'écart-type (Variable quantitative discrète)

La variance est un résumé statistique qui mesure la concentration ou la dispersion des observations autour de la moyenne. L'écart-
type permet d'avoir une idée de la façon dont les valeurs de la série s'écartent par rapport à la moyenne, c'est donc une mesure de
dispersion. Un écart-type faible correspond à une série concentrée autour de la moyenne.

La variance et l'écart-type (Variable quantitative continue)
où ci est le centre de la classe associée à ni

Le coefficient de variation
Le coefficient de variation est une mesure de la dispersion des données autour de la moyenne. Le coefficient de
variation se calcule comme le ratio de l'écart-type rapporté à la moyenne, et s'exprime en pourcentage. Il s'écrit
► Si CV < 0, 5 alors la dispersion n'est pas importante. Si CV > 0, 5 alors

la dispersion est importante.
Exemple : Dans une maternité on a relevé le poids ( en kg ) à la naissance de 47 nouveau-nés. Les données collectées sont résumées
dans le tableau suivant :
► Le coefficient de variation étant faible,

le poids à la naissance est concentré
autour de la moyenne.

Exercice 1 :
Le tableau suivant donne les températures moyennes par mois de la ville 1 et la ville 2 en
degrés Celsius.
Mois 1 2 3 4 5 6 7 8 9 10 11 12
Ville 1 -5 -4 4 15 27 31 31 30 26 20 10 -5
Ville 2 3 4 7 10 14 17 19 18 16 17 7 6
1)Calculer la moyenne, l'étendue, la variance et l'écart-type des températures mensuelles

pour chacune de ces deux villes.
2) Comparer et analyser les résultats obtenus.

Exercice 1 : « Correction »
▪ Ville 1 : ▪ Ville 2:
L’étendue = 31 – ( -5) = 36° L’étendue = 19 – 3 = 16°
La température moyennes = 15° La température moyennes = 11,5°
La variance = 194,5 La variance = 32,25
L’écart type 𝝈 = 𝟏𝟗𝟒, 𝟓 = 𝟏𝟑, 𝟗𝟓 L’écart type 𝝈 = 𝟑𝟐, 𝟐𝟓 = 𝟓, 𝟔𝟖
• En moyenne il fait plus chaud à la ville 1 qu’à la ville 2.

• L’étendue des températures est plus fort à la ville 1
• Le climat est plus stable à la ville 2.

Exercice 2:
Lors d'un examen écrit, un correcteur a obtenu les notes suivantes (sur 20), sur 80 copies corrigées :
11,11,11,7,6,13,13,7,4,9,5,10,11,8,14,15,8,10,4,9,7,7,9,12,10,14,18,6,9,10,13,9,12,8,10,5,7,13,12,12,13,11,9,11,9,8,10,14
,10,11,9,7,7,6,10,6,11,10,8,8,11,7,6,8,11,12,14,9,12,7,8,8,16,14,9,10,7,10,10,12
1) Calculer la moyenne x et l'écart type σ de la série

2) Un échantillon de notes est dit "normal" si environ 27 % des notes sont en dehors de l'intervalle
et 5 % en dehors de l'intervalle . L'échantillon obtenu est-il normal ?

1) Afin de calculer la moyenne x et l’écart type σ de la série, il faut réorganiser cette série en effectifs :
On calcule alors :
Puis la variance :
donc l’écart-type :
L’intervalle [9,725−2,78;9,725+2,78]=[6,945;12,505] contient 58 notes, soit un pourcentage égal à

58/80 * 100 =72,5%. Environ 27,5 % des notes sont donc en dehors de cet intervalle
L’intervalle [9,725−2×2,78;9,725+2×2,78]=[4,165;15,285] contient 76 notes, soit un pourcentage
égal à 76/80 *100 = 95%. Environ 5 % des notes sont donc en dehors de cet intervalle.
L’échantillon de notes est donc « normal »

Exercices
Exercice 3 :
Un supermarché reçoit 101 caissettes comprenant chacune 9 produits. La distribution du
nombre de produits abîmés par caissettes est décrite dans le tableau suivant
Nb de produits abimés 0 1 2 3 4 5 6 7 8 9
Nb de caissettes 12 30 31 17 5 1 2 2 0 1
a) Construire le diagramme en barre. Quel est le mode de la série ?

b) Quelle est en moyenne le nombre de produits abîmées par caissettes ?
c) Calculer la médiane, la variance et l’étendue du nombre de produits abimées par caissettes.

Exercices
a) variable quantitative discrète

b) 11.88, 29.7, 30.69, 16.8, 4.95, 0.99, 1.98, 1.98, 0, 0.99
c) mode = 2
d) moyenne = 2.01
e) médiane = 2, variance (s^2) = 2.54, E = 9.

Exercices
Exercice 4 :
Le syndrome de bradycardie - tachycardie est un trouble du rythme cardiaque
se caractérisant par des alternances :
•De bradycardie (diminution du rythme cardiaque au-dessous de 60
battements par minute).
•De tachycardie (augmentation du rythme cardiaque au-dessus de 100
battements par minute). On dispose du nombre de battements du cœur par
minute (bpm) de 33 personnes .
25 66 74 82 86 93 59 58 46 67 90 60 92 129 135 152 57

28 73 77 83 85 80 76 100 59 79 910 59 122 130 135 154
Déterminer la médiane, les 1er et 3ème quartiles , dessiner la boite à moustache et interpréter .

RANG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
battement en Bpm 25 28 46 57 58 59 59 59 60 66 67 73 74 76 77 79 80 82 83 85 86 90 92 93 100 122 129 130 135 135 152 154 910
Q1 = 60 BPM
Q2= 80 BPM
Q3=100 BPM
910 BPM est une valeur aberrate liée à un dysfonctionnement ‘d’un capteur par exemple’
50% des personnes sont en bonne santé leurs fréquence cardiaque et entre 60 et 80 BPM
25% souffre d’une bradycardie
25% souffre d’une tachycardie

Exercices
Exercice 5 :
Les observations relatives à la variable « poids » obtenues sur la population des étudiants masculins sont transcrites dans
le tableau suivant :
68 70 67 75 72 71 67 65 60 60 65 65 77 95 85 70 70 72 66 75
90 65 62 70 52 60 59 65 68 71 97 65 57 75 77 75 85 56 77 67
62 52 67 72 79 60 72 69 58 55 75 75 78 65 95 65 90 72 72 60
a) Répartir les 60 données correspondant aux étudiants masculins en 5 classes d’amplitude constante de 10 kg [50,60[,
[60,70[, [70,80[ , [80,90[, [90,100[ dans un tableau qui reprendra les fréquences, fréquences cumulées et les
fréquences relatives. Représenter l’histogramme correspondant. Quelle est la classe modale ?
b) Déterminer la médiane, la moyenne, l'écart-type, les trois quartiles ainsi que l'écart interquartile de la série.
c) Dessiner la boite à moustache de cette série de donnée

Paramètre de forme
Une distribution est dite symétrique si le mode, la médiane et la moyenne sont confondus. Une distribution qui n'est pas
symétrique est dite asymétrique Remarque : Une variable statistique est symétrique si ses valeurs sont réparties de manière symétrique
autour de la moyenne c'est à dire si le polygône des fréquences a la forme d'une clôche comme dans la figure ci-après
A la différence de la médiane et du mode, la moyenne arithmétique est fortement influencée par les valeurs extrêmes.
Lorsque les valeurs sont distribuées de manière symétrique, la moyenne arithmétique coïncide avec la médiane et le
mode. Lorsque la distribution est asymétrique, la moyenne arithmétique dépasse la médiane si les valeurs extrêmes sont élevées et se
situe en dessous de la médiane si les valeurs extrêmes sont basses.

Paramètre de forme
• Une distribution est dite asymétrique à droite, si la courbe du polygone des fréquences est étalée
à droite, on a généralement : mode < médiane < moyenne.
• Une distribution est dite asymétrique à gauche, si la courbe du polygone des fréquences est
étalée à gauche, on a généralement : moyenne < médiane < mode.
La figure ci-dessous illustre ces différents cas lorsque la distribution ne présente qu'un seul mode.

Coefficient d'asymétrie
le coefficient d'asymétrie a pour rôle de fournir une mesure de dissymétrie d'une distribution.
𝟑(ഥ𝒙 − 𝑴𝒆 ) Sa valeur est généralement comprise entre -1 et +1:
𝜷𝟏 = β1 < 0 distribution dissymétrique à gauche
𝝈
❖ Coefficient d'asymétrie de Pearson (ഥ
𝒙 − 𝑴𝒐 ) β1 = 0 distribution symétrique
𝜷𝟏 =
𝝈 β1 > 0 distribution dissymétrique à droite
Lorsque la distribution statistique est unimodale , on peut se basé sur une comparaison de la moyenne et du mode
-1 ≤ CY < 0 distribution dissymétrique à gauche

❖ Coefficient d'asymétrie de Yule CY = 0 distribution symétrique
0 < CY ≤ 1 distribution dissymétrique à droite
Le signe du coefficient de Fischer indique le sens de la

❖ Coefficient d'asymétrie de Fisher dissymétrie :
γ1 < 0 distribution dissymétrique à gauche
γ1 = 0 distribution symétrique
γ1 > 0 distribution dissymétrique à droite

❖ Le Coefficient d'aplatissement
Les mesures d'aplatissement font partie des mesures qui caractérisent la forme d'une distribution. Elles caractérisent le degré
d'aplatissement de la distribution par rapport à l'aplatissement de la distribution normale («courbe en cloche»2 ). Il est alors utile de
pouvoir mesurer si la forme de la distribution présente une déviation par rapport à l'aplatissement de la distribution normale. Une
distribution est platicurtique ou hyponormale si la courbe est plus aplatie que la courbe normale; elle est leptocurtique ou
hypernormale si la courbe est plus pointue que la courbe normale.
❖ Le coefficient d'aplatissement de Pearson :
β2 > 3 courbe leptocurtique ou hypernormale

β2 = 3 courbe normale ‘mésokurtique’
β2 < 3 courbe platicurtique ou hyponormale

Exercices
Exercice 1:
Une enquête menée auprès de 1500 ménages d'une certaine région géographique rurale s'est intéressée à la variable
correspondant à la taille du ménage, c'est-à-dire au nombre de personnes constituant le ménage. Les données
recueillies peuvent être présentées sous la forme du diagramme en bâtons suivant.
La boîte à moustaches associée à cette série est représentée ci-

dessous.
On a par ailleurs déterminé que la taille moyenne des 1500 ménages était égale à 2.67 et que la variance des
tailles des ménages s'élevait à 2.27. Calculer les trois coefficient d’asymétrie et interpréter.

Exercice 1: « Correction » • Le moment centré d'ordre 3 vaut :

4246.5390
= 𝟐, 𝟖𝟑
𝟏𝟓𝟎𝟎
Taille du
• L’écart type 𝜎 = 2.27 = 1,50
ménage Effectif 𝒏𝒊 (𝒙𝒊 − 𝒙
ഥ) ഥ) 𝟑
(𝒙𝒊 − 𝒙 ഥ) 𝟑
𝒏𝒊 (𝒙𝒊 − 𝒙
𝒙𝒊
Le coefficient d'asymétrie de Fisher est donc égal
𝟐,𝟖𝟑
1 380 -1.67 -4.6575 -1769.8359 𝜸 = 𝟏,𝟓𝟎𝟑 = 𝟎, 𝟖𝟐 ;
2 455 -0.67 -0.3008 -136.8472 • γ1 > 0 distribution dissymétrique à droite
3 245 0.33 0.0359 8.8046 • Le diagramme en bâtons nous indique que le mode
4 230 1.33 2.3526 541.1065 M=2
• Le coefficient d'asymétrie de Pearson
5 100 2.33 12.6493 1264.9337 (𝟐,𝟔𝟕−𝟐)
𝜷𝟏 = =0,44 ;
6 75 3.33 36.9260 2769.4528 𝟏,𝟓𝟎
7 10 4.33 81.1827 811.8274

• β> 0 distribution dissymétrique à droite
8 5 5.33 151.4194 757.0972 • La boîte à moustaches nous indique que
Total 1500 4246.5390 𝑸𝟏 = 𝟏 ; 𝑸𝟐 = 𝟐 ; 𝑸𝟑 = 𝟒.
• Coefficient d'asymétrie de Yule :
les trois coefficients d'asymétrie sont positifs. Il ne faut pas s'étonner 𝑪𝒚 = 𝑸𝟑 +𝑸𝟏 −𝟐𝑸𝟐 = 𝟒+𝟏−𝟐∗𝟐 = 𝟎, 𝟑𝟑
𝑸𝟑 −𝑸𝟏 𝟒−𝟏
qu'ils n'aient pas la même valeur, puisqu'ils ne mesurent pas
• 0 < CY ≤ 1 distribution dissymétrique à droite
l'asymétrie de la même façon.

Exercices
Exercice 2 :
La répartition des ménages d'un village en fonction du nombre de personnes constituant le ménage est donnée ci-
dessous : Nb de personnes dans le
1 2 3 4 5 6
ménages xi
Nb de ménages
211 263 121 109 83 20 807
concernés ni
a) Déterminer la distribution des fréquences et des fréquences cumulées.

b) Construire le diagramme en barre. Quel est le mode de la série ?
d) Quel le nombre habitants dans le village ?
e) Quelle est la moyenne du nombre de personnes par ménage dans le village ?
f) Calculer la variance, les trois quartiles ainsi que l'écart interquartile de la série.
h) Calculer le coefficient d’asymétrie de Yule , et d’aplatissement de Pearson et interpréter

Exercices
Exercice 2 : « Correction » ni
xi ni fi Fi (𝒙𝒊 − 𝒙ഥ) (𝒙𝒊 − 𝒙ഥ) 𝟐 ni(𝒙𝒊 − 𝒙ഥ) 𝟐 (𝒙𝒊 − 𝒙ഥ) 𝟒 ni(𝒙𝒊 − 𝒙ഥ) 𝟒
1 211 26,15% 26,15% -1,57 2,45 517,64 6,02 1269,92
6 20
2 263 32,59% 58,74% -0,57 0,32 84,34 0,10 27,04
3 121 14,99% 73,73% 0,43 0,19 22,76 0,04 4,28
4 109 13,51% 87,24% 1,43 2,06 224,05 4,23 460,53 5 83
5 83 10,29% 97,52% 2,43 5,92 491,60 35,08 2911,72
6 20 2,48% 100,00% 3,43 11,79 235,81 139,01 2780,23 4 109
Totaux 807 1 1576,20 7453,74
Mode 2 0,33 0 < CY ≤ 1 distribution dissymétrique à droite 3 121
𝑪𝒚
moyenne 2,57
Médiane 2 0,63 β2 < 3 courbe platicurtique ou hyponormale 2 263
𝜷𝟐
ECARTYPE 1,40
var 1,95
1 211
Q1 1
Q3 4,00
0 100 200 300
R(Q) 3
𝝁𝟒 9,24

Exercices
Exercice 3 :
Les poids de 21 boxeurs ayant déposé une candidature pour une gala de boxe sont donnés dans le tableau suivant :
Classe xi ni
[45,50[ 47,5 2
[50,55[ 52,5 4
[55,60[ 57,5 7
[60,65[ 62,5 5
[65,70[ 67,5 3
21
1. Représenter graphiquement cette série
2. Déterminer la médiane, la moyenne, l'écart-type, les trois quartiles ainsi que l'écart interquartile de la série.
3. Calculer les coefficients d’asymétrie 𝜷𝟏 "Pearson " et CY "Y𝐮𝐥𝐞" et d’aplatissement 𝜷𝟐 et interpréter.

Exercices
Classe xi ni fi Fi (𝒙𝒊 − 𝒙ഥ) (𝒙𝒊 − 𝒙
ഥ) 𝟐 ni(𝒙𝒊 − 𝒙
ഥ) 𝟐 (𝒙𝒊 − 𝒙
ഥ) 𝟒 ni(𝒙𝒊 − 𝒙
ഥ) 𝟒
[45,50[ 47,5 2 0,10 0,10 -10,714 114,796 229,59 13178,10 26356,21
[50,55[ 52,5 4 0,19 0,29 -5,714 32,653 130,61 1066,22 4264,89
[55,60[ 57,5 7 0,33 0,62 -0,714 0,510 3,57 0,26 1,82
[60,65[ 62,5 5 0,24 0,86 4,286 18,367 91,84 337,36 1686,80
[65,70[ 67,5 3 0,14 1,00 9,286 86,224 258,67 7434,66 22303,99
21 1 714,29 54613,70
écart type 7,63 fi

var 34,01 𝜷𝟏 0,006 0,40
moyenne 58,214 𝑪𝒚 0,034 0,30
médiane 58,200 𝜷𝟐 0,767
0,20
Q1 54
Q3 62,7 0,10
R(Q) 8,7 0,00
𝝁𝟒 2600,65 [45,50[ [50,55[ [55,60[ [60,65[ [65,70[

Distributions statistiques à deux variables « Bivariée »

On s'intéresse à deux variables x et y. Ces deux variables sont mesurées sur les n
unités d’observation. Pour chaque unité, on obtient donc deux mesures. La série
statistique est alors une suite de n couples des valeurs prises par les deux variables sur
chaque individu : (x1, y1), . . . ,(xi , yi), . . . ,(xn, yn).
Chacune des deux variables peut être, soit quantitative, soit qualitative.

Représentation graphique de deux variables

Dans ce cas, chaque couple est composé de deux valeurs numériques. Un couple de nombres (entiers ou réels) peut
toujours être représenté comme un point dans un plan (x1, y1), . . . ,(xi , yi), . . . ,(xn, yn).
Exemple : On mesure le poids Y et la taille X de 20 individus

75
Yi Xi Yi Xi 70
60 155 75 180
61 162 76 175 65
64 157 78 173 60
67 170 80 175
68 164 85 179 55
69 162 90 175 50
70 169 96 180
45
70 170 96 185
72 178 96 189 40
73 173 101 187 140 145 150 155 160 165 170 175 180

Analyse des variables

❑ Les variables x et y peuvent être analysées séparément. On peut calculer tous les paramètres dont les moyennes
et les variances :
Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes marginales, écarts-types
marginaux, quantiles marginaux, etc.. . .
❑ Covariance
La covariance entre deux variables est un nombre permettant de quantifier leurs écarts conjoints par rapport à
leurs moyennes respectives elle est définie :

Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux , donne une mesure de l'intensité et du sens
de la relation linéaire entre deux variables :
– Le coefficient de corrélation mesure la dépendance linéaire entre deux variables :

– −1 ≤ rxy ≤ 1,
– Si le coefficient de corrélation est positif, les points sont alignés le long d’une droite croissante.
– Si le coefficient de corrélation est négatif, les points sont alignés le long d’une droite décroissante.
– Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de dépendance linéaire. On peut cependant avoir une
dépendance non-linéaire avec un coefficient de corrélation nul.
Si l'examen du nuage de points indique qu'on peut supposer une relation de type linéaire entre X et Y (rxy > 0.8 ; rxy < -0.8) ,
alors on cherche à déterminer les réels a et b de la droite « Régression linéaire »

Droite de régression « régression linéaire »

La droite de régression est la droite qui ajuste au mieux un nuage de points au sens des moindres carrés. On considère
que la variable X est explicative « indépendante » et que la variable Y est dépendante « expliquée ». L’équation
d’une droite est y = ax + b.
Le problème consiste à identifier une droite qui ajuste bien le nuage de points.
Si les coefficients a et b étaient connus, on pourrait calculer les résidus de la régression définis par : ei = yi − b − axi .
Le résidu ei est l’erreur que l’on commet en utilisant la droite de régression pour prédire yi à partir de xi . Les résidus
peuvent être positifs ou négatifs.

Pour déterminer la valeur des coefficients a et b on utilise le principe des moindres carrés qui consiste à chercher la
droite qui minimise la somme des carrés des résidus :
𝒏 𝒏
𝑴 𝒂, 𝒃 = ෍ 𝒆𝟐𝒊 = ෍(𝒚𝒊 − 𝒃 − 𝒃𝒙𝒊 )²

𝒊=𝟏 𝒊=𝟏
Les coefficients a et b qui minimisent le critère des moindres carrés sont donnés par :
𝒔𝒙𝒚
𝒂 = 𝟐 (𝒍𝒂 𝒑𝒆𝒏𝒕𝒆)
𝒔𝒙
𝒔𝒙𝒚
𝒃= 𝒚 ഥ − 𝒂ഥ𝒙=𝒚 ഥ− 𝟐 𝒙 ഥ
𝒔𝒙
La droite de régression est donc 𝒔𝒙𝒚 𝒔𝒙𝒚

𝒚 = 𝒂𝒙 + 𝒃 = ഥ−
𝒙+𝒚 ഥ
𝒙
𝒔𝟐𝒙 𝒔𝟐𝒙
La droite de régression de y en x n’est pas la même que la droite de régression de x en y.

Résidus et valeurs ajustées

Les valeurs ajustées sont obtenues au moyen de la droite de régression : y i* = axi +b.
Les valeurs ajustées sont les prédictions des yi réalisées au moyen de la variable xi et de la droite de régression de y en x.
Les résidus sont les différences entre les valeurs observées et les valeurs ajustées de la variable dépendante.
ei = yi − y i* .

Exercice: Considérons dans une entreprise, la variable X : les dépenses en milliers de dirhams en publicité et Y : les
ventes en milliers de dirhams des articles produit
x y
1,7 50
3 100
2 75
1,5 45
0,6 20
1,6 50
1. Représentez graphiquement l’évolution des ventes en fonction des dépenses publicitaire.

2. Vérifier s’il existe une dépendance linéaire entre X et Y , si oui déterminer la droite de tendance de cette
série par la méthode des moindres carrés. Représenter la droite dans le même graphique.
3. Combien on va pouvoir vendre d’articles si on dépense 5,2 K DH en publicité ?
4. Mesurer la qualité de cet ajustement.

Exercice: « Correction » 120
100
y = 34,492x - 2,5448
xi yi (𝐱 𝐢 − 𝐱ത) (𝐲𝐢 − 𝐲ത) (𝐱 𝐢 − 𝐱ത) 𝟐 (𝐲𝐢 − 𝐲ത) 𝟐 (𝐱 𝐢 − 𝐱ത) (𝐲𝐢 − 𝐲ത) R² = 0,9649
80
1,70 50,00 -0,02 -6,67 0,00 44,44 0,11
60
3,00 100,00 1,28 43,33 1,65 1877,78 55,61
40
2,00 75,00 0,28 18,33 0,08 336,11 5,19
1,50 45,00 -0,22 -11,67 0,05 136,11 2,53 20
0,60 20,00 -1,12 -36,67 1,25 1344,44 40,94 0

0 1 2 3 4
1,50 50,00 -0,22 -6,67 0,05 44,44 1,44
totaux 10,30 340,00 8,58 283,33 3,07 3783,33 105,83
moyenne 1,72 56,67
Var 0,51 630,56
cov 17,64
coefficient de
0,98 Y=35,5 x -2,55
corrélation
Pour 5,2 de dépenses : 176,85 k
la pente a 34,49
la constante b -2,54 MAD = 35,5 * 5,2 – 2,55

Exercice: La consommation de crèmes glacées par individus a été mesurée pendant 10 périodes chez un artisan.
L’objectif est déterminé si la consommation dépend de la température. Les données sont dans le tableau ;
Xi « Température » Yi « Consommation »
21 386
36 374
43 393
48 425
49 406
45 344
41 327
27 288
12 209
4 156
1.Donnez les moyennes marginales, les variances marginales et la covariance entre les deux variables.
2. la consommation de glaces est-elle dépendante de la température? Si oui Donnez la droite de
régression.
3. Donnez les valeur ajustée et les résidu des observations du tableau.

Exercice: « Correction » 450 y = 4,8943x + 175,25

400
xi yi (𝐱 𝐢 − 𝐱ത) (𝐲𝐢 − 𝐲ത) (𝐱 𝐢 − 𝐱ത) 𝟐 (𝐲𝐢 − 𝐲ത) 𝟐 (𝐱 𝐢 − 𝐱ത) (𝐲𝐢 − 𝐲ത) 350
21 386 -11,60 55,20 134,56 3047,04 -640,32 300
36 374 3,40 43,20 11,56 1866,24 146,88 250
43 393 10,40 62,20 108,16 3868,84 646,88 200

150
48 425 15,40 94,20 237,16 8873,64 1450,68
100
49 406 16,40 75,20 268,96 5655,04 1233,28 50
45 344 12,40 13,20 153,76 174,24 163,68 0
41 327 8,40 -3,80 70,56 14,44 -31,92 0 10 20 30 40 50 60
27 288 -5,60 -42,80 31,36 1831,84 239,68 yi

valeur
Résidu
12 209 -20,60 -121,80 424,36 14835,24 2509,08 ajustée
4 156 -28,60 -174,80 817,96 30555,04 4999,28 386 275,75 110,25
374 346,93 27,07
totaux 326,00 3308,00 2258,40 70721,60 10717,20
393 380,15 12,85
moyenne 32,60 330,80 425 403,88 21,12
Var 225,84 7072,16 406 408,63 -2,63
cov 1071,72 344 389,64 -45,64
coefficient de 327 370,66 -43,66
0,85 288 304,23 -16,23
corrélation
la pente a 4,75 209 233,04 -24,04
156 195,08 -39,08
la constante b 176,10
moyenne 330,80 330,8 0

Comment mesurer la qualité de l'ajustement

𝟏
▪ La variance totale des observations 𝑦𝑖 autour de leur moyenne 𝑦ത " 𝒔𝟐𝒚 = σ𝒏𝒊=𝟏 𝒚𝒊 − 𝒚
ഥ 𝟐
" , peut être décomposée
𝒏
𝟏
en deux parties : 𝒔𝟐𝒚 = 𝒔𝟐𝒚∗ + 𝒔𝟐𝒆 , où 𝒔𝟐𝒚∗ = σ𝒏𝒊=𝟏 𝒚∗𝒊 − 𝒚
ഥ 𝟐 "représente la variance expliquée par la régression
𝒏
𝟏
(mesure la variation des valeurs ajustées autour de la moyenne 𝑦) ത et 𝒔𝟐𝒆 = σ𝒏𝒊=𝟏 𝒆𝒊 𝟐 représente la variance résiduelle
𝒏
ou non expliquée (partie de la variation totale qui n'est pas expliquée par le modèle de régression).
▪ Le coefficient de détermination R²
Afin d'avoir une idée globale de la qualité de l'ajustement linéaire, on définit R² le coefficient de détermination qui est le
𝟐 𝒔𝟐𝒙𝒚 𝒔𝟐𝒚∗
carré du coefficient de corrélation R : 𝑹 = = Il mesure la part de la variation totale de Y expliquée par le
𝒔𝟐𝒙 𝒔𝟐𝒚 𝒔𝟐𝒚
modèle de régression sur X.
▪ Par exemple un coefficient de corrélation r = 0,9 correspond à un coefficient de détermination r² = 0,81.Cela signifie
que 81% de la variance de y est expliquée par la corrélation : la corrélation est bonne
Mais un coefficient de corrélation r = 0,5 correspond à un coefficient de détermination r² = 0,25.
Cela signifie que seulement 25% de la variance de y est expliquée par la corrélation : la corrélation est mauvaise

Exercice: Considérons un échantillon de 10 fonctionnaires (ayant entre 40 et 50 x y

2 3
ans) d’un ministère. Soit X le nombre d’années de service et Y le nombre de jours 14 13
d’absence pour raison de maladie (au cours de l’année précédente) déterminé 16 17
pour chaque personne appartenant à cet échantillon. 8 12
13 8
9 8
24 23
7 7
1. Représentez le nuage de points. 5 2
2. Calculez le coefficient de corrélation entre X et Y. 11 8
3. Déterminez l’équation de la droite de régression de Y en fonction de X.
4. Déterminez la qualité de cet ajustement.
5. Etablissez, sur base de ce modèle, le nombre de jours d’absence pour un fonctionnaire ayant 22 ans de
service.

25 y = 0,9354x - 0,0958
R² = 0,8462
Coefficient de correlation 0,92
a 0,94 20
b -0,09
Coefficient de
0,85
détermination 15
▪ r² = 0,85.Cela signifie que 85% de la variance de y

est expliquée par la corrélation : la corrélation est 10
bonne
5
Pour un fonctionnaire ayant 22 ans de service. : 20,6

JOURS = 0,94 * 22 – 0,09
0
0 5 10 15 20 25 30

PS-CHAP 1 - Statistique Descriptive

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

PS-CHAP 1 - Statistique Descriptive

Transféré par

Droits d'auteur :

Formats disponibles

Introduction Typologie de variables Par. De Position Par. De dispersion Par. De forme Stati. Desc.

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Chapitre 1 :Statistique descriptive

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

• Autre définition, moins académique celle-ci :

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

►Le « simple » passage d'un tableau de données plus ou moins

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

La statistique mathématique ou inférentielle

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Le lien entre les statistiques inférentielle et descriptive

►Le lien de complémentarité

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Terminologie et notation standard de la statistique

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Terminologie et notation standard de la statistique

Récapitulatif intermédiaire par l'exemple:

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Terminologie et notation standard de la statistique

Exemple : les classes d'âge d'une population, deux possibilités (suggestion)

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Typologie des variables

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Typologie des variables

► Effectifs, fréquences et tableau statistique

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Typologie des variables

Diagramme en barres des Diagramme en secteurs des

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Typologie des variables

► Si la variable est ordinale, on peut calculer les effectifs cumulés :

► On peut également calculer les fréquences cumulées :

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Typologie des variables

Table 1 : Codification de la variable Y

Table 2 : Série statistique de la variable Y

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Typologie des variables

Tableau statistique complet

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Typologie des variables

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Typologie des variables

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Typologie des variables

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Typologie des variables

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

– La règle de Sturges : J = 1 + (3.3 𝒍𝒐𝒈𝟏𝟎 (n)).

Exemple : On mesure la taille en centimètres de 50 élevés d’une classe :

On a les classes de tailles On construit le tableau statistique

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Autres représentation graphique

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Autres représentation graphique

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Autres représentation graphique

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr

Age du donneur % Correspondant

Représenter cette série statistique par un diagramme circulaire.

Chapitre 1: Statistiques descriptives Ziyad Bahou : Ziyad.bahou@hotmail.fr