Académique Documents
Professionnel Documents
Culture Documents
Bivariée
Probabilités et Statistiques
Z. Bahou, EMI
2019/2020
Plan du cours:
▪ Statistiques Descriptives
‐ Introduction
‐ Présentation des données
‐ Description des données
▪ Probabilités
‐ Calcul des probabilités
‐ Distribution des Probabilités Variables Aléatoire Discrètes
‐ Distribution des Probabilités Variables Aléatoire Continues
▪ Statistiques Mathématiques
‐ Échantillonnage
‐ Estimation Paramétrique
‐ Tests Statistiques Paramétriques
Qu’est-ce-que la statistique ?
• La statistique c’est la science des grands nombres regroupant l'ensemble de méthodes
mathématiques qui, à partir du recueil et de l'analyse de données réelles, permettent l'élaboration de
modèles probabilistes autorisant les prévisions. (Larousse).
*Inférence: Opération intellectuelle par laquelle on passe d'une vérité à une autre vérité, jugée telle en raison de son lien avec la première. La
déduction est une inférence.
La statistique descriptive
Ensemble des méthodes permettant de décrire une population par le biais des
individus qui la composent. La statistique descriptive s’intéresse donc à décrire et
caractériser un ensemble d’individus représenté la plupart du temps sous la forme de
tableaux (tableaux de données), à résumer et synthétiser ces tableaux par
l’intermédiaire de graphiques et de paramètres appropriés (fréquences, distribution,
moyenne, dispersion, etc.). Elle s’attachera à éventuellement rechercher des
corrélations (liaisons statistiques) entre les éléments de ces tableaux (variables et
individus).
La statistique descriptive
Exemple :
Les températures moyennes mensuelles à Ifrane sur la période 1971-2000
Exemple :
En période électorale, on interroge 1 000 personnes sur leur intention de vote. A partir des
résultats obtenus sur cet échantillon, on prévoit, avec une certaine précision le résultat des
élections. C’est ce qu’on appel l’inférence statistique et c’est le principe même du sondage
d’opinion par exemple.
❖ Unité statistique (ou individu) : élément de base constitutif de la population à laquelle il appartient. Il est indivisible
et peut être un animal, un végétal, un humain ou un objet.
Exemples : une automobile, un logement, une vache, une ampoule, une ville, etc. noté i
❖ Échantillon : sous-ensemble construit et représentatif d'une population donnée. Lorsque l'on parle d'échantillon on
parle en général de population mère, c'est-à-dire de la population dont est issu l'échantillon. L'échantillon est
fréquemment noté s
❖ Caractère(s) : caractéristique(s) de l'individu intégrant la population étudiée. Exemple : la couleur, le sexe, le poids, la
taille, la marque, le modèle, l'espèce, le prix, la surface, etc.
❖ Variable : une variable est une caractéristique pouvant prendre plusieurs des valeurs d'un ensemble d'observations
possibles auquel une mesure ou une qualité peut être appliquée.
❖ Modalité : valeur qualitative ou quantitative que peut prendre le caractère précédemment défini. Exemple : sexe
féminin ou masculin, poids 45 kg, couleur verte, etc. Attention, les modalités sont exhaustives et mutuellement
exclusives. Chaque individu doit pouvoir être classé dans une et une seule modalité.
❖ On appelle série statistique la suite des valeurs prises par une variable X sur les unités d’observation. Le
nombre d’unités d’observation est note n. Les valeurs de la variable X sont notées x1, . . . , xi , . . . , xn.
• Variable qualitative : La variable est dite qualitative quand ses modalités sont des catégories,
c'est-à-dire quand elle contient des valeurs qui expriment une qualité, un état, comme le sexe, la
couleur ou bien encore la catégorie socioprofessionnelle.
► Les opérations arithmétiques que l'on peut réaliser sur ce type de variable sont relativement
réduites et se limitent au comptage des effectifs par modalité (fréquences absolues) et au
calcul de pourcentage (fréquences relatives) et le mode.
► Exemple : la variable « couleur » est de type qualitative nominale, (vert, jaune, noir, rouge, …) aucune
hiérarchie n’est applicable entre les modalités recensées (on peut en aucun cas écrire jaune > rouge ou vert =
noir).
► Les opérations autorisées pour l'échelle qualitative ordinale sont, en plus du comptage par modalité (fréquences
absolues et fréquences relatives et mode), la médiane.
►Exemple : la variable « niveau de confort d'un logement » est de type qualitative ordinale, les valeurs pouvant être
prises par celle-ci étant bien de type nom (médiocre, moyen, bon, très bon) et une hiérarchie existe entre les modalités.
Conclusion:
Une variable qualitative, qu'elle soit nominale ou ordinale, est
toujours de nature discrète, contrairement à une variable
quantitative qui peut être soit de nature discrète, soit de
nature continue.
►Toutes les opérations arithmétiques simples et complexes sont applicables aux variables
quantitatives, du dénombrement (fréquences absolues) et autre calcul de pourcentage
(fréquences relatives) en passant par la moyenne, la médiane et l'écart-type jusqu'à la
modélisation numérique.
► Cependant, pour faire des représentations graphiques et construire le tableau statistique, il faut procéder à des
regroupements en classes. Le tableau regroupé en classe est souvent appelé distribution groupée. Si [𝒄− 𝒋 ; 𝒄+
𝒋[
désigne la classe j, on note, de manière générale :
‐ 𝒄−𝒋 la borne inferieure de la classe j.
‐ 𝒄+𝒋 la borne supérieure de la classe j.
‐ cj = (𝐜𝐣+ + 𝐜𝐣− )/2 le centre de la classe j.
‐ aj = 𝐜𝐣+ − 𝐜𝐣− l’amplitude de la classe j.
‐ nj l’effectif de la classe j.
‐ Nj l’effectif cumulé de la classe j.
‐ fj la fréquence de la classe j.
‐ Fj la fréquence cumulée de la classe j.
La répartition en classes des données nécessite de définir a priori le nombre de classes J et donc l’amplitude de chaque classe.
En règle générale, on choisit au moins cinq classes de même amplitude. Cependant, il existent des formules qui nous
permettent d’établir le nombre de classes et l’intervalle de classe (l’amplitude) pour une série statistique de n observations.
L’histogramme consiste à représenter les effectifs (aussi les fréquences) des classes par des rectangles contigus dont la
surface (et non la hauteur) représente l’effectif (ou la fréquence). Pour un histogramme des effectifs, la hauteur du
𝒏𝒋
rectangle correspondant à la classe j est donc donnée par : 𝒉𝒋 = « On appelle 𝒉𝒋 la densité d’effectif ».
𝒂𝒋
𝒇𝒋
Pour un histogramme des fréquences on a 𝒅𝒋 = « On appelle 𝒅𝒋 la densité de fréquence ».
𝒂𝒋
Exercice :
Un établissement de transfusion sanguine a dressé le bilan de sa collecte de sang pendant un an
Ces deux groupes de paramètres sont complémentaires pour la description et le résumé de distributions statistiques
et on ne saurait faire abstraction de l'un ou de l'autre pour ces opérations
Le mode
Noté Mo, il correspond à la valeur qui apparaît le plus souvent dans une distribution, autrement la valeur qui a la fréquence (absolue ou
relative) la plus élevée. S'il s'agit de données non groupées, la valeur modale est clairement identifiable. Par contre, si l'on est en
présence de données groupées en classes, le mode se rapportera à la classe comportant le plus grand nombre d'individus : on parlera
alors de classe modale.
Attention ! Le mode est la seule mesure centrale qui peut être relevée et utilisée aussi bien pour des données qualitatives que
quantitatives.
Exemple 1 : en relevant les notes à un examen d'une classe de 28 élèves,
on obtient la série suivante :
S1 = {9;11;13;5;8;14;6;12;5;10;16;3;12;13;8;13;8;7;13;13;9;17;10;13;6;13;7;14}
qui triée devient :
S1 = {3;3;5;5;6;6;7;7;8;8;8;9;9;10;10;11;12;12;13;13;13;13;13;13;14;14;16;17}
à partir de laquelle on peut dresser le tableau de fréquences et l'histogramme suivants :
► La note « 13 » apparaît 6 fois. Elle est, avec une fréquence relative de (6/28)*100 = 21,4 %
la note la plus représentée de la distribution. Le mode Mo est donc ici égale à 13.
Le mode
Exemple 2: Examinons les notes obtenues au même examen par la classe voisine composée de 30 élèves:
S2 = {9;11;2;10;5;8;14;6;12;5;10;16;3;12;10;18;7;13;7;7;13;11;9;17;10;7;6;10;7;17} qui une fois triée devient :
S2 = {2;3;5;5;6;6;7;7;7;7;7;8;9;9;10;10;10;10;10;11;11;12;12;13;13;14;16;17;17;18} On obtient dès lors le tableau de fréquences et
l'histogramme suivants:
► Dans ce cas-ci, deux modalités présentent les fréquences les plus élevées :
les notes « 7 » et « 10 » avec toutes deux une fréquence relative
de 16,6 % (5 occurrences chacune).
La distribution comporte ici deux modes,
Mo1 = 7 et Mo2 = 10. On parle alors de distribution bimodale.
Le mode
Exemple 3: Dans une troisième classe, composée de 24 élèves, les notes obtenues au même examen sont les suivantes:
S3 = {3;12;16;5;3;7;10;7;16;5;11;13;11;9;13;9;10;12;8;15;15;8;19} qui une fois triée devient :
S3 = {3;3;5;5;7;7;8;8;9;9;10;10;11;11;12;12;13;13;15;15;16;16;19} On obtient par le fait le tableau de fréquences et l'histogramme
suivants:
Le mode
❖ Variable quantitative continue
Le mode
Démonstration :
La médiane
Étymologiquement « médiane » signifie milieu, et c'est bien de ça dont il s'agit car la médiane est réellement le milieu
d'une distribution. Noté Me, la médiane correspond à la valeur de la distribution qui partage l'effectif total en deux sous-
effectifs de même taille de telle sorte que l'on puisse dire que 50 % des individus d'une population sont caractérisés par
une valeur supérieure à celle de la médiane et que 50 % des individus de cette même population ont une valeur inférieure
à la médiane.
Exemple: la médiane des revenus pour une population donnée correspond à la valeur du revenu pour laquelle on a 50 %
de la dite population dont le revenu est supérieur à cette valeur et 50 % dont le revenu est inférieur. On parle alors de
revenu médian. Le revenu médian par ménage dans le quartier Riyad était, en 2002, de 34 506 DH contre 17 640 DH
pour quartier Agdal.
Attention ! Contrairement au mode, la médiane est une mesure centrale qui ne peut être calculée et utilisée que pour des
variables quantitatives, continues ou discrètes et les variables qualitatives ordinales.
La médiane
2. Déterminer si la série comporte un nombre n pair ou impair de valeurs. Deux cas peuvent alors se
présenter:
• Si n est pair , il n'y a pas possibilité d'identifier simplement la valeur qui partage la population en deux
effectifs égaux. Deux valeurs se situent au centre de la série et jouent ce rôle respectivement de rang
(n/2) et [(n/2)+1]. La médiane est alors égale à la moyenne des valeurs encadrant le milieu de la série.
C'est le cas dans la série de notes de la classe 1 composée de 28 valeurs. La médiane se situe entre le 14e
et le 15e rang et sa valeur est donc comprise entre 10 et 11. L'application de la règle sus mentionnée
nous donne donc une médiane Me de (10 + 11)/2 = 10,5
• Si n est impair alors il est possible d'identifier simplement la valeur qui partage la population en deux
effectifs égaux. Le rang central étant égal à [(n+1)/2]. C'est le cas dans la série de notes de la classe 3
composée de 23 valeurs. La médiane se situe au niveau du 12e rang et sa valeur est lue directement en
face de ce 12e rang, dans notre Me = 10
La médiane
La médiane
❖ Variable quantitative continue
La médiane est la solution de l'équation F(x) = 0, 5. Pour la déterminer, on commence par déterminer la classe
médiane ]xi , xi+1] qui vérifie F(xi) < 0, 5 et F(xi+1) ≥ 0, 5
La médiane m (qui appartient à la classe médiane) est ensuite déterminée à partir d'une interpolation linéaire.
Prenons l'exemple ci-dessous « salaires mensuels (en milliers de dirhams) du personnel d'une entreprise »
La médiane
On a F(4) = 0, 44 < 0.5 et F(6) = 0.69 ≥ 0.5, la classe médiane est donc ]4, 6]. Nous utiliserons la courbe des
fréquences cumulées pour déterminer m. En considérant les triangles ABD et AIC de la figure à coté, on a
La moyenne
La moyenne constitue un autre paramètre de tendance centrale fondamental mais non suffisant pour caractériser une
distribution. Complémentaire du mode et surtout de la médiane, la moyenne constitue à n'en point douter, la mesure
la plus calculée et la plus utilisée lors de la description de séries statistiques. Il existe plusieurs types de moyennes,
chacun adapté à des situations précises :
❖ La moyenne arithmétique : C'est la plus simple et la communément utilisée. Elle peut être
simple ou pondérée.
Attention ! On ne peut pas calculer de moyenne arithmétique sur des données qualitatives.
• La moyenne arithmétique simple Sa version simple correspond à une somme de résultats
divisée par le nombre de résultats et s'écrit :
Exemple : la moyenne d’un élève qui a obtenu en mathématiques les 4 notes suivantes 15; 13; 9; 11 est :
15 + 13 + 9 + 11
ഥ=
𝒙 = 12
𝟒
❖ La moyenne arithmétique pondérée La moyenne arithmétique pondérée, donne dans son utilisation classique (c'est-à dire
lorsque tous les individus ont le même poids), le même résultat que la moyenne arithmétique simple.
Sa formule est cependant différente puisqu'elle introduit la notion de poids via un terme supplémentaire qui peut s'avérer utile dans
certaines situations, notamment lorsque justement les individus composant une population n'ont pas le même poids ou coefficient :
► En considérant un ensemble de données X ={x1, x2, x3, .. , xi ,... , xn } et une ensemble de poids non négatifs correspondants :
W ={w1,w2,w3,.. ,wi ,...,wn } Dans le cas général le poids wi représente l'influence de l'élément x i par rapport aux autres. La
formule de la moyenne pondérée s'écrit alors :
Exemple : Si le professeur pondère les notes des devoirs en attribuant des coefficient, par exemple, la moyenne pondérée sera
(15x1) + (13x1) + (9x2) + (11x2)
: 𝟔
= 11,33
❖ La moyenne géométrique : Sa définition purement mathématique est un peu rébarbative mais son utilité est grande comme
nous allons le démontrer. La moyenne géométrique de n valeurs positives xi est la racine nième du produit de ces valeurs., elle
s'écrit :
La moyenne géométrique est un instrument permettant de calculer des taux moyens, notamment des taux moyens annuels. Son
utilisation n’a un sens que si les valeurs ont un caractère multiplicatif.
Exemple : Les prix des voitures ont augmenté ces 8 dernières années de la façon suivante :
► En utilisant la moyenne arithmétique simple, on obtiendrait une évolution moyenne de
Année Variation annuelle (%)
(2 + 2 + 4 + 5 + 5 + 7 + 8 +10) / 8 = 43 / 8 = 5,375 % mais ce résultat est faux
1 2 compte tenu de la relation entretenue par les taux d'une année sur l'autre. L'utilisation
2 2 de la moyenne géométrique permet de solutionner ce problème :
3 4
4 5 𝟖 𝟖
ഥ=
𝑮 𝟐 × 𝟐 × 𝟒 × 𝟓 × 𝟓 × 𝟕 × 𝟖 × 𝟏𝟎 = 𝟐𝟐𝟒𝟎𝟎𝟎 = 𝟒, 𝟔𝟔%
5 5
6 7
Soit une hausse moyenne annuelle de 4,66 % contre 5,375 % avec la moyenne
7 8
arithmétique.
8 10
❖ La moyenne harmonique : On utilise la moyenne harmonique lorsqu’on veut déterminer un rapport moyen dans des domaines
ou ils existent des liens de proportionnalité inverse.
Exemples:
• Pour une distance donnée, le temps de trajet est d’autant plus court que la vitesse est élevée.
La moyenne harmonique de N valeurs est le nombre dont l'inverse est la moyenne arithmétique des inverses des dites valeurs. C'est
un peu compliqué comme définition ! Voilà ce que ça donne sous une forme mathématique :
La moyenne harmonique permet de calculer des moyennes sur des fractions si le dénominateur change. C'est le cas du calcul de la
vitesse moyenne parcourue dans un trajet aller/retour, la vitesse étant la valeur représentée par distance / temps.
Exemple: Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h,
20 km/h. calculer sa vitesse moyenne ?
.
– Si on calcule la moyenne arithmétique des vitesses, on obtient 𝒙
ഥ = (10 + 30 + 40 + 20)/ 4 = 25 km/h.
– Si on calcule la moyenne harmonique des vitesses, on obtient H = 4 /(1 /10 + 1/ 30 + 1/ 40 + 1/ 20) = 19.2
km/h. La moyenne harmonique est donc la manière appropriée de calculer la vitesse moyenne
❖ La moyenne quadratique : Une moyenne qui trouve des applications lorsque l'on a affaire à des phénomène
présentant un caractère sinusoïdal avec alternance de valeurs positives et de valeurs négatives. Elle est, de ce
fait, très utilisée en électricité. Elle permet notamment de calculer la grandeur d'un ensemble de nombre, elle s'écrit
:
Exemple : considérons les nombre suivants {-2, 5, -8, 9, -4 } Nous pouvons en calculer la moyenne arithmétique avec
l'inconvénient de voir se neutraliser les valeurs positives et négatives et d'aboutir à un résultat nul sans que cela ne nous
apprenne quoi que ce soit. En effet, x=0 Le calcul de la moyenne quadratique pour la même série donne 6,16
La moyenne
Relation entre les différentes moyennes D'une façon générale, pour une même
distribution, les résultats obtenus par les différentes moyennes décrites s'organisent
de la façon suivante :
Les quantiles
❖ Les quantiles sont les valeurs qui partagent la population en n parts égales.
1ère étape : Les données d’une population sont ordonnées de façon croissante.
2ème étape : La population étudiée est divisée en groupes d’effectif égal. Chaque groupe comporte le même nombre d’individus.
Les quantiles ont différents noms selon le nombre de parts dans la population.
- Si la population est séparée en 2, c’est une médiane.
- Si la population est séparée en 4, ce sont des quartiles.
- Si la population est séparée en 5, ce sont des quintiles.
- Si la population est séparée en 10, ce sont des déciles.
- Si la population est séparée en 100, ce sont des centiles.
Remarque
La médiane est le quantile d’ordre p = 1/2.On utilise souvent :
- x1/4 le premier quartile,
- x3/4 le troisième quartile,
- x1/10 le premier décile ,
- x1/5 le premier quintile,
- x4/5 le quatrième quintile,
- x9/10 le neuvième décile,
Les quantiles
Comment déterminer les quartiles Q1 et Q3 d'une série de N valeurs ?
on calcule la quantité ¼ de N = 1/4 × N = 0,25 × N =N:4
Deux cas sont possibles: soit le résultat est entier (la division tombe juste), soit non.
Exemple
Prenons les valeurs rangées dans l'ordre croissant : 1-3-3-3-5-5-6-7-7-8-8-8-9-9-10-10-10-10-11-11-12-
13-13-13-14-15-16-19 Il y a N = 28 valeurs, qui est divisible par 4 car 28:4=7 qui est entier n=N:4 = 7
donc Q1 = la 7ème valeur de la série rangée dans l'ordre croissant= 6 et n' = 3N:4 = 21 donc Q3 = la
21ème valeur de la série rangée dans l'ordre croissant= 13
Les quantiles
cas n°2: le résultat n'est pas entier
- on vérifie que les valeurs sont rangées par ordre croissant
- on arrondit le décimal N:4 à l'entier supérieur : l'entier n ; Q1 est la nième valeur
- on arrondit le décimal ¾ de N = 3 /4×N = 3N:4 à l'entier supérieur : l'entier n' ; Q3 est la n' ième valeur
Exemple
Prenons les valeurs rangées dans l'ordre croissant : 3-5-5-6-7-8-8-9-9-10-10-10-10-11-11-12-13-13-13-14-15-16-19 Il y
a N = 23 valeurs; N:4 = 5,75 donc Q1 est la 6ème valeur de la série rangée dans l'ordre croissant donc Q1= 8, 3N:4 =
17,25 donc Q3 est la 18 ème valeur de la série rangée dans l'ordre croissant donc Q3= 13
Les quantiles
❖ Variable quantitative continue
Des techniques similaires à celles utilisées pour déterminer la médiane dans le cas continue permettent de déterminer ces
indicateurs.
Pour le premier quartile
Les quantiles
Exercice 1:
On considère les deux séries statistiques définies par les tableaux T1 et T2 ci-dessous :
T1
Valeurs -80 -40 0 40 80
Effectifs 15 27 10 23 25
T2
Valeurs 20 60 100 140 180
Effectifs 15 27 10 23 25
1) Calculer la moyenne de la série statistique correspondant à T1 Déduire de ce résultat la moyenne de la série
correspondant à T2
2) Lors de l'étude sur la résistance d'un type de fil, on a réalisé cent expériences de rupture et on a noté à chaque fois la
charge limite provoquant la rupture. Les résultats sont consigné dans le tableau suivant:
Utilisez un des deux résultats précédents pour obtenir rapidement la moyenne de la charge de rupture
Exercice 1: « Correction »
1. La moyenne de la série statistique correspondant à T1 est égale à :
On remarque que les valeurs de la série statistique du tableau T2 sont égales à celles du tableau T1 augmentées de 100,
les effectifs correspondants étant identiques.
La moyenne de la série correspondant à T2 est donc égale à celle de de la série correspondant à T1 augmentée de 100,
donc : X2=X1+100=106,4.
1. Pour calculer la moyenne de la charge de rupture, il faut considérer les milieux de chaque classe, donc la série
statistique :
Exercice 2:
Un relevé des durées des communications téléphoniques effectués dans un central téléphonique a fourni les
informations consignées dans le tableau suivant (l'unité de durée est la minute)
Intervalle de durée [0;2[ [2;4[ [4;6[ [6;8[ [8;10[ [10;12[
Effectif 14 16 25 15 17 13
Exercice 2: « Correction »
1) Pour calculer la moyenne de cette série statistique, on prend en compte le milieu des classes, à savoir :
Pour calculer la moyenne de cette série statistique, on prend en compte le milieu des classes, à savoir :
Exercice 3:
Le tableau ci-dessous donne la répartition des salaires mensuels, en euros, des employés d’une
entreprise :
Salaire [800 ;900[ [900 ;1000[ [1000 ;1050[ [1050 ;1150[ [1150 ;1300[
Effectif 42 49 74 19 16
1) Calculer le salaire moyen dans cette entreprise. Que penser d’un tel résultat ?
2) Calculer de manière précise le mode, la médiane , et les quartiles Q1 et Q3 .
Exercice 3: « Correction »
1) Pour calculer le salaire moyen de l’entreprise, il faut considérer le milieu de chaque classe :
Exercice 4:
La température est relevée chaque heure pendant 4 jours dans une forêt. Les 97 résultats
obtenus ont été triés et sont rassemblés dans le tableau suivant :
Température 14,5 15 15,5 16 16,5 17 17,5 18 18,5 19 19,5
Nbr de fois ou cette température a été relevée 5 7 10 12 15 10 11 9 7 7 4
Exercice 4: « Correction »
Exercice 5:
Un industriel a commandé à un sous-traitant un lot de 40 pièces dont le diamètre doit mesurer 80 mm et il est
convenu que le lot ne sera accepté que si les deux conditions suivantes sont simultanément réalisées : Première
condition : l’écart entre 80 mm et la moyenne x du lot est inférieur à 0,05 mm Deuxième condition : Au moins 60
% des pièces du lot ont un diamètre d tel que 80 - 0,05 ≤ d ≤ 80 + 0,05 (1) Les mesures faites sur le lot sont les
suivantes :
Mesure de d à 79,75 79,80 79,85 79,90 79,95 80 80,05 80,10 80,15 80,20
0,05 mm près
Nbr de pièce 1 2 3 5 6 14 5 2 1 1
Exercice 5: Correction »
La moyenne des mesures faites vaut :
• Le nombre de pièces dont le diamètre d vérifie la double inégalité (1) est égal à
6+14+5=25, soit un pourcentage égal à 25/40 *100 = 62,5%
• L’écart entre la moyenne x et 80 mm étant égal à 80−79,9725=0,0275<0,05, et plus de 60
% des pièces ayant un diamètre d vérifiant la double inégalité (1), le lot sera accepté.
L'écart interquartile
Q1 étant le premier quartile et Q3 le troisième quartile, l'écart interquartile est la différence entre le
troisième et le premier quartile, il est noté R(Q) = Q3 − Q1.
L'intervalle [Q1, Q3] est appelé intervalle interquartile. Il contient 50% des observations, le reste
se réparti avec 25% à gauche de Q1 et 25% à droite de Q3. L'écart interquartile R(Q) est la largeur
de l'intervalle interquartile. C'est une mesure de longueur de cet intervalle et donc une mesure de
dispersion des données autours de la médiane.
• Plus il est grand, plus les données sont dispersées autours de la médiane.
• Plus il est petit, plus les données sont proches de la médiane.
Reprenons l'exemple de la distribution des salaires mensuels. L'intervalle interquartile est [3, 24; 6,
19] et l'écart interquartile est R(Q) = 6, 19 − 3, 24 = 2, 85
Diagramme en boîte
Ce diagramme est aussi appelé boîte à moustaches. Il utilise
la valeur du 1er quartile Q1 (qui correspond à 25% des
effectifs), la valeur du 2eme quartile Q2 = m (la médiane
qui correspond à 50% des effectifs), la valeur du 3eme
quartile Q3 (qui correspond à 75% des effectifs), l'écart
interquartile R(Q) et les valeurs minimum et maximum de la
série. On représente sur un axe gradué (horizontal ou vertical)
les différentes valeurs de la série Q1, Q2, Q3, Xmin, Xmax
ainsi que Q1 − 1.5 × R(Q) et Q3 + 1.5 × R(Q). Le
diagramme est formé d'un rectangle ayant pour extrémité
inférieure le 1er quartile et pour extrémité supérieure le 3eme
quartile. A l'intérieur de ce rectangle, on trace un segment
représentant la médiane. A gauche et à droite de ce rectangle,
on trace deux segments appelé “moustaches” inférieure et
supérieure qui ont pour extrémité respectivement Q1 − 1.5 ×
R(Q) et Q3 + 1.5 × R(Q).
1. Distribution symétrique
2. Distribution peu dispersée
3. Distribution étalée vers les valeurs élevées
4. Distribution étalée vers les valeurs faibles
Le coefficient de variation
Le coefficient de variation est une mesure de la dispersion des données autour de la moyenne. Le coefficient de
variation se calcule comme le ratio de l'écart-type rapporté à la moyenne, et s'exprime en pourcentage. Il s'écrit
Exemple : Dans une maternité on a relevé le poids ( en kg ) à la naissance de 47 nouveau-nés. Les données collectées sont résumées
dans le tableau suivant :
Exercice 1 :
Le tableau suivant donne les températures moyennes par mois de la ville 1 et la ville 2 en
degrés Celsius.
Mois 1 2 3 4 5 6 7 8 9 10 11 12
Ville 1 -5 -4 4 15 27 31 31 30 26 20 10 -5
Ville 2 3 4 7 10 14 17 19 18 16 17 7 6
Exercice 1 : « Correction »
▪ Ville 1 : ▪ Ville 2:
L’étendue = 31 – ( -5) = 36° L’étendue = 19 – 3 = 16°
La température moyennes = 15° La température moyennes = 11,5°
La variance = 194,5 La variance = 32,25
L’écart type 𝝈 = 𝟏𝟗𝟒, 𝟓 = 𝟏𝟑, 𝟗𝟓 L’écart type 𝝈 = 𝟑𝟐, 𝟐𝟓 = 𝟓, 𝟔𝟖
Exercice 2:
Lors d'un examen écrit, un correcteur a obtenu les notes suivantes (sur 20), sur 80 copies corrigées :
11,11,11,7,6,13,13,7,4,9,5,10,11,8,14,15,8,10,4,9,7,7,9,12,10,14,18,6,9,10,13,9,12,8,10,5,7,13,12,12,13,11,9,11,9,8,10,14
,10,11,9,7,7,6,10,6,11,10,8,8,11,7,6,8,11,12,14,9,12,7,8,8,16,14,9,10,7,10,10,12
Exercice 2: « Correction »
1) Afin de calculer la moyenne x et l’écart type σ de la série, il faut réorganiser cette série en effectifs :
On calcule alors :
Puis la variance :
donc l’écart-type :
Exercices
Exercice 3 :
Un supermarché reçoit 101 caissettes comprenant chacune 9 produits. La distribution du
nombre de produits abîmés par caissettes est décrite dans le tableau suivant
Nb de produits abimés 0 1 2 3 4 5 6 7 8 9
Nb de caissettes 12 30 31 17 5 1 2 2 0 1
Exercices
Exercice 3 : « Correction »
Exercices
Exercice 4 :
Le syndrome de bradycardie - tachycardie est un trouble du rythme cardiaque
se caractérisant par des alternances :
•De bradycardie (diminution du rythme cardiaque au-dessous de 60
battements par minute).
•De tachycardie (augmentation du rythme cardiaque au-dessus de 100
battements par minute). On dispose du nombre de battements du cœur par
minute (bpm) de 33 personnes .
Déterminer la médiane, les 1er et 3ème quartiles , dessiner la boite à moustache et interpréter .
Exercice 4 : « Correction »
RANG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
battement en Bpm 25 28 46 57 58 59 59 59 60 66 67 73 74 76 77 79 80 82 83 85 86 90 92 93 100 122 129 130 135 135 152 154 910
Q1 = 60 BPM
Q2= 80 BPM
Q3=100 BPM
910 BPM est une valeur aberrate liée à un dysfonctionnement ‘d’un capteur par exemple’
50% des personnes sont en bonne santé leurs fréquence cardiaque et entre 60 et 80 BPM
25% souffre d’une bradycardie
25% souffre d’une tachycardie
Exercices
Exercice 5 :
Les observations relatives à la variable « poids » obtenues sur la population des étudiants masculins sont transcrites dans
le tableau suivant :
68 70 67 75 72 71 67 65 60 60 65 65 77 95 85 70 70 72 66 75
90 65 62 70 52 60 59 65 68 71 97 65 57 75 77 75 85 56 77 67
62 52 67 72 79 60 72 69 58 55 75 75 78 65 95 65 90 72 72 60
a) Répartir les 60 données correspondant aux étudiants masculins en 5 classes d’amplitude constante de 10 kg [50,60[,
[60,70[, [70,80[ , [80,90[, [90,100[ dans un tableau qui reprendra les fréquences, fréquences cumulées et les
fréquences relatives. Représenter l’histogramme correspondant. Quelle est la classe modale ?
b) Déterminer la médiane, la moyenne, l'écart-type, les trois quartiles ainsi que l'écart interquartile de la série.
c) Dessiner la boite à moustache de cette série de donnée
Paramètre de forme
Une distribution est dite symétrique si le mode, la médiane et la moyenne sont confondus. Une distribution qui n'est pas
symétrique est dite asymétrique Remarque : Une variable statistique est symétrique si ses valeurs sont réparties de manière symétrique
autour de la moyenne c'est à dire si le polygône des fréquences a la forme d'une clôche comme dans la figure ci-après
A la différence de la médiane et du mode, la moyenne arithmétique est fortement influencée par les valeurs extrêmes.
Lorsque les valeurs sont distribuées de manière symétrique, la moyenne arithmétique coïncide avec la médiane et le
mode. Lorsque la distribution est asymétrique, la moyenne arithmétique dépasse la médiane si les valeurs extrêmes sont élevées et se
situe en dessous de la médiane si les valeurs extrêmes sont basses.
Paramètre de forme
• Une distribution est dite asymétrique à droite, si la courbe du polygone des fréquences est étalée
à droite, on a généralement : mode < médiane < moyenne.
• Une distribution est dite asymétrique à gauche, si la courbe du polygone des fréquences est
étalée à gauche, on a généralement : moyenne < médiane < mode.
La figure ci-dessous illustre ces différents cas lorsque la distribution ne présente qu'un seul mode.
Coefficient d'asymétrie
le coefficient d'asymétrie a pour rôle de fournir une mesure de dissymétrie d'une distribution.
𝟑(ഥ𝒙 − 𝑴𝒆 ) Sa valeur est généralement comprise entre -1 et +1:
𝜷𝟏 = β1 < 0 distribution dissymétrique à gauche
𝝈
❖ Coefficient d'asymétrie de Pearson (ഥ
𝒙 − 𝑴𝒐 ) β1 = 0 distribution symétrique
𝜷𝟏 =
𝝈 β1 > 0 distribution dissymétrique à droite
Lorsque la distribution statistique est unimodale , on peut se basé sur une comparaison de la moyenne et du mode
❖ Le Coefficient d'aplatissement
Les mesures d'aplatissement font partie des mesures qui caractérisent la forme d'une distribution. Elles caractérisent le degré
d'aplatissement de la distribution par rapport à l'aplatissement de la distribution normale («courbe en cloche»2 ). Il est alors utile de
pouvoir mesurer si la forme de la distribution présente une déviation par rapport à l'aplatissement de la distribution normale. Une
distribution est platicurtique ou hyponormale si la courbe est plus aplatie que la courbe normale; elle est leptocurtique ou
hypernormale si la courbe est plus pointue que la courbe normale.
Exercices
Exercice 1:
Une enquête menée auprès de 1500 ménages d'une certaine région géographique rurale s'est intéressée à la variable
correspondant à la taille du ménage, c'est-à-dire au nombre de personnes constituant le ménage. Les données
recueillies peuvent être présentées sous la forme du diagramme en bâtons suivant.
On a par ailleurs déterminé que la taille moyenne des 1500 ménages était égale à 2.67 et que la variance des
tailles des ménages s'élevait à 2.27. Calculer les trois coefficient d’asymétrie et interpréter.
Exercices
Exercice 2 :
La répartition des ménages d'un village en fonction du nombre de personnes constituant le ménage est donnée ci-
dessous : Nb de personnes dans le
1 2 3 4 5 6
ménages xi
Nb de ménages
211 263 121 109 83 20 807
concernés ni
Exercices
Exercice 2 : « Correction » ni
xi ni fi Fi (𝒙𝒊 − 𝒙ഥ) (𝒙𝒊 − 𝒙ഥ) 𝟐 ni(𝒙𝒊 − 𝒙ഥ) 𝟐 (𝒙𝒊 − 𝒙ഥ) 𝟒 ni(𝒙𝒊 − 𝒙ഥ) 𝟒
1 211 26,15% 26,15% -1,57 2,45 517,64 6,02 1269,92
6 20
2 263 32,59% 58,74% -0,57 0,32 84,34 0,10 27,04
3 121 14,99% 73,73% 0,43 0,19 22,76 0,04 4,28
4 109 13,51% 87,24% 1,43 2,06 224,05 4,23 460,53 5 83
5 83 10,29% 97,52% 2,43 5,92 491,60 35,08 2911,72
6 20 2,48% 100,00% 3,43 11,79 235,81 139,01 2780,23 4 109
Totaux 807 1 1576,20 7453,74
Mode 2 0,33 0 < CY ≤ 1 distribution dissymétrique à droite 3 121
𝑪𝒚
moyenne 2,57
Médiane 2 0,63 β2 < 3 courbe platicurtique ou hyponormale 2 263
𝜷𝟐
ECARTYPE 1,40
var 1,95
1 211
Q1 1
Q3 4,00
0 100 200 300
R(Q) 3
𝝁𝟒 9,24
Exercices
Exercice 3 :
Les poids de 21 boxeurs ayant déposé une candidature pour une gala de boxe sont donnés dans le tableau suivant :
Classe xi ni
[45,50[ 47,5 2
[50,55[ 52,5 4
[55,60[ 57,5 7
[60,65[ 62,5 5
[65,70[ 67,5 3
21
1. Représenter graphiquement cette série
2. Déterminer la médiane, la moyenne, l'écart-type, les trois quartiles ainsi que l'écart interquartile de la série.
3. Calculer les coefficients d’asymétrie 𝜷𝟏 "Pearson " et CY "Y𝐮𝐥𝐞" et d’aplatissement 𝜷𝟐 et interpréter.
Exercices
Exercice 3 : « Correction »
Classe xi ni fi Fi (𝒙𝒊 − 𝒙ഥ) (𝒙𝒊 − 𝒙
ഥ) 𝟐 ni(𝒙𝒊 − 𝒙
ഥ) 𝟐 (𝒙𝒊 − 𝒙
ഥ) 𝟒 ni(𝒙𝒊 − 𝒙
ഥ) 𝟒
[45,50[ 47,5 2 0,10 0,10 -10,714 114,796 229,59 13178,10 26356,21
[50,55[ 52,5 4 0,19 0,29 -5,714 32,653 130,61 1066,22 4264,89
[55,60[ 57,5 7 0,33 0,62 -0,714 0,510 3,57 0,26 1,82
[60,65[ 62,5 5 0,24 0,86 4,286 18,367 91,84 337,36 1686,80
[65,70[ 67,5 3 0,14 1,00 9,286 86,224 258,67 7434,66 22303,99
21 1 714,29 54613,70
Yi Xi Yi Xi 70
60 155 75 180
61 162 76 175 65
64 157 78 173 60
67 170 80 175
68 164 85 179 55
69 162 90 175 50
70 169 96 180
45
70 170 96 185
72 178 96 189 40
73 173 101 187 140 145 150 155 160 165 170 175 180
Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes marginales, écarts-types
marginaux, quantiles marginaux, etc.. . .
❑ Covariance
La covariance entre deux variables est un nombre permettant de quantifier leurs écarts conjoints par rapport à
leurs moyennes respectives elle est définie :
Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types marginaux , donne une mesure de l'intensité et du sens
de la relation linéaire entre deux variables :
Si l'examen du nuage de points indique qu'on peut supposer une relation de type linéaire entre X et Y (rxy > 0.8 ; rxy < -0.8) ,
alors on cherche à déterminer les réels a et b de la droite « Régression linéaire »
Pour déterminer la valeur des coefficients a et b on utilise le principe des moindres carrés qui consiste à chercher la
droite qui minimise la somme des carrés des résidus :
𝒏 𝒏
Les coefficients a et b qui minimisent le critère des moindres carrés sont donnés par :
𝒔𝒙𝒚
𝒂 = 𝟐 (𝒍𝒂 𝒑𝒆𝒏𝒕𝒆)
𝒔𝒙
𝒔𝒙𝒚
𝒃= 𝒚 ഥ − 𝒂ഥ𝒙=𝒚 ഥ− 𝟐 𝒙 ഥ
𝒔𝒙
Exercice: Considérons dans une entreprise, la variable X : les dépenses en milliers de dirhams en publicité et Y : les
ventes en milliers de dirhams des articles produit
x y
1,7 50
3 100
2 75
1,5 45
0,6 20
1,6 50
100
y = 34,492x - 2,5448
xi yi (𝐱 𝐢 − 𝐱ത) (𝐲𝐢 − 𝐲ത) (𝐱 𝐢 − 𝐱ത) 𝟐 (𝐲𝐢 − 𝐲ത) 𝟐 (𝐱 𝐢 − 𝐱ത) (𝐲𝐢 − 𝐲ത) R² = 0,9649
80
1,70 50,00 -0,02 -6,67 0,00 44,44 0,11
60
3,00 100,00 1,28 43,33 1,65 1877,78 55,61
40
2,00 75,00 0,28 18,33 0,08 336,11 5,19
1,50 45,00 -0,22 -11,67 0,05 136,11 2,53 20
Exercice: La consommation de crèmes glacées par individus a été mesurée pendant 10 périodes chez un artisan.
L’objectif est déterminé si la consommation dépend de la température. Les données sont dans le tableau ;
Xi « Température » Yi « Consommation »
21 386
36 374
43 393
48 425
49 406
45 344
41 327
27 288
12 209
4 156
1.Donnez les moyennes marginales, les variances marginales et la covariance entre les deux variables.
2. la consommation de glaces est-elle dépendante de la température? Si oui Donnez la droite de
régression.
3. Donnez les valeur ajustée et les résidu des observations du tableau.
▪ Le coefficient de détermination R²
Afin d'avoir une idée globale de la qualité de l'ajustement linéaire, on définit R² le coefficient de détermination qui est le
𝟐 𝒔𝟐𝒙𝒚 𝒔𝟐𝒚∗
carré du coefficient de corrélation R : 𝑹 = = Il mesure la part de la variation totale de Y expliquée par le
𝒔𝟐𝒙 𝒔𝟐𝒚 𝒔𝟐𝒚
modèle de régression sur X.
▪ Par exemple un coefficient de corrélation r = 0,9 correspond à un coefficient de détermination r² = 0,81.Cela signifie
que 81% de la variance de y est expliquée par la corrélation : la corrélation est bonne
Mais un coefficient de corrélation r = 0,5 correspond à un coefficient de détermination r² = 0,25.
Cela signifie que seulement 25% de la variance de y est expliquée par la corrélation : la corrélation est mauvaise
25 y = 0,9354x - 0,0958
R² = 0,8462
Coefficient de correlation 0,92
a 0,94 20
b -0,09
Coefficient de
0,85
détermination 15
bonne
5