Vous êtes sur la page 1sur 156

Compétences de statistique

descriptive à une variable

Aspects opératoires
Vous avez les Clés de
votre succès

Radouan Morchadi
morchadi@hotmail.com
La critique est aisée et l’art est difficile

2
« Mieux comprendre » et « Mieux résoudre ». n’est pas
toujours évident. Sauf lorsqu’on a la chance d’avoir des
fiches de révisions claires, complètes et pratiques
comme celles que je vous propose !

Elles n’ont qu’un seul objectif : Maximiser Votre


Potentiel et vous Aider à Faire Seul

3
Être maître de la question ou
esclave de la réponse

4
Statistique à 1 variable

Statistique à Bi-variée

Calcul de probabilités

Modèles paramétriques
5
Statistique à 1 variable

Modèles paramétriques
6
Qu’est ce que les Statistiques?

▰ La statistique est à la fois une science, un ensemble de


méthodes et de techniques mathématiques qui
permettent:
▰ l’étude de la collecte de données, leur analyse, leur
traitement, l’interprétation des résultats et leur
présentation afin de rendre les données compréhensibles
par tous.

7
Qu’est ce que les Statistiques?

▰ Les statistiques consistent en diverses méthodes de classement des


données tels que les tableaux, les histogrammes et les graphiques,
permettant d’organiser un grand nombre de données.
▰ Les statistiques se sont développées dans la deuxième moitié du XIXe
siècle dans le domaine des sciences humaines (sociologie, économie,
anthropologie, ...). Elles se sont dotées d’un vocabulaire particulier.

8
Qu’est ce que les Statistiques?

▰ Collecter les données


▰ Résumer des données « Tableaux »
▰ Représenter et décrire « Graphiques et courbes »
▰ Faire des estimations et des prévisions à partir d’un échantillon et
prendre des décisions

Il y’a deux aspects de la statistique


▻ Descriptive
▻ Inferentielle
9
Toute étude statistique, passe par

Sur chaque individu on étudie un caractère, et


chaque caractère est représenté par des modalités 10
Vocabulaires

▰ On appelle population l’ensemble sur lequel porte notre étude statistique.


▰ On appelle individu tout élément de la population.
▰ Les modalités d’une variable statistique sont les différentes valeurs que
peut prendre le caractère étudié.

• Variable ou caractère est « situation familiale »


• Modalités sont " célibataire, marié, divorcé "
11
12
Pourquoi, travailler sur un échantillon ?

13
Faire la différence entre

Recensement : enquête dans laquelle les


observations (mesures, questions…) portent sur
la population entière.

Sondage : enquête dans laquelle les


observations portent sur un échantillon de la
population.

14
Nous distinguons deux catégories de caractères :
les caractères qualitatifs et les caractères
quantitatifs.

15
Qulitatif Non numérique
Nominal
Ordinal

L’état d’une maison : on peut L’état de satisfaction : on peut


considérer les modalités considérer les modalités suivantes
suivantes • Non satisfait.
• Ancienne. • Satisfait.
• Dégradée. • Très satisfait.
• Nouvelle.
• Rénovée. 16
17
Connaissances

18
Vocabulaire
Effectif relatif à la modalité i
ni
Effectif total de la population

N = n= σ𝒏𝟏 𝒏𝒊 = n1 + n2 +……….. + nn

Fréquence de la modalité i

𝒏𝒊
fi =
𝑵 19
“ Etude des Variables Qualitatives
Qualité

20
Tableau

21
Le camembert ou à bande
Représentation adéquate si la série est qualitative

22
Pour tracer un diagramme circulaire il faut ajouter une colonne supplémentaire
concernant les angles des différentes catégories ou secteurs.

𝑛𝑖
𝛼𝑖 = * 360
𝑛

23
Protocole pour tracer le diagramme circulaire :

1. Tracer le cercle
2. Tracer le rayon horizontal
3. Mesurer le premier angle
4. Tracer un rayon
5. Noter le nom de ce secteur
6. Et on recommence

24
Si le nombre de modalités est élevé, on fait un diagramme à bandes

25
26
Exercice

Le tableau suivant donne la répartition selon le groupe sanguin de 40


individus pris au hasard dans une population,

1. Déterminer la variable statistique et son type.


2. Déterminer l’effectif des personnes ayant un groupe sanguin AB.
3. Donner toutes les représentations graphiques possibles de cette
distribution.
27
Solution
1. La population dans cette étude est les 40 personnes. Donc N = 40. La variable
statistique est le groupe sanguin des individus et elle est qualitative.
2. L’effectif total est égal à 40. Par conséquent

Ce qui implique que 𝒏𝟑 = 5.

28
3- Nous avons deux représentations possibles « à bande » et "Diagramme en
secteurs".

Les angles du camembert se calculent en


utilisant la règle de trois. 29
“ Etude de la Variables Discrètes
quantitative
Quantité Numerique

30
Exemple:

Une enquête réalisée dans un village porte sur le nombre d’enfants à


charge par famille. On note X le nombre d’enfants, les résultats sont
données par ce tableau :

Nous avons
• La population étudiée est : ensemble des familles.
• L’individu est: une famille.
• Le caractère étudié est : X nombre d’enfants par famille 31
• Les modalités du caractère X sont les 𝒙𝒊 : 1; 2; 3; 4; 5; 6
Dans l’exemple précédent, 66 est le nombre de
familles qui ont 2 enfants.

66 est appelé effectif relatif à la modalité 2

32
Effectif cumulé croissant

Pour chaque valeur 𝒙𝒊 , on pose par


définition 𝑵𝒊 = 𝒏𝟏 + 𝒏𝟐 + ... + 𝒏𝒊 .

L’effectif cumulé 𝑵𝒊 d’une valeur est


la somme de l’effectif de cette valeur
et de tous les effectifs des valeurs
qui précèdent. 33
Dans l’exemple précédent : 50 est le nombre de
familles qui ont un nombre d’enfant inférieur à 1.
Nous le regardons dans le tableau suivant :

34
Calculer les fréquences relatives aux modalités dans l’exemple

0, 33 : signifie qu’il y a 33% de familles


dont le nombre d’enfants égale à 2.

35
Rappelons que l’effectif total est calculer comme suit

Ce qui implique que

36
Nous nous intéressons aux nombres d’erreurs d’assemblage sur un
ensemble d’appareils, Déterminer le tableau des fréquences cumulées
croissante dans l’exemple

Nous avons 94% des


appareils qui ont un nombre
d’erreurs d’assemblage
inférieur ou égale à 3.

37
Si la variable aléatoire est discrète, c'est-à-dire si elle ne prend que des valeurs isolées, alors les
données sont représentées par un diagramme en bâtons.

Données
Les données se présentent généralement sous la forme d'un tableau des effectifs des modalités:

On calcule l'effectif total :


n1 + n2 + n3 + ... = n

38
Diagramme en bâtons des effectifs
• Les modalités sont portées en abscisses.
• Les effectifs sont portés en ordonnées

39
Fréquences
À partir du tableau des effectifs des modalités, on dresse le tableau des fréquences

On a
f1 + f2 + f3 + ... = 1

40
Diagramme en bâtons des fréquences
• Les modalités sont portées en abscisses.
• Les fréquences sont portées en ordonnées.

41
Exercice : Soit les notes d'un élève sur 20 obtenues au cours d'une année

42
Polygone des effectifs

43
Effectifs cumulés
Il s'agit de dresser le tableau des effectifs cumulés jusqu'à une modalité. Pour ce faire, on utilise
le tableau des effectifs. Par exemple, par définition,
N5 = n1+n2+n3+n4+n5
Si l'on a déjà calculé les effectifs cumulés précédents, on peut les utiliser :
N5 = N4 + n5

Le dernier effectif cumulé a pour valeur l'effectif total n.

44
Fonction de distribution des effectifs
• En abscisses, on porte les modalités.
• En ordonnées, on porte les effectifs cumulés.

45
Fréquences cumulées
Il s'agit de dresser le tableau des fréquences cumulées jusqu'à une modalité. Par exemple, par
définition,
F5 = f1+f2+f3+f4+f5
Si l'on a déjà calculé les fréquences cumulées précédentes, on peut les utiliser :
F5 = F4 + f5
Si l'on dispose du tableau des effectifs cumulés, on peut préférer :
F5 = N5/n

La valeur de la dernière fréquence cumulée est 1.

46
Fonction de distribution des fréquences
• En abscisses, on porte les modalités.
• En ordonnées, on porte les fréquences cumulées.

47
1
Paramètres de position d’une
Variables Discrètes
« Paramètres de tendance
centrales »
48
49
Mode « à la mode »
Le mode est la modalité xi pour laquelle l'effectif ni ou la fréquence fi est maximale.

50
Remarque importante
• Si la distribution présente 2 ou plus maxima relatifs, on dit qu'elle est bimodale ou
plurimodale.
• La population est composée de plusieurs sous-populations ayant des caractéristiques de
tendance centrale différentes. « Population Hétérogène »

51
Médiane
Le deuxième quartile est appelé médiane et correspond à une fréquence cumulée de 0.5

Interprétation : les données ordonnées d’une manière croissante inférieures à la médiane


constituent la moitié de l'effectif.

52
Exemple de calcul de la médiane, pour une série discrète ordonnée croissante

n effectif total de la série discrète 53


Moyenne
La moyenne peut calculer comme suit
ത (x1*n1 + x2*n2 + x3*n3 + ...)/n
𝑋=
ce qui équivaut à
𝑋ത = x1*f1 + x2*f2 + x3*f3 + ...
1
X =  ni xi =  f i xi
n i i

54
Activité
Un quartier résidentiel comprend 99 unités d’habitation ayant une valeur
locative moyenne de 10000 Dh.

Deux nouvelles unités d’habitation sont construites dans le quartier :


l’une a une valeur locative de 7000 Dh et l’autre, une villa luxueuse, a une
valeur locative de 114000 Dh.

1. Quelle est la nouvelle moyenne de valeur locative pour le quartier ?


2. Pouvait-on s’attendre à de tel résultat ?

55
Solution

• Le nouveau total des mesures de valeur locative est


(99 × 10000) + 7000 + 114000 = 1111000.

Le nouveau total d’individus statistiques est


99 + 2 = 101.
La nouvelle moyenne est donc 1111000 101 = 110000.
• On pouvait s’attendre à une augmentation de la moyenne
car l’une des deux nouvelles valeurs est très nettement au
dessus de la moyenne initiale
56
Propriétés de la Moyenne

57
Remarque importante

• La moyenne est très sensible aux valeurs « extrêmes ».


• Elle est très sensible et donc peu robuste : l’ajout de quelques valeurs aberrantes peut la
modifier sensiblement.
• C’est pourquoi elle ne signifie parfois rien du tout

58
Deux séries statistiques peuvent avoir les mêmes paramètres de tendance centrale mais pas la
même « dispersion ».
Exemple :
➢Notes de Mick : 7 , 8 , 11 , 12 , 13 , 13 et 13.
➢Notes de Keith : 4 , 7 , 9 , 12 , 13 , 13 et 19.

Il est donc nécessaire d’adjoindre à un paramètre de tendance centrale, un ou des paramètres


mesurant l’écartement des valeurs entres elles.

59
• Les deux séries ont une Moyenne = 11, Mode = 9, Médiane = 10
Pourtant elles sont bien différentes !
• Les paramètres de tendance centrale ne suffisent généralement pas
pour caractériser une distribution.

• Nous allons définir de nouveaux paramètres pour prendre en


compte ces différences de disperssion. 60
61
2
Paramètres de dispersion
d’une Variables Discrètes

62
Étendue
L'étendue est l'écart entre les modalités extrêmes.

e = étendue = valeur maximale - valeur minimale


e = 𝑽𝒎𝒂𝒙 - 𝑽𝒎𝒊𝒏 = 18 - 8 = 10

63
Variance
La variance est la moyenne des carrés des écarts à la moyenne :
V = ((x1- 𝑋) ത 2*n1 + (x2- 𝑋) ത 2*n2 + (x3- 𝑋) ത 2*n3 + ...)/n
V = (x1- 𝑋) ത 2*f1 + (x2- 𝑋) ത 2*f2 + (x3- 𝑋) ത 2*f3 + ...

1
( )
Vx =  ni xi − x =  f i xi − x
n i
2
( )
2

Écart-type
L'écart-type est égal à la racine carrée de la
variance :
x = Vx
64
Propriétés calculatoires
Si l'on fait les calculs à la main ou à la calculette ou par Excel, on préférera la formule
suivante:

➢Formule de Koenig en termes d’effectifs:

Vx =  ni ( xi ) − X
1
n i
2
( ) 2
=X −X2 2

➢Ou en termes de fréquences:

Vx =  f i (xi ) − X
2
( ) 2
=X −X2 2

i
65
Propriétés de la variance

 ax +b = a  x

66
ത les valeurs 𝑥𝑖 de X (voir Figure
Le paramètre 𝜎𝑋 mesure la distance moyenne entre 𝑋et
2.7).

• Il sert à mesurer la dispersion d’une série statistique autour de sa moyenne.


• Plus il est petit, plus les caractères sont concentrés autour de la moyenne (on
dit que la série est homogène).
• Plus il est grand, plus les caractères sont dispersés autour de la moyenne (on
dit que la série est hétérogène).

67
Les quartiles
Définition
Si F désigne la fonction des fréquences cumulées, le premier (resp. troisième) quartile d’une
série statistique sera la plus petite valeur x telle que F(x) ≥ 0,25 (resp. 0,75) . On le note Q1
(resp. Q3).

Interprétation :
Plus de 25 % des valeurs de la série seront inférieures à Q1 et plus de 75 % lui seront
supérieures. De même plus de 75 % des valeurs de la série seront inférieures à Q3 et plus de 25
% lui seront supérieures.

➢Si n désigne l’effectif total, Q1 sera égal à xi, où i est le plus petit
𝒏
entier supérieur ou égal à .
𝟒
𝟑𝒏
➢Q3 sera égal à xi, où i est le plus petit entier supérieur ou égal à .
𝟒 68
𝒏 𝟑𝒏
▪ Cas ou la division ou est exacte
𝟒 𝟒

69
𝒏 𝟑𝒏
▪ Cas ou la division 𝟒 ou n’est pas exacte
𝟒

➢Q1 sera égal à xi, où i est le plus petit entier supérieur ou égal à n/4.

➢ Q3 sera égal à xi, où i est le plus petit entier supérieur ou égal à 3n/4.

70
Exercice: Etudier la série décrite par le tableau suivant

71
Activité
On considère deux groupes d’étudiants. Nous relevons leurs notes
d’examens dans les deux tableaux suivants :

Calculer la moyenne et l’écart type de chaque groupe. Comparer les deux


groupes. 72
Dans un premier temps, nous remarquons que l’effectif total du groupe A
est égal à 6 et celui du groupe B est égal à 8.
• En utilisant la formule de la moyenne, nous obtenons

• On remarque que les moyennes sont très proches. Peut-on pour autant
conclure que ces deux groupes ont des niveaux identiques ?
Nous répondons à cette question après le calcule des écarts type. Ils sont donnés
par

73
Nous remarquons que même si les deux groupes ont des moyennes
quasiment identiques,
le groupe B est beaucoup plus dispersé que le groupe A car

𝝈𝑩
𝑿 > 𝝈 𝑨
𝑿.

Les étudiants de ce groupe ont des notes plus irréguliers.

On peut dire donc que le groupe B est moins homogènes que le groupe
A.

En observant les valeurs du tableau, on voit que c’est cohérent. 74


Exercice

Le gérant d’un magasin vendant des articles de consommation courante


a relevé pour un article particulier qui semble connaître une très forte
popularité, le nombre d’articles vendus par jour. Son relevé a porté sur
les ventes des mois de Mars et Avril, ce qui correspond à 52 jours de
vente. Le relevé des observations se présente comme suit :

75
1. Quel type est la variable statistique étudiée.
2. Déterminer le tableau statistique en fonction des effectifs, des
fréquences, des effectifs cumulés et des fréquences cumulés.
3. Tracer le diagramme des bâtonnés associé à la variable X.
4. Déterminer la courbe des effectifs cumulés croissants
5. Calculer le mode Mo et la moyenne X.
6. Déterminer à partir du tableau puis à partir du graphe, la valeur de la
médiane Me.
7. Calculer la variance et l’écart-type.

76
Solution
1. La population est les 52 jours et la variable statistique étudiée est le nombre
d’articles vendus par jour. Son type est bien évidement quantitatif discret
(nombre).
2. Le tableau statistique est donné par

77
78
Le mode est la valeur de la variable qui a le plus grand effectif, c’est à dire,
𝑛𝑖 = 8. Donc, 𝑀𝑜 = 11 et 𝑀𝑜 = 12.

79
Le calcul de la variance est

Par conséquent, l’écart type est calculé à partir de

80
“ Variables Continues

81
Nous rappelons qu’une variable statistique quantitative
concerne une grandeur mesurable.
Ses valeurs sont des nombres exprimant une quantité et sur
lesquelles les opérations arithmétiques (addition,
multiplication, etc,...) ont un sens.
Nous allons dans ce paragraphe se focaliser sur comment
étudier les variables statistiques quantitative continue.

Les valeurs prises par X sont partagées en classes de


valeurs
82
Le centre de la classe
Borne supérieure

Borne inférieure

L’amplitude = Longueur = 𝒂𝒌 = 𝑳𝒌+𝟏 - 𝑳𝒌


83
Remarque importante

On supposera dans tous les cas étudiés que la distribution à l’intérieur des
classes est uniforme. Cette hypothèse permet de justifier le fait qu’on
choisisse le centre des classes comme représentant

84
Remarque importante
Une série statistique discrète, dont le nombre de modalités est supérieur à 15
(≥ 𝟏𝟓).
𝐎𝐧 𝐫𝐞𝐠𝐫𝐨𝐮𝐩𝐞𝐫 𝐬𝐞𝐬 𝐦𝐨𝐝𝐚𝐥𝐢𝐭é𝐬 𝐞𝐧 𝐜𝐥𝐚𝐬𝐬𝐞 𝐞𝐭 𝐥′ é𝐭𝐮𝐝𝐢𝐞𝐫 𝐜𝐨𝐦𝐦𝐞 étant
une série continue.
En combien de classes partageons-nous les valeurs prises par la série dans
ce cas ?
la réponse n’est pas unique. Soit N l’effectif total. Nous pouvons considérer
dans ce cours à titre d’exemple de prendre le nombre de classes = 𝑵.
85
Si la variable aléatoire est continue, c'est-à-dire si elle peut prendre n'importe quelle valeur d'un
intervalle, alors les données sont représentées par un histogramme.

Données
Les classes sont des intervalles délimités par leurs bornes. Les données se présentent
généralement sous la forme d'un tableau des effectifs des classes:

On calcule l'effectif total :


n1 + n2 + n3 + ... = n

86
Représentation graphique
Histogramme des effectifs
Dans un histogramme, les effectifs ne sont pas représentés par
les hauteurs des rectangles, mais leurs aires. Pour chaque
rectangle, le côté horizontal est l'amplitude de la classe.
La hauteur de chaque rectangle, appelée densité, est égale à
𝒏𝒊
𝒉𝒊 = K *
𝒂𝒊
87
𝒏𝒊 effectif de la classe)
• effectif corrigé = =
𝒂𝒊 amplitude de la classe

• K = PGCD(des amplitudes)

88
K = PGCD(des amplitudes)

Classe 𝐾∗ 𝑛𝑖
𝐷𝑒𝑛𝑠𝑖𝑡𝑒 = ℎ𝑖 = ൗ(𝑏
𝑖+1 −𝑏 𝑖 )

𝑏0 , 𝑏 1 𝐾∗ 𝑛1
ℎ1 = ൗ(𝑏 −𝑏 )
1 0

𝑏1 , 𝑏 2 𝐾∗ 𝑛2
ℎ2 = ൗ(𝑏 −𝑏 )
2 1

𝑏2 , 𝑏 3 𝐾∗ 𝑛3
ℎ3 = ൗ(𝑏 −𝑏 )
3 2

….. ….

89
Pour tracer l'histogramme, en abscisses, on reporte les bornes des classes.
En ordonnées, on reporte les densités d'effectif des classes

90
Fréquences
À partir du tableau des effectifs des classes, on dresse le tableau des fréquences des classes

On a
f1 + f2 + f3 + ... = 1

91
Histogramme des fréquences
Dans un histogramme, les fréquences ne sont pas représentées par les
hauteurs des rectangles, mais leurs aires. Pour chaque rectangle, le côté
horizontal est l'amplitude de la classe. La hauteur de chaque rectangle,
appelée densité, est égale à

(densité de fréquence) = (la hauteur de la classe = 𝒉𝒊 )


= K * (fréquence de la classe) / (amplitude de la classe)

K = PGCD(des amplitudes)

92
K = PGCD(des amplitudes)

Classe 𝐾∗ 𝑓𝑖
𝐷𝑒𝑛𝑠𝑖𝑡𝑒 = ℎ𝑖 = ൘(𝑏
𝑖+1 −𝑏 𝑖 )

𝑏0 , 𝑏 1 𝐾∗ 𝑓1
ℎ1 = ൘(𝑏 −𝑏 )
1 0

𝑏1 , 𝑏 2 𝐾∗ 𝑓2
ℎ2 = ൘(𝑏 −𝑏 )
2 1

𝑏2 , 𝑏 3 𝐾∗ 𝑓3
ℎ3 = ൘(𝑏 −𝑏 )
3 2

….. ….

93
Pour tracer l'histogramme, en abscisses, on reporte les bornes des classes.
En ordonnées, on reporte les densités de fréquence des classes.

94
Polygone des effectifs

95
Exercice
Prenons un exemple pour l'explication :
Une enquête a été réalisée auprès de 2500 personnes sur la question suivante :
" A quel âge avez-vous trouvé un emploi correspondant à votre qualification "sur l'âge de chaque habitant. Les
résultats de l'enquête ont été reportés dans le tableau suivant :

Nous remarquons bien que les classes


présentent des amplitudes sont égales

96
Protocole pour tracer l’histogramme à amplitudes égale:

1. Tracer l'axe des abscisses, celui avec les classes.


2. Déterminer une échelle. On la représente par un rectangle dont
la longueur correspond à l'amplitude des classes ( ici on a choisi 1 cm
pour une amplitude de 4 )
3. La hauteur correspond à un effectif ( ici on a choisi 1 cm pour
100 personnes ).
4. En partant de cette échelle on construit un rectangle pour chaque
classe en respectant l'effectif de chaque classe.

L’aire d'une classe est proportionnelle à l'effectif.

97
Effectifs cumulés
Il s'agit de dresser le tableau des effectifs cumulés jusqu'à une borne. Pour ce faire, on utilise le
tableau des effectifs. Par exemple, par définition,
N5 = n1+n2+n3+n4+n5
Si l'on a déjà calculé les effectifs cumulés précédents, on peut les utiliser :
N5 = N4 + n5

• Le dernier effectif cumulé a pour valeur


l'effectif total n.
• On remarquera que ce tableau comporte une
ligne de plus que celui des effectifs. On dira
donc «l'effectif d'une classe» et «l'effectif
cumulé jusqu'à la borne».
98
Fonction de distribution des effectifs
• En abscisses, on porte les bornes des classes.
• En ordonnées, on porte les effectifs cumulés.

99
Fréquences cumulées
Il s'agit de dresser le tableau des fréquences cumulées jusqu'à une borne. Par exemple, par
définition,
F5 = f1+f2+f3+f4+f5
Si l'on a déjà calculé les fréquences cumulées précédentes, on peut les utiliser :
F5 = F4 + f5
Si l'on dispose du tableau des effectifs cumulés, on peut préférer :
F5 = N5/n
• La valeur de la dernière fréquence cumulée
est 1.
• On remarquera que ce tableau comporte une
ligne de plus que celui des fréquences. On
dira donc «la fréquence d'une classe» et «la
fréquence cumulée jusqu'à la borne».
100
Fonction de distribution des fréquences
• En abscisses, on porte les bornes des classes.
• En ordonnées, on porte les fréquences cumulées.

101
Variable observée: augmentation moyenne mensuelle du salaire, en €, des employés d’une
multinationale au cours de l’année 2015.

• Il y a 1445 employés dont l’augmentation


est strictement inférieure à 5

• Il y a 170 employés dont l’augmentation


est supérieure ou égale à 10

102
Combien y-a-t-il d’employés dont l’augmentation est inférieure à 17 ? (par la formule
d’interpolation)

103
17 − 10
X1 =10 → 0,920

20 − 10
A=17 → P

X2=20 → 0,963
P − 0,920
0,963 − 0,920

104
A − 10
X1 =10 → 0,920

20 − 10
A=? → 0,95

X2=20 → 0,963
0,95 − 0,920
0,963 − 0,920

105
1
Paramètres de position d’une
Variables Continue
106
Classe modale
La classe modale est celle dont la densité d’effectif (ou de fréquence) est la plus élevée. Pour
tenir compte de la possibilité d'avoir plusieurs classes ex-aequo, il vaut mieux parler de
l'ensemble des classes modales.
densité d’effectif = 𝑛𝑖ൗ(𝑏𝑖+1 −𝑏 𝑖 ) = 𝑒𝑓𝑓𝑒𝑐𝑡𝑖𝑓 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑒 ൗ𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒
𝑓𝑖 𝑓𝑟é𝑞𝑢𝑒𝑛𝑐𝑒 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑒
densité de fréquence = ൗ(𝑏𝑖+1 −𝑏 𝑖 ) = ൗ𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑠𝑒

107
Calcul du mode « avoir une valeur approximative à partir d’un histogramme »

108
La valeur approchée du mode est
représentée sur le graphique par 𝑴𝟎

Calcul de la valeur exacte du mode

109
𝐾∗𝑛𝑖−1 𝐾∗𝑛𝑖+1
ℎ𝑖−1 = ℎ𝑖 ℎ𝑖+1 =
𝑎𝑖 −1 𝑎𝑖+1

𝐾 ∗ 𝑛𝑖
𝑎𝑖

110
Moyenne
Pour calculer la moyenne, on fait appel aux centres des classes

La moyenne se calcule alors comme suit


𝑋ത = (c1*n1 + c2*n2 + c3*n3 + ...)/n
ce qui équivaut à
𝑋ത = c1*f1 + c2*f2 + c3*f3 + ...

Ci est le centre de la classe

1
X =  ni ci =  f i ci
n i i
111
La classe médiane est [49,51[ 49 L’effectif 12
cumule
croissan
t de la
classe
avant
médiane
Tapez une équation ici.
Me 20

51 L’effectif 23
cumule
croissan
t de la
classe
médiane

𝑀𝑒 − 49 20 − 12
=
51 − 49 23 − 12 112
𝑀𝑒 − 49 20 − 12
=
51 − 49 23 − 12

20 −12
𝑀𝑒 = 49 + 51 − 49 ∗
23−12

113
Médiane
Le deuxième quartile est appelé médiane et correspond à une fréquence cumulée de 0.5
On commence par repérer, dans le tableau des fréquences cumulées, l'intervalle dans lequel se
trouve la fréquence cumulée 0.5.

Sachant que F(a) ≤ 0.5 < F(b), on détermine le nombre médiane tel que a ≤ médiane < b au
moyen de la formule d'interpolation :
médiane = a + (b - a)/(F(b) - F(a))*(0.5 - F(a))
Interprétation : les données inférieures à la médiane constituent la moitié de l'effectif.

114
Formule d'interpolation

𝑚𝑒𝑑𝑖𝑎𝑛𝑒 − 𝑎 0,5 − 𝐹(𝑎)


=
𝑏−𝑎 𝐹 𝑏 − 𝐹(𝑎)

Médiane = 𝑸𝟐 = 𝑴𝒆 = a + (b - a) *(0.5 - F(a)) /(F(b) - F(a))

115
Détermination graphique de la médiane à partir de la courbe cumulative

Dans ce cas de la courbe des Pourcentages Cumulés ( ou fréquences cumulées ou celle des
effectifs), la médiane est l’abscisse du point d’intersection de la droite horizontale passant
𝒏
par 50% (0,5 ou 𝟐) de l’axe des ordonnées.

116
Médiane
2
Paramètres de dispersion
d’une Variables Continues

117
Étendue
L'étendue est l'écart entre les modalités extrêmes.

e = 𝑽𝒎𝒂𝒙 - 𝑽𝒎𝒊𝒏 = 1000 - 300 = 700

118
Variance
La variance est la moyenne des carrés des écarts à la moyenne :
V = ((c1-m)2*n1 + (c2-m)2*n2 + (c3-m)2*n3 + ...)/n
V = (c1-m)2*f1 + (c2-m)2*f2 + (c3-m)2*f3 + ...

1 2 2 2
( )
Vx =  ni (ci ) − X = X − X ;
2 2
( )
Vx =  f i (ci ) − X = X − X
2 2 2

n i i

Ci est le centre de la classe


Écart-type
L'écart-type est égal à la racine carrée de la variance :

𝜎 = 𝑉
119
Interprétation de la variance

▪La variance et l’écart-type, mesurent la dispersion des valeurs autour de leur moyenne

▪l’écart-type est exprimé avec la même échelle que les observations

Homogénéité

120
Les quartiles
Il y a 25 % d’individus dont la valeur du caractère est dans l’intervalle
[𝑽𝒎𝒊𝒏 , 𝑸𝟏 ].

121
La classe de Q1 est [47,49[ 47 L’effectif 5
cumule
croissant
de la
classe
avant Q1

Q1 10

49 L’effectif 12
cumule
croissant
de la
classe
de Q1

𝑄1 − 47 10 − 5
=
49 − 47 12 − 5 122
𝑄1 − 47 10 − 5
=
49 − 47 12 − 5

10 −5
𝑄1 = 47 + [49 − 47] ∗
12−5

123
Premier quartile Q1
Le premier quartile correspond à une fréquence cumulée de 0.25
On commence par repérer, dans le tableau des fréquences cumulées, l'intervalle dans lequel se
trouve la fréquence cumulée 0.25. Restreinte à cet intervalle [a; b[, la fonction de distribution F
est affine et monotone croissante.
Sachant que F(a) <= 0.25 < F(b), on détermine Q1 tel que
a ≤ Q1 < b au moyen de la formule d'interpolation :

Q1 = a + (b - a)*(0.25 - F(a)/(F(b) - F(a))

Interprétation : les données inférieures au premier quartile


constituent le quart de l'effectif.

124
Troisième quartile Q3
Le troisième quartile correspond à une fréquence cumulée de 0.75
On commence par repérer, dans le tableau des fréquences cumulées, l'intervalle dans lequel se
trouve la fréquence cumulée 0.75. Restreinte à cet intervalle [a; b[, la fonction de distribution F
est affine et monotone croissante.

Sachant que F(a) ≤ 0.75 < F(b), on détermine Q3 tel que


a ≤ Q3 < b au moyen de la formule d'interpolation :

Q3 = a + (b - a)*(0.75 - F(a)/(F(b) - F(a))

Interprétation : les données inférieures au troisième quartile


constituent les trois quarts de l'effectif.
125
La classe de Q3 est [51,53[ 51 L’effectif 23
cumule
croissant
de la
classe
avant Q3

Q3 30

53 L’effectif 31
cumule
croissant
de la
classe
de Q3

𝑄3 − 51 30 − 23
=
53 − 51 31 − 23 126
𝑄3 − 51 30 − 23
=
53 − 51 31 − 23

30 −23
𝑄3 = 51 + [53 − 51] ∗
31 −23

127
Pour avoir une valeur approximative des quartiles à partir de la courbe cumulative

128
129
130
Coefficient d’asymétrie de Pearson : aplatissement

Si : p = 0 on asymétrie parfaite
Si p > 0 : dissymétrie à gauche
Si p < 0 : dissymétrie à droite

131
p=0

p>0
p<0

132
➢Pour visualiser la dispersion d’une série statistique, on peut alors représenter une « boîte à
moustache ».

133
134
➢Pour comparer la dispersion de plusieurs séries statistique, on peut alors les représenter par
une « boîte à moustache ».

135
➢Pour comparer la dispersion de plusieurs séries statistique, on utilise le « Coefficient de
variation »
➢Les observations ne sont pas exprimées dans la même unité

▪Sans unité
▪On l’exprime souvent en pourcentage.
▪Plus grand est le coefficient de variation, plus
grande est la dispersion.
136
Si nous avons à étudier une série discrète qui
présente plus de 15 modalités, Il es préférable
qu’on regroupe la série sous forme de classes et
l’étudié comme une série continue

137
L’évaluation d’un groupe d’étudiants en module
de Statistique a donnée les résultats suivants :

51 95 70 74 73 90 71 74 90 67 90 83 66 77 91
71 96 81 88 64 80 81 75 85 74 91 72 83 89 50 80
72 84 85 69 82 73 57 86 70 62 82 87 76 91 76 87
75 78 79
Est une série discrète dont le nombre de
modalités est supérieur à 15 138
On l’étudier en tant que série discrète, mais il
y’aura beaucoup de calcul.

Il est donc préférable qu’on regroupe cette série


sous forme de classes et l’étudié comme une série
continue
139
Comment on le fait:
1. Déterminer l’effectif total N
2. Déterminer le nombre de classes de
même amplitude
3. Dans notre cas on N=50
4. Je calcule 𝟓𝟎 = 7,07 donne le
nombre de classes à étudier 140
L’entier le plus proche de 7,07 est 8
• Dans ce cas on va partager l’étendue
en 8 classes
• E= Vmax – Vmin = 96 – 50 = 46
• 46/8 = 5,75
• Il y’aura 8 classes d’amplitude 6
141
[50; 56[; [56; 62[;………; [92; 98[

8 classes

142
Connaissances
Parmi ces assertions, préciser celles qui sont vraies, celles qui sont fausses.

1. On appelle variable, une caractéristique que l’on étudie.


2. La tâche de la statistique descriptive est de recueillir des données.
3. La tâche de la statistique descriptive est de présenter les données sous forme de
tableaux, de graphiques et d’indicateurs statistiques.
4. En Statistique, on classe les variables selon différents types.
5. Les valeurs des variables sont aussi appelées modalités.
6. Pour une variable qualitative, chaque individu statistique ne peut avoir qu’une seule
modalité.
7. Pour faire des traitements statistiques, il arrive qu’on transforme une variable
quantitative en variable qualitative.
8. La variable quantitative poids d’automobile peut être reclassée en compacte,
intermédiaire et grosse
9. En pratique, lorsqu’une variable quantitative discrète prend un grand nombre de valeurs
distinctes, on la traite comme continue.
143
Solution : le corrigé en ordre est donné par

144
Connaissances
Classer ces statistiques selon leurs natures (indicateur de
position ou de dispersion)

145
Bilan
Une étude sur le budget consacré aux vacances d’été auprès de ménages
a donné les résultats suivants

146
Le travail demandé :

a) Certaines données sont manquantes.


b) Calculer la borne manquante α sachant que l’étendue de
la série est égale à 3200.
c) Calculer les fréquences dans le tableau.
d) Calculer la borne manquante β dans les deux cas
suivants :
i. Le budget moyen est égal à 1995.
ii. Le budget médian est égal à 1920.

147
Solution

- On sait que l’étendue est égale au maximum moins le


minimum.
- Ainsi, 3200 = 𝑽𝒎𝒂𝒙 − 𝑽𝒎𝒊𝒏 = α − 800, et donc α = 4000. -

148
- Nous complétons le tableau comme suit

0.18 - 0;08

149
Le calcul la borne manquante β dans le cas où le budget
ഥ = 1995 se fait comme
moyen est égal à 1995, c’est à dire, 𝑿
suit

150
Le calcule la borne manquante β dans le cas où le budget
médian est égal à 1920, c’est à dire, Me = 1920 se fait comme
suit : il faut raisonner par interpolation linéaire sur l’intervalle
de la médiane [1600 , β[. On pose le rapport des distances
suivant, 1600 0,34

Me 0,5

𝛽 0,64

151
On pose le rapport des distances suivant,

152
Bilan
Chez un fabriquant de tubes de plastiques, on a prélevé un échantillon de 100 tubes
dont on a mesuré le diamètre en décimètre.

153
1. Identifier la population, les individus, le caractère et son
type.
2. Regrouper cette série en classe
3. Tracer l’histogramme de cette variable statistique.
4. Déterminer par le calcul la valeur du diamètre au-dessous
de laquelle se trouvent 50% des tubes de plastique.
5. Que reprèsente cette valeur.
6. Déterminer par le calcul le pourcentage de tubes ayant un
diamètre inférieur à 2.58.

154
155
THANKS!
Des questions?
You can find me at
morchadi@hotmail.com

156

Vous aimerez peut-être aussi