Académique Documents
Professionnel Documents
Culture Documents
2
« Une statistique » : pour désigner de manière plus savante et
plus formelle, ce que nous avons appelé vulgairement plus
haut « les statistiques ». Résultat de toute fonction (ou de toute
opération mathématique) des observations obtenues à partir
d’une enquête ou d’une activité quelconque de collecte
d’informations (ex : une moyenne, une proportion, un total).
Ce concept n’est alors que le synonyme de mesure statistique
définie plus loin.
3
Enquête
Activité consistant à collecter et à traiter de l’information
relative à certaines caractéristiques concernant une partie
(enquête-échantillon ou sondage) ou toute une population
(recensement) à l’aide de méthodes, de procédures et de
concepts bien définis.
4
Population
Ensemble « d’objets » ou « d’individus » (réels ou virtuels)
présentant des particularités communes dont on aimerait
toutefois étudier les différences. En Probabilité : l’ensemble des
valeurs prises par ces variables et leur répartition à travers les
« objets » qui forment la population. Une population peut donc
être constituée « d’objets » aussi bien physiques (ensemble des
entreprises haïtiennes) que conceptuels (ensemble des jours
d’une année).
6
Recensement
Enquête consistant à collecter et à traiter de l’information
provenant de toutes les unités d’une population
7
Sondage
Enquête consistant à collecter et à traiter de l’information
provenant seulement d’une partie d’une population
judicieusement choisie (sondage ou enquête-échantillon ou
encore enquête par échantillonnage), afin de tirer des
conclusions sur toute la population.
8
Echantillon
Ensemble d’unités statistiques constituant la partie d’une
population observée lors d’un sondage. Ces unités sont
appelées des unités échantillonnales.
9
Variable ou Caractère
L’enquête statistique a généralement pour but l’étude de
caractère particulier associé aux unités de la population
étudiée. Ce caractère (ou variable) qui différentie chaque unité
statistique, peut être soit quantitatif (mesurable), soit
qualitatif (non-mesurable : présente plutôt des qualités
mutuellement exclusives).
10
Si X est une variable quantitative, elle peut ou bien prendre
différentes valeurs isolées dont on peut en énumérer le nombre
(variable discrète) – dans ce cas, on peut toujours trouver deux
valeurs particulières entre lesquelles il n’en existe pas d’autres
– ou bien alors X prend toutes les valeurs possibles d’un
intervalle donné (variable continue).
11
Exemples :
Le nombre d’enseignants dans une école (variable quantitative
discrète).
La surface totalisée par toutes les salles de classe d’une école
(variable quantitative continue).
L’état d’un bâtiment scolaire (variable qualitative ordinale
avec par exemple les trois modalités : mauvais, acceptable,
bon).
12
Données
Ensemble représentant les résultats (quantitatifs ou qualitatifs)
portant sur une ou plusieurs variables, obtenus auprès des
unités statistiques lors d’une enquête. Certains de ces résultats
peuvent être répétitifs. Les données peuvent donc être aussi
bien quantitatives que qualitatives. Des données portant sur
une seule variable sont dites univariées (ou
unidimensionnelles) et celles concernant plusieurs variables
sont dites multivariées (ou multidimensionnelles).
13
Observation
Façon de désigner une unité statistique munie des résultats
(quantitatifs ou qualitatifs) observés pour elles. On utilise
indifféremment les concepts de données et d’observations. On
dira ainsi que l’ensemble des observations forme l’ensemble
des données.
14
Valeurs
Vocable utilisé pour désigner les résultats obtenus (ou
théoriquement possibles) pour une variable quantitative. On
parlera ainsi de valeurs prises par différentes observations.
Dans un ensemble de données quantitatives, une même valeur
peut donc se répéter pour plusieurs observations. Alors qu’une
variable est désignée par l’une des lettres majuscules X, Y ou Z ,
les valeurs de cette variable (lorsque quantitative) sont
désignées par leur équivalent minuscule x, y ou z. Rappelons
que dans le cas des variables qualitatives, les résultats obtenus
ou théoriquement possibles sont appelés des modalités.
15
Mesure Statistique
Mesure obtenue à partir d’un ensemble de donnée provenant
d’une enquête ou d’une activité quelconque de collecte
d’informations (recensement, sondage, données
administratives, etc…), qui résume succinctement les
informations collectées sur l’ensemble des unités statistiques
sur lesquelles les observations ont été faites.
Exemples :
Une proportion : mesure qui représente la proportion d’unités
d’une population d’une population ou d’un échantillon qui
présente une certaine modalité particulière d’une
16
caractéristique qualitative (ex : la proportion d’enseignants de
sexe féminin dans nos écoles primaires)
Mesure Échantillonnale
Mesure statistique variable obtenue à partir d’un échantillon
pigé dans une population. En effet, une telle mesure varie en
18
fonction de l’échantillon choisi. Plusieurs échantillons pigés
d’une même population peuvent attribuer des valeurs
différentes à cette mesure.
19
Objet de l’Étude de la Statistique
22
Chapitre 2
23
Les Tableaux de Distribution de Fréquences
24
Cas des Variables Quantitatives Discrètes
25
Cas général Exemple
𝐗 𝐧𝐢 𝐟𝐢 𝐗 𝐧𝐢 𝐟𝐢
𝑥1 𝑛1 𝑓1 = 𝑛1 /𝑛 1 13 0.180 ou 18.0%
𝑥2 𝑛2 𝑓2 = 𝑛2 /𝑛 2 16 0.222 ou 22.2%
𝑥3 𝑛3 𝑓3 = 𝑛3 /𝑛 3 21 0.292 ou 29.2%
𝑥4 𝑛4 𝑓4 = 𝑛4 /𝑛
4 14 0.194 ou 19.4%
. . .
5 5 0.069 ou 6.9%
. . .
6 2 0.028 ou 2.8%
𝑥𝑘 𝑛𝑘 𝑓𝑘 = 𝑛𝑘 /𝑛
Total 𝒏 1 (100%) 7 1 0.014 ou 1.4%
Total 𝒏 1 (100%)
26
On peut également à partir du tableau, répondre à des
questions du genre :
27
e) Quel est le pourcentage de familles habitant un logement
ayant entre 4 et 6 pièces inclusivement ?
f) Quel est le pourcentage de familles habitant un logement
de moins de 6 pièces mais d’au moins 3 ?
g) Quel est le pourcentage de familles habitant un logement
de plus de 7 pièces ?
28
Fréquences cumulées
𝑿 F(x) (croissant) G(x) (décroissant)
𝑥1 𝐹 (𝑥1 ) = 𝑓1 𝐺 (𝑥1 ) = 𝑓2 + 𝑓3 + 𝑓4 + 𝑓5 + ⋯ + 𝑓𝑘
𝑥2 𝐹 (𝑥2 ) = 𝑓1 + 𝑓2 𝐺 (𝑥2 ) = 𝑓3 + 𝑓4 + 𝑓5 + ⋯ + 𝑓𝑘
𝑥3 𝐹 (𝑥3 ) = 𝑓1 + 𝑓2 + 𝑓3 𝐺 (𝑥3 ) = 𝑓4 + 𝑓5 + ⋯ + 𝑓𝑘
𝑥4 𝐹 (𝑥4 ) = 𝑓1 + 𝑓2 + 𝑓3 + 𝑓4 𝐺 (𝑥4 ) = 𝑓5 + ⋯ + 𝑓𝑘
. …………….. ……………..
𝑥𝑘 𝐹 (𝑥𝑘 ) = 𝑓1 + 𝑓2 + 𝑓3 + 𝑓4 … + 𝑓𝑘 = 1 𝐺 (𝑥𝑘 ) = 0
𝑿 F(x) G(x)
1 0.180 (18.0%) 0.820 (82.0%)
2 0.402 (40.2%) 0.598 (59.8%)
3 0.694 (69.4%) 0.306 (30.6%)
4 0.888 (88.8%) 0.112 (11.2%)
5 0.957 (95.7%) 0.043 (4.3%)
6 0.985 (98.5%) 0.015 (1.5%)
7 1.000 (100.0%) 0.000 (0.0%)
29
30
Cas des Variables Quantitatives Continues
𝐗 𝐧𝐢 𝐟𝐢
[x1 , x 2 [ n1 f1
[x 2 , x 3 [ n2 f2
[x 3 , x 4 [ n3 f3
… … …
[x𝑘 , x𝑘+1 [ n𝑘 f𝑘
1
Total 𝐧
(100%)
31
Pour chaque classe [xi , xi+1 [ appelée classe i,
a) xi et xi+1 sont appelés les limites de classe
b) La quantité
xi + xi+1
𝑐𝑖 =
2
est appelée le centre de classe
c) La différence
𝐴𝑖= xi+1 − xi
33
1) Ne pas faire moins de 5 classes ni plus de 20 classes.
Idéalement, faire de 6 à 12 classes. Ce choix dépendra
du nombre d’observations « n », et de l’étendue « E »
de la série. La formule suivante, connue sous le nom
de règle ou formule de Sturges (Herbert Sturges,
Statisticien Américain (1882 – 1958)) est suggérée pour
une bonne indication du nombre « k » de classes à
construire :
k = 1 + 3.3 log(n) (logarithme à base 10)
On choisira alors pour « k » la valeur arrondie à
l’entier le plus proche.
34
2) On essaiera de construire, le plus que possible, des
classes d’amplitude constante « A ». Afin de couvrir
toute l’étendue « E » de la série, on devra, sans
toutefois trop dépasser « E », avoir 𝒌𝑨 > 𝑬 (𝒊. 𝒆 𝑨 >
𝑬/𝒌). Le surplus par rapport à « E » sera donc 𝒌𝑨 −
𝑬. Il est recommandé enfin que ce surplus ne dépasse
pas « A », c’est-à-dire que 𝒌𝑨 − 𝑬 ≤ 𝑨, ou encore que
𝑨 ≤ 𝑬/(𝒌 − 𝟏). D’où finalement on prendra : 𝑬/𝒌 <
𝑨 ≤ 𝑬/(𝒌 − 𝟏), plus proche si possible de 𝑬/𝒌 que
de 𝑬/(𝒌 − 𝟏).
35
Si, dépendant de l’ordre de grandeur des
observations, des valeurs comme : 1/2, 1, 2, 3, 5, 10, 15,
20, 25, 50, 100, 500, 1000, … appartiennent à cet
intervalle, elles seront privilégiées, particulièrement
si elles sont plus proches de 𝑬/𝒌.
36
de part et d’autre de x(1) et x(n) , garantissant ainsi que
l’étendue soit bien couverte. Ainsi, le point de départ
sera légèrement inférieur à 𝐱 (𝟏) (il pourrait à la limite
lui être égal), et la limite supérieure de la dernière
classe 𝐱𝐤+𝟏 sera légèrement supérieure à 𝐱 (𝐧) .
37
observations dans chaque classe. Toutes les
techniques de statistique descriptive sont basées sur
cette hypothèse. Elle permet par exemple d’utiliser le
centre de chaque classe comme un bon représentant
de l’ordre de grandeur des valeurs des observations
contenues dans cette classe ; ou encore de déterminer,
sous certaines conditions, les limites de classe des
classes ouvertes.
38
1) En général, l’application de ces conseils donne lieu,
la plupart du temps, à l’un des quatre scénarios
suivants, illustrant une certaine régularité dans la
distribution :
i)les fréquences ont tendance à croitre, puis à
décroitre
ii) les fréquences ont plutôt tendance à croitre
iii) les fréquences ont plutôt tendance à décroitre
iv) les fréquences ont tendance à rester contantes
39
2) On verra plus tard, comment les fréquences
doivent des fois être ajustées ou transformées en
densités en les divisant par l’amplitude de leur classe
correspondante. On obtiendra ainsi les densités de
fréquences absolues (Di = ni /Ai ) si le quotient est
défini avec les fréquences absolues, ou les densités de
fréquences relatives (di = fi /Ai ) – le plus souvent
utilisées – si le quotient est défini avec les fréquences
relatives.
40
Exemple :
Une enquête sur les salaires, menée auprès de 142
travailleurs d’un même secteur économique, révéla les
salaires mensuels suivants en $ :
41
68.00 66.07 69.50 66.10 67.82 67.47 68.82 67.20 68.17 67.94 66.34
67.88 67.41 68.84 66.87 66.73 69.61 67.57 69.24 68.47 67.29 68.03
67.09 69.54 66.14 67.53 67.75 68.45 67.18 67.85 67.75 66.37 67.55
66.92 68.80 67.38 66.83 69.65 66.71 68.60 69.17 67.65 67.79 67.49
69.48 67.81 67.14 67.96 68.30 67.83 68.18 67.44 67.22 67.23 67.73
66.40 66.91 67.68 66.81 68.33 67.25 66.80 66.75 67.85 67.48 68.87
67.80 69.46 68.09 67.15 68.99 68.20 67.54 69.94 66.93 67.55 67.90
66.40 67.71 69.84 66.84 67.32 67.89 67.58 69.21 67.28 68.05 67.88
68.06 67.47 67.51 67.20 68.98 68.15 67.85 69.20 66.42 67.85 68.64
68.91 67.92 69.45 67.32 67.66 66.53 67.80 66.78 67.61 67.05 66.60
68.05 67.78 67.12 67.17 68.93 68.21 67.55 69.15 67.74 68.22 69.73
67.92 67.91 68.78 67.68 67.86 67.25 68.40 69.12 67.83 66.03 69.20
68.07 69.00 68.11 66.95 68.85 66.29 68.15 68.95 66.93 68.29
42
a) Après avoir mis la série dans l’ordre croissant, on
trouvera que x(1) = 66.03 et x(142) = 69.94. D’où on
obtient : E = 69.94 − 66.03 = 3.91.
43
0.5586, on aura : 0.4887 < A ≤ 0.5586. Finalement,
selon cette même recommandation, on choisira : 𝐀 =
𝟎. 𝟓 et le surplus par rapport à l’étendue sera de
(8 × 0.5) − 3.91 = 0.09. Il restera à choisir le point de
départ x(1) , c’est-à-dire la limite inférieure de la
première classe.
44
classe sera alors : x1 = 66.03 − 0.03 = 66.0, et la limite
supérieure de la dernière classe sera : xk+1 = 69.94 +
0.06 = 70.0.
On obtient ainsi le tableau de distribution de fréquences
(avec les densités de fréquences relatives) suivant :
45
Classes des Centre
𝐧𝐢 𝒇𝐢 𝒅𝐢
salaires de classe
[66.0 , 66.5[ 66.25 10 0.0704 ou 7.04% 0.1408
[66.5 , 67.0[ 66.75 16 0.1127 ou 11.27% 0.2254
[67.0 , 67.5[ 67.25 24 0.1690 ou 16.90% 0.3380
[67.5 , 68.0[ 67.75 40 0.2817 ou 28.17% 0.5634
[68.0 , 68.5[ 68.25 21 0.1479 ou 14.79% 0.2958
[68.5 , 69.0[ 68.75 13 0.0915 ou 9.15% 0.1830
[69.0 , 69.5[ 69.25 11 0.0775 ou 7.75% 0.1550
[69.5 , 70.0[ 69.75 7 0.0493 ou 4.93% 0.0986
Total 142 1.0000 ou 100.00%
46
Fréquences cumulées
X F(x) (croissant) G(x) (décroissant)
[x1 , x2 [ F(x2 ) = f1 G(x1 ) = f1 + f2 + ⋯ + fk = 1
[x2 , x3 [ F(x3 ) = f1 + f2 G(x2 ) = f2 + f3 + f4 + ⋯ + fk
[x3 , x4 [ F(x4 ) = f1 + f2 + f3 G(x3 ) = f3 + f4 + ⋯ + fk
[x4 , x5 [ F(x5 ) = f1 + f2 + f3 + f4 G(x4 ) = f4 + ⋯ + fk
…… …… ……
[xk , xk+1 [ F(xk+1 ) = f1 + f2 + ⋯ + fk = 1 G(xk ) = fk
47
Salaires F(x) G(x)
[66.0 , 66.5[ 0.0704 ou 7.04% 1.000 ou 100.00%
[66.5 , 67.0[ 0.1831 ou 18.31% 0.9296 ou 92.96%
[67.0 , 67.5[ 0.3521 ou 35.21% 0.8169 ou 81.69%
[67.5 , 68.0[ 0.6338 ou 63.38% 0.6479 ou 64.79%
[68.0 , 68.5[ 0.7817 ou 78.17% 0.3662 ou 36.62%
[68.5 , 69.0[ 0.8732 ou 87.32% 0.2183 ou 21.83%
[69.0 , 69.5[ 0.9507 ou 95.07% 0.1268 ou 12.68%
[69.5 , 70.0[ 1.0000 ou 100.00% 0.0493 ou 4.93%
48
Cas des Variables Qualitatives
Exemple :
Distribution de la pratique religieuse dominante dans un
échantillon fictif de 100 adultes haïtiens. Notons que la
façon dont la variable a été définie garantit des modalités
mutuellement exclusives.
Religions 𝒏𝒊 𝒇𝒊
Catholique 20 0.20 ou 20%
Protestant 13 0.13 ou 13%
Vodouisant 55 0.55 ou 55%
Autres 8 0.08 ou 8%
Aucune religion 4 0.04 ou 4%
Total 100 1.00 ou 100%
49