Vous êtes sur la page 1sur 49

Définition de certains concepts de base :

« Statistiques » : réfère à une mesure (indicateur, indice,


coefficient, …) qui informe de façon très succincte sur l’état
d’une certaine situation. « Les statistiques » sont des faits
numériques classifiés qui décrivent une réalité.

« La statistique » : réfère tout simplement à cette science qui


fait partie de la grande famille des Mathématiques. « La
Statistique » est en effet une discipline scientifique dont le
contenu est constitué d’un ensemble de méthodes et de
procédures mathématiques qui ont pour but de produire et
d’analyser « les statistiques ».
1
La Statistique Descriptive ou Déductive : Ensemble de
techniques et de méthodes permettant d’ordonner, de classer,
de synthétiser et de résumer l’information recueillie à partir
d’une enquête, d’une expérimentation quelconque, de
documents administratifs ou d’une population restreinte.

La Statistique Inférentielle ou Inductive : s’intéresse à


généraliser à l’ensemble d’une population, des conclusions
tirées des résultats obtenus à partir d’un échantillon de cette
population. Elle utilise alors des raisonnements inductifs
permettant le passage du particulier au général.

2
« Une statistique » : pour désigner de manière plus savante et
plus formelle, ce que nous avons appelé vulgairement plus
haut « les statistiques ». Résultat de toute fonction (ou de toute
opération mathématique) des observations obtenues à partir
d’une enquête ou d’une activité quelconque de collecte
d’informations (ex : une moyenne, une proportion, un total).
Ce concept n’est alors que le synonyme de mesure statistique
définie plus loin.

3
Enquête
Activité consistant à collecter et à traiter de l’information
relative à certaines caractéristiques concernant une partie
(enquête-échantillon ou sondage) ou toute une population
(recensement) à l’aide de méthodes, de procédures et de
concepts bien définis.

Exemple : Enquête sur les écoles primaires haïtiennes

4
Population
Ensemble « d’objets » ou « d’individus » (réels ou virtuels)
présentant des particularités communes dont on aimerait
toutefois étudier les différences. En Probabilité : l’ensemble des
valeurs prises par ces variables et leur répartition à travers les
« objets » qui forment la population. Une population peut donc
être constituée « d’objets » aussi bien physiques (ensemble des
entreprises haïtiennes) que conceptuels (ensemble des jours
d’une année).

Exemple : Pour l’exemple précédent, la population est


l’ensemble des écoles primaires haïtiennes ou pourrait être
encore l’ensemble des élèves de ces écoles.
5
Unités statistiques
Vocable utilisé pour désigner de manière générique les objets
d’une population

exemple : Dans l’enquête mentionnée plus haut, chaque école


est une unité statistique

6
Recensement
Enquête consistant à collecter et à traiter de l’information
provenant de toutes les unités d’une population

exemple : Le recensement de la population et du logement, qui


consiste à relever, entre autres choses, le nombre d’individus,
de ménages et de logements existant dans un pays à un
moment bien précis dans le temps.

7
Sondage
Enquête consistant à collecter et à traiter de l’information
provenant seulement d’une partie d’une population
judicieusement choisie (sondage ou enquête-échantillon ou
encore enquête par échantillonnage), afin de tirer des
conclusions sur toute la population.

exemple : Un sondage d’opinion sur les intentions de vote des


électeurs avant une certaine élection

8
Echantillon
Ensemble d’unités statistiques constituant la partie d’une
population observée lors d’un sondage. Ces unités sont
appelées des unités échantillonnales.

9
Variable ou Caractère
L’enquête statistique a généralement pour but l’étude de
caractère particulier associé aux unités de la population
étudiée. Ce caractère (ou variable) qui différentie chaque unité
statistique, peut être soit quantitatif (mesurable), soit
qualitatif (non-mesurable : présente plutôt des qualités
mutuellement exclusives).

Les variables sont généralement désignées par les lettres


majuscules X, Y ou Z. Au besoin, on peut les indicer :
X1 , X 2 , … , Y1 , Y2 , … , Z1 , Z2 , …

10
Si X est une variable quantitative, elle peut ou bien prendre
différentes valeurs isolées dont on peut en énumérer le nombre
(variable discrète) – dans ce cas, on peut toujours trouver deux
valeurs particulières entre lesquelles il n’en existe pas d’autres
– ou bien alors X prend toutes les valeurs possibles d’un
intervalle donné (variable continue).

Lorsque X est qualitatif, chacune de ses différentes


qualifications possibles est appelée une modalité. Si ces
modalités peuvent être placées dans un certain ordre
hiérarchique, on dira que la variable est ordinale, sinon elle est
dite nominale.

11
Exemples :
Le nombre d’enseignants dans une école (variable quantitative
discrète).
La surface totalisée par toutes les salles de classe d’une école
(variable quantitative continue).
L’état d’un bâtiment scolaire (variable qualitative ordinale
avec par exemple les trois modalités : mauvais, acceptable,
bon).

12
Données
Ensemble représentant les résultats (quantitatifs ou qualitatifs)
portant sur une ou plusieurs variables, obtenus auprès des
unités statistiques lors d’une enquête. Certains de ces résultats
peuvent être répétitifs. Les données peuvent donc être aussi
bien quantitatives que qualitatives. Des données portant sur
une seule variable sont dites univariées (ou
unidimensionnelles) et celles concernant plusieurs variables
sont dites multivariées (ou multidimensionnelles).

13
Observation
Façon de désigner une unité statistique munie des résultats
(quantitatifs ou qualitatifs) observés pour elles. On utilise
indifféremment les concepts de données et d’observations. On
dira ainsi que l’ensemble des observations forme l’ensemble
des données.

exemple : L’école « Bon Berger de Marigot » comptant 136


élèves, est une des observations de l’enquête sur les écoles (136
est l’une des données de l’enquête).

14
Valeurs
Vocable utilisé pour désigner les résultats obtenus (ou
théoriquement possibles) pour une variable quantitative. On
parlera ainsi de valeurs prises par différentes observations.
Dans un ensemble de données quantitatives, une même valeur
peut donc se répéter pour plusieurs observations. Alors qu’une
variable est désignée par l’une des lettres majuscules X, Y ou Z ,
les valeurs de cette variable (lorsque quantitative) sont
désignées par leur équivalent minuscule x, y ou z. Rappelons
que dans le cas des variables qualitatives, les résultats obtenus
ou théoriquement possibles sont appelés des modalités.

15
Mesure Statistique
Mesure obtenue à partir d’un ensemble de donnée provenant
d’une enquête ou d’une activité quelconque de collecte
d’informations (recensement, sondage, données
administratives, etc…), qui résume succinctement les
informations collectées sur l’ensemble des unités statistiques
sur lesquelles les observations ont été faites.

Exemples :
Une proportion : mesure qui représente la proportion d’unités
d’une population d’une population ou d’un échantillon qui
présente une certaine modalité particulière d’une

16
caractéristique qualitative (ex : la proportion d’enseignants de
sexe féminin dans nos écoles primaires)

Une moyenne : mesure correspondant à la valeur moyenne


que prend une variable quantitative dans une population ou
dans un échantillon, résumant ainsi l’ordre de grandeur de
cette variable pour les unités concernées (ex : la superficie
moyenne des salles de classe dans les écoles primaires d’Haïti)

Un agrégat ou total : mesure représentant le total d’une


certaine caractéristique quantitative agrégé sur toutes les
unités d’une population ou d’un échantillon (ex : le nombre
total d’enseignants de toutes les écoles primaires du pays).
17
Paramètre
Mesure statistique fixe obtenue à partir de toute une
population. Souvent, l’objectif d’une enquête est de calculer (à
l’aide d’un recensement) ou d’estimer (à l’aide d’un sondage)
cette quantité lorsqu’elle est inconnue.

Exemple : Le nombre moyen d’élèves par école dans les écoles


primaires d’Haïti

Mesure Échantillonnale
Mesure statistique variable obtenue à partir d’un échantillon
pigé dans une population. En effet, une telle mesure varie en
18
fonction de l’échantillon choisi. Plusieurs échantillons pigés
d’une même population peuvent attribuer des valeurs
différentes à cette mesure.

19
Objet de l’Étude de la Statistique

De manière générale, voici quelques exemples d’application de


la Statistique :

1) Un sondage (ex : Un sondage d’opinions sur les


intentions de vote avant les élections)
2) Un plan d’expérience (ex : Tester lequel de 2 type de
voitures consomme moins d’essence, en éliminant
préalablement tous les facteurs autres que la consommation
elle-même : chauffeurs, état de la route, pneus, etc..)
3) Un problème de décision (ex : Décider du nombre de
chapeaux qu’il faut produire pour satisfaire un certain
20
pourcentage de consommateurs potentiels, selon la taille de
leur tête)
4) Une analyse de données (ex : Etudier le lien entre
certains facteurs (à risque) et la possibilité de contracter une
maladie)
5) Une vérification d’une hypothèse statistique (ex :
Vérifier statistiquement l’hypothèse selon laquelle au moins
un certain pourcentage de finissants d’une certaine
université trouve un emploi durant l’année qui suit la fin de
leurs études)
6) Un problème d’estimation (ex : Estimer à partir d’un
échantillon de ménages le revenu mensuel moyen d’un
ménage haïtien)
21
7) Une analyse de statistique descriptive (ex : Une étude
descriptive des données provenant des dossiers des
malades d’un hôpital : profil socio-économique, sexe, âge,
état civil, lieu de naissance, poids, taille, maladie, durée de
séjour, coût du séjour, type de chambre occupé, résultat de
l’hospitalisation, etc…)

22
Chapitre 2

ANALYSE ÉLÉMENTAIRE DE DONNÉES


UNIDIMENSIONNELLES :
LES DISTRIBUTIONS DE FRÉQUENCES

23
Les Tableaux de Distribution de Fréquences

On appelle tableau de distributions de fréquences ou


distribution empirique d’une variable statistique, un tableau
qui indique les fréquences (absolues ou relatives – cumulées ou
non) « d’apparition » de chacune des valeurs, classes de
valeurs ou modalités observées pour une variable lors d’une
étude statistique.

24
Cas des Variables Quantitatives Discrètes

25
Cas général Exemple
𝐗 𝐧𝐢 𝐟𝐢 𝐗 𝐧𝐢 𝐟𝐢
𝑥1 𝑛1 𝑓1 = 𝑛1 /𝑛 1 13 0.180 ou 18.0%
𝑥2 𝑛2 𝑓2 = 𝑛2 /𝑛 2 16 0.222 ou 22.2%
𝑥3 𝑛3 𝑓3 = 𝑛3 /𝑛 3 21 0.292 ou 29.2%
𝑥4 𝑛4 𝑓4 = 𝑛4 /𝑛
4 14 0.194 ou 19.4%
. . .
5 5 0.069 ou 6.9%
. . .
6 2 0.028 ou 2.8%
𝑥𝑘 𝑛𝑘 𝑓𝑘 = 𝑛𝑘 /𝑛
Total 𝒏 1 (100%) 7 1 0.014 ou 1.4%
Total 𝒏 1 (100%)

26
On peut également à partir du tableau, répondre à des
questions du genre :

a) Quel est le pourcentage de familles habitant un logement


de moins de 3 pièces ?
b) Quel est le pourcentage de familles habitant un logement
de plus de 2 pièces ?
c) Quel est le pourcentage de familles habitant un logement
d’au moins 6 pièces ?
d) Quel est le pourcentage de familles habitant un logement
d’au plus 6 pièces ?

27
e) Quel est le pourcentage de familles habitant un logement
ayant entre 4 et 6 pièces inclusivement ?
f) Quel est le pourcentage de familles habitant un logement
de moins de 6 pièces mais d’au moins 3 ?
g) Quel est le pourcentage de familles habitant un logement
de plus de 7 pièces ?

28
Fréquences cumulées
𝑿 F(x) (croissant) G(x) (décroissant)
𝑥1 𝐹 (𝑥1 ) = 𝑓1 𝐺 (𝑥1 ) = 𝑓2 + 𝑓3 + 𝑓4 + 𝑓5 + ⋯ + 𝑓𝑘
𝑥2 𝐹 (𝑥2 ) = 𝑓1 + 𝑓2 𝐺 (𝑥2 ) = 𝑓3 + 𝑓4 + 𝑓5 + ⋯ + 𝑓𝑘
𝑥3 𝐹 (𝑥3 ) = 𝑓1 + 𝑓2 + 𝑓3 𝐺 (𝑥3 ) = 𝑓4 + 𝑓5 + ⋯ + 𝑓𝑘
𝑥4 𝐹 (𝑥4 ) = 𝑓1 + 𝑓2 + 𝑓3 + 𝑓4 𝐺 (𝑥4 ) = 𝑓5 + ⋯ + 𝑓𝑘
. …………….. ……………..
𝑥𝑘 𝐹 (𝑥𝑘 ) = 𝑓1 + 𝑓2 + 𝑓3 + 𝑓4 … + 𝑓𝑘 = 1 𝐺 (𝑥𝑘 ) = 0

𝑿 F(x) G(x)
1 0.180 (18.0%) 0.820 (82.0%)
2 0.402 (40.2%) 0.598 (59.8%)
3 0.694 (69.4%) 0.306 (30.6%)
4 0.888 (88.8%) 0.112 (11.2%)
5 0.957 (95.7%) 0.043 (4.3%)
6 0.985 (98.5%) 0.015 (1.5%)
7 1.000 (100.0%) 0.000 (0.0%)

29
30
Cas des Variables Quantitatives Continues

𝐗 𝐧𝐢 𝐟𝐢
[x1 , x 2 [ n1 f1
[x 2 , x 3 [ n2 f2
[x 3 , x 4 [ n3 f3
… … …
[x𝑘 , x𝑘+1 [ n𝑘 f𝑘
1
Total 𝐧
(100%)

31
Pour chaque classe [xi , xi+1 [ appelée classe i,
a) xi et xi+1 sont appelés les limites de classe

b) La quantité
xi + xi+1
𝑐𝑖 =
2
est appelée le centre de classe

c) La différence
𝐴𝑖= xi+1 − xi

est la largeur, l’amplitude, ou l’étendue de la classe


32
Il n’y a pas de règles générales rigoureuses pour la
détermination du nombre de classes, de même que pour
la construction des classes. Toutefois, la plupart des
tableaux de distribution de fréquences semblent indiquer
que les statisticiens s’entendent sur un ensemble de
lignes directrices très souples dont les plus importantes
sont les suivantes :

33
1) Ne pas faire moins de 5 classes ni plus de 20 classes.
Idéalement, faire de 6 à 12 classes. Ce choix dépendra
du nombre d’observations « n », et de l’étendue « E »
de la série. La formule suivante, connue sous le nom
de règle ou formule de Sturges (Herbert Sturges,
Statisticien Américain (1882 – 1958)) est suggérée pour
une bonne indication du nombre « k » de classes à
construire :
k = 1 + 3.3 log(n) (logarithme à base 10)
On choisira alors pour « k » la valeur arrondie à
l’entier le plus proche.

34
2) On essaiera de construire, le plus que possible, des
classes d’amplitude constante « A ». Afin de couvrir
toute l’étendue « E » de la série, on devra, sans
toutefois trop dépasser « E », avoir 𝒌𝑨 > 𝑬 (𝒊. 𝒆 𝑨 >
𝑬/𝒌). Le surplus par rapport à « E » sera donc 𝒌𝑨 −
𝑬. Il est recommandé enfin que ce surplus ne dépasse
pas « A », c’est-à-dire que 𝒌𝑨 − 𝑬 ≤ 𝑨, ou encore que
𝑨 ≤ 𝑬/(𝒌 − 𝟏). D’où finalement on prendra : 𝑬/𝒌 <
𝑨 ≤ 𝑬/(𝒌 − 𝟏), plus proche si possible de 𝑬/𝒌 que
de 𝑬/(𝒌 − 𝟏).

35
Si, dépendant de l’ordre de grandeur des
observations, des valeurs comme : 1/2, 1, 2, 3, 5, 10, 15,
20, 25, 50, 100, 500, 1000, … appartiennent à cet
intervalle, elles seront privilégiées, particulièrement
si elles sont plus proches de 𝑬/𝒌.

3) Une fois « A » déterminé, il restera à trouver la


limite inférieure de la première classe 𝐱𝟏 , c’est-à-
dire, le point de départ du regroupement. Ce choix se
fera en répartissant judicieusement le surplus 𝑘𝐴 − 𝐸

36
de part et d’autre de x(1) et x(n) , garantissant ainsi que
l’étendue soit bien couverte. Ainsi, le point de départ
sera légèrement inférieur à 𝐱 (𝟏) (il pourrait à la limite
lui être égal), et la limite supérieure de la dernière
classe 𝐱𝐤+𝟏 sera légèrement supérieure à 𝐱 (𝐧) .

4) Il sera souhaitable que dans chaque classe, les


données observées soient bien réparties autour du
centre de classe et coïncident le moins que possible
avec les limites de classe. Ceci permettra de faire
l’hypothèse d’une répartition uniforme des

37
observations dans chaque classe. Toutes les
techniques de statistique descriptive sont basées sur
cette hypothèse. Elle permet par exemple d’utiliser le
centre de chaque classe comme un bon représentant
de l’ordre de grandeur des valeurs des observations
contenues dans cette classe ; ou encore de déterminer,
sous certaines conditions, les limites de classe des
classes ouvertes.

38
1) En général, l’application de ces conseils donne lieu,
la plupart du temps, à l’un des quatre scénarios
suivants, illustrant une certaine régularité dans la
distribution :
i)les fréquences ont tendance à croitre, puis à
décroitre
ii) les fréquences ont plutôt tendance à croitre
iii) les fréquences ont plutôt tendance à décroitre
iv) les fréquences ont tendance à rester contantes

39
2) On verra plus tard, comment les fréquences
doivent des fois être ajustées ou transformées en
densités en les divisant par l’amplitude de leur classe
correspondante. On obtiendra ainsi les densités de
fréquences absolues (Di = ni /Ai ) si le quotient est
défini avec les fréquences absolues, ou les densités de
fréquences relatives (di = fi /Ai ) – le plus souvent
utilisées – si le quotient est défini avec les fréquences
relatives.

40
Exemple :
Une enquête sur les salaires, menée auprès de 142
travailleurs d’un même secteur économique, révéla les
salaires mensuels suivants en $ :

41
68.00 66.07 69.50 66.10 67.82 67.47 68.82 67.20 68.17 67.94 66.34
67.88 67.41 68.84 66.87 66.73 69.61 67.57 69.24 68.47 67.29 68.03
67.09 69.54 66.14 67.53 67.75 68.45 67.18 67.85 67.75 66.37 67.55
66.92 68.80 67.38 66.83 69.65 66.71 68.60 69.17 67.65 67.79 67.49
69.48 67.81 67.14 67.96 68.30 67.83 68.18 67.44 67.22 67.23 67.73
66.40 66.91 67.68 66.81 68.33 67.25 66.80 66.75 67.85 67.48 68.87
67.80 69.46 68.09 67.15 68.99 68.20 67.54 69.94 66.93 67.55 67.90
66.40 67.71 69.84 66.84 67.32 67.89 67.58 69.21 67.28 68.05 67.88
68.06 67.47 67.51 67.20 68.98 68.15 67.85 69.20 66.42 67.85 68.64
68.91 67.92 69.45 67.32 67.66 66.53 67.80 66.78 67.61 67.05 66.60
68.05 67.78 67.12 67.17 68.93 68.21 67.55 69.15 67.74 68.22 69.73
67.92 67.91 68.78 67.68 67.86 67.25 68.40 69.12 67.83 66.03 69.20
68.07 69.00 68.11 66.95 68.85 66.29 68.15 68.95 66.93 68.29

42
a) Après avoir mis la série dans l’ordre croissant, on
trouvera que x(1) = 66.03 et x(142) = 69.94. D’où on
obtient : E = 69.94 − 66.03 = 3.91.

b) Puisque 1 + 3.3 log142 = 8.1, on décide de


construire 8 classes.

c) En choisissant une amplitude de classe constante


« A », on devra avoir un nombre tel que 8A > 3.91,
c’est-à-dire qu’on doit avoir : A > 0.4887. Et comme il
est recommandé de choisir A ≤ E⁄(k − 1) = 3.91⁄7 =

43
0.5586, on aura : 0.4887 < A ≤ 0.5586. Finalement,
selon cette même recommandation, on choisira : 𝐀 =
𝟎. 𝟓 et le surplus par rapport à l’étendue sera de
(8 × 0.5) − 3.91 = 0.09. Il restera à choisir le point de
départ x(1) , c’est-à-dire la limite inférieure de la
première classe.

d) Le point de départ pourrait être choisi par exemple


en répartissant le surplus de 0.09 en 3 centièmes de
points à gauche de 66.03, et de 6 centièmes de points
à droite de 69.94. La limite inférieure de la première

44
classe sera alors : x1 = 66.03 − 0.03 = 66.0, et la limite
supérieure de la dernière classe sera : xk+1 = 69.94 +
0.06 = 70.0.
On obtient ainsi le tableau de distribution de fréquences
(avec les densités de fréquences relatives) suivant :

45
Classes des Centre
𝐧𝐢 𝒇𝐢 𝒅𝐢
salaires de classe
[66.0 , 66.5[ 66.25 10 0.0704 ou 7.04% 0.1408
[66.5 , 67.0[ 66.75 16 0.1127 ou 11.27% 0.2254
[67.0 , 67.5[ 67.25 24 0.1690 ou 16.90% 0.3380
[67.5 , 68.0[ 67.75 40 0.2817 ou 28.17% 0.5634
[68.0 , 68.5[ 68.25 21 0.1479 ou 14.79% 0.2958
[68.5 , 69.0[ 68.75 13 0.0915 ou 9.15% 0.1830
[69.0 , 69.5[ 69.25 11 0.0775 ou 7.75% 0.1550
[69.5 , 70.0[ 69.75 7 0.0493 ou 4.93% 0.0986
Total 142 1.0000 ou 100.00%

46
Fréquences cumulées
X F(x) (croissant) G(x) (décroissant)
[x1 , x2 [ F(x2 ) = f1 G(x1 ) = f1 + f2 + ⋯ + fk = 1
[x2 , x3 [ F(x3 ) = f1 + f2 G(x2 ) = f2 + f3 + f4 + ⋯ + fk
[x3 , x4 [ F(x4 ) = f1 + f2 + f3 G(x3 ) = f3 + f4 + ⋯ + fk
[x4 , x5 [ F(x5 ) = f1 + f2 + f3 + f4 G(x4 ) = f4 + ⋯ + fk
…… …… ……
[xk , xk+1 [ F(xk+1 ) = f1 + f2 + ⋯ + fk = 1 G(xk ) = fk

47
Salaires F(x) G(x)
[66.0 , 66.5[ 0.0704 ou 7.04% 1.000 ou 100.00%
[66.5 , 67.0[ 0.1831 ou 18.31% 0.9296 ou 92.96%
[67.0 , 67.5[ 0.3521 ou 35.21% 0.8169 ou 81.69%
[67.5 , 68.0[ 0.6338 ou 63.38% 0.6479 ou 64.79%
[68.0 , 68.5[ 0.7817 ou 78.17% 0.3662 ou 36.62%
[68.5 , 69.0[ 0.8732 ou 87.32% 0.2183 ou 21.83%
[69.0 , 69.5[ 0.9507 ou 95.07% 0.1268 ou 12.68%
[69.5 , 70.0[ 1.0000 ou 100.00% 0.0493 ou 4.93%

48
Cas des Variables Qualitatives
Exemple :
Distribution de la pratique religieuse dominante dans un
échantillon fictif de 100 adultes haïtiens. Notons que la
façon dont la variable a été définie garantit des modalités
mutuellement exclusives.
Religions 𝒏𝒊 𝒇𝒊
Catholique 20 0.20 ou 20%
Protestant 13 0.13 ou 13%
Vodouisant 55 0.55 ou 55%
Autres 8 0.08 ou 8%
Aucune religion 4 0.04 ou 4%
Total 100 1.00 ou 100%

49

Vous aimerez peut-être aussi