Chapitre III L'analyse Univariée

Chap.
II : L’analyse uni-variée
Introduction :
L’analyse uni-variée concerne l’étude d’une seule variable, pour laquelle on dispose
de mesures sur un échantillon de n individus. L’analyse statistique unidimensionnelle a pour
but de résumer à mieux l’information concernant une variable déterminée en faisant une
description graphique et numérique. Deux types de traitement sont abordés par l’analyse uni-
variée.
 La description des données sera abordée sous deux aspects : la tendance
centrale (si on devait résumer la série d’observations par une seule valeur,
quelle serait la plus « typique », la plus représentative) ; la dispersion (quelle
est la variabilité des observations autour de cette tendance centrale ?).
 L’inférence (ou analyse inférentielles) : un ensemble de méthodes permettant
de formuler un jugement sur la population mère à partir des données observées
sur l’échantillon. Pour l’analyse uni-variée, il s’agit de comparer les valeurs
observées à une valeur prédéterminée.
I- La distribution de fréquence d’un échantillon:

La première étape d’une analyse de données consiste le plus souvent à effectuer les
distributions des fréquences pour toutes les variables.
La fréquence (f) d’une valeur particulière est le nombre de fois que celle-ci se dégage
des données. La distribution d’une variable est le profil des valeurs, c’est-à-dire l’ensemble
formé de toutes les valeurs possibles et des fréquences associées à ces valeurs. Les
distributions de fréquences sont représentées sous forme de tableaux ou de graphiques.
La distribution de fréquences peut indiquer soit le nombre réel d’observations
s’inscrivant dans chaque intervalle ou le pourcentage d’observations. Dans le dernier cas, la
distribution s’appelle une distribution de fréquences relatives.
Les tableaux de distribution de fréquences servent autant pour les variables catégoriques
(qualitatives) que pour les variables numériques. On ne devrait utiliser des variables continues
qu’avec des intervalles de classe.
Exp. On a réalisé une enquête sur l’avenue des Érables. Dans chacune des 20 maisons,
on a demandé aux gens d’indiquer le nombre d’enfants dans leur ménage. Voici les résultats
enregistrés : 1, 2, 1, 0, 3, 4, 0, 1, 1, 1, 2, 2, 3, 2, 3, 2, 1, 4, 0, 0
Fréquence Fréquence Pourcentage

absolue (n) relative %
0 4 0,2 20
1 6 0,3 30
2 5 0,25 25
3 3 0,15 15
4 2 0,10 10
Total 20 1 100
Tableau 1 : Le tableau des fréquences
Lorsque les variables sont prêtent, à la suite des tris à plat, les méthodes classiques de
statistique descriptive sont employées ; calcul des valeurs centrales (moyenne, mode et
médiane) et de la dispersion (variance, écart-type), établissement d’histogramme, etc.
La description des données peut être abordée sous deux aspects : la tendance centrale
(si on devait résumer la série d’observation par une seule valeur, quelle serait la plus typique,
la plus représentative ? La dispersion (quelle est la variabilité des observations autour de cette
tendance centrale ?) ; plus généralement on peut étudier la forme de la distribution des
observations.
II- Analyse uni-variée des variables qualitatives nominales :

Les variables qualitatives sont les variables qui offrent le mois de possibilités en
matière de traitement statistique. On peut compter le nombre des observations appartenant à
chaque catégorie (ou modalité) de la variable, c’est-à-dire effectuer une tabulation simple (ou
tri à plat).
1) les paramètres de tendance centrale :
La tendance centrale sera représentée par le mode, qui est la modalité pour laquelle les
observations sont les plus nombreuses. Par exemple ; la réponse (1) à la question ci-dessus
dans l’étude sur les marques des boissons gazeuses (il peut dans certains cas avoir plusieurs
modes).
Le mode peut ne pas exister, et s’il existe, il peut ne pas être unique.
— Quand on a un seul mode, c’est une distribution uni-modale.
— Quand on a deux modes, la distribution est dite bi-modale.
— Quand on a trois modes, la distribution est tri-modale.
Etc.
4) la représentation graphique :
La description graphique d’une variable nominale se limite à la seule représentation du
diagramme différentiel, autrement dit le graphe de la fonction de distribution ; mais cette
distribution peut avoir plusieurs variantes selon l’imagination du statisticien. Le plus
fréquemment, on utilise des graphes circulaires, des diagrammes en bâtons, etc.
 Un graphique circulaire ou graphique en secteurs est un type de graphique utilisé
en statistiques. Il permet de représenter un petit nombre de valeurs (ou de classes)
par des angles proportionnels à la fréquence (ou l'effectif) de ces valeurs.
 Le diagramme en barre, également nommé le diagramme des fréquences. Un

diagramme en barres est une représentation graphique réservée surtout pou la
distribution d’une variable qualitative à l’aide de rectangles de même largeur. Les
valeurs de la variable étudiée sont représentées sur l’axe horizontal, les effectifs sur
l’axe vertical.
Diagramme en barres
III- Analyse uni-variée des variables quantitatives métriques :
Dans le cas d’une variable métrique, la tendance centrale est la moyenne. La dispersion
va être la variance et l’écart type. Deux autres indicateurs visent à comparer la distribution
observée à celle de la loi normale ; il s’agit du coefficient de symétrie (ou « skewness ») et du
coefficient d’aplatissement (ou « kurtosis », qui concerne l’étalement de la distribution).
L’inférence sera étudiée par le test de moyenne.
Pour que la variable puisse être considérée comme suivant une loi normale le coefficient
d’asymétrie ou « Skewness » doit être inférieur à│1│et le coefficient d’aplatissement ou
« kurtosis » doit être inférieur à│1,5│.
1) les paramètres de tendance centrale :
si on note Xk la valeur de la variable X pour l’observation k (k= 1, ……., n), la moyenne
observée est donnée par la formule :
2) les paramètres de dispersion :

Plusieurs indicateurs peuvent représenter la dispersion de la distribution d’une variable
métrique.
- l’étendue : obtenue on calculant la différence entre la valeur maximale
et la valeur minimale, est simple à calculer.
- La variance : correspond à la moyenne des écarts à la moyenne : elle
est donnée par la formule :
S2x = (xk – x)2 /(n – 1)
- l’écart type : est la racine carrée de la variance (Sx). Il signifie la
dispersion des données autour de la moyenne.
3) les paramètres de position :

Ce type de paramètre sert à exprimer la position d’une distribution en fonction des
valeurs associées à la variable étudiée.
 Le Mode
Le mode d’une distribution est la valeur que l’on rencontre le plus fréquemment, c-à-d
celui qui a le plus grand effectif.
Le mode peut ne pas exister, et s’il existe, il peut ne pas être unique.
— Quand on a un seul mode, c’est une distribution uni-modale.
— Quand on a deux modes, la distribution est dite bi-modale.
— Quand on a trois modes, la distribution est tri-modale.
 La médiane
La médiane est une valeur qui sépare la première moitié et la seconde moitié de
l’échantillon. Pour cela il convient de placer les données par ordre croissant.
Si l’échantillon a un effectif impair, la médiane est donc la valeur de l'individu placé
exactement au milieu. Avec un effectif pair, la médiane est une valeur située entre celle du
dernier de la première moitié et celle du premier de la seconde moitié (en général, on
considère la moyenne de ces deux valeurs si la variable est quantitative).
Exemple : Si la série de valeurs étudiée correspond à la valeur en euros du panier des 10 derniers
clients d'une boutique et que les valeurs sont les suivantes : 150, 34, 30, 45, 110, 19, 40, 119, 25 et 167, alors
elle devra être classée ainsi : 19, 25, 30, 34, 40, 45, 110, 119, 150, 167.
la médiane, nécessite de faire un calcul basique. Une fois identifiées les deux valeurs figurant au milieu
de la liste (40 et 45 dans l'exemple), elles doivent être ajoutées l'une à l'autre, puis divisées par deux pour
obtenir une moyenne. Ainsi, 40 + 45 = 85 et 85 ÷ 2 = 42,5. La médiane est donc 42,5.
Ensuite, la série de valeurs doit être coupée en deux afin d'obtenir deux moitiés. La valeur se situant au
milieu de la première moitié, c'est-à-dire la valeur médiane, se nomme le premier quartile. Ici, la première moitié
de la série se compose des valeurs suivantes : 19, 25, 30, 34, 40. Le premier quartile correspond donc à 30.
De la même manière, la valeur médiane de la deuxième moitié correspond au troisième quartile. Dans
l'exemple, la seconde moitié comporte les valeurs suivantes : 45, 110, 119, 150, 167. Le troisième quartile a
donc pour valeur 119.
Les 5 valeurs nécessaires à la construction de la boîte à moustaches sont donc identifiées :
 La plus petite valeur est 19.
 Le premier quartile est 30.
 La médiane est 42,5.
 Le troisième quartile est 119.
 La plus grande valeur est 167.
4) la représentation graphique :
Les variables discrètes : Diagramme en bâtons
Un diagramme en bâtons est une représentation graphique de données statistiques à
l’aide de segments. Les valeurs de la variable étudiée (quantitative discrète) sont représentées
sur l’axe horizontal, les effectifs sur l’axe vertical. À chaque valeur correspond un bâton. Les
hauteurs des bâtons sont proportionnelles aux effectifs représentés.
Les variables continues : l’histogramme

Représentation graphique des fréquences ou effectifs relatifs à un caractère quantitatif
continu à l'aide d'une série de rectangles dont la base constitue un intervalle de variation des
valeurs du caractère et la surface l'effectif correspondant.
Les variables continues : La boite à moustache :

C’est une représentation graphique d’une variable quantitative qui représente la médiane, les
quartiles et les valeurs extrêmes.
Les boites à moustaches est un graphique simple permet de résumer une variable de manière
simple et visuel, d'identifier les valeurs extrêmes et de comprendre la répartition des
observations.
Comment construire une boite à moustache ?
Une boite à moustache est un graphique simple composé d'un rectangle duquel deux droites
sortent afin de représenter certains éléments des données.
 La valeur centrale du graphique est la médiane (il existe autant de valeurs

supérieures qu'inférieures à cette valeur dans l'échantillon).
 Les bords du rectangle sont les quartiles (Pour le bord inférieur, un quart des
observations ont des valeurs plus petites et trois quart ont des valeurs plus
grandes, le bord supérieur suit le même raisonnement).
 Les extrémités des moustaches sont calculées en utilisant 1.5 fois l'espace
interquartile (la distance entre le 1er et le 3ème quartile).
On peut remarquer que 50% des observations se trouvent à l'intérieur de la boîte.
Les valeurs à l'extérieur des moustaches sont représentées par des points. On ne peut pas dire
que si une observation est à l'extérieur des moustaches alors elle est une valeur aberrante. Par
contre, cela indique qu'il faut étudier plus en détail cette observation.

Chapitre III L'analyse Univariée

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre III L'analyse Univariée

Transféré par

Droits d'auteur :

Formats disponibles

Chap.

I- La distribution de fréquence d’un échantillon:

Fréquence Fréquence Pourcentage

II- Analyse uni-variée des variables qualitatives nominales :

 Le diagramme en barre, également nommé le diagramme des fréquences. Un

2) les paramètres de dispersion :

3) les paramètres de position :

Les 5 valeurs nécessaires à la construction de la boîte à moustaches sont donc identifiées :

 La plus petite valeur est 19.

 Le premier quartile est 30.

 La médiane est 42,5.

 Le troisième quartile est 119.

 La plus grande valeur est 167.

Les variables continues : l’histogramme

Les variables continues : La boite à moustache :

 La valeur centrale du graphique est la médiane (il existe autant de valeurs

On peut remarquer que 50% des observations se trouvent à l'intérieur de la boîte.

Vous aimerez peut-être aussi