Vous êtes sur la page 1sur 22

Partie 2

Statistiques univariées sur variables


qualitatives

Statistique descriptive 2019-2020

Thierry Kamionka
1 / 22
Objectifs de cette partie

Retour sur les caractères et leur nature

Analyser et représenter des caractères qualitatifs

Notion de pondération et impact sur les résultats

Statistiques univariées avec SAS

2 / 22
Retour sur les caractères et leur nature
Statistique descriptive et caractères

L’objectif de la statistique descriptive est de synthétiser


l’information sur une question contenue dans une base
de données.

L’information porte sur des individus statistiques


(personnes, entreprises, pays, etc.) sur lesquels on a recueilli
des caractères (âge, chiffre d’affaire, PIB, etc.).

Les caractères peuvent être de nature quantitative ou


qualitative.

Selon la nature des caractères, les outils à utiliser pour


mener l’analyse ne sont pas les mêmes.

3 / 22
Retour sur les caractères et leur nature
Caractères de nature quantitative
Un caractère est de nature quantitative s’il est possible de
placer ses modalités sur une échelle précise.

Quand un caractère est quantitatif, ses modalités sont des


nombres sur lesquels faire des opérations a un sens.

Un caractère quantitatif est dit discret s’il ne prend que


certaines valeurs isolées (en général entières).
Exemple : âge en années révolues, le nombre d’enfants, le
nombre de salariés.

Un caractère quantitatif est dit continu s’il peut prendre


n’importe quelle valeur à l’intérieur d’un intervalle.
Exemple : le salaire (au centime près), le chiffre d’affaires
d’une entreprise, le PIB etc.
4 / 22
Retour sur les caractères et leur nature
Caractères de nature qualitative
Un caractère est de nature qualitative s’il n’est pas possible
de placer ses modalités sur une échelle précise.

Les modalités d’un caractère qualitatif peuvent être des


nombres, mais sur lesquels faire des opérations n’a aucun
sens.
Exemple : le sexe est souvent codé "1" et "2".

Les modalités de certains caractères qualitatifs peuvent être


ordonnées. Si c’est le cas, on parle de caractère qualitatif
ordinal ; sinon, de caractère qualitatif nominal.

Un caractère qualitatif à deux modalités est dit


dichotomique. Un caractère à plus de deux modalités est dit
polytomique.
5 / 22
Retour sur les caractères et leur nature
Les nomenclatures, des caractères de nature qualitative particuliers
Un grand nombre de caractères de nature qualitative comporte
un faible nombre de modalités (sexe, tranche de revenu,
réponse à une question à choix multiple, etc.).

Certains caractères s’appuient cependant sur des référentiels


très complets : les nomenclatures.

Exemple : les Professions et catégories socio-professionnelles


(PCS), la Nomenclature d’activités française (NAF).

Ces nomenclatures sont des listes de catégories à plusieurs


niveaux imbriqués qui permettent de caractériser très
précisément les unités statistiques.

Bien utiliser les nomenclatures est indispensable pour exploiter


toute l’information contenue dans une base de données.
6 / 22
Retour sur les caractères et leur nature
Un exemple de nomenclature : les PCS
La nomenclature des Professions et catégories
socioprofessionnelles (PCS) est une des variables les plus
utilisées dans l’exploitation des enquêtes auprès des
ménages.

Créée en 1954 (alors nomenclature des Catégories


socioprofessionnelles, CSP), refondue en 1982.

486 professions au niveau le plus désagrégé, 6 « groupes sociaux »


au niveau le plus agrégé : (1) Agriculteurs exploitants (2) Artisans,
commerçants et chefs d’entreprise (3) Cadres et professions
intellectuelles supérieures (4) Professions Intermédiaires (5)
Employés (6) Ouvriers.

Desrosières A., Thévenot L. (2002), Les catégories


socioprofessionnelles, coll. Repères, La Découverte, 128 p.
7 / 22
Analyser et représenter des caractères qualitatifs

Soient Y le caractère qualitatif à analyser pouvant prendre les


modalités a, b, . . . , m et n la taille de l’échantillon.

On appelle effectif de la modalité m le nombre d’individus


pour lesquels Y = m. La fréquence et le pourcentage de la
modalité m sont alors définis par :
nm nm
fm = et pm = 100 ×
n n

Dès lors que les modalités sont susceptibles d’être ordonnées,


on définit également l’effectif, la fréquence et le pourcentage
cumulés.

8 / 22
Analyser et représenter des caractères qualitatifs

Tri à plat de la variable d’activité au sens du Bureau


international du travail :

Note : Dans la version française de SAS, le terme de


« fréquence » (traduit de l’anglais frequency ) désigne l’effectif.

9 / 22
Calcul de fréquences en SAS :

10 / 22
Fréquences non pondérées (représentatives de l’échantillon)

Fréquences pondérées (représentatives de la population)

11 / 22
Analyser et représenter des caractères qualitatifs

Graphique en tuyaux d’orgue (bar charts) versus diagrammes


circulaires (pie charts) :

12 / 22
Analyser et représenter des caractères qualitatifs

Quelques grands principes :


I Les modalités doivent former une partition de toutes les
situations possibles : leur pourcentage cumulé doit être
100 % (un diagramme circulaire avec des modalités
sommant à plus de 100 % est absurde).
I Les sous-groupes doivent être comparables : éviter les
tuyaux d’orgue représentant des intervalles de temps non
égaux par exemple.
I La règle de la surface : ce sont les surfaces visibles qui

doivent être proportionnelles à l’effectif. Éviter ainsi les


représentations en perspective.

13 / 22
Notion de pondération et impact sur les résultats
Il est indispensable de se poser la question de pondérer dès lors
que l’échantillon n’est pas exhaustif (presque toujours).

Dans ce cas, combien un individu de l’échantillon


« représente-t-il » d’individus de la population ?

On utilise alors la fréquence pondérée :


P
i tels que Yi =m wi
fmw = Pn
i=1 wi

où wi sont des poids individuels permettant d’assurer la


représentativité de l’échantillon (poids de sondages par
exemple).

14 / 22
Notion de pondération et impact sur les résultats
Résultats bruts (en haut) et pondérés (en bas) :

15 / 22
Statistiques univariées avec SAS
Effectuer des tris à plat avec la PROC FREQ
La PROC FREQ permet d’effectuer des tris à plat dans SAS :
PROC FREQ DATA = base1;
TABLES var1;
RUN;
Il est possible d’effectuer des tris à plat sur plusieurs variables
simultanément :
PROC FREQ DATA = base1;
TABLES var1 var2;
RUN;
L’instruction WEIGHT permet de pondérer les traitements (ici
par la variable pond) :
PROC FREQ DATA = base1;
TABLES var1 var2;
WEIGHT pond;
RUN;
16 / 22
Statistiques univariées avec SAS
Effectuer des tris à plat avec la PROC FREQ

Autre exemple :

PROC CONTENTS DATA = mapssas.france2;


RUN;

PROC FREQ DATA = mapssas.france2;


TABLES region;
RUN;

17 / 22
Statistiques univariées avec SAS
Recoder une variable qualitative dans une étape DATA
Dans une base de données, les informations sont souvent
enregistrées sous la forme de codes (par exemple "1" pour
« Homme » et "2" pour « Femme »).
Pour rendre les résultats plus explicites, il est possible de
recoder une variable dans une étape DATA.
DATA base1;
SET base1;
LENGTH sexe2 $ 10;
IF sexe = "1" THEN sexe2 = "Homme";
ELSE IF sexe = "2" THEN sexe2 = "Femme";
ELSE sexe2 = "Inconnu";
RUN;
Note : L’instruction LENGTH permet de définir la longueur de la variable
de type caractère sexe2. Sans cette instruction, il y aurait un risque de
troncature des modalités les plus longues.
18 / 22
Statistiques univariées avec SAS
Définir puis utiliser un format

Il est également possible de définir puis d’utiliser un format : il


s’agit d’une table de correspondance entre des codes
("1","2") et des valeurs (« Homme »,« Femme »).

1. Définition d’un format : on utilise la PROC FORMAT pour


définir une table de correspondance entre les modalités
d’une variable et leur signification.

2. Utilisation du format : dans la PROC FREQ, on utilise


l’instruction FORMAT pour indiquer à SAS de formater les
modalités de la variable étudiée avec le format défini dans
la PROC FORMAT.

19 / 22
Statistiques univariées avec SAS
Définir puis utiliser un format
Exemple avec la variable sexe :

1. Définition du format $formatsexe. :


PROC FORMAT;
VALUE $formatsexe "1" = "Homme" "2" =
"Femme";
RUN;
2. Utilisation du format $formatsexe. sur la variable sexe
avec l’instruction FORMAT de la PROC FREQ :
PROC FREQ DATA = base1;
TABLES sexe;
FORMAT sexe $formatsexe.;
RUN;
Note : Dans l’instruction FORMAT de la PROC FREQ, les noms de format
se terminent par un « . », mais pas dans l’instruction VALUE de la
PROC FORMAT. 20 / 22
Statistiques univariées avec SAS
Utiliser la PROC GCHART pour représenter des variables de nature
qualitative

La PROC GCHART permet de réaliser dans SAS des graphiques


adaptés aux variables qualitatives : tuyaux d’orgues
horizontaux et verticaux, diagrammes circulaires.
PROC GCHART DATA = base1;
HBAR var1; /*Tuyaux d’orgue horizontaux*/
VBAR var1; /*Tuyaux d’orgue verticaux*/
PIE var1; /*Diagramme circulaire*/
HBAR var1 / FREQ = pond;
RUN; QUIT;

Note : Pour pondérer le résultat d’une PROC GCHART, utiliser l’option


FREQ = pond des instructions HBAR, VBAR et PIE.

21 / 22
Statistiques univariées avec SAS
Utiliser la PROC GCHART pour représenter des variables de nature
qualitative

Autre exemple :

PROC GCHART DATA = mapssas.france2;


HBAR region; /*Tuyaux d’orgue horizontaux*/
VBAR region; /*Tuyaux d’orgue verticaux*/
PIE region; /*Diagramme circulaire*/
RUN;

22 / 22

Vous aimerez peut-être aussi