Vous êtes sur la page 1sur 27

Partie 1

Introduction générale

Statistique descriptive 2019-2020

Thierry Kamionka

1 / 27
Objectifs de cette partie

Présentation du cours

Les concepts de base de la statistique descriptive

Premiers pas avec le logiciel SAS

2 / 27
Présentation du cours
L’objet du cours : la statistique descriptive ou exploratoire

La statistique résume l’information par des grandeurs


pertinentes (les statistiques).

La statistique simplifie 6= approche qualitative,


monographie.

La statistique descriptive porte sur des informations collectées


soit de manière exhaustive (recensement), soit par enquête 6=
statistique mathématique.

La statistique descriptive limite le recours à la modélisation 6=


statistique inférentielle.

3 / 27
Présentation du cours
La démarche de l’analyse statistique
Travail de l'ombre

Des données,
Une question floue, souvent mal posée Formuler les bonnes questions
et/ou pas adaptée aux données Avoir les idées claires

Explorer Comprendre

Le bon graphique,
Rendu / Livrable

La bonne statistique,
Ce qui est pertinent! Matières avancées

Conclusions et
Description Analyse Recommandations

CE QUE LES INTERLOCUTEURS RETIENNENT


savoir faire simple

4 / 27
Domaines d’applications : nombreux

I agronomie I marketing
I balistique I médecine
I biologie I météorologie
I démographie I physique
I économie I psychologie
I épidémiologie I sciences politiques
I finance I ...

⇒ et de plus en plus nombreux avec l’essor des


enregistrements des données...

5 / 27
Présentation du cours
Objectifs
Acquérir le recul nécessaire pour faire un bon usage des
outils de description de l’information.
I Fournir le vocabulaire et le cadre théorique pour
explorer une problématique et en comprendre les tenants
et les aboutissants.
I Présenter des méthodes nombreuses et adaptées à
des données de natures variées : représentations
graphiques, statistique uni- et bi-variée, mesures
d’association, rudiments sur l’analyse des séries
temporelles.
I Mettre en œuvre ces méthodes avec le logiciel
SAS : savoir travailler sur des bases de données,
appliquer les méthodes adaptées, en connaître les
avantages et les inconvénients.
6 / 27
Présentation du cours
Organisation

I Statistique descriptive uni-variée :


représentation et analyse d’un seul caractère.
Premiers pas avec SAS

II Statistique descriptive bi-variée :


représentation conjointe de deux caractères et
mesures d’association.
Traitements courants avec SAS

III Introduction aux séries temporelles :


rudiments sur la représentation et le traitement
des séries temporelles.
Utilisation avancée de SAS

7 / 27
Présentation du cours
Volume horaire et évaluation
Volume horaire : 11 séances de 3h
I Des séances de cours (05/09, 20/09, 04/10). Des séances
de TD (13/09, 27/09, 25/10, 29/11, 06/12,
13/12,19/12). Une séance mixte le 15/11.
I Deux séances de suivi pour encadrer le mémoire (25/10
et le 06/12).
I Un TP noté le 19/12.

Évaluation :
I 25 % : présence, participation, exercices à rendre.

I 25 % : TP noté.

I 50 % : mémoire collectif (groupes de 2 ou 3 élèves) à


rendre pour le 17 janvier 2019.
8 / 27
Présentation du cours
Le mémoire de fin de semestre
Le mémoire de fin de semestre est un élément essentiel du
cours : il permet de mettre en pratique les méthodes et outils
vus pendant tout le semestre.

L’objectif est de produire une note problématisée et


synthétique (10 pages hors annexes) à partir d’une question et
d’une base de données (European social survey ou ESS).

Calendrier du travail sur le mémoire :


I Séance 1 : Distribution de la note de présentation du
mémoire.
I Entre la séance 1 et la séance 2 : Constitution des
groupes et choix de 5 sujets (classés).
I Séance 4 (27 septembre) : Affectation des sujets et
premiers travaux sur l’ESS.
9 / 27
Présentation du cours
Le mémoire de fin de semestre

Calendrier du travail sur le mémoire (suite) :


I 04 octobre : Rendu du sujet problématisé, d’une première
analyse et d’une liste de variables d’intérêt ainsi que du
code de construction de la table de travail.
I 25 octobre : Suivi n°1.

I 26 novembre : Rendu d’une introduction rédigée et d’une


partie du mémoire.
I 06 décembre : Suivi n°2.

I 17 janvier : Rendu définitif.

Exemples de sujets : opinions politiques et niveau de vie,


famille et bonheur.

10 / 27
Présentation du cours
Le site Web

Un site web du cours avec les transparents, les sujets de TD,


liens vers les données, le rappel du calendrier, ... :

https ://sites.google.com/view/ensae-stat-des

11 / 27
Bibliographie

Statistique descriptive :
I DeVeaux, Velleman, Bock : Intro Stats, Pearson Intl Ed

I Py : Statistique descriptive, Economica La statistique


sans formule mathématique, Pearson Education
I Tenenhaus : Statistique, méthodes pour décrire, expliquer
prévoir, Dunod
Sas :
I Duguet : Introduction à Sas, Economica

I Sautory : La statistique descriptive avec Sas, Insee Guides

I Destandau Le Guen : Analyse exploratoire des données


avec SAS/INSIGHT, Insee Guides

12 / 27
Les concepts de base de la statistique descriptive
Population et unités statistiques

Population : l’ensemble des éléments qui concernent l’objet


de l’étude (champ).

Exemple : ensemble de pays, population résidant en France,


entreprises de plus de 50 salariés, etc.

Individus ou unités statistiques : les éléments de cette


population.

Exemple : pays, personnes, entreprises, etc.

Échantillon : un sous-ensemble de la population que l’on a


interrogé dans le cas d’une enquête statistique.

13 / 27
Les concepts de base de la statistique descriptive
Les caractères et leurs modalités

Les individus sont décrits selon des caractères auxquels


l’analyse s’intéresse (= dimensions, caractéristiques, variables)

Ces caractères peuvent prendre différentes modalités


(=valeurs).

Exemples
I le sexe : le sexe biologique d’un individu est un caractère
présentant deux modalités (homme ou femme) ;
I la taille ; la taille d’un individu en cm est un caractère
pouvant prendre un grand nombre de modalités (en
pratique un nombre décimal positif inférieur à 250).

Un individu a au plus une seule modalité exprimée par


caractère.
14 / 27
Les concepts de base de la statistique descriptive
Les natures de caractères

Caractères de nature quantitative : une variable est


quantitative si ses modalités sont des nombres réels qui
mesurent leurs valeurs (= des nombres sur lesquels faire des
opérations a un sens).
Exemples : la taille, le chiffre d’affaires d’une entreprise, l’âge.

Caractères de nature qualitative : une variable est


qualitative si ses modalités ne sont pas des nombres réels qui
mesurent leurs valeurs (ne se prettent pas à un calcul
algébrique).
Exemples : le sexe, la marque d’une voiture, le niveau de
diplôme.
15 / 27
Les concepts de base de la statistique descriptive
Les natures de caractères

Certains caractères qualitatifs sont susceptibles d’être


ordonnés : avis sur un produit (pas du tout, un peu,
beaucoup), fréquence imprécise (jamais, parfois, souvent). On
parle alors de variable qualitative ordonnée ou de variable
qualitative ordinale.

Elles se distinguent des variables quantitatives par le fait que


leurs modalités ne peuvent pas s’exprimer les unes en
fonction des autres.

Dans le cas où il n’existe pas d’ordre sur les modalités, on


parle de variable qualitative nominale (exemples : sexe,
profession).

16 / 27
Les concepts de base de la statistique descriptive
Caractères qualitatifs

I Un caractère à deux modalités est dichotomique


exemple : sexe (H ou F), âge > 50 ans (oui ou non)
I Un caractère à plus de deux modalités est polytomique
exemple : opinion (pas du tout, un peu, beaucoup) ;
activité (inactifs, actifs occupés, chômeurs)
I Les différentes rubriques ou postes d’une nomenclature
peuvent être associées aux modalités d’un caractère
qualitatif exemples : Nomenclature des Professions et
Catégories Socioprofessionnelles (PCS 2003),
Nomenclature d’activités française (NAF 2008)

17 / 27
Les concepts de base de la statistique descriptive
Nomeclatures - PCS

La nomenclature PCS 2003 comporte quatre niveaux


d’agrégation emboîtés. Au niveau le plus fin, un poste de la
nomenclature PCS correspond à une profession.

Au niveau le plus agrégé se trouvent les groupes


socioprofessionnels : 8 postes.

Les niveaux d’agrégation intermédiaires sont ceux des


catégories socioprofessionnelles à deux chiffres : 42 postes avec
une version agrégée en 24 postes.

Le niveau des professions comporte 486 postes d’actifs, et 11


postes supplémentaires pour les personnes sans activité
professionnelle.
18 / 27
Les concepts de base de la statistique descriptive
Nomeclatures - PCS

code Libellé
1 Agriculteurs exploitants
2 Artisans, commerçants et chefs d’entreprise
3 Cadres et professions intellectuelles supérieures
4 Professions Intermédiaires
5 Employés
6 Ouvriers
7 Retraités
8 Autres personnes sans activité professionnelle

19 / 27
Les concepts de base de la statistique descriptive
Les regroupements de modalités

I Classe ou catégorie : regroupement de plusieurs modalités d’une nomenclature ;


=tranche pour variable continue.
ex : tranche de revenu : 0-999, 1000-1499, 1500-1999, 2000-3999, ≤4000...

I Si regroupement d’une variable continue, on appelle amplitude la longueur de


l’intervalle d’une classe.

I Exemples :
Classe d’âge : 0 à moins de 5 ans, 5 à moins de 10 ans, 10 à moins de 15 ans,
..., 95 à moins de 100 ans, plus de 100 ans
Tranches de durée du chômage : moins de 1 mois, 1 à moins de 3 mois, 3 à
moins de 6 mois, 6 mois à moins de 1 an, 1 à moins de 2 ans, 2 ans et plus.

I Le nombre de classes doit être choisi de manière à ce que les effectifs de chaque
classe soient non nuls et du même ordre de grandeur.

20 / 27
Ex : Enquête sur l’emploi : Population ?
Echantillon ? Variables ?

21 / 27
Les concepts de base de la statistique descriptive
Nature des caractère et analyse statistique

Les outils à utiliser varient selon la nature des


caractères à analyser.

Exemple : la moyenne est un outil pertinent pour les


caractères quantitatifs, mais elle n’a aucun sens
pour les caractères qualitatifs.

Le cours est structuré autour des différentes natures


de caractères et des outils appropriés à l’analyse de
chacun.

22 / 27
Les concepts de base de la statistique descriptive
Structure générale d’une base de données
Les informations sur les caractères des individus statistiques
interrogés sont stockées dans une base de données.

Le plus souvent, il s’agit d’un tableau comportant en ligne les


individus statistiques (personnes, entreprises, etc.) et en
colonne les caractères (sexe, chiffre d’affaires, etc.).

Dans le langage des bases de données, les individus statistiques


sont appelés des observations et les caractères des variables.

Très souvent dans une base de données, des variables de


nature qualitative sont codées par des chiffres.

Exemple : le sexe est souvent codé "1" pour les hommes et


"2" pour les femmes.
23 / 27
Premiers pas avec le logiciel SAS
SAS : Statistical analysis system
I a commencé à être développé par des universitaires
américains au début des années 1970 ;
I logiciel propriétaire loué, licence gratuite pour les
étudiants.

Avantages Inconvénients
Très utilisé (polyvalent) Syntaxe parfois lourde
Gros volumes de données Propriétaire
Programmation

Alternatives : SPSS et R (polyvalents), Stata (pour


l’économétrie), Python, Matlab.
24 / 27
Premiers pas avec le logiciel SAS
Les fenêtres du logiciel
Trois fenêtres principales :
I l’éditeur : là où le code est écrit avant d’être envoyé
(« Soumis ») au logiciel ;
I la fenêtre de résultat (output) : là où les résultats sont
affichés ;
I le journal (log) : là où toutes les opérations sont
enregistrées, avec des messages d’erreur en cas de
problème.

Deux explorateurs :
I l’explorateur de résultats : pour naviguer plus facilement
dans les résultats ;
I l’explorateur de fichiers : pour visualiser et ouvrir les bases
de données par l’intermédiaire des librairies.
25 / 27
Premiers pas avec le logiciel SAS
Accéder aux bases de données dans SAS : les librairies
Pour accéder aux bases de données dans SAS, il faut définir
des librairies.

Une librairie est un point d’accès à un répertoire de


l’ordinateur facilement utilisable dans le logiciel.

Exemple : la base de données mabase est située dans le


répertoire W:\mondossier\.
1. On définit la librairie malib (ou un autre nom) qui pointe
vers le dossier W:\mondossier\ :
LIBNAME malib "W:\mondossier";

2. malib apparaît désormais dans l’explorateur de fichiers et


on peut faire référence à mabase dans SAS en tapant :
malib.mabase
26 / 27
Premiers pas avec le logiciel SAS
Travailler sur des données dans SAS : la librairie work et l’étape DATA
La librairie temporaire work permet de travailler sur des
données sans modifier la base originale (par sécurité) :
I librairie pré-définie (pas besoin de LIBNAME) ;

I librairie temporaire : les fichiers sont supprimés à la


fermeture de SAS ;
I librairie implicite : pas besoin de préciser work. avant les
noms de base.

L’étape DATA utilisée avec l’instruction SET permet de recopier


une base dans la librairie work :
LIBNAME malib "W:\mondossier";
DATA mabase;
SET malib.mabase;
RUN;
27 / 27

Vous aimerez peut-être aussi