Vous êtes sur la page 1sur 63

Statistique

Chapitre 1 - Dénitions et statistiques descriptives univariées

Céline Vignes
UT Capitole - TSM : L1 Numérique et Management

2023-2024

1 / 59
Chapitre 1 - Dénitions et statistiques descriptives univariées

1. Qu'est-ce que la statistique ?

2. Échantillonnage

3. Méthodes de recherche

4. Etude univariée

2 / 59
Plan

1. Qu'est-ce que la statistique ?


1.1 Dénitions
1.2 Nature des variables

2. Échantillonnage

3. Méthodes de recherche

4. Etude univariée

2 / 59
Qu'est-ce que la statistique ?

Le terme statistique regroupe deux signications :


• les statistiques : ensemble de données disponibles sur un phénomène
déterminé concernant des groupes d'individus ou d'objets.
Ex : les statistiques du chômage en France en 2023

• la statistique : discipline scientique qui a pour but la collecte et le


traitement (l'analyse) de ces données.
,→ sens utilisé dans ce cours

3 / 59
1.1 Dénitions : a) Population

Denition (Population)
Ensemble des éléments sur lesquels porte l'étude.

On note N la taille de la population.


Les éléments de la population étudiée sont appelés unités statistiques
ou encore individus. Ce sont :
• des êtres vivants,
• des objets concrets ou
• des objets abstraits.

,→ population et individu ont un sens plus large en statistique que dans le


langage courant.

4 / 59
1.1 Dénitions : a) Population (suite)

Exemples de populations :
• les femmes de moins de 50 ans vivant à Paris en 2020,
• le parc automobile français au 1er janvier 2024,
• les entreprises de plus de 500 salariés dont le siège social est établi
en France en 2023,
• les départements de France métropolitaine,
• les produits d'une usine,
• les consultations annuelles d'un médecin généraliste,
• les accidents de la route dus à un excès de vitesse dans le
département de la Haute-Garonne en 2022,
• le portefeuille d'un chargé de clientèle à une date donnée,
• etc.

5 / 59
1.1 Dénitions : b) Echantillon

Denition (Echantillon de taille n)


Sous-ensemble formé de n individus de la population sur lequel sont
eectivement réalisées les observations.

Population totale
taille N

Echantillon
taille n

6 / 59
1.1 Dénitions : b) Echantillon (suite)

Pour constituer un échantillon, c'est-à-dire procéder à l'échantillonnage,


les individus sont
• soit tirés au sort dans la population
• soit choisis par une méthode qui permet d'assurer la représentativité
de l'échantillon par rapport à la population prise dans son ensemble
(méthode des quotas).

Dans les deux cas, il s'agit d'un sondage, c'est-à-dire une enquête dans
laquelle l'échantillon observé est un sous-ensemble strict de la population.

Au contraire, dans un recensement (ou enquête exhaustive) la


population tout entière est observée.

7 / 59
1.1 Dénitions : Stat. descriptive / Stat. inférentielle

La statistique, discipline scientique précédemment dénie, peut être


divisée en deux branches :
• la statistique descriptive,
• la statistique inférentielle.

Ces deux branches seront abordées dans ce cours.

8 / 59
1.1 Dénitions : c) Statistique descriptive
But
Décrire (représenter et/ou résumer) les caractéristiques d'une population
ou d'un échantillon de cette population.
Population totale
taille N

Echantillon
taille n

OU

9 / 59
1.1 Dénitions : d) Statistique inférentielle
But
Induire (inférer) des caractéristiques inconnues de la population totale,
à partir de celles d'un échantillon de cette population.

Population totale
taille N

Echantillon
taille n
ET

inférence

10 / 59
1.1 Dénitions : e) Variable

Denition (Variable)
Caractéristique (âge, sexe, salaire, . . .) dénie sur la population et
observée sur l'échantillon. Elle associe à chaque individu une valeur et une
seule.
Exemple : un questionnaire est distribué à 30 étudiants inscrits en L1 à
l'UT Capitole en 2023-2024
Population (ensemble des individus concernés par l'étude) :
...
Echantillon (ensemble des individus interrogés ou observés) :
...
Individus : . . .
Variables : correspondent aux questions posées. . . .

11 / 59
1.1 Dénitions : e) Variable (suite)

Les données recueillies sont en général présentées sous forme d'un tableau,
le tableau des données brutes, comprenant les individus en lignes et les
variables en colonnes. Elles sont stockées dans un chier informatique.

Table  Extrait du tableau des données brutes


sexe âge mention au bac
ind1 M 17 AB
ind2 M 18 TB
ind3 F 18 B
ind4 F 17 P
ind5 M 19 AB
... ... ... ...
ind30 F 18 P

12 / 59
1.2 Nature des variables

Selon la nature des réponses possibles à la question posée, c'est-à-dire des


valeurs prises par la variable, on distingue diérents types de variables :

nominale
qualitative
ordinale
variable
discrète
quantitative
continue

13 / 59
1.2 Nature des variables : a) Variable qualitative
Denition (variable qualitative)
Ses valeurs appartiennent à un groupe de catégories, ce ne sont pas des
quantités mesurables. On les appelle modalités de la variable.

Les modalités sont :


• exhaustives (elles décrivent toutes les réponses possibles),
• incompatibles (un individu ne peut être aecté à plusieurs modalités),
• sans ambiguïté (pour ne pas faire d'erreur de classement).

Exemples de variables qualitatives


Variable Modalités
sexe masculin, féminin
mention au baccalauréat passable, assez bien, bien, très bien
fréquence d'une activité sportive jamais, rarement, parfois, souvent,
très souvent
14 / 59
1.2 Nature des variables : a) Variable qualitative (suite)
On distingue deux types de variables qualitatives :
• qualitative nominale : pas d'ordre entre les modalités.
Exemples : sexe, CSP.
• qualitative ordinale : ordre naturel entre les modalités.
Exemples : mention au bac, fréquence d'une activité sportive.
Remarque 1 : codage numérique
Certaines variables nominales peuvent être désignées par un code
numérique, qui n'a pas de valeur de quantité.
Ex. : code postal, sexe (1=garçon, 2=lle), être reçu à un examen
(0=non, 1=oui).
Remarque 2
Il est souvent dicile de classer exhaustivement tous les individus d'une
population. ,→ modalités comme "ne sait pas", "autres" ou "non
déclaré" souvent ajoutées aux modalités d'une variable.
15 / 59
1.2 Nature des variables : b) Variable quantitative
Denition (variable quantitative)
Ses valeurs sont des quantités mesurables, données sous forme de
nombre.
Les valeurs dépendent de l'unité choisie, qui doit toujours être précisée.
On distingue deux types de variables quantitatives :
• quantitative discrète : prend des valeurs isolées, souvent entières.
Nombre de valeurs distinctes : assez faible.
Exemples : nombre d'enfants par ménage, nombre de pièces d'un
logement, nombre de parts scales.
• quantitative continue : prend ses valeurs dans un ensemble continu
(un intervalle réel).
Nombre de valeurs possibles : en théorie inni, non dénombrable.
Exemples : salaire mensuel en euros, note à un examen, chire
d'aaires en milliers d'euros.
16 / 59
1.2 Nature des variables : b) Variable quantitative (suite)

Remarque
En pratique, la nature d'une variable statistique peut dépendre du recueil
des données et de la précision choisie.

Cas de l'âge
• quantitative continue si les données sont décimales sans
troncature,
• quantitative discrète si elle prend peu de valeurs diérentes au sein
de la population (âge en mois d'une population de nourrissons - âgés
de 1 mois à 1 an),
• qualitative ordinale si la question posée propose des tranches d'âge.
Exemple : "moins de 25 ans", "entre 25 et 40 ans", "entre 40 et 60
ans", "plus de 60 ans".

17 / 59
1.2 Nature des variables (suite)

Exemple : questionnaire dans l'entreprise en septembre 2023


• sexe :
• âge :
• mention au bac :

18 / 59
1.2 Nature des variables : jeu de données employes

Ce jeu de données concerne 473 employés d'une entreprise américaine.


Il contient les variables suivantes :
• sexe : sexe de l'employé (1 pour féminin, 2 pour masculin)
• educ : nombre d'années d'études depuis le 1st grade
• stat_pro : statut professionnel (1 si employé de bureau, 2 si agent de
sécurité, 3 si manager)
• salembau : salaire annuel à l'embauche dans l'entreprise (en dollars)
• salaire : salaire annuel courant (en dollars)
• ancienne : ancienneté dans l'entreprise (en mois)
• exppasse : expérience passée dans le type de poste (en mois)
• national : nationalité (0 pour américaine, 1 sinon)
• age : âge (en années)
Donnez la population, l'échantillon et la nature de chaque variable.
19 / 59
Plan

1. Qu'est-ce que la statistique ?

2. Échantillonnage
2.1 Échantillonnage aléatoire simple
2.2 Échantillonnage aléatoire stratié
2.3 Méthode des quotas

3. Méthodes de recherche

4. Etude univariée

19 / 59
2. Échantillonnage

Le plus simple pour connaître la distribution d'une caractéristique sur


toute la population : étudier toute la population.

Mais infaisable en réalité (temps et coût pour eectuer un tel sondage).

,→ plus réaliste d'interroger un sous-ensemble de la population,


l'échantillon, en s'assurant que cet échantillon est bien représentatif de
la population.

20 / 59
2. Échantillonnage (suite)

Comment constituer un échantillon pour que son étude nous permette


d'inférer les caractéristiques sur toute la population ? C'est-à-dire un
échantillon représentatif ?

Nous présentons brièvement deux méthodes :


• échantillonnage aléatoire simple,
• échantillonnage stratié.

On note N la taille de la population et n la taille de l'échantillon, avec


1 ≤ n ≤ N.

21 / 59
2.1 Échantillonnage aléatoire simple

Principe
Tirage sans remise de n individus parmi les N de la population totale.
• Sans remise car un individu est interrogé une seule fois.
• Chaque individu de la population étudiée a la même probabilité
d'être inclus dans l'échantillon.
n
Cette probabilité vaut .
N
• Garantit la représentativité de l'échantillon.
• Facile à mettre en place et ne demande pas d'informations
supplémentaires sur les individus.
• Méthode coûteuse pour population de grande taille et/ou
géographiquement dispersée.

22 / 59
2.2 Échantillonnage aléatoire stratié
Principe
Diviser la population en sous-groupes homogènes (= strates) selon une (ou
plusieurs) caractéristique(s) pouvant inuencer la caractéristique étudiée.
Population totale
taille N
Tirage au sort (sans remise)
p1% dans chaque strate
ville - homme
Echantillon
taille n
n1 = n x p1
p2%
n2 = n x p2
ville - femme
n3 = n x p3
p3% n4 = n x p4

campagne - homme
p4%
ET
campagne - femme

• Echantillon aléatoire
• Nécessite une information auxiliaire dans la base de sondage
• Méthode intéressante d'un point du vue pratique (séparer les enquêteurs
par strates).
• Méthode coûteuse si le nombre de strates est important.
23 / 59
2.3 Méthode des quotas

• lorsqu'on ne dispose pas de base de sondage


• pas de tirage au sort (l'enquêteur doit trouver les personnes de
chaque catégorie)
• respect des proportions de la population totale sur certaines
caractéristiques préalablement choisies
• souvent utilisée pour les enquêtes d'opinion

24 / 59
Plan

1. Qu'est-ce que la statistique ?

2. Échantillonnage

3. Méthodes de recherche
3.1 Plan expérimental / étude observationnelle
3.2 Variable à expliquer/ variable explicative
3.3 Facteurs de confusion
3.4 Groupe témoin et groupe placebo
3.5 Essai en double aveugle
3.6 Causalité
3.7 Echantillons indépendants / éch. appariés
3.8 Biais

4. Etude univariée
24 / 59
3.1 Plan expérimental / étude observationnelle

Plan expérimental
Une étude dans laquelle le chercheur manipule le traitement reçu par les
sujets (et donc inuence la valeur de la variable d'intérêt) et collecte les
données. Ex : essai thérapeutique randomisé.

Etude observationnelle
Une étude dans laquelle le chercheur collecte les données sans créer de
cadre expérimental. Ex : enquête par sondage.

25 / 59
3.2 Variable à expliquer / variable explicative

Variable à expliquer (ou var. endogène/dépendante ou outcome ; en


anglais response variable)
Variable d'intérêt que l'on cherche à expliquer par une ou plusieurs
variables explicatives. Souvent notée Y .

Variable explicative (ou exogène/indépendante ; en anglais explanatory


variable)
Variable qui peut inuencer ou expliquer les variations de la variable à
expliquer Y . Souvent notée X .

26 / 59
3.3 Facteurs de confusion

Les études expérimentales randomisées sont souvent préférées aux études


observationnelles car elles permettent un plus grand contrôle. Dans la
majorité des problématiques, la variable d'intérêt est inuencée par de
nombreux facteurs. Ainsi il faut en tenir compte dans la conception de
l'étude, qu'elle soit expérimentale ou observationnelle, ainsi que dans
l'analyse (multivariée) des résultats.

Facteur de confusion
Variable qui est liée à la variable à expliquer et aux variables explicatives
dont on doit tenir compte dans un modèle multivarié (même si elle n'est
pas signicative).

27 / 59
3.4 Groupe témoin et groupe placebo
Un groupe témoin ou contrôle se rencontre dans un plan expérimental où
la population est divisée en deux groupes de sujets : celui où les sujets
recevant le traitement (par exemple un nouveau médicament à tester) et
le groupe témoin ou contrôle qui ne reçoit pas le traitement et qui sert de
comparaison.
Groupe témoin (ou groupe contrôle)
Groupe de sujets ne recevant pas le traitement actif, qui ne reçoit aucun
traitement ou un placebo

Groupe placebo
Groupe de sujets recevant ce qu'il leur semble être le traitement actif
mais qui est en réalité neutre et qui ne contient aucune substance active
(par exemple un comprimé neutre et non un comprimé avec le principe
actif dans une étude médicale).
,→ phénomène psychologique d'eet placebo
28 / 59
3.5 Essai en double aveugle

Méthodes pour éviter certains biais.

Essais thérapeutiques en simple-aveugle


Les sujets ne savent pas s'ils reçoivent le traitement actif ou un placebo.
En revanche, les chercheurs étant en interaction directe
(médecins/inrmiers, assistant de recherche) avec eux le savent.

Essais thérapeutiques en double-aveugle


Ni les sujets ni les chercheurs ne savent si les sujets reçoivent le
traitement actif ou un placebo. Seuls les chercheurs ayant plannié l'essai
(mais n'étant pas en interaction directe avec les patients) connaissent le
groupe auquel appartient chaque sujet. ,→ la référence pour les essais
thérapeutiques

29 / 59
3.6 Causalité
An de contrôler des facteurs de confusion, les sujets peuvent être
assignés aléatoirement aux diérents groupes de la variable explicative,
c'est la randomisation. On parle alors d'essai randomisé. Dans ce cas,
on peut dire que les variations de la variable à expliquer sont attribuées à
desvariations de la variable explicative et donc parler de lien de causalité
entre les deux variables, ce qui est impossible dans une étude
observationnelle.
Attention, ne pas confondre randomisation et échantillonnage aléatoire.
Causalité
Les variations de la variable à expliquer peuvent être attribuées à des
variations de la variable explicative.

Association
Liaison entre les variables explicatives et à expliquer, sans notion de
causalité. ,→ cas le plus fréquent.
30 / 59
3.7 Echantillons indépendants / éch. appariés

Echantillons indépendants
Les individus de chaque groupe ne sont pas liés les uns aux autres. On
peut considérer que les deux groupes sont deux sous-populations : par
exemple, un groupe est constitué des hommes et l'autre des femmes.

Echantillons appariés
Chaque individu d'un groupe est apparié à un individu de l'autre groupe.
Ils peuvent présenter des caractérisques identiques, ou dans certains cas, il
peut s'agir du même individu observé deux fois, avant et après le
traitement par exemple.

31 / 59
3.8 Biais
Biais (ou erreur systématique)
Cause d'erreur liée à la méthodologie utilisée.

Si non pris en compte ou non maîtrisés : les biais peuvent entraîner des
erreurs dans l'estimation des paramètres.
Exemples de biais :
• biais de sélection : la population d'étude est mal choisie par
rapport à la question posée, l'échantillon n'est représentatif de la
population d'étude (une partie de l'échantillon n'est pas accessible
par exemple), etc.
• biais de non-réponse : à titre individuel, la personne ne répond pas
à la question ou à l'enquête car elle ne comprend pas le sujet ou les
questions, ou bien ne veut pas répondre.
Le biais de non-réponse se produit quand les répondants et les
non-répondants sont diérents et donc les répondants ne sont pas
représentatif de l'ensemble de la population.
32 / 59
3.8 Biais (suite)

Exemples de biais (suite) :


• biais de réponse : le répondant ne répond pas de façon honnête à
la question. Par exemple :
• biais d'acquiescement : la manière de poser la question, les réponses
proposées, l'ordre des questions, etc. peuvent inuencer la réponse.
Plus facile de répondre oui, ou dans les termes de la question.
• biais de désirabilité : certains avis sont plus diciles à avouer à des
inconnus que d'autres.

33 / 59
Plan

1. Qu'est-ce que la statistique ?

2. Échantillonnage

3. Méthodes de recherche

4. Etude univariée
4.1 Variable qualitative
4.2 Variable quantitative
4.3 Bilan d'une étude univariée

33 / 59
4. Etude univariée

On note X une variable.

Denition (distribution empirique de la variable X )


Répartition de l'échantillon suivant les valeurs de X .

Diérents outils statistiques permettent de résumer la distribution de X :


• Tableaux de distribution,
• Représentations graphiques,
• Résumés numériques d'une variable quantitative.

Les outils à utiliser dépendent de la nature de la variable à étudier.

34 / 59
4.1 Variable qualitative : tableau de distribution

Il fournit pour chaque modalité (par exemple pour la jème modalité) :


• son eectif nj : nombre d'individus présentant cette modalité,
• sa fréquence relative fj : proportion d'individus présentant cette
n effectif de la modalit é
modalité. fj = j = ,
n taille de l 0 échantillon
• sa fréquence relative cumulée (si variable ordinale) : proportion
d'individus présentant une modalité inférieure ou égale à la modalité
considérée.

Attention, en anglais le terme frequency désigne l'eectif.

35 / 59
4.1 Variable qualitative : tableau de distribution

Table  Tableau de distribution du statut professionnel


Eectif Fréquence
Employés 362 0,765
Agents de sécurité 27 0,057
Manager 84 0,178
Total 473 1

36 / 59
4.1 Variable qualitative : graphiques
• diagramme en colonnes (ou en barres), avec nj ou fj en ordonnées.
A privilégier pour une variable ordinale,
• diagramme circulaire (ou en secteurs).

37 / 59
4.2.1 Variable quantitative discrète

Pour l'étude univariée d'une variable quantitative discrète, on réalise ou


calcule :
• le tableau de distribution
• un diagramme en bâtons
• une boîte à moustaches
• les résumés numériques

Le tableau de distribution fournit pour chaque valeur vj (j = 1, . . . , k ) :


• son eectif nj : nombre d'individus pour lesquels X = vj ,
n
• sa fréquence relative fj = j : proportion d'individus pour lesquels
n
X = vj ,
• sa fréquence relative cumulée φj = f1 + · · · + fj : proportion
d'individus pour lesquels X ≤ vj .

38 / 59
4.2.1 Variable quantitative discrète

Représentation graphique spécique : diagramme en bâtons


• ordonnées : eectifs ou fréquences relatives de chaque valeur
• abscisses : valeurs de la variable

39 / 59
4.2.2 Variable quantitative continue
Etude univariée d'une variable quantitative continue :
• le tableau de distribution (avec regroupement en k classes)
• un histogramme en bâtons
• une boîte à moustaches
• les résumés numériques
tableau de distribution : pour chaque classe [bj−1 , bj [ (j = 1, . . . , k ) :
• son eectif nj : nombre d'individus pour lesquels X ∈ [bj−1 , bj [,
n
• sa fréquence relative fj = j : proportion d'individus pour lesquels
n
X ∈ [bj−1 , bj [,
• sa fréquence relative cumulée φj = f1 + · · · + fj : proportion
d'individus pour lesquels X < bj .
• son amplitude aj = bj − bj−1 ,
fj
• sa densité de proportion dj = ,
aj
Remarque : si les classes sont d'amplitude égale, densités de proportion et
fréquences sont proportionnelles.
40 / 59
4.2.2 Variable quantitative continue
Représentation graphique spécique : histogramme
• ordonnées : densité de proportion dj
• abscisses : classes

41 / 59
4.2.3 Variable quantitative : Résumés numériques

Soit X une variable quantitative de série statistique {xi }i=1,...,n .


xi représente la valeur prise par l'individu i pour la variable X .

• pour une variable quantitative, discrète ou continue


• indicateurs de position :
,→ idée globale de l'ordre de grandeur de la variable ; unité de la
variable
• indicateurs de tendance centrale : mode, moyenne, médiane.
• autres indicateurs de position : minimum, maximum, quantiles
• indicateurs de dispersion :
,→ idée de la variabilité de la variable
• étendue
• intervalle et distance inter-quartiles
• variance, écart-type, coecient de variation

42 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : mode

Denition (Mode)
Le mode est la valeur de X la plus représentée dans l'échantillon.

Le mode n'est pas nécessairement unique, on parle alors de distribution


bimodale ou multimodale.

• variable quantitative discrète : mode = valeur de plus grande


fréquence ou de plus grand eectif
• variable quantitative continue : classe modale = classe de plus
grande densité de proportion

43 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : moyenne

Denition (Moyenne)
1X
n
x̄ = xi
n
i=1

La moyenne est dans l'unité de la variable, il faut toujours la préciser.

variable quantitative discrète :

1X
k k
X
x̄ = nj vj = fj vj
n
j=1 j=1

44 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : moyenne

Propriétés de la moyenne
1 la somme des écart à la moyenne des observations est nulle :
n
(xi − x̄) = 0
X

i=1

2 changement de variable ane (démo)


si Y = aX + b (yi = axi + b pour i = 1, . . . , n) alors ȳ = ax̄ + b
3 moyenne de la somme de deux variables
si Z = X + Y (zi = xi + yi pour i = 1, . . . , n) alors z̄ = x̄ + ȳ
4 la moyenne n'est pas robuste : elle est sensible aux valeurs extrêmes.

45 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : médiane

Denition (Médiane)
C'est la valeur de X qui sépare l'eectif en deux parties d'eectifs égaux

La médiane est dans l'unité de la variable, il faut toujours la préciser.

• variable quantitative discrète :


Q2 =plus petite valeur vj telle que φj ≥ 0, 5
• variable quantitative continue :
n+1
• Si n impair, Q2 = -ème observation
2
n
• Si n pair, Q2 = -ème observation
2

46 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : médiane
Calculer la médiane pour les deux variables suivantes.

Tableau de distribution du nombre d'années d'études après le CP


educ 8 12 14 15 16 17 18 19 20 21 Total
nj 53 190 6 116 58 11 9 27 2 1 473
fj 0,11 0,40 0,01 0,25 0,12 0,02 0,02 0,06 0,00 0,00 1
φj 0,11 0,51 0,52 0,77 0,89 0,91 0,93 0,99 0,99 0,99

Salaire des employés ayant au moins 18 années d'études après le CP :

47 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : médiane
Remarques sur la médiane
• la médiane est robuste : elle est peu sensible aux valeurs extrêmes.
• la comparaison de la moyenne et de la médiane renseigne sur
l'asymétrie de la distribution :
• si Q2 << x̄ : asymétrie avec sur-représentation des petites valeurs
• si Q2 >> x̄ : asymétrie avec sur-représentation des grandes valeurs

48 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : minimum, maximum

Denition (Maximum)
Plus grande valeur observée xi de X .

Denition (Minimum)
Plus petite valeur observée xi de X .

49 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : quantiles

Quantile d'ordre p : qp
Généralise la notion de médiane à une proportion p .
Pour p ∈ [0, 1], le quantile d'ordre p , noté qp , est la valeur observée xi de
X telle que p × 100% de l'échantillon a une valeur de X inférieure ou
égale à qp .

Quantiles particuliers
• quartiles : Q1 , Q2 , Q3
• déciles
• centiles (ou percentiles)

50 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : quantiles

51 / 59
4.2.3 Variable quantitative : Résumés numériques
b) indicateurs de dispersion

Etendue
étendue=maximum-minimum
(range en anglais), indicateur peu informatif.

Intervalle et distance inter-quartiles


dispersion autour de la médiane.
Intervalle inter-quartile : [Q1 , Q3 ]
contient 50% des observations
Distance inter-quartile : IQ = Q3 − Q1
utile pour la boîte à moustaches.

52 / 59
4.2.3 Variable quantitative : Résumés numériques
b) indicateurs de dispersion : variance
Variance Var (X )
1X
n
Var (X ) = (xi − x̄)2
n
i=1

moyenne des carrés des écarts à la moyenne.


Formule de König-Huyghens :
1X
n
Var (X ) = xi2 − (x̄)2
n
i=1

moyenne des carrés - carré de la moyenne.

,→ dispersion de X autour de la moyenne


unité : carré de l'unité de X
53 / 59
4.2.3 Variable quantitative : Résumés numériques
b) indicateurs de dispersion : variance

1 X n
Remarque : dans R Var (X ) = (xi − x̄)2
n−1
i=1
(variance empirique corrigée, estimateur sans biais de la variance)

Propriétés de la variance
• la variance est toujours positive ou nulle.
• la variance est nulle si et seulement si toutes les observations sont
identiques
• changement de variable ane (démo)
si Y = aX + b (yi = axi + b pour i = 1, . . . , n) alors
Var (Y ) = a2 Var (X )

54 / 59
4.2.3 Variable quantitative : Résumés numériques
b) indicateurs de dispersion : écart-type, coef. de variation

Ecart-type σX
p
σX = Var (X )
unité : unité de X

Coecient de variation CV (X ) - si X positive


σX
CV (X ) =

permet de qualier l'intensité de la dispersion autour de la moyenne :
• si CV (X ) ≥ 0, 25 variable X dispersée autour de sa moyenne,
• si CV (X ) < 0, 25 variable X peu dispersée autour de sa moyenne.
sans unité.
55 / 59
4.2.3 Variable quantitative : Résumés numériques (suite)

56 / 59
4.2.4 Boîte à moustaches

Denition (Boîte à moustaches, boxplot en anglais)


Graphique résumant la distribution d'une variable quantitative, discrète ou
continue, et permettant de repérer d'éventuelles valeurs extrêmes.

• boîte : rectangle de Q1 à Q3
avec ligne = médiane.
• moustaches : deux segments
de droite. Longueur d'une
moustache limitée à
1, 5 × (Q 3 − Q 1).
• valeurs extrêmes éventuelles
(ou atypiques ou outliers) :
observations sont en-dehors de
la boîte et des moustaches.
57 / 59
4.2.4 Boîte à moustaches (suite)
Interprétation
1 valeurs extrêmes
2 dispersion : longueur de la boîte à moustaches
3 forme de la distribution (symétrie/asymétrie) :

58 / 59
4.3 Bilan d'une étude univariée

Etude univariée = première étape de toute analyse.

A faire pour chacune des variables comprises dans l'analyse, selon sa


nature :
• variable qualitative :
• tableau de distribution en eectifs et en fréquences,
• un graphique : diagramme en colonnes ou diagramme en secteurs.
• variable quantitative discrète :
• tableau de distribution en eectifs et en fréquences,
• principaux résumés numériques,
• deux graphiques : diagramme en bâtons et boîte à moustaches.
• variable quantitative continue :
• principaux résumés numériques,
• deux graphiques : histogramme et boîte à moustaches.

59 / 59

Vous aimerez peut-être aussi