Académique Documents
Professionnel Documents
Culture Documents
Céline Vignes
UT Capitole - TSM : L1 Numérique et Management
2023-2024
1 / 59
Chapitre 1 - Dénitions et statistiques descriptives univariées
2. Échantillonnage
3. Méthodes de recherche
4. Etude univariée
2 / 59
Plan
2. Échantillonnage
3. Méthodes de recherche
4. Etude univariée
2 / 59
Qu'est-ce que la statistique ?
3 / 59
1.1 Dénitions : a) Population
Denition (Population)
Ensemble des éléments sur lesquels porte l'étude.
4 / 59
1.1 Dénitions : a) Population (suite)
Exemples de populations :
• les femmes de moins de 50 ans vivant à Paris en 2020,
• le parc automobile français au 1er janvier 2024,
• les entreprises de plus de 500 salariés dont le siège social est établi
en France en 2023,
• les départements de France métropolitaine,
• les produits d'une usine,
• les consultations annuelles d'un médecin généraliste,
• les accidents de la route dus à un excès de vitesse dans le
département de la Haute-Garonne en 2022,
• le portefeuille d'un chargé de clientèle à une date donnée,
• etc.
5 / 59
1.1 Dénitions : b) Echantillon
Population totale
taille N
Echantillon
taille n
6 / 59
1.1 Dénitions : b) Echantillon (suite)
Dans les deux cas, il s'agit d'un sondage, c'est-à-dire une enquête dans
laquelle l'échantillon observé est un sous-ensemble strict de la population.
7 / 59
1.1 Dénitions : Stat. descriptive / Stat. inférentielle
8 / 59
1.1 Dénitions : c) Statistique descriptive
But
Décrire (représenter et/ou résumer) les caractéristiques d'une population
ou d'un échantillon de cette population.
Population totale
taille N
Echantillon
taille n
OU
9 / 59
1.1 Dénitions : d) Statistique inférentielle
But
Induire (inférer) des caractéristiques inconnues de la population totale,
à partir de celles d'un échantillon de cette population.
Population totale
taille N
Echantillon
taille n
ET
inférence
10 / 59
1.1 Dénitions : e) Variable
Denition (Variable)
Caractéristique (âge, sexe, salaire, . . .) dénie sur la population et
observée sur l'échantillon. Elle associe à chaque individu une valeur et une
seule.
Exemple : un questionnaire est distribué à 30 étudiants inscrits en L1 à
l'UT Capitole en 2023-2024
Population (ensemble des individus concernés par l'étude) :
...
Echantillon (ensemble des individus interrogés ou observés) :
...
Individus : . . .
Variables : correspondent aux questions posées. . . .
11 / 59
1.1 Dénitions : e) Variable (suite)
Les données recueillies sont en général présentées sous forme d'un tableau,
le tableau des données brutes, comprenant les individus en lignes et les
variables en colonnes. Elles sont stockées dans un chier informatique.
12 / 59
1.2 Nature des variables
nominale
qualitative
ordinale
variable
discrète
quantitative
continue
13 / 59
1.2 Nature des variables : a) Variable qualitative
Denition (variable qualitative)
Ses valeurs appartiennent à un groupe de catégories, ce ne sont pas des
quantités mesurables. On les appelle modalités de la variable.
Remarque
En pratique, la nature d'une variable statistique peut dépendre du recueil
des données et de la précision choisie.
Cas de l'âge
• quantitative continue si les données sont décimales sans
troncature,
• quantitative discrète si elle prend peu de valeurs diérentes au sein
de la population (âge en mois d'une population de nourrissons - âgés
de 1 mois à 1 an),
• qualitative ordinale si la question posée propose des tranches d'âge.
Exemple : "moins de 25 ans", "entre 25 et 40 ans", "entre 40 et 60
ans", "plus de 60 ans".
17 / 59
1.2 Nature des variables (suite)
18 / 59
1.2 Nature des variables : jeu de données employes
2. Échantillonnage
2.1 Échantillonnage aléatoire simple
2.2 Échantillonnage aléatoire stratié
2.3 Méthode des quotas
3. Méthodes de recherche
4. Etude univariée
19 / 59
2. Échantillonnage
20 / 59
2. Échantillonnage (suite)
21 / 59
2.1 Échantillonnage aléatoire simple
Principe
Tirage sans remise de n individus parmi les N de la population totale.
• Sans remise car un individu est interrogé une seule fois.
• Chaque individu de la population étudiée a la même probabilité
d'être inclus dans l'échantillon.
n
Cette probabilité vaut .
N
• Garantit la représentativité de l'échantillon.
• Facile à mettre en place et ne demande pas d'informations
supplémentaires sur les individus.
• Méthode coûteuse pour population de grande taille et/ou
géographiquement dispersée.
22 / 59
2.2 Échantillonnage aléatoire stratié
Principe
Diviser la population en sous-groupes homogènes (= strates) selon une (ou
plusieurs) caractéristique(s) pouvant inuencer la caractéristique étudiée.
Population totale
taille N
Tirage au sort (sans remise)
p1% dans chaque strate
ville - homme
Echantillon
taille n
n1 = n x p1
p2%
n2 = n x p2
ville - femme
n3 = n x p3
p3% n4 = n x p4
campagne - homme
p4%
ET
campagne - femme
• Echantillon aléatoire
• Nécessite une information auxiliaire dans la base de sondage
• Méthode intéressante d'un point du vue pratique (séparer les enquêteurs
par strates).
• Méthode coûteuse si le nombre de strates est important.
23 / 59
2.3 Méthode des quotas
24 / 59
Plan
2. Échantillonnage
3. Méthodes de recherche
3.1 Plan expérimental / étude observationnelle
3.2 Variable à expliquer/ variable explicative
3.3 Facteurs de confusion
3.4 Groupe témoin et groupe placebo
3.5 Essai en double aveugle
3.6 Causalité
3.7 Echantillons indépendants / éch. appariés
3.8 Biais
4. Etude univariée
24 / 59
3.1 Plan expérimental / étude observationnelle
Plan expérimental
Une étude dans laquelle le chercheur manipule le traitement reçu par les
sujets (et donc inuence la valeur de la variable d'intérêt) et collecte les
données. Ex : essai thérapeutique randomisé.
Etude observationnelle
Une étude dans laquelle le chercheur collecte les données sans créer de
cadre expérimental. Ex : enquête par sondage.
25 / 59
3.2 Variable à expliquer / variable explicative
26 / 59
3.3 Facteurs de confusion
Facteur de confusion
Variable qui est liée à la variable à expliquer et aux variables explicatives
dont on doit tenir compte dans un modèle multivarié (même si elle n'est
pas signicative).
27 / 59
3.4 Groupe témoin et groupe placebo
Un groupe témoin ou contrôle se rencontre dans un plan expérimental où
la population est divisée en deux groupes de sujets : celui où les sujets
recevant le traitement (par exemple un nouveau médicament à tester) et
le groupe témoin ou contrôle qui ne reçoit pas le traitement et qui sert de
comparaison.
Groupe témoin (ou groupe contrôle)
Groupe de sujets ne recevant pas le traitement actif, qui ne reçoit aucun
traitement ou un placebo
Groupe placebo
Groupe de sujets recevant ce qu'il leur semble être le traitement actif
mais qui est en réalité neutre et qui ne contient aucune substance active
(par exemple un comprimé neutre et non un comprimé avec le principe
actif dans une étude médicale).
,→ phénomène psychologique d'eet placebo
28 / 59
3.5 Essai en double aveugle
29 / 59
3.6 Causalité
An de contrôler des facteurs de confusion, les sujets peuvent être
assignés aléatoirement aux diérents groupes de la variable explicative,
c'est la randomisation. On parle alors d'essai randomisé. Dans ce cas,
on peut dire que les variations de la variable à expliquer sont attribuées à
desvariations de la variable explicative et donc parler de lien de causalité
entre les deux variables, ce qui est impossible dans une étude
observationnelle.
Attention, ne pas confondre randomisation et échantillonnage aléatoire.
Causalité
Les variations de la variable à expliquer peuvent être attribuées à des
variations de la variable explicative.
Association
Liaison entre les variables explicatives et à expliquer, sans notion de
causalité. ,→ cas le plus fréquent.
30 / 59
3.7 Echantillons indépendants / éch. appariés
Echantillons indépendants
Les individus de chaque groupe ne sont pas liés les uns aux autres. On
peut considérer que les deux groupes sont deux sous-populations : par
exemple, un groupe est constitué des hommes et l'autre des femmes.
Echantillons appariés
Chaque individu d'un groupe est apparié à un individu de l'autre groupe.
Ils peuvent présenter des caractérisques identiques, ou dans certains cas, il
peut s'agir du même individu observé deux fois, avant et après le
traitement par exemple.
31 / 59
3.8 Biais
Biais (ou erreur systématique)
Cause d'erreur liée à la méthodologie utilisée.
Si non pris en compte ou non maîtrisés : les biais peuvent entraîner des
erreurs dans l'estimation des paramètres.
Exemples de biais :
• biais de sélection : la population d'étude est mal choisie par
rapport à la question posée, l'échantillon n'est représentatif de la
population d'étude (une partie de l'échantillon n'est pas accessible
par exemple), etc.
• biais de non-réponse : à titre individuel, la personne ne répond pas
à la question ou à l'enquête car elle ne comprend pas le sujet ou les
questions, ou bien ne veut pas répondre.
Le biais de non-réponse se produit quand les répondants et les
non-répondants sont diérents et donc les répondants ne sont pas
représentatif de l'ensemble de la population.
32 / 59
3.8 Biais (suite)
33 / 59
Plan
2. Échantillonnage
3. Méthodes de recherche
4. Etude univariée
4.1 Variable qualitative
4.2 Variable quantitative
4.3 Bilan d'une étude univariée
33 / 59
4. Etude univariée
34 / 59
4.1 Variable qualitative : tableau de distribution
35 / 59
4.1 Variable qualitative : tableau de distribution
36 / 59
4.1 Variable qualitative : graphiques
• diagramme en colonnes (ou en barres), avec nj ou fj en ordonnées.
A privilégier pour une variable ordinale,
• diagramme circulaire (ou en secteurs).
37 / 59
4.2.1 Variable quantitative discrète
38 / 59
4.2.1 Variable quantitative discrète
39 / 59
4.2.2 Variable quantitative continue
Etude univariée d'une variable quantitative continue :
• le tableau de distribution (avec regroupement en k classes)
• un histogramme en bâtons
• une boîte à moustaches
• les résumés numériques
tableau de distribution : pour chaque classe [bj−1 , bj [ (j = 1, . . . , k ) :
• son eectif nj : nombre d'individus pour lesquels X ∈ [bj−1 , bj [,
n
• sa fréquence relative fj = j : proportion d'individus pour lesquels
n
X ∈ [bj−1 , bj [,
• sa fréquence relative cumulée φj = f1 + · · · + fj : proportion
d'individus pour lesquels X < bj .
• son amplitude aj = bj − bj−1 ,
fj
• sa densité de proportion dj = ,
aj
Remarque : si les classes sont d'amplitude égale, densités de proportion et
fréquences sont proportionnelles.
40 / 59
4.2.2 Variable quantitative continue
Représentation graphique spécique : histogramme
• ordonnées : densité de proportion dj
• abscisses : classes
41 / 59
4.2.3 Variable quantitative : Résumés numériques
42 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : mode
Denition (Mode)
Le mode est la valeur de X la plus représentée dans l'échantillon.
43 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : moyenne
Denition (Moyenne)
1X
n
x̄ = xi
n
i=1
1X
k k
X
x̄ = nj vj = fj vj
n
j=1 j=1
44 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : moyenne
Propriétés de la moyenne
1 la somme des écart à la moyenne des observations est nulle :
n
(xi − x̄) = 0
X
i=1
45 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : médiane
Denition (Médiane)
C'est la valeur de X qui sépare l'eectif en deux parties d'eectifs égaux
46 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : médiane
Calculer la médiane pour les deux variables suivantes.
47 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : médiane
Remarques sur la médiane
• la médiane est robuste : elle est peu sensible aux valeurs extrêmes.
• la comparaison de la moyenne et de la médiane renseigne sur
l'asymétrie de la distribution :
• si Q2 << x̄ : asymétrie avec sur-représentation des petites valeurs
• si Q2 >> x̄ : asymétrie avec sur-représentation des grandes valeurs
48 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : minimum, maximum
Denition (Maximum)
Plus grande valeur observée xi de X .
Denition (Minimum)
Plus petite valeur observée xi de X .
49 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : quantiles
Quantile d'ordre p : qp
Généralise la notion de médiane à une proportion p .
Pour p ∈ [0, 1], le quantile d'ordre p , noté qp , est la valeur observée xi de
X telle que p × 100% de l'échantillon a une valeur de X inférieure ou
égale à qp .
Quantiles particuliers
• quartiles : Q1 , Q2 , Q3
• déciles
• centiles (ou percentiles)
50 / 59
4.2.3 Variable quantitative : Résumés numériques
a) indicateurs de position : quantiles
51 / 59
4.2.3 Variable quantitative : Résumés numériques
b) indicateurs de dispersion
Etendue
étendue=maximum-minimum
(range en anglais), indicateur peu informatif.
52 / 59
4.2.3 Variable quantitative : Résumés numériques
b) indicateurs de dispersion : variance
Variance Var (X )
1X
n
Var (X ) = (xi − x̄)2
n
i=1
1 X n
Remarque : dans R Var (X ) = (xi − x̄)2
n−1
i=1
(variance empirique corrigée, estimateur sans biais de la variance)
Propriétés de la variance
• la variance est toujours positive ou nulle.
• la variance est nulle si et seulement si toutes les observations sont
identiques
• changement de variable ane (démo)
si Y = aX + b (yi = axi + b pour i = 1, . . . , n) alors
Var (Y ) = a2 Var (X )
54 / 59
4.2.3 Variable quantitative : Résumés numériques
b) indicateurs de dispersion : écart-type, coef. de variation
Ecart-type σX
p
σX = Var (X )
unité : unité de X
56 / 59
4.2.4 Boîte à moustaches
• boîte : rectangle de Q1 à Q3
avec ligne = médiane.
• moustaches : deux segments
de droite. Longueur d'une
moustache limitée à
1, 5 × (Q 3 − Q 1).
• valeurs extrêmes éventuelles
(ou atypiques ou outliers) :
observations sont en-dehors de
la boîte et des moustaches.
57 / 59
4.2.4 Boîte à moustaches (suite)
Interprétation
1 valeurs extrêmes
2 dispersion : longueur de la boîte à moustaches
3 forme de la distribution (symétrie/asymétrie) :
58 / 59
4.3 Bilan d'une étude univariée
59 / 59