Vous êtes sur la page 1sur 146

Polycopié des cours dispensés dans le cadre de la

formation STID Grenoble.

Département STID IUT2 de Grenoble

Liste des cours concernés :


• R1.04 Statistique Descriptive 1
• SAÉ1.03 : Préparation et synthèse d’un tableau de données en vue d’une analyse exploratoire simple

1
Chapitre 0 : Rien

Table des matières

I R.1-04 Statistique Descriptive 1 5


1 Introduction 7
1.1 Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Généralité sur la démarche scientifique . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.2 Statistique descriptive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Individus et variables statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Individus statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2 Variables statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Recueil et stockage des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1 Données existantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2 Recueil de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.3 Codage des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Règlement général sur la protection des données . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5.1 Jouons avec le vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2 Variables qualitatives 22
2.1 Définitions et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Tri à plat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.1 Diagramme en tuyaux d’orgue ou en barres . . . . . . . . . . . . . . . . . . . . . . 29
2.3.2 Diagramme de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.3 Diagramme empilé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.4 Diagramme circulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.1 Jouons avec le vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3 Variables quantitatives discrètes 41


3.1 Tri à plat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2 Résumés statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.1 Résumés statistiques de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.2 Résumés statistiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.3 Résumés statistiques de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3 Graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.1 Diagramme en bâtons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.2 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.3 Boxplot ou boîte à moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.4.1 Jouons avec les notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4 Variables quantitatives continues 62


4.1 Étude à partir des données individuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2 Étude à partir des données regroupées en classes : création . . . . . . . . . . . . . . . . . 64
4.3 Étude à partir des données regroupées en classes : graphiques . . . . . . . . . . . . . . . . 67
4.3.1 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2
TABLE DES MATIÈRES 3

4.3.2 Polygone des fréquences cumulées . . . . . . . . . . . . . . . . . . . . . . . . . . . 68


4.4 Résumés statistiques approchés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4.1 Résumé statistique de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.2 Résumé statistique de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

Chapitre 0 : Rien
4.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.6.1 Jouons avec le vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5 De l’univarié vers le bivarié 75


5.1 Indicateur de liaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.2 La corrélation n’implique pas la causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6 Quanti × Quali 78
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 Rapport de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.3 Point méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

7 Quali × Quali 87
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.1.1 Distribution conjointe du couple (X, Y) . . . . . . . . . . . . . . . . . . . . . . . . 87
7.1.2 Distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2.2 Liaison entre deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . 95
7.2.3 La statistique V 2 de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.3 Point méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

8 Quanti × Quanti 102


8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.1.1 Description des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
8.1.2 Vers la notion de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8.3 Coefficient de corrélation linéaire (de Pearson) . . . . . . . . . . . . . . . . . . . . . . . . 108
8.4 Point méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

9 Ordonnée × Ordonnée 112


9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
9.2 Coefficient de corrélation des rangs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
9.3 Coefficient de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

II Situations d’Apprentissage et d’Évaluation (SAÉ) 120


10 Introduction aux Situations d’Apprentissage et d’Évaluation 121

11 SAÉ 1-03 : Analyse exploratoire simple 122


11.1 Objectifs et problématique professionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
11.2 Descriptif générique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
11.3 Apprentissages critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
11.4 Mise en œuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
11.4.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
11.4.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
11.4.3 Apprentissages critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
11.5 Feuille de route . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
11.5.1 Exploration du fichier de données brutes . . . . . . . . . . . . . . . . . . . . . . . . 126
11.5.2 Premières analyses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
11.5.3 Croisements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
11.5.4 Création du rapport . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
11.5.5 Avant le rendu final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
TABLE DES MATIÈRES 4

11.5.6 Quelques pièges dans lesquels il ne faut pas tomber . . . . . . . . . . . . . . . . . . 127

11.5.7 Calendrier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127


Chapitre 0 : Rien

III Compléments 129

12 Rédaction d’un rapport 130

12.1 Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

12.1.1 Page de gade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

12.1.2 Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

12.1.3 Résumés et mots clefs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

12.1.4 Table des matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

12.1.5 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

12.1.6 Corps du texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

12.1.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

12.1.8 Glossaire, index et bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

12.1.9 Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

12.2 Mise en forme générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

12.3 Graphiques et tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

12.4 Quel niveau de détails est nécessaire ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

12.5 Plagiat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

12.6 Les travers dans lesquels il ne faut pas tomber . . . . . . . . . . . . . . . . . . . . . . . . . 135

12.7 Particularités des rapports de stage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

13 Corrections des exercices 137

13.1 Exercices de l’introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

13.1.1 Exercice 1.5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

13.2 Exercices sur le chapitre des variables qualitatives . . . . . . . . . . . . . . . . . . . . . . 137

13.2.1 Exercice 2.4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

13.3 Exercices sur le chapitre des variables quantitatives discrètes . . . . . . . . . . . . . . . . 138

13.3.1 Exercice 3.4.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

13.4 Exercices des variables quantitatives continues . . . . . . . . . . . . . . . . . . . . . . . . 138

13.4.1 Exercice 4.6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138


Chapitre 0 : Rien
Première partie

R.1-04 Statistique Descriptive 1

5
Chapitre 0 : Rien

Statistique Descriptive Univariée

6
Chapitre 1 : Introduction Univariée
Chapitre 1
Introduction
"Je ne crois aux statistiques que lorsque je les ai moi-même falsifiées."
Winston Churchill

1.1 Avant-propos
Le but du cours de Statistique Descriptive 1 est de comprendre les fondements de la Statistique.
La statistique est une branche des mathématiques qui étudie les statistiques c’est-à-dire les résultats de
calculs statistiques réalisés à partir des jeux de données.
Il faut faire attention à différencier le domaine des probabilités où nous nous donnons un modèle
dans lequel nous effectuons des calculs et la statistique où nous observons des données et nous tentons
de les expliquer en faisant éventuellement appel à un modèle probabiliste.

Attention au piège
En tant que branche des mathématiques, la statistique est une science rigoureuse qui impose un certain
nombre de règles et d’obligations. Il n’est donc pas possible de faire tout ce que nous souhaitons juste
parce que ce serait joli et que cela montrerait mieux que nous avons raison.
Nous verrons que la statistique est souvent mal utilisée ce qui la décrédibilise parfois aux yeux des
personnes qui n’ont pas eu de formations poussées en statistique (comme la citation de Winston Churchill
en témoigne). Le rôle des statisticien·ne·s est de s’assurer que les conclusions obtenues à partir de jeux
de données proviennent d’études rigoureuses.

Pour conclure cette introduction, nous vous invitons à faire vôtre le serment d’Hippocrate du Data
Scientist 1 :

1. Intégrité scientifique et rigueur : J’exploiterai les données avec toute la rigueur requise et en
conformité avec les meilleurs standards de ma profession.

2. Transparence : J’informerai de manière compréhensible et précise toutes les parties prenantes sur
les finalités, les modalités et les implications potentielles de mon utilisation des données.

3. Equité : Je veillerai à toujours m’assurer que des individus ou des groupes ne soient pas discriminés
par rapport à des critères illégaux ou illégitimes, de manière directe ou indirecte, sur la base de mes
travaux sur les données.

4. Respect : J’exercerai mon activité professionnelle en respectant la vie privée et la dignité des
personnes dans toutes leurs dimensions.

5. Responsabilité et indépendance : J’assumerai mes responsabilités en cas de manquement ou


de conflit d’intérêt et je donnerai l’alerte si des actes illégaux liés à des données sont constatés.

1. un complément peut être obtenu sur la page suivante : https://hippocrate.tech/

7
1.1. AVANT-PROPOS 8

1.1.1 Généralité sur la démarche scientifique


Chapitre 1 : Introduction Univariée

Une étude statistique a pour but de répondre à une question dans un domaine d’application parti-
culier à partir d’un jeu de données.
Une étude statistique se déroule en plusieurs étapes :

1. La réflexion sur le protocole à suivre pour le recueil des données (plan d’expériences, plan de
sondage, élaboration d’un questionnaire ...) ;

2. Le recueil et le codage des données (fichier informatique, base de données) ;

3. L’exploration des données (statistique descriptive, analyse des données, fouille de données, ...),
sans chercher à les modéliser ;

4. Éventuellement, prétraitement des données (recodage, agrégation, transformations, création de


nouvelles données...) ;

5. Si les données sont issues d’un échantillon, modélisation statistique : statistique inférentielle,
appel à un modèle probabiliste ;

6. Prévision et/ou prise de décision (réponse à la question initiale).

Chacune de ces étapes est importante pour que les résultats de l’étude répondent correctement à
la question posée initialement. En particulier, il arrive que certaines co-variables n’aient pas été prises
en compte dans le cadre de l’étude et viennent fausser les résultats. Nous renvoyons par exemple les
statisticien·ne·s intéressé·e·s à la vidéo Chocolat, corrélation et moustaches de chats 2 de la chaîne Youtube
la statistique expliquée à mon chat 3 proposée par Uyttendaele et al. (2016).
La (mauvaise) utilisation de la statistique à travers les âges
Lors de la pandémie du virus appelé covid19, une molécule, appelée hydroxychloroquine, a été mise en avant
médiatiquement : essentiellement deux camps se sont opposés ; l’un disant que ce médicament soignait la
maladie et l’autre qu’il était inefficace voire toxique. Nous allons reprendre deux études présentées par
chacun des camps pour montrer que le protocole ne permet pas de conclure ni dans un sens, ni dans
l’autre.
La première étude est celle faite par Gautret et al. (2020) sur l’effet jugé positif de la molécule ; elle
était appelée dans les médias comme la première étude du professeur Raoult. Dans cette étude, plusieurs
patients ont été suivis durant 6 jours dans plusieurs établissements : l’Institut Hospitalier Universitaire
Infection Méditerranée à Marseille où ils ont pris un traitement chloroquine+azythromicine et un groupe
n’ayant eu aucun traitement provenant de différents établissements (Nice, Avignon et Besançon). Les
différents reproches peuvent être regroupés par thématiques :
• Le premier problème fut l’évaluation de l’état des patients. En effet, dans chacun des groupes, les
patients ont été testés tous les jours et, pour un même patient, il arrivait que les résultats changent
entre positif et négatif chaque jour. Les tests n’étaient donc pas fiables à 100%.

• Le deuxième reproche fut le faible nombre de personnes impliquées dans l’essai clinique (à savoir
26 patients traités) et la diversité des profils. En effet, comme il y avait quasiment unicité des
profils, il n’était pas possible de différencier clairement l’effet du traitement par rapport aux autres
co-variables potentielles (comme l’âge). Au moment où ce polycopié est rédigé, une estimation est
de 2,3% de morts. Ceci veut dire que sur 26 individus, on peut s’attendre à n’avoir que 0,6 mort
ce qui est en dessous d’un mort. En conclusion, s’il n’y a pas de mort dans l’étude, ceci peut être
indépendant du traitement.
• Le plus gros reproche fut l’exclusion de 6 des 26 patients pour non-suivis. Ceci fut problématique
car si 2 patients ont choisi d’arrêter d’eux-mêmes (donc nous ne pouvons critiquer ce choix), pour
les 4 autres, ils ont été sortis car 3 sont partis en soin intensif et 1 est décédé. Or, écarter les patients
qui ne répondent pas positivement au traitement ne peut qu’augmenter le taux de réussite du reste
de la cohorte.

2. Disponible à l’url suivante : https://www.youtube.com/watch?v=aOX0pIwBCvw


3. L’url de la chaîne est la suivante : https://www.youtube.com/channel/UCWty1tzwZW_ZNSp5GVGteaA
1.1. AVANT-PROPOS 9

• Le quatrième reproche fut également le suivi du groupe placebo (c’est-à-dire le groupe qui n’avait
pas pris le traitement) car il a été fait de manière plus légère (les charges virales n’ont pas été faites

Chapitre 1 : Introduction Univariée


quotidiennement par exemple) dans des CHU différents et par des équipes différentes ; il existe donc
un biais non négligeable.

La deuxième étude, dite du Lancet du nom du journal qui la publia, regroupait cette fois 96 032
patients atteints du covid19 et traités avec de la chloroquine ou de l’hydroxychloroquine et révélait un
important sur-risque de mortalité. Après avoir été étudiées de plus près, il s’est finalement avéré que les
données étaient certainement fausses et/ou corrigées arbitrairement. Nous mettons ici quelques éléments
qui ont permis de mettre en évidence le problème :

• Le taux de mortalité était très supérieur à tout ce qui avait été enregistré jusqu’alors. Même si la
conclusion de l’étude était la sur-mortalité du traitement, des conclusions aussi flagrantes auraient
mérité une meilleure critique de la part des auteurs.
• Le nombre de morts attribués pour l’Australie était supérieur (73 patients morts dans 5 hôpitaux)
que toutes les données remontées par le pays entier (68 morts en tout). De plus, un hôpital fut
surpris de se retrouver dans l’étude alors qu’il n’avait jamais transmis ses données.
• Le descriptif des patients (la prise en charge autre que le traitement par exemple) était très flou. Il
n’était pas possible de savoir si des co-variables auraient expliqué certaines morts.
• Les doses données ont également surpris puisque certains patients d’Amérique auraient eu des doses
de 600mg alors qu’aucun hôpital n’avait donné de doses supérieures à 500mg.
Après toute cette polémique, l’article fut finalement retiré car la société qui avait fourni les
données n’était pas capable de prouver leur exactitude. Nous renvoyons vers le site de Libé-
ration les statisticien·ne· intéressé·e·s : https://www.liberation.fr/checknews/2020/06/02/
pourquoi-l-etude-du-lancet-sur-l-hydroxychloroquine-est-elle-sous-le-feu-des-critiques_
1789844
Nous voyons bien par ces deux exemples contraires l’importance d’un protocole correctement établi.
L’une de ces deux affirmations est peut-être juste, toutefois, sans une étude rigoureuse, aucune des deux
n’est acceptée par la totalité de la communauté scientifique.

Attention au piège
Il arrive parfois que les statisticien·ne·s ne soient associé·e·s qu’à partir de l’étape 3. Ceci est souvent
trop tard car les données récoltées (parfois des plans à plusieurs millions d’euros) ne permettent pas de
répondre à la question posée.

La réflexion sur le protocole doit également être l’occasion de considérer les erreurs potentielles. Par
exemple, si nous récupérons des données de manière manuscrite, il y a un risque d’erreur humaine ou
de mauvaise lecture de ce qui est marqué. A l’opposé, mettre des garde fous sur des recueils virtuels
peut empêcher d’avoir certains résultats. Les étapes d’exploration et de prétraitement des données sont
également importantes pour repérer les erreurs potentielles.
La (mauvaise) utilisation de la statistique à travers les âges
Un exemple classique d’erreur qui a encore la vie dure dans notre inconscient collectif est le fait que les
épinards soient remplis de fer :
• En 1870, le biochimiste allemand nommé E. von Wolf découvre que les épinards contiennent environ
2,7mg de fer pour 100g. L’histoire raconte que, quand sa secrétaire recopia la valeur, elle oublia la
virgule ce qui multiplia par 10 la teneur.
• En 1881, un chercheur nommé Gustav von Bunge réévalue la teneur en fer mais se trompe entre
le poids des épinards frais et des épinards déshydratés. Comme les épinards sont constitués à 90%
d’eau, l’erreur était à nouveau de 1 pour 10.
• Dans les années 1930 à 1937, la communauté scientifique réévalua cette teneur et découvrit des
deux erreurs mais elle ne réussit pas à convaincre le public. Il fallut attendre l’article de Hamblin
(1981) de 1981, soit plus d’un siècle après, pour que les médias reprennent l’information.
1.2. INDIVIDUS ET VARIABLES STATISTIQUES 10

Nous conseillons le site Science & fourchette recensant les nombreuses erreurs commises au fil des ans
sur les épinards : http://sciencefourchette.com/2014/04/11/popeye-est-une-supercherie/ dont
Chapitre 1 : Introduction Univariée

nous avons tiré une partie des informations.

1.1.2 Statistique descriptive


Dans la démarche énoncée précédemment, la statistique descriptive prend sa place dans la partie
d’exploration et de prétraitement des données. Ce sera à partir des résultats présentés que nous
pourrons proposer une modélisation statistique (qui sera abordée dans tout le reste de la formation) qui
mènera à une prévision et/ou à une prise de décision.
La statistique descriptive désigne un ensemble de techniques dont le but est de

• explorer, découvrir l’information contenue dans les données,

• les représenter graphiquement,

• détecter des premières tendances.

A chacun de ces buts correspond une ou plusieurs techniques (voir le tableau 1.1).

Table 1.1 – Mise en relation des objectifs (à gauche) avec les outils possibles (au milieu). La dernière
colonne correspond au cours dans lequel nous verrons ces notions.

Objectif Techniques Cours


Explorer, découvrir les données, tableaux statistiques SD1 (univarié)
résumer l’information résumés statistiques
Représenter graphiquement graphiques SD1
Détecter des tendances indicateurs de liaison SD2 (bivarié)

Il est important de ne pas utiliser une technique pour un autre objectif. De même, nous verrons par
la suite que chaque outil correspond à un ou plusieurs objectifs précis : leur choix est donc primordial.

1.2 Individus et variables statistiques


Les deux éléments importants à maîtriser dans une étude statistique sont les individus et les variables
statistiques.

1.2.1 Individus statistiques


Débutons par introduire deux définitions.

Définitions 1 (Population et individus statistiques)


La population statistique est l’ensemble concerné par une étude statistique. L’individu
statistique est un élément unique de cette population.

La population statistique doit être correctement choisie en fonction de la question posée.


Exemple fil rouge
Dans l’étude fil rouge provenant de Micheaux et al. (2011) que nous allons utiliser tout au long de cette
partie, nous analyserons le comportement alimentaire des personnes âgées de la région de Bordeaux en
2000. Il faut alors correctement caractériser ce qu’est une personne âgée (plus de 60 ans ? Plus de 80
ans ? Ou alors plus de 40 ans ?) et la région de Bordeaux (est-ce la ville ? L’agglomération proche ? Le
département qui contient la ville de Bordeaux ?).
1.2. INDIVIDUS ET VARIABLES STATISTIQUES 11

Attention au piège
Les constatations faites durant l’étude portent uniquement sur la population étudiée (en tenant compte
de ses spécificités).

Chapitre 1 : Introduction Univariée


Par exemple, si nous étudions la survie des passagers du Titanic, la population est l’ensemble des
passagers et tous les passagers. Il ne faut donc pas étudier uniquement les passagers de première classe
ou ceux d’un autre paquebot et extrapoler les résultats.

La (mauvaise) utilisation de la statistique à travers les âges


Dans un tweet du 28 juin 2021, le compte @CNEWS publiait les conclusions d’une étude sur le fait que
40% des nouveaux cas de Covid en Israël étaient vaccinées (voir la gauche de la figure 1.1) avec une
introduction laissant penser que la couverture vaccinale importante n’empêchait une large propagation
du virus. Or, comme le rappelle le compte @sc_cath, malgré 87% de la population vaccinée, nous ne
retrouvons que 40% dans les nouveaux cas. Ceci est dû à une plus faible contamination des personnes
vaccinées (environs 10%) que des personnes non vaccinées (environ 100%).
En poussant le raisonnement à l’extrême limite, si 100% des israéliens étaient vaccinés alors le moindre
cas serait forcément un vacciné et le titre serait alors 100% des nouveaux cas sont vaccinés. La question
est ici de savoir si le fait de vacciner largement la population diminue globalement le nombre de nouveaux
cas ou pas par rapport à une population non vaccinée.

Figure 1.1 – Exemple d’étude où la conclusion (tweet de gauche) fut reprise sans recul sur le fait que
la population était largement vaccinée et donc, sans avoir pris en compte les probabilités conditionnelles
(rappelées par le tweet de droite).

Remarque
Les termes population et individus font naturellement penser à des êtres humains. Néanmoins, l’individu
peut également être un groupement d’êtres humains (par exemple si nous étudions le comportement de
plusieurs villes, ce sera la ville l’individu statistique) ou des objets (par exemple un capteur de tempéra-
ture).

Exemple
Si nous étudions les personnages de Star Wars, ce sont des personnes fictives qui peuvent également être
des robots par exemple.
1.2. INDIVIDUS ET VARIABLES STATISTIQUES 12

Attention au piège
Le fait qu’il y ait un être humain dans une étude ne veut pas dire que l’individu statistique sera un
être humain. Par exemple, si nous observons le suivi d’un traitement donné à des patients et que nous
Chapitre 1 : Introduction Univariée

faisons des prélèvements à différents moments, l’individu statistique sera alors le couplage patient + date
du prélèvement.

Point méthode
Un individu statistique doit être unique. Si vous avez un doute sur la qualification de votre
individu statistique, demandez-vous si un même individu se retrouve plusieurs fois. Dans
l’exemple précédent, nous voyons que si nous prenons uniquement le patient alors il sera associé
à plusieurs prélèvements.

Exemple
Si nous étudions les vidéos de la plateforme Youtube, la caractérisation de l’unicité se fait par l’identifiant
de la vidéo. En effet, une même vidéo (par exemple un clip de musique) peut être déposée par plusieurs
youtubeurs et chacune de ces vidéos est pourtant unique.

Une fois la population statistique définie, le mieux serait de récupérer les informations pour tous les
individus présents. En pratique, c’est bien sûr compliqué pour des questions de temps et d’argent. Nous
introduisons alors de nouvelles notions :

Définitions 2 ((Sous-)échantillon)
Un échantillon (statistique) est un sous-ensemble de la population statistique. On appelle
sous-échantillon une partie de cet échantillon (nous y reviendrons dans la partie sur la
statistique descriptive bivariée).

Attention au piège
Il est important de s’assurer que ce sous-ensemble soit vraiment représentatif de la population. Par
exemple, si nous étudions la proportion de cancers en France dans la population et que l’échantillon
ne contient que des hommes, nous aurons une sur-représentation des cancers des testicules et une sous-
représentation des cancers du sein.

1.2.2 Variables statistiques


Une fois les individus correctement définis, nous devons chercher quelles seront les informations im-
portantes à analyser pour répondre à la question.

Définition 3 (Variable statistique)


Nous appelons variable statistique toute information recueillie sur les individus statistiques.

Exemple
Dans le cadre d’une enquête sur la consommation des personnes âgées, nous pouvons leur demander leur
âge, leur poids, leurs habitudes alimentaires (boivent-elles du café ou pas ? Si oui, combien de tasses par
jour ?), la ville dans laquelle elles vivent...

Les variables statistiques peuvent être classées en deux types contenant chacun deux sous-catégories.

Définitions 4 (Types de variables)


Le premier type est celui des variables qualitatives qui contient toutes les variables pour les-
quelles aucune opération mathématique n’est possible. Nous distinguons deux sous-catégories :
• Les variables qualitatives nominales lorsqu’il n’y a pas d’ordre sur ses modalités.
1.2. INDIVIDUS ET VARIABLES STATISTIQUES 13

• Les variables qualitatives ordinales lorsqu’un ordre accepté par tout le monde peut être

Chapitre 1 : Introduction Univariée


fait.
Le deuxième type est celui des variables quantitatives qui contient toutes les variables pour
lesquelles il est possible de faire des opérations. Nous distinguons deux sous-catégories :
• Les variables quantitatives discrètes lorsqu’il y a un faible nombre de valeurs possibles,
relevant essentiellement d’un comptage.
• Les variables quantitatives continues dans les autres cas.

Exemples

• Genre d’une personne : variable qualitative nominale car il n’est pas possible d’additionner un
homme + une femme et qu’il n’y a pas d’ordre naturel et accepté par tous entre les hommes et les
femmes.
• La situation familiale (célibataire, marié·e, veuf·ve, en couple...) : variable qualitative nominale car
il n’est pas possible d’additionner célibataire + en couple par exemple et qu’il n’y a pas d’ordre
naturel et accepté par tous.
• "Êtes-vous totalement d’accord, plutôt d’accord, plutôt pas d’accord ou pas du tout d’accord sur le fait
que le professeur de statistique est vraiment pédagogue ?" est une question renvoyant une réponse
qui est une variable qualitative ordinale puisqu’un ordre naturel est présent mais on ne peut pas
faire d’opérations arithmétiques sur les modalités de réponse.

• Le nombre d’enfants d’une personne : variable quantitative discrète puisque l’essentiel de la popula-
tion se concentre sur un faible nombre d’enfants et qu’on peut calculer le nombre d’enfants moyens
par personne.
• La pression atmosphérique : variable quantitative continue puisque nous pouvons calculer une pres-
sion moyenne et que, si on a un appareil suffisamment précis, il est possible de relever un ensemble
continu de valeurs.

Généralement, il y a deux types d’erreurs dans la classification des variables.


Attention au piège (Variables qualitatives)
La première difficulté rencontrée est pour différencier une variable qualitative ordinale d’une variable
qualitative nominale. Il est important de se souvenir que l’ordre doit être accepté par tout le monde. Par
exemple, nous pourrions demander la couleur des cheveux de plusieurs personnes et proposer un ordre
suivant l’intensité de la couleur. Mais est-ce que tout le monde serait d’accord sur cet ordre ? Par exemple,
est-ce que la couleur roux est plus intense ou moins intense que châtain ou blond ?

Attention au piège (Variables quantitatives)


La frontière entre discret et continu est quelque fois floue et il est possible qu’une même donnée puisse
être considérée comme continue ou discrète suivant la situation.
Par exemple, si nous regardons les poids de personnes avec un outil suffisamment précis, nous pourrons
avoir autant de poids que d’individus (donc une variable quantitative continue). A l’opposé, si nous
regardons les poids de personnes ayant entre 50 et 55 kilogrammes avec un outil ne permettant d’avoir
que des valeurs entières, nous n’aurons que 6 valeurs (donc une variable quantitative continue).
Un autre exemple peut être le nombre de j’aime sur un réseau social (twitter, facebook, instagram...) :
c’est un nombre entier et, généralement, les utilisateurs ont peu de notifications (donc une variable
quantitative discrète) mais pour les influenceur·se·s, ce nombre peut être très grand et surtout très
différent d’une publication à une autre.

Pour vous aider, voici un arbre de décision :


1.3. RECUEIL ET STOCKAGE DES DONNÉES 14

Point méthode (Type de variable)


Pour vous aider à décider du type d’une variable, deux questions sont nécessaires :
Chapitre 1 : Introduction Univariée

Oui Non
Une opération arithmétique
est-elle possible ?

Y a-t-il peu de modalités ? Y a-t-il un ordre sur les modalités ?

Oui Non Oui Non

Quantitative Quantitative Qualitative Qualitative


discrète continue ordinale nominale

Indépendamment de leur type, il faut également différencier les variables qui nous permettront de
répondre à la question.

Définitions 5 (Variables explicatives et à expliquer)


Nous appelons variable à expliquer les variables que nous cherchons à décrire, expliqué
ou prédire afin de répondre à la question posée en début d’étude. Nous appelons variable
explicative les variables utilisées pour expliquer, décrire ou prédire les variables à expliquer.

Exemple
Dans le cas des passagers du Titanic, nous cherchons à expliquer la variable survie en fonction de diffé-
rentes variables explicatives (âge, prix du billet, port d’embarquement...).

La (mauvaise) utilisation de la statistique à travers les âges


Avec l’avènement des algorithmes automatiques et du Big Data, de nouvelles questions se posent quant
au choix et à l’utilisation de certaines variables explicatives. Par exemple, nous nous apercevons que, mal
utilisés, certains algorithmes reproduisent, voire accentuent, les inégalités déjà présentes. En 2015, des
chercheurs et chercheuses ont montré que des profils masculins avaient plus de chances de se voir proposer
des offres à hauts salaires que des profils féminins. Ceci est dû au fait que jusqu’à présent, les hommes ont
des salaires plus élevés et, comme les concepteurs n’ont pas corrigé ce biais, les algorithmes ont cru que
c’était la norme. Nous recommandons la vidéo Algocratie : L’inégalité programmée - #DATAGUEULE 84
de la chaîne Data Gueule proposée par Goetz et al. (2014).

1.3 Recueil et stockage des données


Une fois la question posée, l’individu statistique et les variables explicatives et à expliquer définies,
il faut recueillir les données. Dans ce cas, plusieurs possibilités : soit les données existent déjà, soit nous
devons les recueillir. Nous présentons ici quelques pistes pour collecter les données.

1.3.1 Données existantes


Un grand nombre de données sont déjà en libre accès sur internet. Nous pouvons citer, pour la
France, l’Institut National de la Statistique et des Études Économiques (INSEE), les registres de données
médicales (par exemple, le registre de données sentinelles)...
Lorsqu’une question est posée par une entreprise, elle a généralement des données associées : fichier
des clients, des fournisseurs, des articles en vente, adhérents d’associations...
1.3. RECUEIL ET STOCKAGE DES DONNÉES 15

Dans toutes ces situations, il est important de prendre du temps pour savoir si les données répondent
réellement à la question posée : comment ont-elles été récoltées ? Est-ce que toutes les variables impor-

Chapitre 1 : Introduction Univariée


tantes ont été recueillies ? Est-ce qu’il y a eu un biais dans la sélection des individus ?

1.3.2 Recueil de données


Lorsque les données ne sont pas disponibles, il faut les recueillir. Dans ce cas, c’est le protocole qui
définit
• la (ou les) population(s) statistique(s) visée(s) : sur qui souhaite-t-on recueillir de l’information ?
• l’échantillon recueilli : en pratique, sur quels individus pourra-t-on recueillir de l’information ? (plans
d’expérience, sondages)
• les variables statistiques attachées à cette (ou ces) population(s) : quelles informations souhaite-t-on
recueillir ou mesurer ?
• le type et le codage de chaque variable : en pratique, comment va-t-on recueillir l’information ?
Les données peuvent être recueillies par des méthodes très variées, qui dépendent du domaine d’ap-
plication et qui sont définies dans le protocole. Cela peut être :
• par des questionnaire papier qui sont ensuite saisis sur un ordinateur pour obtenir un fichier infor-
matique ;
• par des questionnaires informatiques qui incrémentent directement un fichier informatique ou une
base de données ;
• par des instruments de mesures ;
• par des enregistrements de sons et/ou d’images...

Remarque
Le choix de la méthode pour recueillir les données peut avoir une influence dans les résultats. Par exemple,
si nous laissons les sondés remplir des questionnaires, ils peuvent commettre des erreurs. A l’opposé, si
des enquêteurs posent les questions, il peut y avoir une réticence à répondre à certaines questions.

La (mauvaise) utilisation de la statistique à travers les âges


Dans l’enquête de 2022 sur la mésinformation des jeunes et leur rapport à la science et au paranormal
à l’heure des réseaux commandée par la fondation Jean Jaurès, l’une des conclusions était que plus de 2
jeunes sur 3 croyaient à au moins une contre vérité scientifique 4 . Or, dans la liste, nous pouvions trouver
des questions comme "Et pour chacune des opinions suivantes, êtes-vous d’accord ou pas d’accord ? Il est
possible que la Terre soit plate et non pas ronde comme on nous le dit depuis l’école" et une réponse "Pas
d’accord" était interprétée comme croire à une contre-vérité. Notons que cette phrase est composée d’un
"et" et que, par conséquent, on peut ne pas être avec juste une partie de la proposition. Décomposons là :
• "Il est possible que la Terre soit plate" : le fait de rajouter "Il est possible" implique que, si on n’est
pas d’accord, cela ne veut pas dire que qu’on croit que la Terre soit plate ; juste que le répondant
peut être prudent.

• "non pas ronde" : techniquement et si on est puriste, la terre n’est pas ronde mais plutôt ovale
car la distance entre le centre et le niveau de la mer est 21km plus longue qu’aux pôles. Donc,
partant de ce principe, aucune des propositions n’est vraie donc il faudrait que tout le monde soit
en désaccord.
• "comme on nous le dit depuis l’école" : enfin, on peut être contre cette partie si on vit dans un
environnement qui ne nous a jamais dit que la Terre était ronde.

La formulation crée donc une confusion qui empêche l’interprétation des résultats.
De façon identique, la question "L’astrologie est une science" mériterait de savoir d’abord si les
interrogé·e·s savent ce qu’est l’astrologie. En effet, certaines personnes confondent parfois astrologie et
astronomie ; or ce dernier est bien une science qui étudie les astres, leur origine, leur évolution...
1.3. RECUEIL ET STOCKAGE DES DONNÉES 16

1.3.3 Codage des données


Chapitre 1 : Introduction Univariée

Si les données ont été recueillies sur un questionnaire papier, il est nécessaire de définir un plan de
codage qui explique comment on va transcrire l’information portée par le questionnaire dans le fichier
informatique. Ce plan de codage doit en particulier établir les correspondances entre :

• le numéro de la question ;

• le texte de la question ;

• le codage choisi pour chacune des réponses (les modalités) ;

• le lieu où se trouve l’information (colonne d’un tableur par exemple) ;

• le nom de la variable statistique choisi.

Remarque
Dans le cas des enquêtes ou questionnaires, on distingue aussi :
• les questions fermées : une réponse unique à choisir dans une liste → variable qualitative.

• les questions à choix multiple : plusieurs réponses possibles dans une liste → autant de questions
oui/non que de réponses possibles.
• les questions à choix ordonné : plusieurs réponses possibles ordonnées → réponse donnée en
premier choix, puis couples ordonnées de deux réponses, etc.
• les questions ouvertes : texte laissé libre → nécessite un recodage ou appel au text mining.

Le nombre de variables statistiques peut être beaucoup plus élevé que le nombre de questions dans le
questionnaire.

Attention au piège
Le codage peut faire l’objet d’un choix : par exemple, doit-on coder le sexe en homme ou femme ? H ou
F ? 0 ou 1 ?
• si le codage est numérique, le type de la variable n’est pas nécessairement quantitatif : exemple,
le sexe codé 1/2 pour Homme/Femme. Il est parfois plus prudent de garder un codage "texte" pour
ne pas perdre de vue le type de la variable.
• si la question est à réponses multiples, nous transformons chaque modalité (réponse) possible en
nouvelle variable qui prend pour valeur 1 si la réponse a été choisie, 0 si elle n’a pas été choisie.
• si la question est ouverte, on saisit le texte tel qu’il est. On fera appel au text mining et à des
logiciels spécialisés pour la traiter.
• si la variable est quantitative, on précisera bien l’unité dans laquelle est recensée la mesure.

La (mauvaise) utilisation de la statistique à travers les âges


Les chaînes de caractères prennent généralement plus de places mémoires que les entiers (par exemple).
Ainsi, dans Python, une variable contenant le chiffre entier 1 prend 28 octets et le chiffre float 1.0 20
alors que la lettre V en prend 50. Par conséquent, quand le stockage est limité, il est d’usage de coder
les chaînes de caractère par des valeurs numériques pour diminuer le stockage et d’associer un plan de
codage afin de retrouver à quelle chaîne de caractères correspond chaque valeur numérique. Néanmoins,
lorsque nous chargeons les données et si nous n’y prêtons pas attention, le logiciel peut croire que la
variable correspondante (qui contient donc des valeurs numériques) est une variable quantitative.

4. Cette partie a été inspirée par la vidéo de la Tronche en Biais https://www.youtube.com/watch?v=LsMNe_a5Xn0&


ab_channel=LaTroncheenBiais et les deux articles de blog de la menace théoriste https://menace-theoriste.fr/
sonder-les-croyances-complotistes/ et https://menace-theoriste.fr/mauvais-sondage-croyances-complotistes/
1.3. RECUEIL ET STOCKAGE DES DONNÉES 17

Définitions 6 (Identifiant)
En général, il existe une variable, appelée identifiant qui permet d’identifier l’individu statis-

Chapitre 1 : Introduction Univariée


tique, soit par un nombre, soit par un nom.

Définitions 7 (Données manquantes)


Quel que soit le type de la variable, nous appelons valeur manquante, donnée manquante,
ou non réponse l’absence d’information pour un individu à une variable.

Attention au piège
Le fait qu’il y ait des valeurs manquantes peut être une information en tant que telle. Nous pouvons
distinguer deux catégories :
• Les valeurs manquantes par omission aussi appelées données censurées : par exemple, lorsqu’une
enquête est faite, il arrive que les personnes ayant des salaires élevés préfèrent ne pas les déclarer.

• Les valeurs manquantes "aléatoirement", nous entendons par là le fait qu’il n’y ait pas de raison
sous-jacente (un capteur défectueux, un oubli de réponses...).
Pendant longtemps, les valeurs manquantes gênantes étaient remplacées par la valeur moyenne de la
variable (par exemple, le package FactoMineR de Husson et al. (2016) sur ). Les recherches récentes
sur le sujet montrent que cela casse la structure et fausse généralement les analyses (voir par exemple
Audigier (2015)). Ces points seront étudiés notamment dans la ressource R6.02 : Méthodes statistiques
pour le Big Data.

Remarque
Quelques cas particuliers :
• L’identifiant est une variable informatique, mais pas statistique (aucun intérêt à l’étudier pour elle
même).

• Si la variable est quantitative, elle peut être regroupée en classes (voir chapitre sur les variables
quantitatives).
• La valeur manquante peut être codée par un caractère manquant (blanc) ou par un code spécifique
(NA ou 99).

Enfin, il est préférable de choisir des modalités de réponses qui soient communes à différentes études.
Pour les enquêtes socio-économiques, l’INSEE a établi des nomenclatures qu’il est bienvenu d’utiliser :
http://www.insee.fr/fr/methodes/default.asp?page=nomenclatures/liste-nomenclatures.htm
Citons en particulier :
• La nomenclature des professions et catégories socioprofessionnelles (PCS, ex-CSP) : Donne 8 groupes
socioprofessionnels et 42 catégories socioprofessionnelles qui regroupent 486 professions.
• La nomenclature des activités principales exercées (APE, ex-NAF) : Donne les secteurs d’activités
des entreprises en France selon 21 sections, 88 divisions, 272 groupes, 615 classes, 732 sous-classes.
Si on utilise l’une des ces nomenclatures, le plan de codage doit préciser quel niveau est choisi.
Exemple fil rouge
Durant cette partie, nous étudierons l’enquête proposée par De Micheaux et al. (2011) sur l’alimentation
de 226 personnes âgées de la région de Bordeaux en 2000. En particulier, nous aurons les informations
suivantes :
• sexe, situation familiale : variables qualitatives nominales.

• consommation journalière de thé, de café (en nombre de tasses) : variables quantitatives discrètes.
1.3. RECUEIL ET STOCKAGE DES DONNÉES 18

• taille (en cm), poids (en kg), âge le jour de l’enquête (en années) : variables quantitatives continues.
Chapitre 1 : Introduction Univariée

• consommation hebdomadaire de viande, poisson, fruits crus, fruits et légumes cuits, chocolat (0 :
jamais, 1 : < 1 fois, 2 : 1 fois, 3 : 2 ou 3, 4 : 4 à 6 fois, 5 : tous les jours) : variables qualitatives
ordonnées.
• matière grasse utilisée préférentiellement pour la cuisson : variable qualitative nominale.
Un extrait du plan de codage associé à ces données est mis dans la table 1.2. Nous pouvons remarquer
que, dans cet exemple, une question correspond à une et une seule variable (ce n’est pas toujours le cas).
Le codage pour la variable poisson est numérique tandis que le codage pour la variable viande est une
chaîne de caractères.

Table 1.2 – Extrait du plan de codage de l’exemple fil rouge.


1.4. RÈGLEMENT GÉNÉRAL SUR LA PROTECTION DES DONNÉES 19

1.4 Règlement général sur la protection des données

Chapitre 1 : Introduction Univariée


Depuis le 25 mai 2018, un nouveau règlement général sur la protection des données (RGPD) a été mis
en place à l’échelle européenne 5 . Il engage la personne qui récolte les données à informer les personnes
concernées sur les points suivants notamment :
• Pour quelles utilisations sont stockées les données.
• Combien de temps et où elles seront stockées.
En particulier, il est demandé d’avoir un consentement explicite et positif de la part des personnes
concernées (ceci peut se faire, par exemple, à l’aide d’une case à cocher).
Attention au piège
Attention, il est important que la personne concernée fasse l’effort de cocher la case : si c’est un formulaire
internet, il ne faut donc pas que la case soit cochée et le formulaire ne doit pas pouvoir être envoyé sans
que cette case soit cochée.

La (mauvaise) utilisation de la statistique à travers les âges


Pour une conférence sur l’intelligence artificielle, des adresses courriels avaient été récupérées afin de
communiquer les informations de dernières minutes aux participants. Suite à cette conférence, des orga-
nisateurs d’une autre manifestation avaient contacté les responsables pour récupérer les adresses courriels
afin de faire de la publicité. Or, cette utilisation n’était pas prévu dans la case cochée par les participants
initiaux et il n’a pas été possible de donner suite à la demande.

De plus, pour les données sensibles non anonymes, il est important de faire une déclaration auprès de
la Commission Nationale de l’Informatique et des Libertés (CNIL) 6 .
Remarque
Le fait de mettre les questions discriminantes en optionnelles ne permet pas de se dédouaner si nous
prenons conscience que nous pouvons identifier certains individus ultérieurement.

Attention au piège
Il n’est pas nécessaire d’avoir le nom et prénom pour que les données ne soient pas plus anonymes. Par
exemple, le numéro de sécurité sociale est unique ; les numéros de téléphone ont tendance à être uniques
aussi.
Un autre exemple serait de demander des caractéristiques discriminantes pour une population : si
la population est composé de 98 femmes et 2 hommes (une jeune personne et une autre proche de la
retraite), le couplage sexe et âge permettrait de dire qui est qui lorsque l’un des deux hommes répondrait.
Bien que ces questions ne permettent pas de différencier les femmes, cela reste un problème d’anonymat.
Notons que, dans cet exemple, demander le sexe n’est pas pertinent puisque la sous population hommes
est bien plus petite que celle composée de femmes.

La (mauvaise) utilisation de la statistique à travers les âges


En 2018, un questionnaire sur le bien être au travail a été administré à un bâtiment de recherches de
l’université Grenoble Alpes composé de plusieurs laboratoires. Parmi les questions, l’une des commandi-
taires souhaitait connaître le sexe, l’âge et le laboratoire. Or, certains laboratoires étaient composés de
très peu de personne et cette combinaison aurait permis d’identifier certains membres. Il a été compliqué
de faire comprendre à cette commanditaire qu’il fallait choisir entre mettre la question du laboratoire et
faire une déclaration à la CNIL.

Ces règles peuvent paraître contraignantes mais arrivent après quelques abus 7 . Elles sont donc néces-
saires pour permettre à chacun et chacune de ne pas voir leurs données mal utilisées.
5. Le règlement officiel est disponible à l’adresse suivante : https://eur-lex.europa.eu/legal-content/FR/TXT/HTML/
?uri=CELEX:32016R0679.
6. Le site est disponible ici : https://www.cnil.fr/professionnel.
7. Voir par exemple l’épisode de Cash Investigation proposé par Lucet et al. (2013) appelé Marketing : les stratégies
secrètes : https://www.youtube.com/watch?v=dMgh1UAfn7A.
1.5. EXERCICES 20

La (mauvaise) utilisation de la statistique à travers les âges


Dans les années 90, le Group Insurance Commission (GIC ) du Massachussets a mis à disposition, gratui-
tement, les dossiers de visites à l’hôpital aux chercheur·se·s qui le souhaitaient. L’agence gouvernementale
Chapitre 1 : Introduction Univariée

avait supprimé des identifiants comme le nom, les adresses et les numéros de sécurité sociale mais en
ont laissé d’autres comme le code postal, la date de naissance et le sexe. Latanya Sweeney, étudiante à
l’époque, a réussi à retrouver le dossier du gouverneur en utilisant la base de données des listes électorales.
En 1997, la procédure fut améliorée pour identifier tous les membres de la base de données ce qui a rompu
totalement l’anonymat (voir par exemple Sweeney (1997a) et Sweeney (1997b)). Avec la nouvelle RGPD,
il n’est pas possible de diffuser ces informations (sensibles puisque médicales) sans l’accord des personnes
concernées.

1.5 Exercices
Nous mettons dans cette partie quelques exercices.

1.5.1 Jouons avec le vocabulaire


Le but de cet exercice est de compléter la grille de mots croisés avec des mots du chapitre et à l’aide
des définitions suivantes :
• Horizontal :
1. Domaine des mathématiques où nous nous donnons un modèle dans lequel nous effectuons des
calculs.
2. Type d’une variable avec peu de modalités effectives sur lesquelles des opérations arithmétiques
sont possibles.
3. Élément unique de 4.
4. Ensemble concerné par une étude statistique.
5. Type d’une variable qui peut prendre un nombre très important de modalités sur lesquelles
des opérations arithmétiques sont possibles.
6. La couleur des yeux est une des variables de ce type.
7. Plan permettant d’expliquer comment transcrire dans un tableau les réponses d’un question-
naire.
• Vertical :

(A) La moitié du titre du cours.


(B) À ne surtout pas négliger si vous ne voulez pas travailler pour rien.
(C) La science que nous étudierons pendant 2 ans.
(D) C’est à partir de son jeu que nous pouvons travailler.
(E) Étape permettant de fouiller, décrire, examiner avant de pré-traiter et de modéliser.
(F) Type d’une variable où des opérations arithmétiques sont possibles.
(G) Il faut que tout le monde soit d’accord avec son ordre.
(H) L’autre type de variable qui n’est pas celui de (F).
(I) Quand nous ne pouvons pas interroger tout le monde, nous en avons besoin.
1.5. EXERCICES 21

Chapitre 1 : Introduction Univariée


Table 1.3 – Grille pour le mots croisés de l’exercice 1.5.1.
(A) (F)

(E)

(C)

1.

2.

(H)

(I)
3.

(B)

(D)

4.

5. (G)
6.

7.
Chapitre 2
Chapitre 2 : Qualitatives

Variables qualitatives
"Le loto, c’est un impôt sur les gens qui ne comprennent pas les statistiques."
Anonyme

Dans ce chapitre, nous nous intéresserons aux variables qualitatives, à la manière de les décrire et de
les représenter. La différence entre une variable qualitative nominale et une variable qualitative ordinale se
faisant uniquement sur l’ordre de leurs modalités, nous présenterons les deux simultanément en précisant
les situations où un outil ne s’applique pas pour les variables qualitatives ordinales.

Point méthode (Savoir si un outil s’applique aux variables ordinales)


Il ne faut jamais rompre l’ordre d’une variable ordinale. Si vous avez un doute sur le fait
qu’un outil puisse être utilisé pour une variable ordinale ou pas, demandez-vous :

• Si l’outil permet de conserver l’ordre, alors vous pouvez l’utiliser.


• Si l’outil vous oblige à rompre l’ordre, alors vous ne devez absolument pas l’utiliser.

2.1 Définitions et notations


Commençons par introduire une forme de présentation des données.

Définition 8 (Tableau de données individuelles)


Nous appelons tableau de données individuelles une représentation des données contenant :
• les individus statistiques en ligne.

• les variables statistiques en colonnes.

Exemple
Nous représentons en figure 2.1 un extrait des données de l’étude de De Micheaux et al. (2011) sous la
forme d’un tableau individuel.

Remarque
Lorsque les données sont mises sous forme de tableau de données individuelles, un individu correspond à
une ligne. Il est alors plus facile de bien comprendre ce qui caractérise un individu de la population.

Définition 9 (Taille d’un échantillon)


Nous appelons taille de l’échantillon le nombre d’individus statistiques présents dans l’échan-
tillon. Ce nombre est souvent noté n.

22
2.1. DÉFINITIONS ET NOTATIONS 23

Chapitre 2 : Qualitatives
Figure 2.1 – Extrait du tableau des données individuelles de l’étude de De Micheaux et al. (2011)

Exemple fil rouge


Dans l’exemple de notre étude fil rouge, la taille de l’échantillon est de n = 226 car il y a 226 personnes
âgées interrogées.

Nous avons ainsi le corollaire suivant.

Corollaire 1
Un tableau de données individuelles possède n lignes c’est-à-dire exactement autant que la
taille de l’échantillon.

Notation
Lorsque nous avons un tableau de données individuelles, nous notons souvent x ce tableau de tailles n
lignes et p colonnes (p étant alors le nombre de variables). Nous utilisons alors les indices i pour les
individus et j pour les variables. Nous notons alors xi,j la case à l’intersection de la ième ligne et de la
j ème colonne qui représente la modalité de l’individu i pour la variable j. Dans le tableau de la figure 2.1,
nous pouvons voir, par exemple, que cette valeur peut être numérique, alphabétique...
Dans les cours de statistiques descriptives 1 et 2, nous ne nous intéresserons qu’à des variables prises
séparément (univarié) ou par deux (bivarié) ; par conséquent, nous nous autoriserons à ne pas préciser
l’indice j.

Définition 10 (Modalités)
Nous appelons modalités les valeurs pouvant être prises par une variable qualitative. Nous
disons qu’une modalité est active si elle est prise par au moins un individu.

Exemple fil rouge


Pour la variable situation familiale, il y avait trois modalités possibles : seul, en couple et en famille.
Chacune de ces modalités ayant été prise par au moins un individu, elles sont toutes les trois actives.

Notation
Dans la suite, nous utiliserons la notation ak pour parler de la k ème modalité. L’ensemble des K modalités
possibles est donc {a1 , a2 , . . . , ak , . . . , aK }. Dans le cas des variables qualitatives ordinales, cet ensemble
est ordonné, c’est-à-dire que a1 < a2 < · · · < ak < · · · < aK où < représente une relation d’ordre admise
par tout le monde.
2.2. TRI À PLAT 24

Exemple fil rouge


Dans le cas de la consommation hebdomadaire de viande, nous avons l’ensemble des modalités
{”jamais”, ”< 1 fois”, ”1 fois”, ”2 ou 3 fois”, ”4 à 6 fois”, ”tous les jours”} ordonnées de la consomma-
tion la plus faible à la plus grande. Notons que nous aurions pu choisir l’ordre inverse mais la structure
globale aurait été conservée.

Attention au piège
Il est important de différencier le k minuscule servant à représenter "une modalité quelconque" du K
majuscule qui est le nombre de modalités.
Chapitre 2 : Qualitatives

2.2 Tri à plat


Dans la suite de chapitre, nous allons faire un certain nombre d’hypothèses.

Hypothèse
Pour la suite du chapitre, nous nous intéresserons qu’à une seule variable qualitative (nominale
ou ordonnée), notée X, prenant N valeurs effectives ; c’est-à-dire que N ≤ n représente le
nombre d’individus ayant une valeur pour la modalité concernée.

Remarque
Avec les notations précédentes, le nombre de valeurs manquantes de la variable se calcule en faisant la
différence n − N .

Définitions 11 (Effectifs et fréquences)


Etant donnée une modalité ak de la variable qualitative X, nous appelons effectif de la
modalité, noté Nk , le nombre d’individus prenant la modalité ak . Nous appelons fréquence
de la modalité, notée fk , la proportion d’individus prenant la modalité ak parmi ceux qui
ont donné une réponse. Nous avons donc les relations suivantes :
Nk
fk = et Nk = N fk
N
sous la condition que N > 0.

Proposition 2
Nous avons, par définition :
∀k ∈ {1, . . . , K}, 0 ≤ fk ≤ 1,

K
X K
X
Nk = N et fk = 1.
k=1 k=1

Preuve
La première relation vient du fait que pour chaque modalité, l’effectif est un entier positif et il ne peut pas
y avoir plus d’individus qui ont répondu à une modalité que le nombre total d’individus ayant répondu
(par définition). Ainsi, nous avons pour tout k compris entre 1 et K :

0 Nk N
0 ≤ Nk ≤ N ⇔ ≤ ≤ ⇔ 0 ≤ fk ≤ 1.
N N N
La première égalité vient du fait que nous sommons les effectifs Nk sur toutes les modalités ak .
2.2. TRI À PLAT 25

La deuxième égalité peut se déduire de la première :


K K
X X Nk
fk =
N
k=1 k=1
K
1 X
= Nk car 1/N est commun à tous les Nk ,
N
k=1
K
1 X

Chapitre 2 : Qualitatives
= Nk par l’égalité précédente,
N
k=1
| {z }
=N
N
=
N
= 1.

Avant de continuer, nous introduisons le principe de fréquence cumulée dans le cas de variable quali-
tative ordonnée :

Définition 12 (Fréquence cumulée pour variable qualitative ordonnée)


Étant donnée une modalité ak de la variable qualitative ordonnée X, nous appelons fré-
quence cumulée de la modalité, notée Fk , la proportion d’individus prenant la modalité
ak ou une modalité inférieure. Nous avons donc les relations suivantes :
k k
X 1 X
Fk = fℓ = Nℓ .
N
ℓ=1 ℓ=1

Une autre façon de l’écrire est :


X 1 X
Fk = fℓ = Nℓ .
N
ℓ≤k ℓ≤k

Point méthode (Calcul des Fk et cumuls d’arrondis)


Certains statisticien·ne·s commencent par calculer les fréquences puis les somment pour calculer
les fréquences cumulées. Il est dangereux de procéder ainsi car les fréquences sont souvent
arrondies et vous risquez alors de cumuler les arrondis. Pour des résultats plus précis, nous
recommandons d’utiliser la formule sommant les effectifs puis de diviser par le nombre total
de répondants.

Attention au piège
Une fréquence est toujours comprise entre 0 et 1. On peut parfois utiliser le symbole des pourcentages
(%) mais, comme son nom l’indique (pour-cent), la valeur indiquée est alors divisée implicitement par
100. Par exemple :
68
68% = = 0, 68.
100

A l’aide de ces définitions, nous pouvons déduire le corollaire suivant :

Corollaire 3
Une modalité ak est active si et seulement si Nk > 0 (ou fk > 0).
2.2. TRI À PLAT 26

Hypothèse
Pour la suite du chapitre, nous supposerons que toutes les modalités ak sont actives.

Définition 13 (Tri à plat)


Un tri à plat est un tableau récapitulant toutes les informations précédentes sous la forme
suivante :
Chapitre 2 : Qualitatives

Qualitative nominale Qualitative ordinale

Modalités Effectifs Fréquences Modalités Effectifs Fréquences Cumulées


a1 N1 f1 a1 N1 f1 F1 = f1
a2 N2 f2 a2 N2 f2 F2
.. .. .. .. .. .. ..
. . . . . . .
ak Nk fk ak Nk fk Fk
.. .. .. .. .. .. ..
. . . . . . .
aK NK fK aK NK fK FK = 1
Total N 1 Total N 1

Si la variable contient des données manquantes (c’est-à-dire si N < n), nous préciserons le
pourcentage de répondants lorsque nous présenterons le tableau (généralement, nous le mettons
dans la légende du tableau ; voir le chapitre 12).

Point méthode
Afin de vérifier que nous ne nous sommes pas trompé·e·s dans les calculs, il est important de
vérifier plusieurs valeurs :
• Est-ce que la somme des cases de la colonne Effectifs vaut bien N ?
• Est-ce que la somme des cases de la colonne Fréquences vaut bien 1 ?

• Est-ce que F1 vaut bien f1 et FK vaut bien 1 ?


Pour les questions d’arrondis, voir le point méthode précédent.

Exemple fil rouge


Nous mettons dans la table 2.1 les tris à plat des variables sexe, situation familiale, matières grasses et
consommation de viande. Remarquons que, pour les fréquences, nous avons choisi de mettre parfois les
décimales et parfois les pourcentages ; néanmoins, les valeurs sont toujours comprises entre 0 et 1.

Point logiciel
Dans le logiciel Excel , le tri à plat se fait très facilement grâce à la fonctionnalité tableau
croisé dynamique. Dans le langage R , il peut se faire grâce à la commande table par
exemple.

Utilisation d’Excel
Pour faire un tri à plat (par exemple, celui de la variable sexe de l’exemple fil rouge), il faut procéder de
la façon suivante (voir la figure 2.2 pour une illustration) :

(a) d’abord, il faut sélectionner la colonne qui nous intéresse ; dans l’exemple fil rouge, c’était la A.
Sélectionner toute la colonne plutôt que juste les données concernées permet une mise à jour auto-
matique.
2.2. TRI À PLAT 27

Table 2.1 – Tris à plat des variables sexe (en haut à gauche), situation familiale (en haut à droite),
matgras (consommation de matière grasse ; en bas à gauche) et viande (consommation hebdomadaire de
viande ; en bas à droite).

Chapitre 2 : Qualitatives
(b) Ensuite, il faut aller dans Insertion puis Tableau croisé dynamique (le cercle rouge sur la figure).

(c) Une fenêtre s’ouvre proposant les données que vous avez sélectionnées. Notons au passage qu’il est
possible de récupérer des données extérieures au fichier aussi. La deuxième partie propose de choisir
l’emplacement du tableau croisé dynamique ; par défaut, il propose de créer une nouvelle feuille.

(d) Comme nous avons conservé les valeurs, une nouvelle feuille est créée (voir rond orange) qu’il
vaut mieux renommer pour l’organisation du fichier. Sur cette feuille se trouve le tableau croisé
dynamique (en jaune) et la barre d’outil pour le manipuler (en vert).

(e) Dans la barre d’outils de droite, cliquez sur la case ou faites glisser le nom de votre variable dans
la partie Lignes.

(f) Dans le tableau de gauche sont apparues les modalités recensées dans la variable. Cette phase est
l’occasion de voir s’il y a des valeurs mal entrées.
P
(g) Á nouveau, faites glisser le nom de votre variable mais dans la partie Valeur cette fois.

(h) Si les modalités ne sont pas numériques, le tableau va alors créer une colonne avec les effectifs de
chaque variable. Sinon, il fera la somme (par exemple, s’il y a 10 modalités 2, il mettre 20).
P
(i) Une deuxième fois, faites glisser le nom de votre variable mais dans la partie Valeur.

(j) Une nouvelle colonne apparaît ; identique à la précédente.

(k) Pour avoir les fréquences plutôt que les effectifs, cliquez sur la petite flèche à droite de ce nouveau
champs et choisissez Paramètres des champs de valeurs.

(l) Une nouvelle fenêtre s’ouvre alors. Dans le champs Résumer le champs de valeurs par, Nombre est
surligné si Excel a compris que c’était des qualitatives, sinon, ce sera Somme. Dans ce deuxième
cas, il faudra donc changer pour Nombre.

(m) Cliquez ensuite sur Afficher les valeurs.

(n) Dans la liste déroulante, sélectionnez % du total général.

(o) Votre tri à plat est presque fini.


2.2. TRI À PLAT 28

(p) Il faut renommer les noms des colonnes.


(q) Ensuite, en cliquant sur la flèche du titre de la première colonne, vous pouvez décocher (vide) afin
qu’il n’y ait plus cette ligne.

(r) Félicitations, vous avez fini votre tri à plat.


Chapitre 2 : Qualitatives

Figure 2.2 – Procédure pour créer un tri à plat à l’aide d’un tableau croisé dynamique en Excel (voir
le paragraphe correspondant pour les étapes détaillées).

Point méthode (Utilisation du tri à plat pour repérer les erreurs)


Entre autres utilités, le tri à plat permet de voir rapidement les erreurs de codage (par exemple,
si vous avez Femme et F, il y aura deux modalités différentes). Il est nécessaire de corriger
ces erreurs avant de continuer l’analyse.

Définitions 14 (Distribution et mode)


Nous appelons distribution d’une variable l’ensemble des fréquences associées aux modalités
d’une variable qualitative. Nous appelons mode d’une distribution la modalité ayant la fré-
quence (ou l’effectif) la plus haute. Attention, un mode n’est pas forcément unique : si deux
modalités ont la même fréquence et que c’est la plus haute, ce sont toutes les deux des modes.
2.3. GRAPHIQUES 29

Exemple fil rouge


Pour la variable sexe, le mode est Femme car c’est celle qui a la plus grande fréquence (62%). Pour la
variable viande, c’est la modalité 3 fois par semaine (avec 37%).

Attention au piège
C’est la modalité qui est le mode et non pas sa fréquence. Ainsi, il ne faut pas dire que, pour la
variable sexe, le mode est 62% ; c’est bien la modalité Femme qui est le mode.

Chapitre 2 : Qualitatives
Point méthode (Uniquement pour les variables qualitatives nominales)
Pour faciliter la lecture et l’interprétation du tri à plat, il est recommandé, pour les variables
qualitatives nominales uniquement, de trier les lignes par fréquences décroissantes. Ainsi,
le ou les mode(s) sont en premier et les modalités avec une faible fréquence apparaissent à la
fin.

Enfin, il est possible de regrouper les modalités de faible fréquence comme précisé ci-dessous.

Point méthode
Quand il y a beaucoup de modalités avec des faibles fréquences, nous pouvons choisir de les
regrouper. Dans ce cas, il est important de :

• Ne regrouper que les modalités avec des très petites fréquences.


• De donner un nom cohérent à la nouvelle modalité créée permettant de retrouver facile-
ment quelles modalités sont incluses.
Dans ce cas, il faut avoir conscience que nous perdons de l’information. Néanmoins, nous
verrons dans les cours de statistique qu’il est parfois inutile (voire dangereux) de donner trop
d’importance aux modalités avec une faible fréquence (tout en se souvenant qu’elles existent).

Exemple fil rouge


Dans la table 2.2, nous avons représenté les tris à plat de la variable matgras (matière grasse principale-
ment utilisée) avant et après les regroupements suivants :
• autres matières grasses végétales : les variables colza et isio4.

• autres matières grasses animales : les variables canard et beurre.


Notons que nous n’avons pas choisi de regrouper les deux modalités avec les plus petites fréquences (ce
qui aurait pu être possible en mettant Autres matières grasses) afin de former des groupes plus cohérents.

2.3 Graphiques
Dans cette partie, nous présenterons les quatre graphiques utilisés pour les variables qualitatives à
savoir :
• Le diagramme en tuyaux d’orgue ou en barres.
• Le diagramme de Pareto (uniquement pour les variables qualitatives nominales).
• Le diagramme empilé.
• Le diagramme circulaire.

2.3.1 Diagramme en tuyaux d’orgue ou en barres


Nous débutons par la définition.
2.3. GRAPHIQUES 30

Table 2.2 – Tris à plat de la variable matgras (consommation de matière grasse) avant le regroupement
des modalités (à gauche) et après (à droite). Les modalités regroupées sont : colza et isio4 (autres matières
grasses végétales) d’un côté et beurre et canard (autres matières grasses animales) de l’autre côté.
Chapitre 2 : Qualitatives

Définition 15 (Diagramme en tuyaux d’orgue ou en barres)


Le diagramme en tuyaux d’orgue ou en barres consiste à représenter les fréquences des
modalités d’une variable qualitative à l’aide de barres rectangulaires verticales parallèles de
telle sorte que :
• Toutes les barres ont la même largeur à la base.
• La hauteur de chaque barre représente la valeur de la fréquence (l’axe des ordonnées est
gradué suivant les valeurs des fréquences).

• Les barres sont toutes espacées de la même distance (elles ne se collent pas).
• Le nom de chaque modalité doit apparaître en dessous de chaque barre.
• Dans le cas de variables qualitatives ordinales, il faut conserver l’ordre naturel des mo-
dalités.

Exemple fil rouge


Nous avons représenté dans la figure 2.3 le diagramme en tuyaux d’orgue (ou en barres) de la variable
matgras. Remarquons que nous avons choisi d’ordonner suivant l’ordre alphabétique ; comme il n’y a pas
d’ordre pour les variables qualitatives nominales, nous aurions pu choisir un autre ordre (d’abord les
huiles par exemple). En particulier, il est préférable d’ordonner les modalités par fréquences décroissantes
(voir le diagramme de Pareto de la section 2.3.2).

Attention au piège
Il est important de respecter les règles énoncées dans la définition 15. En particulier, les erreurs les plus
classiques à ne pas faire :
• Il ne faut jamais coller les barres. Le fait de coller les barres est réservé aux histogrammes.
• Il faut toujours donner une épaisseur aux barres. En particulier, il ne faut jamais faire juste
un trait ; le fait de ne faire qu’un trait est réservé aux diagrammes en bâtons (voir la définition 36).

Point logiciel
Dans le logiciel Excel , le diagramme en tuyaux d’orgues ou en barres se fait grâce à la
fonctionnalité histogramme (qui porte mal son nom). Dans le langage R , il peut se faire
grâce à la commande barplot, la commande plot en l’utilisant sur un objet de type factor
ou en utilisant le package ggplot2 par exemple.
2.3. GRAPHIQUES 31

Chapitre 2 : Qualitatives
Figure 2.3 – Représentation sous forme de tuyaux d’orgues (ou en barres) de la variable matgras.

Jamais en 3D
Bien que certains logiciels, comme Excel , proposent une version 3D, il est souvent trompeur de l’utiliser.
Sur la figure 2.4, nous avons repris le diagramme mis dans la figure 2.3 (à gauche) et nous avons proposé
une version 3D (à droite). Nous pouvons déjà remarquer que, comme les traits des ordonnées ne sont pas
juste à côté des barres, l’inclinaison permet de donner l’impression que les valeurs sont plus faibles : par
exemple, nous avons l’impression que la modalité arachide a une fréquence au niveau de la barre 0,3 et
celle d’isio4 une fréquence plus petite que 10%. De plus, l’inclinaison met en avant les dernières modalités
(comme olive et tournesol) et nous avons l’impression que la modalité tournesol a une fréquence presque
deux fois plus grande que celle de l’arachide.
Il est toutefois possible d’utiliser vos talents artistiques en faisant de la data visualisation tant que
les graphiques respectent les règles : par exemple, il n’est pas obligatoire que les barres aient toute la
même couleur et, si les modalités représentent des pays, il est tout à fait autorisé de mettre les drapeaux
pour les couleurs (ou alors en utilisant des cartes ; voir les cours de licence professionnelle ESSIG). Nous
pouvons imaginer aussi remplacer les barres par des symboles homme et femme pour la variable sexe tant
que les largeurs restent les mêmes et que les hauteurs de chacune d’elles sont claires.

Figure 2.4 – A gauche, représentation sous forme de tuyaux d’orgues (ou en barres) de la variable
matgras comme proposée dans la figure 2.3. A droite, le même diagramme fait en 3D grâce au logiciel
Excel afin de montrer les biais que l’utilisation du 3D peut engendrer.
2.3. GRAPHIQUES 32

La (mauvaise) utilisation de la statistique à travers les âges


Durant le printemps 2018, il y eut une grève perlée de la part des agents de la SNCF. La SNCF a publié
sur son site un diagramme en tuyaux d’orgues pour montrer les taux de participation à la grève les 13 et 18
avril (voir la gauche de la figure 2.5) en faisant commencer l’axe des ordonnées à 18% (alors qu’il faudrait
que l’axe commence à 0). Ainsi, nous avons le sentiment en regardant le graphique que la participation a
été divisée de plus de la moitié en l’espace de 5 jours. Lorsque nous représentons correctement les deux
graphiques (à droite sur la figure 2.5), il apparaît qu’il y a une légère baisse mais moins impressionnante
que sur la première visualisation.
Source : article Sept conseils pour ne pas se faire avoir par les représentations graphiques écrit par Damgé
(2018).
Chapitre 2 : Qualitatives

Figure 2.5 – Représentation sous forme de diagramme en tuyaux d’orgue du taux de participation des
agents de la SNCF durant les grève des 13 et 18 avril 2018 : à gauche, le graphique présenté sur le site
de la SNCF en ne prenant pour les ordonnées que les valeurs de 18% à 23% ; à droite le graphique qu’il
aurait fallu faire pour ne pas biaiser la visualisation. Les graphiques sont tirés de l’article Sept conseils
pour ne pas se faire avoir par les représentations graphiques écrit par Damgé (2018).

Attention au piège
La version 2016 du logiciel Excel s’autorise à parfois zoomer sur le haut du graphique afin de mieux
voir les petites variations ; c’est-à-dire qu’il choisit de ne pas faire commencer l’axe des ordonnées à 0.
Bien sûr, il n’est pas question de mettre un graphique zoomé sans avoir précisé la version avec l’axe
débutant à 0 ; sinon, cela pourrait être interprété comme une volonté de biaiser les interprétations des
résultats.

2.3.2 Diagramme de Pareto


Le diagramme de Pareto est un diagramme en tuyaux d’orgue particulier.

Définition 16 (Diagramme de Pareto)


Le diagramme de Pareto est un diagramme en tuyaux d’orgue où les modalités sont réor-
ganisées par ordre décroissant de fréquences.

L’article Sept conseils pour ne pas se faire avoir par les représentations graphiques écrit par Damgé
(2018) est disponible à l’adresse suivante : https://www.lemonde.fr/les-decodeurs/article/2018/05/22/
sept-conseils-pour-ne-pas-se-faire-avoir-par-les-representations-graphiques_5302680_4355770.html
2.3. GRAPHIQUES 33

Attention au piège
Comme nous intervenons sur l’ordre des modalités, le diagramme de Pareto ne s’utilise jamais pour des
variables qualitatives ordonnées.

Exemple fil rouge


Sur la figure 2.6, nous avons représenté le diagramme de Pareto de la variable matgras après concaténation
des modalités avec les fréquences les plus faibles. Nous observons rapidement que le mode est tournesol
puis c’est la modalité arachide qui est celle avec la deuxième plus haute fréquence.

Chapitre 2 : Qualitatives
Figure 2.6 – Représentation sous forme de diagramme de Pareto de la variable matgras après concaté-
nation des modalités les plus faibles.

Remarque
L’intérêt du graphique de Pareto est de pouvoir repérer facilement le ou les mode(s) de la distribution
(situés en premier) et de comparer deux modalités avec des fréquences proches.

Point logiciel
Dans le logiciel Excel , le diagramme de Pareto se fait de la même manière que le diagramme
en tuyaux d’orgue ; il faut juste organiser les modalités par ordre croissant de leurs fréquences.
Dans le langage R , il peut se faire grâce à la commande barplot, la commande plot en
l’utilisant sur un objet de type ordered (après avoir prédéfini correctement l’ordre) ou en
utilisant le package ggplot2 par exemple.

La (mauvaise) utilisation de la statistique à travers les âges


Durant l’élection européenne de 2019, les médias diffusaient régulièrement des intentions de votes. En
particulier, la chaîne de télévision CNews a diffusé une infographie représentant les intentions de vote
pour les trois principales listes nationales le 5 mai 2019 (voir la gauche de la figure 2.7). Deux remarques,
en particulier, sont à observer :
• Un carré noir avec le pourcentage a été ajouté au bout des barres donnant l’impression visuelle que
la deuxième liste était devant la première liste.
• Nous voyons que les longueurs des barres ne sont pas proportionnelles aux pourcentages estimés de
chaque liste (nous avons mis sur la droite de la figure 2.7 une estimation faite du nombre de pixels
utilisés pour chaque barre dans l’image à partir du logiciel paint). En particulier, la troisième liste
possède une barre bien plus longue que les deux autres proportionnellement aux taux d’intention
de vote.
2.3. GRAPHIQUES 34

Source : article CNews a-t-elle diffusé un graphique trompeur sur les intentions de vote aux européennes ?
écrit par Checknews (2019).
Chapitre 2 : Qualitatives

Figure 2.7 – Représentation sous forme de diagramme en tuyaux d’orgue horizontaux du taux d’intention
de vote pour les trois listes nationales principales : à gauche, l’infographie proposée par la chaîne CNews
incluant les barres symbolisant les intentions de vote plus un rectangle noir au bout avec les valeurs. A
droite, la représentation schématique du nombre de pixels par pourcentage d’intention de votes utilisés
dans la longueur. Les graphiques sont tirés de l’article CNews a-t-elle diffusé un graphique trompeur sur
les intentions de vote aux européennes ? écrit par Checknews (2019).

2.3.3 Diagramme empilé


Le diagramme empilé permet une représentation rapide des fréquences cumulées.

Définition 17 (Diagramme empilé)


Le diagramme empilé consiste à représenter les fréquences des modalités à l’aide de rectangles
empilés les uns au-dessus des autres de telle sorte que :
• Tous les rectangles ont la même largeur.
• La hauteur de chaque rectangle correspond à la fréquence de chaque modalité.

• Les rectangles sont empilés les uns au-dessus des autres de telle sorte que la hauteur
totale fasse 100%.

Exemple fil rouge


Sur la figure 2.8, nous avons représenté le diagramme empilé de la variable viande. Cette représentation
permet de voir qu’un peu plus de 55% des interrogés mangent de la viande au moins 4 fois par semaine
et plus de 90% en mangent au moins 3 fois par semaine.

Remarque
Bien qu’il n’y ait pas d’obligations pour les variables qualitatives nominales, il est recommandé d’ordonner
les modalités par fréquences décroissantes.

Point logiciel
Dans le logiciel Excel , le diagramme empilé se fait à l’aide de la fonctionnalité histogramme
empilé à 100% puis en inversant les lignes et les colonnes dans les options. Dans le langage

L’article CNews a-t-elle diffusé un graphique trompeur sur les intentions de vote aux européennes ? écrit
par Checknews (2019) est disponible à l’adresse suivante : https://www.liberation.fr/checknews/2019/05/06/
cnews-a-t-elle-diffuse-un-graphique-trompeur-sur-les-intentions-de-vote-aux-europeennes_1725212
2.3. GRAPHIQUES 35

Chapitre 2 : Qualitatives
Figure 2.8 – Représentation sous forme de diagramme empilé de la variable viande.

R , il peut se faire grâce à la commande barplot ou en utilisant le package ggplot2 par


exemple.

2.3.4 Diagramme circulaire


Ce dernier diagramme est connu aussi sous le nom de camembert.

Définition 18 (Diagramme circulaire)


Le diagramme circulaire consiste à découper un disque en plusieurs zones de telle sorte que :
• Chaque zone est délimitée par deux rayons et une partie du cercle.

• Chaque angle (et donc chaque zone) est proportionnel à la fréquence de la modalité
associée.

Remarque
Il est souvent conseillé d’afficher les fréquences et/ou les effectifs associés à chaque zone.
Pour les variables qualitatives nominales, il est fortement recommandé d’organiser d’abord les modalités
par ordre décroissant de leurs fréquences afin de mieux les comparer.
Enfin, il est conseillé que le premier rayon soit celui partant du centre et allant verticalement vers le haut.

Exemple fil rouge


Sur la figure 2.9, nous avons représenté le diagramme circulaire de la variable matgras avec les modalités
mises par ordre alphabétique (à gauche) puis après regroupement des modalités avec des faibles fréquences
et après avoir trié les modalités par ordre décroissant des fréquences associées (à droite). Nous voyons
que, sur la figure de droite, il est plus facile de comparer les modalités que sur celle de gauche.

Attention au piège
Bien que très visuel, le diagramme circulaire rend les comparaisons entre fréquences des modalités plus
difficiles à faire car nous ne sommes pas vraiment habitué·e·s à comparer des angles (par opposition
à la comparaison des fréquences dans le cas des diagrammes en tuyaux d’orgue). En particulier, il est
fortement déconseillé d’utiliser ce diagramme si :
2.3. GRAPHIQUES 36
Chapitre 2 : Qualitatives

Figure 2.9 – A gauche, représentation sous forme de diagramme circulaire de la variable matgras avec
les modalités organisées par ordre alphabétique. A droite, la représentation sous forme de diagramme
circulaire de la même variable mais après regroupement des petites modalités et réorganisation des mo-
dalités par ordre décroissant des fréquences.

• Les fréquences sont assez proches.


• Il y a beaucoup de modalités.

Point logiciel
Dans le logiciel Excel , le diagramme circulaire se fait grâce à la fonctionnalité secteur 2D.
Dans le langage R , il peut se faire grâce au package ggplot2 par exemple.

Point méthode (Calcul de l’angle)


Comme un cercle fait au total 360◦ et que chaque région est proportionnelle à la fréquence
de la modalité, nous calculons l’angle de chaque région par la formule 360◦ × fk où fk est la
fréquence de la modalité ak .

360◦ × fk

360◦

Attention au piège
A cause des cumuls d’arrondis, il est conseillé de commencer par calculer les angles des modalités avec
une faible fréquence : une erreur d’approximation sur les grands angles se verra moins que sur les petits.

Jamais en 3D
Bien que très utilisé, la version en 3D du diagramme circulaire peut permettre de montrer tout et son
contraire. Nous avons représenté dans la figure 2.10 un diagramme circulaire sous différents angles (les
valeurs utilisées sont mises dans la table 2.3 pour les statisticien·ne·s qui voudraient réessayer). Nous
2.3. GRAPHIQUES 37

Table 2.3 – Valeurs utilisées pour la représentation des diagrammes circulaires de la figure 2.10.
Bleu 20
Rouge 30
Vert 10
Violet 50
Cyan 60

Chapitre 2 : Qualitatives
avons l’impression que c’est la modalité rouge qui a la plus grande fréquence sur la figure de gauche, puis
la modalité violette sur la figure du centre et enfin la modalité cyan sur la figure de droite (c’est cette
dernière qui est effectivement le mode).
De plus, il est encore plus dangereux d’utiliser les visualisations qui permettent de sortir des parts du
diagramme circulaire car il devient encore plus compliqué de tout comparer.

Figure 2.10 – Nous avons représenté un diagramme circulaire sous différents angles pour donner l’im-
pression que la modalité dominante n’est pas la même : ce serait la rouge pour la gauche, la violette pour
le milieu alors que c’est la cyan comme nous le voyons sur la droite. Les valeurs utilisées sont mises dans
la table 2.3.

La (mauvaise) utilisation de la statistique à travers les âges


Durant l’année 2018, il y eu mobilisation contre la réforme des retraites. BFMTV a proposé un sondage
pour savoir ce que pensaient ses téléspectateurs. La représentation graphique sous forme de diagramme
circulaire a choqué l’utilisateur de Twitter @jmAlric11 dont nous mettons la photo qu’il a prise dans la
figure 2.11. Nous pouvons remarquer que la zone rouge correspondant à 48% des sondés a un angle qui
dépasse les 180◦ .

La (mauvaise) utilisation de la statistique à travers les âges


Le soir des résultats de l’élection européenne de 2018, TF1 afficha une sorte de diagramme circulaire
pour représenter les répartitions des nouveaux élus européens par parti (voir la capture d’écran faite par
l’utilisateur de Twitter @ElJj mis dans la figure 2.12). Nous pouvons constater que les aires coloriées ne
correspondent pas aux nombres d’élus affichés : par exemple, EELV possède 13 élus mais a une aire plus
petite que LR qui en possède 8 ; de même PS-PB et LFI ont les mêmes nombres d’élus alors que la région
rouge est plus de deux fois plus grande que la région rose.

Le tweet de l’image 2.11 est disponible à l’adresse suivante : https://twitter.com/jmAlric11/status/


989213897835073541.
Le tweet de l’image 2.12 est disponible à l’adresse suivante : https://twitter.com/ElJj/status/1133451672796241920.
2.3. GRAPHIQUES 38
Chapitre 2 : Qualitatives

Figure 2.11 – Capture d’écran faite par l’utilisateur de Twitter @jmAlric11 d’un diagramme circulaire
proposé par BFMTV. Nous pouvons constater que la zone rouge fait plus de 180◦ alors que la proportion
correspondante est de 48%.

Figure 2.12 – Capture d’écran faite par l’utilisateur de Twitter @ElJj d’un diagramme circulaire proposé
par TF1 sur la répartition des élus au sein des partis durant l’élection européenne de 2019. Nous constatons
un décalage entre la proportion des zones et le nombre d’élus affichés.

La (mauvaise) utilisation de la statistique à travers les âges


Durant la crise du COVID19 aux Etats-Unis en 2020, un sondage a été réalisé pour connaître les préoccu-
pations des gens (la peur de l’attraper soi-même, que sa famille l’attrape ou l’inquiétude sur l’économie).
La figure 2.13 représente le diagramme circulaire proposé par la chaîne ABC : nous pouvons constater
que les pourcentages font une somme de 178% ; comme les proportions sont conservées, nous pouvons
2.4. EXERCICES 39

imaginer qu’ils ont inversé pourcentages et effectifs.

Chapitre 2 : Qualitatives
Figure 2.13 – Capture d’écran faite d’un diagramme circulaire proposé par la chaîne américaine ABC
sur les préoccupations des gens durant la crise du COVID19 aux Etats-Unis en 2020. Nous constatons
que la somme des pourcentages fait 178%. Source inconnue.

2.4 Exercices
Nous mettons dans cette partie quelques exercices.

2.4.1 Jouons avec le vocabulaire


Dans la figure 2.14, nous avons mis 4 rébus représentant des outils statistiques présentés dans ce
chapitre 1 .

1. Certaines idées ont été obtenues grâce au site https://www.langue-au-chat.fr/fabriquer-votre-rebus/.


2.4. EXERCICES 40
Chapitre 2 : Qualitatives

(a) (b)

(c) (d)

Figure 2.14 – Rébus en rapport avec le vocabulaire introduit dans le chapitre 2.


Chapitre 3

Chapitre 3 : Quantitatives discrètes


Variables quantitatives discrètes
"J’ai fait comme on m’a demandé : deux enfants virgule six. J’en ai eu trois, j’ai pas trouvé la virgule."

Personnage du sktech Mon papa est balaise interprété par Coluche.

Dans ce chapitre nous allons traiter uniquement les variables quantitatives discrètes ; c’est-à-dire les
variables où des opérations sont possibles mais avec un faible nombre de modalités. Un exemple classique
est le nombre d’enfants dans une famille. Pour bien comprendre les outils développés dans ce chapitre,
nous rappelons le point suivant :

Hypothèse (Variable quantitative discrète)


Une variable quantitative discrète prend ses valeurs dans un ensemble discret ; c’est-à-dire
qu’il y a des espaces entre chaque modalité.

Exemple fil rouge


Le nombre de tasses prises par jour est un ensemble discret : nous pouvons avoir une tasse ou deux tasses
mais pas 1,63 tasses.

Attention au piège
Attention, il ne faut pas penser qu’un ensemble discret est forcément composé uniquement d’entiers. Par
exemple, nous pouvons imaginer une expérience se faisant à température fixe (18◦ , 18, 5◦ ou 19◦ ) et, dans
ce cas, nous avons une variable quantitative discrète avec des valeurs qui ne sont pas entières.

Contre-exemple
Comme vu précédemment, la frontière entre discret et continu est souvent floues (comme l’exemple de la
température). En particulier, nous aurons tendance à dire que nous sommes en présence d’une variable
continue si une subdivision est possible. Par exemple, pour les tailles d’une personne, nous pouvons
proposer des tailles de 173,85 cm et cela a un sens physique. A l’opposé, dire qu’une famille a en moyenne
2,6 enfants n’a pas de sens physique.

Point méthode
Pour conclure cette courte introduction, il faut surtout se demander si l’utilisation des outils
présentés ici aide à la compréhension :
• Si la réponse est oui alors vous pouvez considérer que c’est une variable quantitative
discrète.
• Si la réponse est non, c’est une variable quantitative continue.

41
3.1. TRI À PLAT 42

3.1 Tri à plat


Comme pour les variables qualitatives, nous pouvons utiliser les tris à plats avec les fréquences cu-
mulées (puisqu’il y a un ordre naturel). Nous adaptons la définition 13 pour obtenir :

Définition 19 (Tri à plat)


Un tri à plat est un tableau récapitulant les informations sur les modalités ayant obtenu
au moins une réponse pour une variable quantitative discrète. Pour cela, nous présentons les
Chapitre 3 : Quantitatives discrètes

fréquences et les fréquences cumulées sous la forme suivante :


Modalités Effectifs Fréquences Cumulées
a1 N1 f1 F1 = f1
a2 N2 f2 F2
.. .. .. ..
. . . .
ak Nk fk Fk
.. .. .. ..
. . . .
aK NK fK FK = 1
Total N 1

Si la variable contient des données manquantes (c’est-à-dire si N < n), nous préciserons le
pourcentage de répondants lorsque nous présenterons le tableau (généralement, nous le mettons
dans la légende du tableau ; voir le chapitre 12).

Exemple fil rouge


Nous avons représenté sur la table 3.1 les tris à plat des variables Thé et Café. Pour la variable Thé, nous
remarquons qu’il n’y a pas les modalités 7 et 8 car aucun individu de l’étude ne prend 7 ou 8 tasses par
jour.

Table 3.1 – Tri à plat des variables Thé (à gauche) et Café (à droite).

3.2 Résumés statistiques


Dans cette partie, nous présentons les résumés statistiques utilisés pour les variables quantitatives
discrètes ; ce sont des outils qui permettent de donner des informations sur les variables. Il existe trois
familles :

• les résumés statistiques de position qui donnent son ordre de grandeur ;

• les résumés statistiques de dispersion qui expriment la variabilité des valeurs prises ;

• les résumés statistiques de forme qui traduisent l’allure générale.


3.2. RÉSUMÉS STATISTIQUES 43

3.2.1 Résumés statistiques de position


Nous parlons dans cette partie des modes, des fractiles et de la moyenne.

Mode

Comme pour les variables qualitatives, nous utilisons la notion de mode. Nous faisons toutefois
quelques distinctions :

Chapitre 3 : Quantitatives discrètes


Définitions 20 (Modes relatifs et absolus)

• Un mode absolu de la distribution est une modalité qui apparaît avec la plus grande
fréquence.

• Un mode (relatif) de la distribution est une modalité qui apparaît avec une fréquence
supérieure à celle des valeurs voisines immédiates. Les modes absolus sont les modes dont
la fréquence est plus élevée que celle des autres modes.
Par définition, un mode absolu est également un mode relatif.

Hypothèse
Dans ce cours, nous sous-entendons que quand on est égal, on est plus élevé (au sens large).
C’est une inégalité supérieure ou égale.

Exemple fil rouge


Pour la variable Thé, les modes relatifs sont : 0, 2, 4, 6, 9 et 10 et son mode absolu est 0. Pour la variable
Café, les modes relatifs sont 0, 2 et 5 et son mode absolu est 2.

Attention au piège
Ce n’est pas parce que nous ne mettons les modalités qui ont un effectif nul dans le tri à plat qu’elles ne
comptent pas. En particulier, la modalité 9 de la variable Thé est une modalité relative car la modalité
8 a un effectif nul.

Remarque
Nous verrons dans la section graphique que le diagramme en bâtons permet de repérer rapidement les
modes.

Point méthode
Comme un mode absolu est un mode relatif, il est préférable de commencer par chercher les
modes relatifs puis, parmi ces derniers, de trouver le ou les mode(s) absolu(s).

A partir des modes, nous pouvons qualifier les distributions.

Définitions 21 (Distribution multimodale)

• Une distribution est dite unimodale si elle ne possède qu’un seul mode.
• Elle est dite bimodale si elle en possède deux.
• Elle est dite multimodale si elle en possède plusieurs (c’est-à-dire au moins deux).
3.2. RÉSUMÉS STATISTIQUES 44

Fractile
Nous commençons par le fractile le plus connu.

Définition 22 (Médiane)
La médiane est une valeur centrale qui divise la population en deux sous-populations d’ef-
fectifs égaux : la sous-population des individus de modalité inférieure à la médiane et la sous-
population des individus de modalité supérieure à la médiane.
Nous la notons me.
Chapitre 3 : Quantitatives discrètes

Remarque
En d’autres termes, me est une médiane si les 2 conditions suivantes sont réalisées :
1. La proportion d’individus dont la valeur est inférieure ou égale à me est supérieure ou égale à 0.5.
2. La proportion d’individus dont la valeur est supérieure ou égale à me est supérieure ou égale à 0.5.

Attention au piège
La médiane doit forcément appartenir aux valeurs de l’ensemble. Généralement, la définition vue en lycée
est légèrement différente car elle concerne la médiane des variables quantitatives continues.

Pour calculer rapidement la médiane, nous proposons la méthode suivante :

Point méthode (Calcul de médiane)


Pk que les modalités a1 < . . . < ak < . . . < aK sont ordonnées et nous rappelons
Nous supposons
que Fk = ℓ=1 fℓ représente la fréquence cumulée jusqu’à la modalité ak . La médiane est la
première valeur pour laquelle les fréquences cumulées dépassent 50% c’est-à-dire que me est
égale à la modalité ak vérifiant à la fois :
• Fk ≥ 0.5.
• Fk−1 < 0.5.

Exemple fil rouge


La médiane de la variable Thé est 0 (car la fréquence cumulée de -1 est 0 < 50% et celle de 0 est
72, 12% ≥ 50%) et celle de la variable café est 2 (car la fréquence cumulée de 1 est 45, 58% < 50% et
celle de 2 est 77, 88% ≥ 50%).

Attention au piège
Il y a parfois des hésitations de la part des étudiants quand la modalité possède une fréquence cumulée
exactement égale à 50% : dans ce cas, c’est la médiane. Attention toutefois aux arrondis et vérifiez bien
que l’arrondis n’a pas été fait au point supérieur.

Point logiciel
Dans le logiciel Excel , la fonction MEDIANE ne calcule pas ce type de médiane ; il faut trouver
une autre solution. De même pour la fonction median du langage R .

Proposition 4 (Unicité de la médiane)


La médiane est unique.
3.2. RÉSUMÉS STATISTIQUES 45

Preuve
En effet, la suite k 7→ Fk est croissante donc il ne peut exister qu’une seule valeur vérifiant la définition 22.

Tout ce que nous venons de présenter est vrai pour tous les fractiles.

Définition 23 (Fractiles)
Étant donné un réel α compris entre 0 (strictement) et 1, le fractile d’ordre α est la première
valeur pour laquelle les fréquences cumulées dépassent α.

Chapitre 3 : Quantitatives discrètes


Exemple
Par exemple, nous avons

• La médiane qui est le fractile d’ordre 0.5.


• Le maximum est le fractile d’ordre 1.
On peut voir également le minimum comme le fractile avec le niveau α strictement positif le plus petit
possible (autrement dit, la première modalité dont la fréquence cumulée est strictement positive).

Point logiciel
Dans le logiciel Excel et le langage R , le minimum et le maximum se calculent grâce aux
fonctions MIN et MAX. Dans le langage R , c’est grâce aux fonctions min et max (en minuscules).

Nous terminons cette partie par la présentation de fractiles particuliers.

Définition 24 (Quartiles)
Les quartiles sont les fractiles d’ordre 0.25, 0.5 et 0.75 notés souvent Q 1 , me et Q 3 .

Exemple fil rouge


Pour la variable Thé, le premier quartile est 0 (égal à la médiane) et le troisième quartile est 1. Pour la
variable Café, le premier quartile est 1 et le troisième est 2 (égal à la médiane).

Définition 25 (Déciles)
Les déciles sont les fractiles d’ordre 0.1, 0.2,. . ., 0.8 et 0.9 notés souvent D 1 , D 2 ,. . .,D 8 et
D9 .

Définition 26 (Centiles)
Les centiles sont les fractiles avec un ordre k/100, 1 ≤ k ≤ 99 notés souvent C k . Parmi eux,
C 95 et C 99 sont souvent utilisés.

Attention au piège
Le fait de parler de centile d’ordre k avec k ∈ {1, . . . , 99} peut faire oublier que la valeur α du fractile est
comprise entre 0 et 1.

Remarque
Il est tout à fait possible d’avoir des fractiles valant la même valeur comme, par exemple, Q1 = Q3 . Ceci
est d’autant plus plausible quand il y a peu de modalités. En particulier, lorsque certains quartiles sont
égaux, c’est souvent une variable quantitative discrète.
3.2. RÉSUMÉS STATISTIQUES 46

Moyenne
La statistique résumée de position est la moyenne.

Définition 27 (Moyenne)
Étant donné un échantillon de n observations x1 , . . . , xn , la moyenne, notée x, est définie
par :
n
1X x1 + x2 + . . . + xn
x= xi = .
Chapitre 3 : Quantitatives discrètes

n i=1 n

Point logiciel
Dans le logiciel Excel , la moyenne se calcule grâce à la fonction MOYENNE. Dans le langage
R , c’est grâce à la fonction mean.

Remarque
Si notre échantillon possède beaucoup de fois la même valeur (comme c’est souvent le cas avec les variables
quantitatives discrètes), il est préférable de faire des regroupements par paquets. Par exemple, si nous
avons le 11-échantillon suivant : 4, 1, 2, 3, 2, 3, 3, 3, 2, 4 et 3. Alors, nous pouvons faire le calcul de la
façon suivante :
n
1X
x = xi
n i=1
x1 + x2 + . . . + xn
=
n
4+1+2+3+2+3+3+3+2+4+3
=
11
1 seul 3 individus 5 individus 2 individus
z}|{ z }| { z }| { z }| {
1 +2 + 2 + 2+3 + 3 + 3 + 3 + 3+ 4 + 4
=
11
1×1+3×2+5×3+2×4
=
11
1 + 6 + 15 + 8
=
11
30
=
11
≈ 2, 73.

Cette méthode peut-être généralisée :

Proposition 5 (Calcul par les effectifs)


En notant ak les modalités et nk les effectifs associés, nous avons :
K
1X
x= nk ak .
n
k=1

Preuve
Nous faisons la démonstration sous deux versions pour habituer les lecteur·trice·s qui ne connaissent pas
le signe somme.
3.2. RÉSUMÉS STATISTIQUES 47

Versions avec des · · · : Nous avons :


x1 + x2 + . . . + xn
x =
n
on regroupe les valeurs par paquets,
n1 individus n2 individus nk individus nK individus
z }| { z }| { z }| { z }| {
a1 + a1 + · · · + a1 + a2 + a2 + · · · + a2 + · · · + ak + ak + · · · + ak + · · · + aK + aK + · · · + aK
=
n
n1 × a1 + n2 × a2 + · · · + nk × ak + · · · + nK × aK

Chapitre 3 : Quantitatives discrètes


=
n
K
1 X
= nk ak .
n
k=1

Versions avec les symboles sommes : Nous avons :


n
1X
x = xi
n i=1
 
K n
1 X X 
=  xi 
n 
i=1

k=1
tel que xi =ak
 
K n
1 X  X 
=  ak 
n 
i=1

k=1
tel que xi =ak
 
K n
1 X 
ak
X 
=
n   car ak ne dépend pas de i,
1
k=1 i=1
tel que xi =ak
 
K
1 X
= ak |{i ∈ {1, . . . , n}|xi = ak }|

n

| {z }
k=1
c’est-à-dire le nombre d’individus valant ak
K
1 X
= nk ak .
n
k=1

Exemple fil rouge


À l’aide de la formule de la proposition 5 et des tris à plat de la table 3.1, nous en déduisons que la
moyenne de la variable Thé est d’environ 0,71 et celle de la variable Café est d’environ 1,62.

Corollaire 6 (Calcul par les fréquences)


En notant ak les modalités et fk les fréquences associées, nous avons :
K
X
x= fk ak .
k=1
3.2. RÉSUMÉS STATISTIQUES 48

Preuve
Nous distribuons la division par n au sein de la somme présentée dans la proposition 5 :
K
1X
x = nk ak
n
k=1
K
X nk
= ak
n
k=1
|{z}
=fk
Chapitre 3 : Quantitatives discrètes

K
X
= fk a k .
k=1

Point méthode (Calcul quand nous avons le tri à plat)


Grâce à ces formules, si nous possédons le tri à plat de la variable, il suffit de multiplier chaque
case de la colonne effectif (resp. fréquence) par la case correspondante de la colonne modalité,
de sommer les résultats puis de diviser par n (resp. de diviser par 1 ou tout simplement ne rien
faire).

Nous concluons cette partie par quelques propriétés et formules utiles.

Propriétés 7 (Moyenne d’une constante)


Si toutes les valeurs xi valent la même constante c ∈ R alors :

x = c.

Preuve
Comme toutes les valeurs xi valent la même constante c alors les modalités se résument à une seule a1 = c
d’effectif n1 = n. Par la formule sur les effectifs de la proposition 5, nous avons :
K
1X
x = nk ak
n
k=1
1
= × n1 × a1
n
1
= ×n×c
n
n
= ×c
n
= c.

Propriétés 8 (Linéarité de la moyenne)


Étant donnés deux variables x1 , . . . , xn et y1 , . . . , yn de même longueur prenant leurs valeurs
dans R et une constante λ ∈ R alors :

x+y = x + y,
λx = λx.
3.2. RÉSUMÉS STATISTIQUES 49

Preuve
Pour la première équation, il s’agit simplement de réorganiser les valeurs :

(x1 + y1 ) + (x2 + y2 ) + · + (xn + yn )


x+y =
n
x1 + x2 + . . . + xn + y1 + y2 + . . . + yn
=
n
x1 + x2 + . . . + xn y1 + y2 + . . . + yn
= +
n n
= x + y.

Chapitre 3 : Quantitatives discrètes


Pour la seconde, il s’agit simplement de factoriser avec la valeur λ :
n
1X
λx = (λxi )
n i=1
n
!
1X
= λ xi
n i=1
= λx.

Remarque
Nous avons proposé les démonstrations avec des · · · et des sommes pour encourager les lecteur·trice·s à
s’habituer à ces formules. Nous recommandons celles et ceux qui seraient intéressé·e·s à refaire chaque
démonstration avec l’autre version.

Proposition 9 (Formule utile)


Nous avons :
n
X
(xi − x) = 0.
i=1

Preuve

n
X n
X n
X
(xi − x) = (xi ) − (x)
i=1 i=1 i=1
n n
1X X
= n× xi −x 1 car x ne dépend pas de i,
n i=1 i=1
| {z }
x
= nx − x × n
= 0.

Ce qu’il fallait démontrer.

Il est important de noter que la moyenne et la médiane n’ont pas la même sensibilité.
Remarque
Contrairement à la médiane, la moyenne est sensible aux valeurs extrêmes. Nous avons mis en ligne une
vidéo pour vous aider à visualiser ce fait : https://youtu.be/ytXAymqRPUc.
3.2. RÉSUMÉS STATISTIQUES 50

Attention au piège
Dans le cas des variables quantitatives discrètes, la médiane appartient forcément à l’ensemble des
modalités possibles tandis que la moyenne peut prendre une valeur autre que celles des modalités.

Enfin, nous concluons par la présentation d’autres types de moyennes utilisées dans différents contextes :

Définitions 28 (Autres moyennes)


Chapitre 3 : Quantitatives discrètes

• Étant donné un échantillon de n observations x1 , . . . , xn , la moyenne quadratique est


définie par : v
u n r
u1 X
2 x21 + . . . + x2n p
mQ = t xi = = x2 .
n i=1 n

• Étant donné un échantillon de n observations positives x1 , . . . , xn , la moyenne géomé-


trique est définie par :

n
!1/n
Y √
mG = xi = n
x1 × · · · xn = elog x .
i=1

• Étant donné un échantillon de n observations strictement positives x1 , . . . , xn , la


moyenne harmonique est définie par :
n n 1
mH = Pn 1 = 1 1 = .
i=1 xi x1 + ··· + xn
1
x

3.2.2 Résumés statistiques de dispersion


Nous présentons dans cette partie l’étendue, l’intervalle interquartile, le rapport interdécile, la variance,
l’écart-type et le coefficient de variation.

Étendue

Définition 29 (Étendue)
L’étendue (range en anglais) de la distribution x1 , . . . , xn , notée W , est définie comme l’écart
(positif) entre la plus grande et la plus petite valeur :

W = max xi − min xi .
1≤i≤n 1≤i≤n

Exemple fil rouge


L’étendue de la variable Thé est de 10 et celle de la variable Café est de 5.

Point méthode (Vérification)


Comme la valeur maximum est toujours plus grande que la valeur minimum, l’étendue est
toujours positive. Si ce n’est pas le cas, il faut vérifier les calculs. De plus, l’étendue est nulle
si et seulement si toutes les valeurs sont identiques : ce point se vérifie également facilement.
3.2. RÉSUMÉS STATISTIQUES 51

Intervalle interquartile

Définition 30 (Intervalle interquartile)


L’intervalle interquartile de la distribution x1 , . . . , xn est l’intervalle de bornes Q1 et Q3 ;
c’est-à-dire [Q1 ; Q3 ]. La longueur de cet intervalle est un indicatif de dispersion, noté IQ,
valant :
IQ = Q3 − Q1 .

Chapitre 3 : Quantitatives discrètes


Exemple fil rouge
Les longueurs des intervalles interquartiles des variables Thé et Café valent toutes les deux 1.

Attention au piège
L’erreur la plus commune faite par les étudiants est de dire que l’intervalle interquartile vaut 5 par
exemple : il y a confusion entre l’intervalle (c’est-à-dire l’objet [Q1 ; Q3 ]) et sa longueur.

Point méthode (Vérifications)


Comme nous avons les relations suivantes

min xi ≤ Q1 ≤ Q3 ≤ max xi
1≤i≤n 1≤i≤n

alors nous devons vérifier les deux points suivants :

1. IQ ≥ 0 (comme pour W ).
2. IQ ≤ W .

Rapport interdécile
Le rapport interdécile est utilisé en économie notamment.

Définition 31 (Rapport interdécile)


Étant donnée une distribution strictement positive x1 , . . . , xn , le rapport interdécile entre
le k ème et le ℓème décile de la distribution correspond au rapport entre ces deux déciles, noté
Rk/ℓ , est définie si Dℓ est différent de 0 et vaut :

Dk
Rk/ℓ = .
Dℓ

Exemple
Typiquement, le rapport R9/1 = D9 /D1 est utilisé pour l’évolution des salaires en France.

Variance, écart-type et coefficient de variation

Définitions 32 (Variance et écart-type)


Étant donné un échantillon de n observations x1 , . . . , xn , la variance, notée var (x), est définie
par :
n
1X 2
var (x) = (xi − x) .
n i=1
3.2. RÉSUMÉS STATISTIQUES 52

De plus, l’écart-type, noté σ̂x , est défini par :


v
u n
p u1 X 2
σ̂x = var (x) = t (xi − x) .
n i=1

Attention au piège
Chapitre 3 : Quantitatives discrètes

Il existe couramment deux types d’estimateurs de la variance : celui présenté dans la définition 32 et
l’estimateur dit sans-biais dont la division se fait par n − 1 :
n
1 X 2
(xi − x) .
n − 1 i=1

Quand nous utilisons une fonction, il est important de savoir quelle estimation est utilisée (par exemple,
en lisant l’aide du logiciel).

Point logiciel
Dans le logiciel Excel , la variance et l’écart-type de la définition 32 se calculent grâce aux
fonctions VARP ou VAR.P.N. Dans le langage R , il n’y a que l’estimation non biaisée qui est
implémentée dans la fonction var.
Dans les calculatrices, les deux types d’écart-types sont calculés : ils sont souvent noté s
et σ. Pour savoir lequel correspond à celui que nous étudions, il suffit de prendre le petit. En
effet, comme nous divisons par n plutôt que n − 1 (donc par un nombre plus grand), la valeur
sera plus petite.

Comme pour les moyennes, nous pouvons faire des regroupements par paquets :

Proposition 10 (Calcul par les effectifs et les fréquences)


En notant ak les modalités, nk et fk les effectifs et fréquences associés, nous avons :
K K
1X 2
X 2
var (x) = nk (ak − x) = fk (ak − x) .
n
k=1 k=1

Preuve
Les preuves sont identiques à celles de propositions 5 et 6.

Attention au piège
La plupart des étudiants font l’erreur de mettre les nk et les fk au carré également : ceci n’a pas de sens.
En effet, le carré représente la distance de chaque modalité par rapport à la moyenne tandis que les nk
et fk sont simplement des unités de comptage.

Une formule encore plus utile pour calculer la variance est la suivante :

Proposition 11 (Moyenne des carrés moins carré de la moyenne)


En notant ak les modalités, nk et fk les effectifs et fréquences associés, nous avons :

var (x) = x2 − x 2
n
!
1X 2
= x − x2
n i=1 i
3.2. RÉSUMÉS STATISTIQUES 53

K
!
1X
= nk ak − x2
2
n
k=1
K
!
X
= fk a2k − x2 .
k=1

Chapitre 3 : Quantitatives discrètes


Preuve
Nous ne démontrons que la première partie car les deux dernières inégalités se démontrent de la même
façon que pour les propositions 5 et 6.
Nous avons :
n
1X 2
var (x) = (xi − x)
n i=1
n
1X 2
x − 2xi x + x2

=
n i=1 i
n n n
!
1 X X X
= x2i − 2xi x + x 2
n i=1 i=1 i=1
n n n
!
1 X X X
= x2i − 2x xi + x 2 1
n i=1 i=1 i=1
n
! n
! n
1 X 1X 1X
= x2i − 2x xi +x2 × 1
n i=1
n i=1 n i=1
| {z } | {z }
=x =n
n
!
1X 2
= x − 2x2 + x2
n i=1 i
n
!
1X 2
= x − x2 .
n i=1 i

Remarque
Cette formule ne fonctionne que pour la variance où nous divisons par n. Si nous prenons l’estimateur
non biaisé (où nous divisons par n − 1), cela ne fonctionne plus.

Exemple fil rouge


La variance de la variable Thé est d’environ 2,09 ce qui fait un écart-type d’environ 1,45. Pour la variable
Café, la variance est d’environ 1,56 et l’écart-type d’à peu près 1,25.

Proposition 12 (Positivité de la variance)


Une variance est toujours positive.

Preuve
2
Comme un carré est toujours positif, nous avons pour tout i ∈ {1, . . . , n} que (xi − x) est positif. La
somme de termes positifs est positive et comme nous divisons par un entier naturel, cela reste positif.
D’où le résultat.

Quelques résultats :
3.2. RÉSUMÉS STATISTIQUES 54

Proposition 13 (Variance nulle)


La variance d’un échantillon x1 , . . . , xn est nulle si et seulement si toutes les valeurs sont
identiques.

Point méthode (Variance négative)


Si, après un calcul, vous trouvez que la variance est strictement négative, c’est qu’il y a une
erreur. De plus, si vous trouvez que la variance est nulle, vérifiez que tous les termes sont
Chapitre 3 : Quantitatives discrètes

identiques ; sinon, l’erreur la plus courante

Preuve
Nous avons :
n
1X 2
var (x) = 0 ⇔ (xi − x) = 0
n i=1
n
X 2
⇔ (xi − x) = 0
i=1
2
⇔ ∀i ∈ {1, . . . , n}, (xi − x) = 0 car chaque terme de la somme est positif,
⇔ ∀i ∈ {1, . . . , n}, xi − x = 0
⇔ ∀i ∈ {1, . . . , n}, xi = x.

Donc la variance est nulle si et seulement si toutes les valeurs sont égales à la moyenne, c’est-à-dire à une
même valeur. Donc si et seulement elles sont toutes identiques.

Attention au piège
Si vous trouvez que la variance est nulle, vérifiez que tous les termes sont identiques ; sinon, l’erreur
la plus courante est l’oubli du carré dans la formule de la définition 32 (ce qui donne la formule de la
proposition 9 qui est nulle d’après cette même proposition).

Comme pour les moyennes, il existe une formule pour multiplier par un scalaire.

Propriétés 14
Forme quadratique de la variance Étant données une variable x1 , . . . , xn prenant leurs valeurs
dans R et une constante λ ∈ R alors, nous avons :

var (λx) = λ2 var (x) ,


σ̂λx = |λ|σ̂x .

Démonstration. En utilisant la propriété 8, nous avons :


n
1X 2
var (λx) = λxi − λx
n i=1
n
1X 2
= (λxi − λx)
n i=1
n
1X 2
= [λ (xi − x)]
n i=1
n
1X 2 2
= λ (xi − x)
n i=1
3.2. RÉSUMÉS STATISTIQUES 55

= λ2 var (x) .


La deuxième formule vient du fait que λ2 = |λ|.

Remarque
Pour juger si une distribution est plus ou moins dispersée, il est recommandé de comparer les écart-types
plutôt que les variances car ces premiers sont dans la même unité que les données (par exemple, l’écart-

Chapitre 3 : Quantitatives discrètes


type d’une taille est en cm tandis que la variance est en cm2 ). Ceci étant dit, si nous nous intéressons à
la distribution du poids d’animaux et que nous trouvons un écart-type de 2kg, est-ce que cela veut dire
qu’il y a une forte dispersion ou pas ? La réponse va dépendre des animaux étudiés : pour des chats (dont
les poids se situent généralement entre 3 et 5kg), c’est une variabilité assez forte ; par contre, si on étudie
les éléphants d’Afrique, dont les poids se situent entre 4 000 et 7 000kg, la variabilité est négligeable.

Afin de pouvoir comparer la dispersion de différentes distributions, nous utilisons généralement le


coefficient de variation :

Définition 33
Étant donné un échantillon de n observations x1 , . . . , xn , le coefficient de variation, noté
cv , est définie par : q P
1 n 2
σ̂x n i=1 (xi − x)
cv = = 1
Pn .
x n i=1 xi

Exemple fil rouge


Le coefficient de variation de la variable Thé est d’environ 2,03 tandis que celui de la variable Café est
d’environ 0,77. La variable Thé semble donc plus dispersée que la variable Café.

3.2.3 Résumés statistiques de forme


Dans cette partie, nous présentons deux résumés statistiques de forme : les coefficients d’asymétrie et
d’aplatissement. L’idée derrière ces coefficients est de regarder si la distribution ressemble (ou pas) à une
distribution gaussienne (ou normale).

Coefficient d’asymétrie

Définition 34 (Coefficient d’asymétrie)


Le coefficient d’asymétrie (ou skewness en anglais) mesure la dissymétrie de la distribution.
Sa formule vaut : Pn
1 3
(xi − x)
G1 (x) = n i=1 3 .
σ̂x

Remarque
Plus la distribution sera symétrique, plus le coefficient sera proche de 0.

Coefficient d’aplatissement

Définition 35 (Coefficient d’aplatissement)


Le coefficient d’aplatissement (ou kurtosis) s’utilise dans le cadre d’une distribution sy-
métrique (donc si le précédent coefficient est proche de 0) et mesure la répartition des poids.
3.3. GRAPHIQUES 56

Sa formule vaut : Pn
1 4
n i=1 (xi − x)
G2 (x) = − 3.
σ̂x4

Remarque
Il sera proche de 0 si la distribution ressemble à une loi gaussienne et négatif si les points sont répartis
Chapitre 3 : Quantitatives discrètes

uniformément.

3.3 Graphiques
Dans cette partie, nous mettons les trois graphiques que nous pouvons utiliser pour représenter les
variables quantitatives discrètes :

• Le diagramme en bâtons.

• La représentation de la fonction de répartition empirique.

• La boîte à moustaches ou boxplot.

3.3.1 Diagramme en bâtons


Le diagramme en bâtons est spécifique aux variables quantitatives discrètes.

Définition 36 (Diagramme en bâtons)


Le diagramme en bâtons consiste à représenter les fréquences des modalités d’une variable
quantitative discrète à l’aide de segments verticaux de coordonnées (ak , 0) et (ak , fk ) :

• Le segment est parallèle à l’axe des ordonnées (ou perpendiculaire à l’axe des abscisses
suivant le point de vue).
• Il se situe en abscisse au niveau de la modalité ak .
• Il va de 0 à fk .

Éventuellement, on peut rajouter un point en haut de chaque segment.

Exemple fil rouge


Nous avons représenté sur la figure 3.1 le diagramme en bâtons de la variable Thé. Cette représentation
permet de voir les modes. Nous pouvons remarquer que les barres ne sont pas collées et que nous avons
laissé l’espace des modalités 7 et 8 bien qu’elles aient des effectifs nuls.

Attention au piège
Contrairement aux diagrammes en barres (voir la définition 15), les segments des diagrammes en bâtons
n’ont pas d’épaisseurs.
De plus, il ne faut jamais enlever les modalités qui n’ont pas d’effectifs : il faut garder l’écart nécessaire.

Point logiciel
Dans le logiciel Excel , il n’existe pas de fonctions pour en construire simplement ; nous
verrons en TP une procédure pour le faire à partir de nuage de points. Dans le langage R ,
il peut se faire en utilisant le package ggplot2 par exemple.
3.3. GRAPHIQUES 57

Chapitre 3 : Quantitatives discrètes


Figure 3.1 – Représentation sous forme de diagramme en bâtons de la variable Thé.

3.3.2 Fonction de répartition empirique


La fonction de répartition empirique est une fonction dont le graphique est peu utilisé alors qu’il
contient un très grand nombre d’informations.

Définition 37 (Fonction de répartition empirique)


La fonction de répartition empirique est une fonction définie pour tout t ∈ R par :
K
X K
X
Fb(t) = fk = fk 1{ak ≤t}
k=1 k=1
tel que ak ≤t

où 1{ak ≤t} vaut 1 si et seulement si ak ≤ t et 0 sinon.

Proposition 15 (Propriété de la fonction de répartition empirique)


Les propriétés de la fonction de répartition empirique sont les suivantes :
• Elle est croissante et constante par morceaux (nos disons aussi qu’elle est en escalier
croissant).
• Chaque saut se fait au moment d’une modalité avec une fréquence non nulle.

• La hauteur de chaque saut correspond à la fréquence de la modalité associée.


• Elle vaut 0 avant la première modalité et 1 après la dernière modalité.
• Elle est continue à droite ; c’est-à-dire que, au moment de la modalité ak la fonction vaut
toujours Fk qui est la valeur du plateau du-dessus.

Exemple fil rouge


Nous avons représenté sur la figure 3.2 la courbe de la fonction de répartition empirique de la variable
Thé. Nous voyons qu’elle est nulle avant la valeur 0, que les sauts ont lieu à chaque modalité d’effectif
non nul et qu’elle continue à 1 après le maximum de la distribution.
3.3. GRAPHIQUES 58
Chapitre 3 : Quantitatives discrètes

Figure 3.2 – Représentation de la fonction de répartition empirique de la variable Thé.

Remarque
Les minis traits veticaux sur le graphique 3.2 devrait plutôt être des C ouverts vers la droite pour
symboliser que nous ne prenons pas la valeur.

Point méthode (Construction)


Pour construire la fonction de répartition empirique, nous conseillons de faire la procédure
suivante :

1. Mettre les points de coordonnées (ak , Fk ).


2. Au choix :
• Mettre les points de coordonnées (ak+1 , Fk ) pour 1 ≤ k < K puis relier les points
(ak , Fk ) et (ak+1 , Fk ).
• Tracer un trait horizontal depuis chaque point (ak , Fk ) jusqu’à la modalité effective
suivante.
3. Rajouter un trait horizontal partant de la limite gauche de votre graphique jusqu’à la
modalité a1 de hauteur y = 0.

4. Rajouter un trait horizontal depuis la dernière modalité effective aK jusqu’à la limite


droite de votre graphique de hauteur y = 1.
Éventuellement, vous pouvez effacer ensuite les points ayant servis à la construction.

Attention au piège
Les étudiants oublient souvent le premier trait de hauteur y = 0 (celui avant l’abscisse 0 sur la figure 3.2)
et parfois le trait d’ordonnée y = 1 (après la valeur 10 sur le même graphique).
3.3. GRAPHIQUES 59

Point logiciel
Dans le logiciel Excel , il n’existe pas de fonctions pour en construire simplement ; nous
verrons en TP une procédure pour le faire à partir de nuage de points. Dans le langage R ,
il peut se faire en utilisant le package ggplot2 par exemple.

Point méthode (Fonction de répartition empirique et fractiles)

Chapitre 3 : Quantitatives discrètes


La représentation de la fonction de répartition empirique permet d’estimer graphiquement les
fractiles :

1. Nous traçons une droite horizontal de hauteur correspondante au fractile choisi (par
exemple y = 0, 5 pour la médiane).
2. Nous cherchons à quel moment la fonction de répartition empirique se trouve au dessus
(pour la première fois) de la droite tracée.

3. La modalité correspondante (que nous pouvons voir en abscisse) est le fractile recherché.

3.3.3 Boxplot ou boîte à moustaches


La boîte à moustaches est un diagramme généralement présenté horizontalement dans les cours de
lycée. Nous faisons le choix de le représenter verticalement comme le font de nombreux logiciels.

Définition 38 (Boxplot ou boîte à moustaches (version lycée))


Le boxplot ou boîte à moustaches consiste à représenter les quartiles de telle sorte que :
• 5 traits horizontaux de mêmes longueurs placés aux niveaux de chacun des 5 quartiles :
minimum, Q1 , médiane, Q3 et maximum.
• Deux traits relient verticalement les extrémités du premier (Q1 ) et du troisième quartiles
(Q3 ). Ce trait est censé passer par les extrémités du trait horizontal symbolisant la
médiane.
• Un trait vertical relie les centres des traits symbolisant le troisième quartile et le maxi-
mum.

• Un trait vertical relie les centres des traits symbolisant le premier quartile et le minimum.

Remarque
En pratique, quand le minimum et/ou le maximum est très éloigné des quartiles, nous préférons choisir
une autre représentation.

Définition 39 (Boxplot ou boîte à moustaches (variante))


La variante du boxplot ou boîte à moustaches est la suivante :

1. Nous traçons 3 traits horizontaux de mêmes longueurs placés aux niveaux de chacun des
3 quartiles centraux : Q1 , médiane et Q3 .
2. Deux traits relient verticalement les extrémités du premier (Q1 ) et du troisième quartiles
(Q3 ). Ce trait est censé passer par les extrémités du trait horizontal symbolisant la
médiane.

3. Nous calculons la longueur interquartile IQ.


4. Nous regardons si le maximum est plus grand que Q3 + 1, 5IQ :
3.3. GRAPHIQUES 60

• Si la réponse est oui :


(a) Nous traçons un trait horizontal à l’ordonnée Q3 + 1, 5IQ (plus petit que les
autres traits horizontaux).
(b) puis nous relions le centre de ce trait avec le centre du trait symbolisant le
troisième quartile Q3 .
(c) Nous mettons une croix rouge à l’emplacement du maximum et dans l’aligne-
ment des centres des traits horizontaux.
Chapitre 3 : Quantitatives discrètes

(d) (Facultatif) Enfin, nous mettons des croix bleues pour chaque modalité effec-
tive (c’est-à-dire ayant un effectif non nul) entre Q3 + 1, 5IQ et le maximum
(également dans l’alignement des centres des traits horizontaux).
• Si la réponse est non (et que le maximum est donc plus petit que Q3 + 1, 5IQ), nous
procédons comme pour la version proposée dans la définition 38 :
(a) Nous traçons le trait horizontal correspondant au maximum.
(b) Nous relions ce trait au trait symbolisant le troisième quartile.
5. Nous faisons la procédure symétrique avec le bas du graphique en comparant le minimum
avec la valeur Q1 − 1, 5IQ.
Dans le cas où le maximum serait plus grand que Q3 + 1, 5IQ et/ou que le minimum serait plus
petit
 que Q1 − 1, 5IQ, nous
 devons préciser combien
 d’individus se trouvent dans les intervalles
min xi ; Q1 − 1, 5IQ et Q3 + 1, 5IQ; max xi ; nous appelons ces points des outsiders.
1≤i≤n 1≤i≤n

Exemple fil rouge


Nous avons représenté sur la figure 3.3 le boxplot de la variable Thé. Cette représentation permet de voir
l’étendue et la longueur de l’intervalle interquartile.

Figure 3.3 – Représentation sous forme de boxplot ou boîte à moustaches de la variable Thé.

Remarque
Il existe une autre variante consistant à ne pas dépasser Q1 − 3IQ et Q3 − 3IQ : si le maximum (resp. le
minimum) est plus grand que Q3 − 3IQ (resp. plus petit que Q1 − 3IQ), nous mettons la croix rouge au
niveau de Q3 + 3IQ (resp Q1 − 3IQ) et nous ne mettons pas de croix bleues au delà de cette limite.
3.4. EXERCICES 61

Point logiciel
Dans le logiciel Excel , il n’existe pas de fonctions pour en construire simplement ; nous
verrons en TP une procédure pour le faire à partir de nuage de points. Dans le langage R ,
nous pouvons utiliser la fonction boxplot ou le package ggplot2 par exemple.

3.4 Exercices

Chapitre 3 : Quantitatives discrètes


Nous mettons dans cette partie quelques exercices.

3.4.1 Jouons avec les notations

x me σ̂x fk Qk

IQ cv

ak cv me Q k W x σ̂x

cv σ̂x a k me IQ x

IQ x me a k

Q k me a k W cv

W IQ Q k a k x fk me

Q k IQ σ̂x ak

Figure 3.4 – Grille pour le sudoku de l’exercice 3.4.1.

Le but de cet exercice est de remplir la grille de la figure 3.4 avec les notations x, Q k , W , IQ, σ̂x ,
cv , me, a k et f k de telle sorte que :
• Toutes les cases soient remplies.
• Chaque notation doit apparaître une et une seule fois :

– Dans chaque ligne.


– Dans chaque colonne.
– Dans chacun des neufs sous carrés.
Chapitre 4
Variables quantitatives continues
Chapitre 4 : Quantitatives continues

"Trois statisticiens vont à la chasse. À un moment, ils voient un sanglier. Le premier vise mais tire 5
mètres à gauche. Le second vise à son tour mais tire 5 mètres à droite. Le troisième commence à se lever
et se diriger vers le sanglier. ’Que fais-tu ?’ demande le premier. ’Bah, je vais chercher la carcasse : en
moyenne, on l’a eu.’"
Blague mathématique

Dans ce chapitre nous traitons le dernier type de variables c’est-à-dire les variables quantitatives conti-
nues. Pour rappel, une variable continue est une variable avec beaucoup de modalités. Pour comprendre
les raisonnements que nous utilisons, voici l’hypothèse faite sur les variables continues.

Hypothèse (Caractérisation d’une variable continue)


Étant données deux modalités effectives d’une variable continue alors il existe toujours une
modalité entre les deux qui pourrait être choisie.

Remarque
Pour bien comprendre cette hypothèse, reprenons le nombre d’enfants dans une famille : une famille peut
en avoir 2 et une autre 3 mais aucune famille ne peut en avoir 2,5. À l’opposé, pour les tailles, il peut
y avoir une personne qui fasse 178cm et une autre qui fasse 179cm ; toutefois, il peut aussi y avoir une
personne qui puisse faire 178,5cm voir 17,6765cm si l’outil qui nous sert à mesurer est assez précis.

Dans ce chapitre, nous commençons par reprendre les résumés statistiques et les graphiques vus dans
le chapitre 3 afin de voir ceux que nous pouvons garder (éventuellement avec des modifications) ceux qui
n’ont pas de raisons d’être utilisés.

4.1 Étude à partir des données individuelles


Nous faisons ici la liste des outils vus dans le chapitre 3 afin de voir ceux que nous pouvons garder et
ceux que nous devons modifier ou abandonner :
% Tri à plat : vu qu’il y a presque autant de modalités que d’individus, le tri à plat n’a pas de raisons
d’être utilisé.
• Résumés statistiques de position :
% Mode : comme nous pouvons toujours trouver des modalités entre deux modalités effectives,
la définition du mode n’a plus de sens (ou alors, toutes les modalités effectives sont des modes).
 Fractile : pour les fractiles, la définition 23 reste vraie mais la technique pour trouver le fractile
d’ordre α est légèrement différente. Si nous organisons toutes les valeurs par ordre croissante
x(1) < x(2) < · · · < x(n) (où x(i) symbolise la ième valeur dans cet ordre croissant) alors nous
regardons si αn est un entier ou pas :
∗ Si oui, le fractile d’ordre α est le αnème individu ; c’est-à-dire x(αn) .
∗ Sinon, si x(⌊αn⌋) = x(⌊αn⌋+1) (où ⌊αn⌋ représente la partie entière de αn) alors le quartile
est cette valeur. Sinon, toute valeur comprise entre x(⌊αn⌋) et x(⌊αn⌋+1)peut-être considérée

comme un fractile d’ordre α (c’est-à-dire les valeurs dans l’intervalle x(⌊αn⌋) ; x(⌊αn⌋+1) ).

62
4.1. ÉTUDE À PARTIR DES DONNÉES INDIVIDUELLES 63

Exemple sur les médianes :

Point méthode (Calcul des médianes pour les données continues)


Si nous organisons toutes les valeurs par ordre croissante x(1) < x(2) < · · · < x(n)
(où x(i) symbolise la ième valeur dans cet ordre croissant) alors nous avons :
∗ Si n = 2m + 1 est impair, me = x(m+1) .
∗ Si n = 2m est pair, toute valeur entre x(m) et x(m+1) peut être considérée comme
médiane (au sens de la définition). Certains logiciels proposent de prendre par
x +x
défaut me = (m) 2 (m+1) .

Chapitre 4 : Quantitatives continues


✓ Moyenne : les formules de la moyenne restent vraies. En revanche, les formules de calculs avec
les effectifs (proposition 5) ou avec les fréquences (proposition 6) n’ont plus d’intérêt puisqu’il
y a presque autant de modalités que d’individus.
• Résumés statistiques de dispersion :
✓ Étendue : OK.
✓ Intervalle interquartile (et longueur) : OK.
✓ Rapport interdécile : OK.
✓ Variance et écart-type : comme pour les moyennes, les résultats restent vrais mais les
calculs par les effectifs ou les fréquences (proposition 10) ne sont également plus intéressants.
En revanche, le fait que la variance soit égale à la différence entre la moyenne des carrées et le
carré de la moyenne (proposition 11) reste une formule pertinente.
✓ Coefficient de variation : OK.
• Résumés statistiques de dispersion :
✓ Coefficient d’asymétrie : OK.
✓ Coefficient d’aplatissement : OK.
• Graphiques :
% Diagramme en bâtons : le diagramme en bâtons n’a plus de sens puisque, dans le cas d’une
variable vraiment continue avec autant de modalités que d’individus, il n’y aurait que des
petites segments plus ou moins dispersées.
✓ Fonction de répartition empirique : les propriétés restent vraies et sa représentation per-
met de bien voir la distribution.

Exemple fil rouge


Nous avons représenté sur la figure 4.1 les graphes des fonctions empiriques de la variable
quantitative discrète Thé (à gauche) et la variable quantitative continue Poids (à droite).
Nous pouvons remarquer que la fonction de répartition de la variable poids est formée de plein
de petits sauts contrairement à celle de la variable Thé.

✓ Boxplot ou boîte à moustaches : les mêmes règles que pour le chapitre 3 s’appliquent (voir
les définitions 38 et 39).
4.2. ÉTUDE À PARTIR DES DONNÉES REGROUPÉES EN CLASSES : CRÉATION 64
Chapitre 4 : Quantitatives continues

Figure 4.1 – Représentation des fonctions empiriques des variables Thé (à gauche) et Poids (à droite).

4.2 Étude à partir des données regroupées en classes : création


Lorsque le nombre de modalités est trop important, il peut être intéressant de faire des regroupements
par classes.
Exemple fil rouge
La variable Taille possède 37 modalités effectives, la variable Poids en a 51 et enfin, il y a 28 modalités
effectives pour la variable Age.

Définition 40 (Classe statistique)


Étant donné un groupe de K intervalles de telle sorte que :
• Tous les intervalles sont fermés d’un côté et ouvert de l’autre de la même façon : ils
peuvent donc tous prendre la forme [ak ; bk [ ou ]ak ; bk ].
• Les intervalles se suivent c’est-à-dire que pour tout 1 ≤ k ≤ K − 1, nous avons bk = ak+1 .

Dans ce cas, nous disons que les intervalles sont des classes statistiques.

Nous pouvons ainsi refaire des tris à plat.

Définitions 41 (Regroupement en classes)


Étant donné un échantillon de n observations x1 , . . . , xn de variable quantitatives, nous disons
que nous faisons un regroupement en classes lorsque nous choisissons un groupes d’inter-
valles formant des classes englobant toutes les valeurs. Dans ce cas, nous pouvons proposer un
tri à plat :
Classes Effectifs Fréquences Cumulées
[a1 ; b1 [ n1 f1 F1 = f1
[a2 ; b2 [ n2 f2 F2
.. .. .. ..
. . . .
[ak ; bk [ nk fk Fk
.. .. .. ..
. . . .
[aK ; bK [ nK fK FK = 1
Total n 1

Nous ne faisons apparaître que les classes [ak ; bk [ qui ont un effectif non nul : nk est le nombre
d’individus dans la k ème classes, fk la fréquence et Fk la fréquence cumulée.
Nous avons également la version symétrique avec les intervalles ]ak ; bk ] ouverts à gauche et
fermé à droite.
4.2. ÉTUDE À PARTIR DES DONNÉES REGROUPÉES EN CLASSES : CRÉATION 65

Attention au piège
Nous pouvons remarquer en faisant des essais que le choix des classes a une influence sur l’analyse (voir
par exemple la vidéo https://youtu.be/jrNIgMMnO_c). Pour éviter les fraudes, il n’existe que deux
types de regroupement reconnus.

Définitions 42 (Isoamplitude et isofréquence)


Nous disons que nous avons un regroupement en classes isoamplitudes si toutes les classes
(ou intervalles) ont la même amplitude ; c’est-à-dire que pour tout k ∈ {1, . . . , K} et tout
k ′ ∈ {1, . . . , K}, nous avons bk − ak = bk′ − ak′ .
Nous disons que nous avons un regroupement en classes isofréquences si toutes les classes
(ou intervalles) ont la même fréquence ; c’est-à-dire que pour tout k ∈ {1, . . . , K} et tout

Chapitre 4 : Quantitatives continues


k ′ ∈ {1, . . . , K}, nous avons fk = fk′ .

Remarque
Le regroupement en classes isoamplitudes est généralement le plus utilisé.

Attention au piège
L’erreur la plus souvent commise par les étudiant·e·s est de mal compter le nombre d’individus dans un
intervalle car ils oublient qu’une borne ouverte signifie que nous ne prenons pas en compte la valeur.

Exemple fil rouge


Dans la table 4.1, nous avons représenté les tris à plat de la variable Taille après regroupement en
classes isoamplitudes (à gauche) et isofréquences (à droite). Dans le premier tableau, nous voyons que
les amplitudes sont de 10, que les bornes des classes sont des multiples de 10 et que les intervalles sont
fermés à gauche et ouverts à droite. Dans le tableau de droite, nous voyons que les fréquences sont
approximativement de 20% soit à peu près 45 − 46 individus par classes.

Table 4.1 – Tri à plat de la variable Taille après regroupement en classes isoamplitudes (à gauche) et
en classes isofréquences (à droite).

Attention au piège
L’information présentée est sensible au choix des classes. Il faut donc répondre aux questions suivantes :
combien de classes ? Quelles bornes choisir ? Ces réponses peuvent légèrement faire varier les commentaires
des analyses.
S’il existe un regroupement naturel ou habituel (par exemple, des tailles allant de 10 en 10 et donnant
un nombre raisonnable de classes), il est préférable de s’y conformer.

Pour vous aider dans le choix du nombre de classes, il existe plusieurs critères utilisés dans les logiciels.

Définitions 43 (Règles pour le choix du nombre de classes)


Pour déterminer le choix du nombre de classes d’un échantillon x de n observations, voici
quelques règles utilisés :
4.2. ÉTUDE À PARTIR DES DONNÉES REGROUPÉES EN CLASSES : CRÉATION 66

• Le critère de Sturges consiste à prendre environ

1 + log2 (n)

classes où log2 est le logarithme en base 2 ; c’est-à-dire que nous pouvons écrire la formule
avec le logarithme népérien de la façon suivante :

ln(n)
1+ .
ln(2)

Il existe une forme approximative de ce critère en utilisant le logarithme en base 10 :


Chapitre 4 : Quantitatives continues

10
1+ log10 (n).
3

• La règle de Yule propose de prendre



2, 5 4 n

où 4
n est la racine quadratique de n. On peut l’écrire aussi n1/4 .

• La règle de Freedman-Diaconis propose de prendre

2 × IQ(x)
√3
n

où 3
n est la racine cubique de n et IQ(x) la longueur de l’intervalle inter-quartile.

Le regroupement en isofréquence peut paraître compliqué de prime à bords.

Point méthode (Regroupement en classes isofréquences)


Pour faire relativement rapidement un regroupement en classes isofréquences, il faut partir d’un
nombre de classes (par exemple 5) et diviser 100% par ce nombre de classes (ici 100%/5 = 20%) :
ceci vous donnera le pourcentage de référence à essayer d’atteindre pour chaque classe.

Point logiciel
Dans le logiciel Excel , il est possible de faire facilement un regroupement en classes isoam-
plitudes à partir d’un tableau croisé dynamique en cliquant sur le bouton Grouper les champs
dans la barre de menu. Le regroupement en classes isofréquences doit se faire manuellement
en utilisant le bouton Grouper la sélection dans la barre de menu. Dans les deux cas, il sera
ensuite nécessaire de renommer les classes pour faire apparaître les intervalles.

La (mauvaise) utilisation de la statistique à travers les âges


À moins que le bug n’ait été corrigé, le logiciel Excel ne permet pas de faire deux regroupements
différents d’une même variable en utilisant deux tableaux croisés dynamiques différents (qui auraient été
créés à partir de la même liste de valeurs) : en effet, il s’avère que modifier le regroupement d’un des
tableaux modifiera immédiatement le regroupement de l’autre tableau. Pour contourner ce problème, il
est conseillé de dupliquer les données et de faire chaque tableau sur un jeu de données dupliqué différent.

Attention au piège
À partir du moment où les classes sont formées, nous ne pouvons plus savoir comment sont répartis les
points au sein de chaque classe. Nous avons perdu de l’information : nous ne pouvons plus reconstruire
le tableau des données individuelles à partir d’un regroupement en classes.
4.3. ÉTUDE À PARTIR DES DONNÉES REGROUPÉES EN CLASSES : GRAPHIQUES 67

Hypothèse (Distribution des points au sein d’une classe)


Comme nous ne pouvons pas savoir comment sont répartis les points au sein d’une classe,
nous supposons qu’ils sont répartis uniformément. Toutes les réflexions du reste de chapitre
viendront de cette hypothèse.

Dans le suite, nous présentons les graphiques puis les statistiques modifiées.

4.3 Étude à partir des données regroupées en classes : gra-


phiques

Chapitre 4 : Quantitatives continues


Dans cette partie, nous présentons les graphiques suivants :

• Histogramme.

• Polygone des fréquences cumulées.

4.3.1 Histogramme
Nous commençons par mettre la définition.

Définitions 44 (Histogramme)
Étant donnée une variable quantitative continue regroupée par classe, l’histogramme repré-
sente les classes sous forme de rectangles vérifiant les conditions suivantes pour chaque classe
effective :

• Le rectangle est posé sur l’axe des abscisses avec un côté sur l’axe des abscisses à l’em-
placement de l’intervalle de la classe correspondante.
• L’aire du rectangle est égal à la fréquence de la classe.
La hauteur du rectangle de la k ème classe, appelée densité et notée d k , est donc égale à
fk
dk =
ℓk
où ℓk est la longueur de l’intervalle (ou amplitude) de la classe. Les coins du rectangles sont
donc situés à (ak , 0), (bk , 0), (bk , dk ) et (ak , dk ).

Exemple fil rouge


Dans la figure 4.2, nous avons représenté trois histogrammes pour la variable Taille : deux avec des regrou-
pements en isoamplitudes de 2 et 10 (respectivement à gauche et au milieu) et un avec un regroupement
en 5 classes d’isofréquences. Nous constatons que la forme générale change légèrement en fonction du
regroupement. Pour les isoamplitudes, nous voyons que les bases sont identiques mais les aires changent.
Pour le regroupement en isofréquence, ce sont les aires qui sont identiques mais les formes changent.
Dans les deux cas, les concentrations d’individus les plus importantes se retrouvent dans les classes aux
rectangles avec les hauteurs les plus élevées.

Attention au piège
Contrairement aux diagrammes en barres ou en tuyaux d’orgues (vu dans la définition 15), nous nous
attendons à ce que les rectangles soient collés : sinon, cela signifie qu’entre deux classes effectives, il y a
toujours au moins une classe sans effectif et cela peut laisser penser que la subdivision choisie n’est pas
optimale pour représenter les données.
4.3. ÉTUDE À PARTIR DES DONNÉES REGROUPÉES EN CLASSES : GRAPHIQUES 68

Figure 4.2 – Trois histogrammes de la variable Taille : un regroupement en classes isoamplitudes


d’amplitude 2 (à gauche) et 10 (au milieu) et un regroupement en 5 classes d’isofréquences (à droite).
Chapitre 4 : Quantitatives continues

Point logiciel
Il n’existe pas de fonctions pour faire un histogramme dans Excel : le graphique appelé
histogramme est en fait un diagramme en barres. Il existe toutefois des macros pour pouvoir en
créer (nous en voyons une en TP). Dans le langage R , il est possible de faire un histogramme
à l’aide de la commande hist ou grâce au package ggplot2 par exemple.

Attention au piège
Lorsque les étudiant·e·s calculent les densités, ils s’aperçoivent que, pour l’isoamplitude, nous devons
diviser les fréquences par la même valeur. Par contre, ils oublient souvent que ce n’est pas le cas pour les
isofréquences.

4.3.2 Polygone des fréquences cumulées


Le polygone des fréquences cumulées est le pendant de la fonction de répartition. L’hypothèse de base
de sa construction est la même que pour les histogrammes : supposer que, une fois les classes formées,
les observations au sein d’une même classe sont réparties uniformément à l’intérieur de cette classe. Du
coup, la seule information que nous avons est que les fréquences cumulées Fk sont vérifiées à la fin de
chaque classe.

Définition 45 (Polygone des fréquences cumulées)


Le polygone des fréquences cumulées associé à un regroupement par classe du type [ak ; bk [
(ou ]ak ; bk ]) est une fonction affine par morceaux vérifiant :
• Elle est nulle avant la première classe effective ; c’est-à-dire avant a1 .
• Elle passe par tous les points (bk ; Fk ).
• Elle est affine sur chaque classe et passe donc par les points (ak , Fk−1 ) et (bk ; Fk ).

Sa représentation graphique est donc une ligne brisée croissante.

Point méthode (Construction du graphe du polygone de fréquences cumulées)


Étant donné un regroupement en classes du type [ak ; bk [ ou ]ak ; bk ], le graphe du polygone de
fréquences cumulées se fait en trois étapes (voir la figure 4.3 pour un exemple sur la variable
Taille avec un regroupement en classes isoamplitudes de longueurs 10) :
1. Placement des points de coordonnées (bk , Fk ) et du point (a1 , 0).

2. Construction des segments de droites reliant les points. Construction des deux demis-
droites :
• Celle d’équation y = 0 venant de −∞ et allant jusqu’au point (a1 , 0).
• Celle d’équation y = 1 partant du point (bK , 1) et allant vers +∞.
4.4. RÉSUMÉS STATISTIQUES APPROCHÉS 69

3. Effacement des points de construction pour ne laisser que les droites.

Polygone des fréquences cumulées Polygone des fréquences cumulées Polygone des fréquences cumulées
1 1 1
0,9 0,9 0,9
0,8 0,8 0,8
0,7 0,7 0,7
0,6 0,6 0,6
0,5 0,5 0,5
0,4 0,4 0,4
0,3 0,3 0,3
0,2 0,2 0,2
0,1 0,1 0,1
0 0 0
135 140 145 150 155 160 165 170 175 180 185 190 195 135 140 145 150 155 160 165 170 175 180 185 190 195 135 140 145 150 155 160 165 170 175 180 185 190 195

Chapitre 4 : Quantitatives continues


Figure 4.3 – Étapes de la construction de la représentation du polygone des fréquences cumulées pour
la variable Taille avec un regroupement en isoamplitude de longueur 10 : placement des points de co-
ordonnées (bk , Fk ) et du point (a1 , 0) (à gauche), construction des segments de droites reliant les points
ainsi que les demis-droites d’équations y = 0 et y = 1 respectivement avant la première classe effective et
après la dernière (au milieu) et effacement des points de construction (à droite).

Attention au piège
L’erreur la plus courante parmi les étudiant·e· est de mettre les points (ak , Fk ) au lieu des points (bk , Fk ) :
la ligne brisée est alors décalée vers la gauche. Dans ce cas, il y a souvent un problème pour la première
demi-droite (celle d’équation y = 0) car elle ne rencontre aucun point.

Exemple fil rouge


Sur la droite de la figure 4.3 est représenté le poygone des fréquences cumulées de la variable Taille. Nous
voyons que les droites avec les pentes les plus élevées correspondent aux classes avec le plus d’effectifs.

Point méthode
Pour différencier des regroupements en classes isoamplitudes et en classes isofréquences, il faut
regarder si les jonctions des segments (c’est-à-dire les points de construction) sont ont leurs
abscisses ou leurs ordonnées répartis régulièrement :
• Si ce sont les abscisses qui sont espacées de la même longueur alors nous avons un re-
groupement en classes isoamplitudes.
• Si ce sont les ordonnées alors nous avons un regroupement en classes isofréquences.

4.4 Résumés statistiques approchés


Les résumés statistiques approchés sont ceux utilisés après le regroupement en classes : nous n’avons
plus d’informations sur la distribution originale et nous essayons d’approcher les paramètres classiques.
Pour ce faire, nous utilisons deux outils :

• Le polygone des fréquences cumulées comme approximation de la fonction de répartition empirique.

• Les centres des classes.

Hypothèse
Nous supposons que les classes sont de la forme ]ak ; bk ] ou [ak ; bk [.
4.4. RÉSUMÉS STATISTIQUES APPROCHÉS 70

Définition 46 (Centre d’une classe)


Étant donnée une classe de la forme ]ak ; bk ] ou [ak ; bk [, nous appelons centre, notée c k , la
valeur :
ak + bk
ck = .
2

Attention au piège
L’erreur la plus souvent commise est de faire la différence des bornes plutôt que la somme : si vous avez
un doute essayez de vous souvenir que le centre est en fait la moyenne de deux points.
Chapitre 4 : Quantitatives continues

4.4.1 Résumé statistique de position


Dans cette partie, nous voyons les approximations pour les résumés statistiques de position.

Classe modale
Nous avons vu que les modes étaient les modalités avec les plus grands effectifs ; l’équivalent des
modalités devient alors les classes.

Définitions 47 (Classe modale)


Étant donné un regroupement en classes, nous avons les définitions suivantes :
• Une classe modale (absolue) de la distribution est une classe avec la plus grande
densité.
• Une classe modale (relative) de la distribution est une classe avec une densité supé-
rieure à celle des classes voisines immédiates. Les classes modales absolues sont les classes
modales dont la densité est plus élevée que celle des autres classes modales.

Attention au piège
Dans cette définition, nous parlons bien de densité et pas de fréquence : pour les regroupements par
isoamplitudes, cela reviendrait au même mais il y a une réelle différence pour les regroupements en
classes isofréquences.

Fractile
Pour estimer les fraciles (approchés), nous utilisons le polygone des fréquences cumulées.

Définition 48 (Fractile approché)


Si nous notons P F C la fonction polygone des fréquences cumulées alors, étant donné un réel α
compris entre 0 et 1, le fractile approché d’ordre α est la valeur x
eα telle que P F C(e
xα ) = α.

À l’aide de cette définition, nous pouvons caractériser tous les fractiles particuliers.

Définitions 49 (Fractiles particuliers)


La médiane approchée est le fractile approché d’ordre 0.5 notée souvent m g e.
Les quartiles approchés sont les fractiles approchés d’ordre 0.25 et 0.75 notés souvent Q e
1
et Q
e .
3
Les déciles approchés sont les fractiles approchés d’ordre 0.1, 0.2,. . ., 0.8 et 0.9 notés souvent
D
e 1, D
e 2 ,. . .,D
e 8 et D
e 9.
Les centiles approchés sont les fractiles approchés avec un ordre k/100, 1 ≤ k ≤ 99 notés
souvent C e k . Parmi eux, C
e 95 et C
e 99 sont souvent utilisés.
4.4. RÉSUMÉS STATISTIQUES APPROCHÉS 71

Point méthode (Estimation à partir d’un graphique)


Construction à partir du graphique :

(1) Tracer le trait horizontal y = α sur le graphe du polygone des fréquences cumulées.
(2) Tracer le trait vertical passant par l’intersection du trait horizontal et de la courbe re-
présentant le polygone.
(3) x
eα est l’abscisse du trait vertical.

(1) (2) (3)

Chapitre 4 : Quantitatives continues


α α α

x

Point méthode (Valeur exacte)


Pour calculer la valeur exacte :
(1) Trouver l’intervalle [Fa ; Fb ] des fréquences cumulées dans lequel se trouve α et les bornes
a et b de la classe correspondante.
(2) Calculer l’équation de la droite, c’est-à-dire :

Fb − Fa
y = fa + (x − a).
b−a

(3) Trouver x
eα vérifiant y = α :

Fb − Fa b−a
α = Fa + xα − a) ⇔ x
(e eα = a + (α − Fa ).
b−a Fb − Fa

(1) (2) (3)

Fb Fb Fb
α α α

Fa Fa Fa

a b a b a x
eαb

Remarque
Nous avons mis dans ce point méthode la démonstration pour retrouver la dernière formule mais vous
pouvez vous contenter du résultat si vous préférez.

Moyenne
Comme expliqué en début de section, nous utilisons les centres comme représentants des classes (voir
la définition 46).
4.5. RÉCAPITULATIF 72

Définitions 50 (Moyenne approchée)


Étant donné un regroupement en classes, la moyenne approchée, notée x,
e se calcule de la
façon suivante :
K K
e= 1
X X
x nk ck = fk ck .
n
k=1 k=1

Remarque
Nous voyons que les formules utilisées sont proches de celles des propositions 5 et 6.
Chapitre 4 : Quantitatives continues

4.4.2 Résumé statistique de dispersion


La dernière partie porte sur les résumés statistiques de dispersion qui ont un sens dans le cas de
regroupement en classes.

Intervalle interquartile
Comme nous avons des approximations des quartiles, nous pouvons donc calculer l’intervalle inter-
quartile.

Définitions 51 (Intervalle interquartile approché)


L’intervalle interquartile
h approché
i de la distribution x1 , . . . , xn est l’intervalle de bornes
Q1 et Q3 ; c’est-à-dire Q1 ; Q3 . La longueur de cet intervalle est un indicatif de dispersion
e e e e

noté IQ
f et valant :
IQ e3 − Q
f =Q e1 .

Variance
Comme pour la moyenne, nous pouvons utiliser les formules avec les effectifs ou les fréquences pour
estimer la variance.

Définitions 52 (Variance approchée)


Étant donné un regroupement en classes, la variance approchée, notée vg
ar (x), se calcule de
la façon suivante :
K 2 X  K2
1X 
vg
ar (x) = n k ck − x
e = fk ck − x
e .
n
k=1 k=1

Enfin, nous avons l’équivalent de la proposition 11.

Proposition 16 (Moyenne des centres aux carrés moins carré de la moyenne approchée)
En notant ck les centres de chaque classe, nk et fk les effectifs et fréquences associés, nous
avons : !
K
f2 e2 1X 2 e2
ar (x) = x − x =
vg nk ck − x
n
k=1

4.5 Récapitulatif
Dans les quatre chapitres, nous avons vu un grand nombre d’outils s’adaptant à un ou plusieurs type
de variables. Nous mettons dans la figure 4.4 le récapitulatif schématique : un outil peut être utilisé pour
4.6. EXERCICES 73

un type de variable si et seulement s’il se trouve dans la zone correspondante.

Quanti Continue

Classes isoamplitudes ou
isofréquences, classe modale,
Quali Nominale
statistiques approchées,
histogramme, polygone régulier
Diagramme de Pareto

Chapitre 4 : Quantitatives continues


Moyenne, quantile, min, max,
Diagramme en barres variance, étendue, IQ, rapport
Tri à plat
Diagramme circulaire Diagramme en bâtons interdécile, skewness, kurtosis,
Mode
Diagramme empilé fonction de répartition
empirique, boxplot

Quanti discrète

Quali Ordinale

Figure 4.4 – Représentation schématique de la possibilité d’utiliser un outil pour un type de variable : si
l’outil se trouve dans la zone d’un type alors il peut être utilisé, sinon cela signifie qu’il n’est pas adapté.

4.6 Exercices
Nous mettons dans cette partie quelques exercices.

4.6.1 Jouons avec le vocabulaire


Le but de cet exercice est de retrouver dans la grille 4.2 dix huit des mots de la figure 4.4 afin de former
le nom d’un des débouchés possibles à la sortie de STID. Les mots peuvent être mis horizontalement,
verticalement et en diagonal ; ils sont parfois écrits à l’endroit et parfois à l’envers. Attention, un des 18
mots est inclus dans un autre.
Si vous avez du mal à trouver tous les mots, ils sont mis en début de section 13.4.1 avant la correction.
4.6. EXERCICES 74
Chapitre 4 : Quantitatives continues

Table 4.2 – Grille pour le mot barré de l’exercice 4.6.1.


V E N N E Y O M L I Q

A R C O E N P C X U B

R I E M P I L E A D O

I A E I P R A R M I X

A L O N F O T E R A P

N U E A S I S U I G L

C C I L L O N N Y R O

E R M E D I A N E A T

S I S O T R U K E M U

L C E N T I L E L M E

N O I T I T R A P E R
Chapitre 5
De l’univarié vers le bivarié
"Méfiez-vous des statisticiens : pour eux, l’être humain moyen possède un testicule et un sein."
Epsilon, personnage du livre "0% De matière grise : Une aventure d’Epsilon" de Chen Apan.

Chapitre 5 : Introduction Bivariée


Dans l’analyse univarié, nous avons analysé chaque variable de façon indépendante. Dans ce cas, si une
variable était corrélée avec une autre, nous ne l’avons pas vu. Dans l’analyse bivariée, nous commençons
à essayer de prendre en compte, de mesurer et d’analyse les liens qui peuvent exister entre deux variables.

Par exemple, si nous reprenons les données de l’enquête sur l’alimentation de 226 personnes âgées de
la région de Bordeaux en 2000 (que nous pouvons trouver dans le livre de De Micheaux et al. (2011)) et
que nous étudions la variable taille, nous obtenons, par exemple, l’histogramme en haut de la figure 5.1.
Cette représentation donne des informations sur la position (il y a une unique classe modale [157,5 ;162,5[),
la dispersion (les valeurs s’étendent de 137,5 à 192,5) mais donne le sentiment que la taille d’un individu
est indépendante de son genre.
Or, si nous regardons les histogrammes en ne conservant que les femmes de l’échantillon (en couleur or
en bas de la figure 5.1) ou que les hommes (en argent en bas de la figure 5.1), nous voyons que les résumés
statistiques ont changé : la classe modale des femmes est plutôt [152,5 ;162,5[ mais celle des hommes est
maintenant [167,5 ;172,5[ ; de plus, la plus grande femme mesure moins de 177,5cm tandis que le plus
petit homme mesure au moins 157,5cm.

5.1 Indicateur de liaisons


Dans les chapitres 6, 7, 8 et 9, l’objectif sera de proposer des indicateurs de liaisons pour évaluer s’il
peut y avoir un lien entre deux variables. Par exemple, dans le début de ce chapitre s’est posée la question
de savoir si le sexe pouvait influencer sur la taille ou non. Ces indicateurs de liaisons dépendent du type
des variables croisées. Étant donnés deux type de variables, nous mettons dans le tableau 5.1 le chapitre
correspondant au croisement étudié.

Table 5.1 – Bilan des chapitres correspondants aux croisements possibles suivant le type de la variable

%
qu’on cherche à expliquer (colonnes) en fonction du type de la variable explicative (lignes). Le sym-
bole est utilisé pour signifier qu’il n’existe pas d’indicateurs de liaisons dans ce sens et qu’il faudra
considérer le sens inverse. Les chapitres en orange signifie que nous considérons, dans ces cas, que la
variable qualitative ordinale est avant tout une variable qualitative.
hhhh
hhhh à expliquer
hhh Qualitative Quantitative Ordinale
en fonction de hhh h

% %
Qualitative 7 6 7
Quantitative 8
Ordinale 7 6 9

Nous pouvons observer qu’il n’y a pas d’indicateurs de liaisons d’un croisement d’une qualitative
expliquée par une quantitative. Cela ne veut pas dire que nous ne pouvons pas étudier la corrélation
entre les deux mais il faudra prendre l’indicateur de liaison correspondant au cas inverse (même si la
causalité est dans le sens que la quantitative impliquerait la qualitative).

75
5.1. INDICATEUR DE LIAISONS 76

40

30
Effectifs

20

10
Chapitre 5 : Introduction Bivariée

140 160 180


Tailles (cm)

Histogramme sur toute la population.

40

30

sexe
Effectifs

Femme
20
Homme

10

140 160 180


Tailles (cm)
Histogramme en séparant la population par sexe.

Figure 5.1 – Représentation par des histogrammes d’isoamplitude 5 de la variable taille (en cm) en
mélangeant toute la population (en haut) puis en divisant suivant les hommes et les femmes (en bas).

Attention au piège
Attention, nous parlons ici d’indicateurs de liaison. En particulier, nous ne pourrons jamais savoir s’il y
a effectivement corrélation ou pas ; pour confirmer (ou infirmer), il faudra faire un test (voir la ressource
2-06 Statistique inférentielle).
5.2. LA CORRÉLATION N’IMPLIQUE PAS LA CAUSALITÉ 77

5.2 La corrélation n’implique pas la causalité


L’erreur la plus couramment commise est de croire qu’une corrélation implique une causalité. Un
excellent exemple est celui proposé par le site La finance pour tous 1 : il y a souvent corrélation entre
les ventes de glaces et le nombre de coup de soleil. Ceci ne veut pas dire que les coups de soleil influent
sur la vente des glaces (ou inversement) mais que, si l’un des deux augmentent alors nous pouvons nous
attendre à ce que l’autre aussi. En particulier, l’effet confondant qui influe sur les deux est la montée des
températures (par exemple l’été).

Chapitre 5 : Introduction Bivariée

1. L’url du site est : https://www.lafinancepourtous.com/juniors/lyceens/l-instant-maths/


correlation-nest-pas-causalite/. En particulier, la vidéo parlant de l’exemple est disponible ici : https:
//youtu.be/I9q4DEppGbo
Chapitre 6
Variable quantitative dépendant d’une variable
qualitative
"La statistique a démontré que la mortalité dans l’armée augmente sensiblement en temps de guerre."
Alphonse Allais.

6.1 Introduction
Chapitre 6 : Quanti/Quanti

Commençons par un exemple, le tableau 6.1 représente le sexe (variable qualitative) et le salaire net
mensuel (variable quantitative) de 17 personnes travaillant en France en 2013 1 .

Sexe Salaire
(Variable X) (Variable Y)
H 3 892e
H 2 100e
H 1 882e
H 2 921e
H 1 709e
H 1 559e
H 1 254e
H 2 405e
F 1 485e
F 2 029e
F 2 368e
F 1 268e
F 1 374e
F 1 794e
F 1 154e
F 3 036e
F 1 619e

Table 6.1 – Exemple de salaires nets mensuels pour des hommes et des femmes salariés en France 2013.

Il est possible de faire une analyse de chaque variable comme nous pouvons le voir sur la figure 6.1.
En particulier, nous constatons qu’il y a légèrement plus de femmes que d’hommes dans l’échantillon et
que plus de 50% des salaires se trouvent en dessous de 1800e. Nous observons également que les plus
grands salaires sont de plus en plus éloignés, signifiant que les salaires les plus hauts sont de plus en plus
forts.
Nous pouvons également calculer des résumés statistiques de la variable Salaire comme la moyenne
(Y ≈ 1 991, 12e) et la variance (var (Y) ≈ 51 5058, 22).
1. En fait, ce sont les 9 déciles des salaires des hommes et des femmes en France en 2013 ; nous avons simplement enlevé
le deuxième décile des hommes pour avoir un échantillon déséquilibré entre les effectifs des deux sous-populations. Source :
INSEE. http://www.inegalites.fr/spip.php?article972

78
6.1. INTRODUCTION 79

Figure 6.1 – Analyse univariée du tableau 6.1 : à gauche est représenté le diagramme circulaire de la
répartition hommes/femmes et à droite la boxplot des salaires.

Chapitre 6 : Quanti/Quanti
Toutefois, comme nous connaissons les sexes de chaque individu, nous pouvons faire la même chose
uniquement sur les individus de sexe féminin ou uniquement sur ceux de sexe masculin. Se pose alors la
question de l’homogénéité : est-ce que le salaire dépend du sexe ? Ou, au contraire, si je choisis au hasard
un individu parmi les hommes dans la population, est-ce que j’ai autant de chances d’avoir un salaire
inférieur à 1 500e que si j’avais choisi parmi femmes ?
Avant de répondre à ces questions, nous avons besoin d’introduire certaines définitions et notations.

Définition 53 (Sous-population)
Une sous-population ou groupe ou classe ou strate est une partie de l’échantillon qui est
identifiée (par exemple nous pouvons isoler les individus correspondant à des hommes ou à des
femmes).

Exemple
En particulier, les femmes de l’échantillon précédent forment une sous-population.

Définitions 54 (et notations)


Étant donnée une variable qualitative X prenant pour modalités {a1 , . . . , aK }, la sous-
population associée à la modalité ak ou groupe k est l’ensemble des individus i vérifiant
xi = a k .
Nous notons nk l’effectif du groupe k (c’est-à-dire le nombre d’individus dans le groupe) et fk
la fréquence associée au groupe k valant fk = nnk où n est le nombre total d’individus.

Exemple fil rouge


Dans l’exemple du tableau 6.1, si nous supposons que la première modalité est "H" et la deuxième "F"(donc
a1 = H et a2 = F), nous avons n1 = 8 et n2 = 9 et les fréquences fk sont représentées sur la partie gauche
de la figure 6.1. Nous pouvons maintenant calculer les statistiques associées à chaque groupe.

Point logiciel
Dans le logiciel Excel, pour ne garder qu’une sous-population, il suffit d’utiliser la commande
filtrer.
6.1. INTRODUCTION 80

Définitions 55 (Moyenne d’un groupe)


Étant données une variable qualitative X prenant pour modalités {a1 , . . . , aK } et une variable
quantitative Y, nous notons Yk la moyenne de la variable Y dans le groupe k. Autrement dit :
n n
1 X 1 X 1 X
Yk = yi = yi = yi 1{xi =ak }
nk nk i=1
nk i=1
i∈Groupe k
tel que xi =ak

où 1 est le symbole de l’indicatrice : 1{xi =ak } vaut 1 si et seulement si xi = ak et 0 sinon.

Exemple fil rouge


Dans l’exemple du tableau 6.1, nous avons Y1 = 2215, 25e et Y2 ≈ 1791, 89e. Nous pouvons donc
constater que la moyenne des salaires des hommes est plus haute que celle des femmes.
Si le salaire ne dépendait pas du sexe, nous nous serions attendus à avoir des moyennes proches dans
les deux groupes.

Proposition 17 (Lien entre les moyennes des groupes et la moyenne globale)


Étant donnée une variable qualitative X prenant pour modalités {a1 , . . . , aK } et une variable
quantitative Y, la moyenne globale se décompose comme suit :
Chapitre 6 : Quanti/Quanti

K K
1X X
Y= nk Yk = fk Yk .
n
k=1 k=1

Autrement dit, la moyenne globale est la moyenne pondérée des moyennes des groupes.

Preuve
1
Pn
Comme Yk = nk i=1 yi 1{xi =ak } , nous avons :

K K
" n
#
1X 1X 1 X
nk Y k = nk × yi 1{xi =ak }
n n nk i=1
k=1 k=1
K n
1 XX
= yi 1{xi =ak }
n i=1
k=1
n K
1X X
= yi 1{xi =ak }
n i=1
k=1
| {z }
=1 car xi vaut forcément
une et une seule de ces valeurs

n
1X
= yi
n i=1
= Y.

nk
La deuxième égalité découle naturellement de la première puisque fk = n .

Exemple fil rouge


Dans l’exemple du tableau 6.1, nous retrouvons :
K
1X 1
nk Y k ≈ [8 × 2215, 25 + 9 × 1791, 89]
n 17
k=1
16127 + 17722
=
17
6.2. RAPPORT DE CORRÉLATION 81

33849
=
17
≈ 1991, 12.

6.2 Rapport de corrélation


Au vu des résultats précédents, nous pouvons nous demander comment se décompose la variance en
fonction des groupes.

Définitions 56 (Variance d’un groupe)


Étant données une variable qualitative X prenant pour modalités {a1 , . . . , aK } et une variable
quantitative Y, nous notons vark (Y) la variance de la variable Y dans le groupe k. Nous
avons :
n n
1 X 2 1 X 2 1 X 2
vark (Y) = yi − Y k = yi − Y k = yi − Yk 1{xi =ak } .
nk nk i=1
nk i=1
i∈Groupe k
tel que xi =ak

Chapitre 6 : Quanti/Quanti
Remarque
Si nous cherchons à mimer naïvement la formule de la décomposition de la moyenne, nous calculerons
donc :
K
X
fk vark (Y).
k=1

Or, chaque variance est calculée uniquement sur un seul groupe et les valeurs sont donc comparées aux
moyennes des groupes (pas à la moyenne globale). Par conséquent, la variabilité entre les groupes n’est
alors pas prise en compte.

Théorème 18 (Décomposition de la variance)


Étant donnée une variable qualitative X prenant pour modalités {a1 , . . . , aK } et une variable
quantitative Y, nous avons :
K K
X X 2
var (Y) = fk vark (Y) + fk Y k − Y
k=1 k=1
K K
1 X 1X 2
= nk vark (Y) + nk Y k − Y .
n n
k=1 k=1

Preuve
Comme précédemment, nous décomposons le calcul :
K K
X X 2
fk vark (Y) + fk Y k − Y
k=1 k=1
K
" n
# K
X 1 X 2 X 2
= fk × yi − Yk 1{xi =ak } + fk Yk − Y
nk i=1
k=1 k=1
K
" n 
# K
X fk X 2
 X 2
= yi2 − 2yi Yk + Yk 1{xi =ak } + fk Y k − Y
nk i=1
k=1 k=1
6.2. RAPPORT DE CORRÉLATION 82

" K n
! K n
! K n
!#
X fk X 2 X fk X X fk X 2
= y 1{xi =ak } + (−2) yi Yk 1{xi =ak } + Y 1{xi =ak }
nk i=1 i nk i=1 nk i=1 k
k=1 k=1 k=1
K
X 2
+ fk Y k − Y
k=1
   
!   
K n K n K n 
X nk X 2 X 1 X  X fk 2 X 
= y 1{xi =ak } − 2 fk Yk × yi 1{xi =ak }  +  Y 1{xi =ak } 
  
nnk i=1 i  nk i=1   nk k i=1 
k=1 k=1 k=1 
| {z } | {z }
Yk nk

K  2 
X 2
+ fk Yk − 2Yk Y + Y
k=1
K n
! K K K K K
X 1X 2 X 2 X fk nk 2 X 2 X X 2
= y 1{xi =ak } −2 fk Y k + Yk + fk Yk − 2 fk Yk Y + fk Y
n i=1 i nk
k=1 k=1 k=1 k=1 k=1 k=1
n K K K K K K
1 X 2X X 2 X 2 X 2 X 2X
= yi 1{xi =ak } −2 fk Y k + fk Y k + fk Yk −2Y fk Yk +Y fk
n i=1
k=1 k=1 k=1 k=1 k=1 k=1
Chapitre 6 : Quanti/Quanti

| {z }| {z } | {z } | {z }
=1 =0 =Y =1
n
1 X 2 2
= yi2 − 2Y + Y
n i=1
2
= Y2 −Y
= var (Y) .

Chaque partie de l’égalité précédente a son propre rôle.

Définition 57
Nous appelons variance totale de l’échantillon, notée souvent V, la variance var (Y).
Nous appelons variance intraclasse, notée souvent W (pour Within), la partie
PK
k=1 fk vark (Y).
Nous appelons variance interclasse, notée souvent B (pour Between), la partie
PK 2
k=1 fk Yk − Y .

Remarque
Avec ces notations, la formule du théorème de la décomposition de la variance s’écrit :

V = W + B.

Une fois cette constatation faite, nous pouvons nous interroger sur la façon d’évaluer les parts impu-
tables aux variances intra et interclasse. Pour cela, nous introduisons un indicateur de liaison

Définition 58 (Rapport de corrélation)


Le rapport de corrélation de Y par rapport à X, noté η 2 (Eta deux), est défini lorsque
V est strictement positif par :
B
η2 = .
V

Cet indicateur mesure la part de variabilité globale imputable aux différences de groupe. Il s’interprète,
multiplié par 100, en pourcentage de la variance expliquée par les classes.
6.2. RAPPORT DE CORRÉLATION 83

Propriétés 19 (rapport de corrélation de Y par rapport à X)


Nous avons les propriétés suivantes :

• η 2 ∈ [0; 1].
• η 2 = 1 si et seulement si W = 0 ; c’est-à-dire que les individus d’un même groupe prennent
tous la même modalité pour Y ; ou encore la variable Y est constante à l’intérieur de
toutes les classes.

• η 2 = 0 si et seulement si B = 0 ; c’est-à-dire que toutes les moyennes des groupes sont


identiques.

Remarque
Le rapport de corrélation de Y par rapport à X indique dans quelle mesure les variations de Y sont
expliquées par X.
Preuve

• Comme B et W sont positifs, nous avons :

Chapitre 6 : Quanti/Quanti
0≤B≤B+W ⇔ 0≤B≤V
0 B V
⇔ ≤ ≤
V V V
⇔ 0 ≤ η 2 ≤ 1.

• Pour le deuxième point, nous avons :


B
η2 = 1 ⇔ =1
V
⇔ B=V
⇔ B=B+W
⇔ W = 0.

• Pour le troisième point, nous avons :


B
η2 = 0 ⇔ =0
V
⇔ B = 0.

Corollaire 20 (Variance interclasse nulle)


Si η 2 = 0, alors les moyennes de toutes les classes (ayant des effectifs non nuls) prennent la
même valeur.

Preuve
PK 2
Nous venons de voir que η 2 = 0 équivaut à B = 0. Or, nous avons B = k=1 fk Y k − Y dont tous les
termes sont positifs. Donc, nous en déduisons :
K
X 2
B=0 ⇔ fk Y k − Y =0
k=1
6.2. RAPPORT DE CORRÉLATION 84

2
⇔ ∀k ∈ {1, . . . , K}, fk Yk − Y =0
2
⇔ ∀k ∈ {1, . . . , K}, fk = 0 ou Yk − Y =0
⇔ ∀k ∈ {1, . . . , K}, fk = 0 ou Yk − Y = 0
⇔ ∀k ∈ {1, . . . , K}, fk = 0 ou Yk = Y.

Donc, toutes les classes (qui ont un effectif non nul) ont une moyenne égale à Y ; par conséquent, toutes
les moyennes prennent la même valeur (à savoir la moyenne globale).

Remarque
Par exemple, nous pouvons avoir le cas suivant :

X Y
1 −1
1 1
2 −2
2 2
alors la première et la deuxième classe possèdent la même moyenne 0 et la moyenne globale vaut 0. Par
Chapitre 6 : Quanti/Quanti

conséquent, la variance interclasse B est nulle.

Corollaire 21 (Variance intraclasse nulle)


Si η 2 = 1, alors les variances de toutes les classes (ayant des effectifs non nuls) valent 0 ; c’est-
à-dire que dans chaque classe, les valeurs sont constants, égales à Ck , propres à chaque groupe
k.

Preuve
PK
Nous venons de voir que η 2 = 1 équivaut à W = 0. Or, nous avons W = k=1 fk vark (Y) dont tous les
termes sont positifs. Donc, nous en déduisons :
K
X
W=0 ⇔ fk vark (Y) = 0
k=1
⇔ ∀k ∈ {1, . . . , K}, fk vark (Y) = 0
⇔ ∀k ∈ {1, . . . , K}, fk = 0 ou vark (Y) = 0.

Donc, toutes les classes (qui ont un effectif non nul) ont une variance nulle.

Remarque
Par exemple, nous pouvons avoir le cas suivant :

X Y
1 3
1 3
2 2
2 2

alors les observations prennent pour chaque classe la même valeur et la variance est donc nulle. Par
conséquent, la variance intraclasse W est nulle.
Un coefficient η 2 égal à 1 signifie donc que la variable Y est très fortement liée à la variable X.
6.3. POINT MÉTHODE 85

Attention au piège
Le rapport de corrélation η 2 n’est pas linéaire. Avec les exemples précédents, nous voyons à peu près
qu’une valeur de η 2 très proche de 1 signifie que la variable Y est très liée à la variable X et que si le
rapport est proche de 0, les moyennes sont plutôt similaires. En revanche, si la valeur est proche de 0.5,
nous ne pouvons pas dire que nous sommes dans une situation équidistante des deux précédentes.

Exemple fil rouge


Nous avons les résultats suivants (valeurs approchées) :

H F
fk 0, 4706 0, 5294
Yk 2215 1792
vark (Y) 635108, 9 324000, 8

Nous pouvons donc calculer les variances intra et interclasses :

B ≈ 44653, 6
W ≈ 470404, 6

et retrouver la valeur de la variance :

Chapitre 6 : Quanti/Quanti
V ≈ 515058, 2.
Enfin, nous pouvons calculer le rapport de corrélation :
B
η2 = ≈ 0, 0867
V
qui est très proche de 0 signifiant qu’il n’y a pas une réelle variabilité interclasse par rapport à la variabilité
totale.

0,001 0,0008

0,0009
0,0007

0,0008
0,0006
0,0007

0,0005
Densité de fréquence

Densité de fréquence

0,0006

0,0005 0,0004

0,0004
0,0003

0,0003
0,0002
0,0002

0,0001
0,0001

0 0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 0 500 1000 1500 2000 2500 3000 3500 4000 4500
Valeur de la variable Valeur de la variable

Figure 6.2 – Histogrammes des salaires en fonction des sexes des individus : les femmes à gauche et les
hommes à droite.

6.3 Point méthode


Nous concluons ce chapitre par un point méthode.

Point méthode (Dépendance entre une variable quanti et une variable quali)
Pour étudier si une variable qualitative X influe sur une variable quantitative Y, nous faisons :
1. Calcul de la variance intra-classe W (voir la définition 57) en utilisant les variances
vark (Y) de chaque groupe k (voir la définition 56).
6.3. POINT MÉTHODE 86

2. Calcul des moyennes Yk de chaque groupe (voir la définition 55) et de la moyenne globale
Y (voir la proposition 17).

3. Calcul de la variance inter-classe B (voir la définition 57) en utilisant les moyenne Yk de


chaque groupe k.
4. Calcul de la variance globale V (voir la définition 57, la remarque qui suit et la proposi-
tion 18).

5. Calcul du rapport de corrélation η 2 (voir la définition 58).


6. Conclure suivant les valeurs de η 2 :
• Si rη 2 est proche de 1 alors il semble que la variable Y est corrélée à la variable
X ; c’est-à-dire que la valeur Yi de l’individu i est très fortement reliée au groupe k
dans lequel l’individu i se trouve ou encore au fait que Xi = ak .
• Si η 2 est proche de 0 alors il semble ne pas y avoir de lien entre les deux variables ;
autrement dit, la valeur de la variable X ne donne pas d’information sur la valeur
de la variable Y.
Chapitre 6 : Quanti/Quanti
Chapitre 7
Liaison entre deux variables qualitatives
"100% des gagnants ont tenté leur chance "
Slogan (tautologique) de la française des jeux

7.1 Introduction
Pour cette partie, nous allons prendre, pour exemple fil rouge, l’enquête pédagogique effectuée auprès
des étudiants de 1ère année du département STID (année 1995-96). Elle permet d’étudier la relation entre
les réponses concernant la poursuite des études : "Envisagez-vous une poursuite d’études après l’obtention
du DUT ?" et l’âge des étudiants découpé en 3 classes.
• La "poursuite d’études" a 3 modalités :

Chapitre 7 : Quali/Quali
1. Oui.
2. Ne sait pas (nsp).
3. Non.
• L’âge est découpé en 3 classes :
1. 18 ans et moins.
2. 19 ans.
3. 20 ans et plus.

7.1.1 Distribution conjointe du couple (X, Y)


Avant de présenter les données, nous devons introduire un certain nombre de notations.

Définition 59 (Effectifs)
Étant données une variable X prenant les modalités {a1 , . . . , ap } et une variable Y prenant
les modalités {b1 , . . . , bq }, nous introduisons les notations suivantes :
• Pour tout k ∈ {1, . . . , p} et tout ℓ ∈ {1, . . . , q}, nous notons nkℓ le nombre d’individus
vérifiant à la fois x = ak et y = bℓ .
• Pour tout k ∈ {1, . . . , p}, nous notons nk• le nombre d’individus vérifiant x = ak ; les nk•
sont appelés les effectifs marginaux du couple (X, Y ). En particulier, nous avons :
q
X
nk• = nkℓ .
ℓ=1

• Pour tout ℓ ∈ {1, . . . , q}, nous notons n•ℓ le nombre d’individus vérifiant y = bℓ ; les n•ℓ
sont appelés les effectifs marginaux du couple (X, Y ). En particulier, nous avons :
p
X
n•ℓ = nkℓ .
k=1

87
7.1. INTRODUCTION 88

• L’effectif total est noté par la suite n ou N et représente le nombre d’individus dans
l’étude. En particulier, nous avons :
p X
X q p
X q
X
n= nkℓ = nk• = n•ℓ
k=1 ℓ=1 k=1 ℓ=1

Définition 60 (Tableau de contingence ou tri croisé en effectifs)


Le tableau de contingence ou tri croisé en effectifs est le tableau résumé des précédentes
notations :
HH Y
HH b1 · · · bℓ · · · bq Total
X H
a1 n11 · · · n1j · · · n1q n1•
.. .. .. .. ..
. . . . .
ak nk1 ··· nkℓ ··· nkq nk•
.. .. .. .. ..
. . . . .
ap np1 ··· npℓ ··· npq np•
Total n•1 ··· n•ℓ ··· n•q n

Exemple fil rouge


Chapitre 7 : Quali/Quali

Dans notre exemple fil rouge, nous avons le tableau des effectifs suivant :

Age
Total
18 ans et moins 19 ans 20 ans et plus
oui 20 10 12 42
Poursuite nsp 2 7 9 18
d’études non 11 7 14 32
Total 33 24 35 92

Remarquons que dans ce tableau, les deux effectifs 7 ne traduisent pas la même information pour les deux
lignes puisque les effectifs marginaux ne sont pas les mêmes. Ce phénomène prendra toute son importance
dans la suite.

Point méthode (Vérifications)


Une fois le tableau des effectifs calculé, il est important de vérifier que les sommes des effectifs
marginaux soient bien égales au nombre total d’individus.

Nous avons aussi les versions fréquentielles des définitions précédentes :

Définition 61 (Fréquences)
Étant données une variable X prenant les modalités {a1 , . . . , ap } et une variable Y prenant
les modalités {b1 , . . . , bq }, nous introduisons les notations suivantes :
• Pour tout k ∈ {1, . . . , p} et tout ℓ ∈ {1, . . . , q}, nous notons fkℓ la fréquence des individus
vérifiant à la fois x = ak et y = bℓ définie pour tout (k, ℓ) ∈ {1, . . . , p} × {1, . . . , q} par :
nkℓ
fkℓ =
n

• Pour tout k ∈ {1, . . . , p}, nous notons fk• la fréquence des individus vérifiant x = ak ;
les fk• sont appelées les fréquences marginales du couple (X, Y ). En particulier, nous
7.1. INTRODUCTION 89

avons :
q
X
fk• = fkℓ .
ℓ=1

• Pour tout ℓ ∈ {1, . . . , q}, nous notons f•ℓ la fréquence des individus vérifiant y = bℓ ;
les f•ℓ sont appelées les fréquences marginales du couple (X, Y ). En particulier, nous
avons :
Xp
f•ℓ = fkℓ .
k=1

Nous avons la proposition suivante :

Proposition 22
Nous avons le résultat suivant :
p X
X q p
X q
X
fkℓ = fk• = f•ℓ = 1.
k=1 ℓ=1 k=1 ℓ=1

Preuve

Chapitre 7 : Quali/Quali
Nous savons que :
p X
q p q
X 1 XX n
nkℓ = n ⇔ nkℓ =
n n
k=1 ℓ=1 k=1 ℓ=1
p X
q
X nkℓ
⇔ =1
n
k=1 ℓ=1
Xp X q p
X q
X
⇔ fkℓ = fk• = f•ℓ = 1.
k=1 ℓ=1 k=1 ℓ=1

Les autres égalités se démontrent de la même façon.

Définition 62 (Distribution conjointe ou tri croisé en fréquences)


La distribution conjointe ou tri croisé en fréquences est le tableau résumé des précé-
dentes notations :
HH Y b
H
· · · bℓ · · · bq Total
X HH 1
a1 f11 · · · f1ℓ · · · f1q f1•
.. .. .. .. ..
. . . . .
ak fk1 · · · fkℓ · · · fkq fk•
.. .. .. .. ..
. . . . .
ap fp1 ··· fpℓ ··· fpq fp•
Total f•1 ··· f•ℓ ··· f•q 1

Exemple fil rouge


Dans notre exemple fil rouge, nous avons le tableau des fréquences suivant :
7.1. INTRODUCTION 90

Age
Total
18 ans et moins 19 ans 20 ans et plus
oui 21,74% 10,87% 13,04% 45,65%
Poursuite nsp 2,17% 7,61% 9,78% 19,57%
d’études non 11,96% 7,61% 15,22% 34,78%
Total 35,87% 26,09% 38,04% 100,00%

7.1.2 Distribution conditionnelle

Pour introduire l’intérêt de la distribution conditionnelle, nous reprenons l’exemple fil rouge :
Exemple fil rouge
À partir des données, nous pouvons nous poser les questions suivantes :

A : quelle est la distribution du caractère "poursuite d’études" ? Celle-ci varie-t-elle en fonction de


l’âge des étudiants ?
B : les étudiants qui déclarent vouloir poursuivre des études sont-ils plus ou moins âgés que les autres ?
Chapitre 7 : Quali/Quali

Dans la suite, nous cherchons à voir si la distribution de l’une des variables est influencée par la
distribution de l’autre. Pour cela, nous calculons les probabilités conditionnelles.

Rappel (Probabilité conditionnelle)


Étant données une variable X prenant les modalités {a1 , . . . , ap } et une variable Y prenant les
modalités {b1 , . . . , bq }, pour tout (k, ℓ) ∈ {1, . . . , p} × {1, . . . , q} tel que P (Y = bℓ ) ̸= 0, nous
calculons la probabilité que X = ak sachant que Y = bℓ par la formule suivante :

P (X = ak , Y = bℓ )
P ( X = ak | Y = bℓ ) =
P (Y = bℓ )

où P ( X = ak | Y = bℓ ) est la probabilité que X = ak sachant que Y = bℓ . Elle est aussi parfois


notée PY=bℓ (X = ak ).

Dans le cadre de la statistique, nous n’avons pas accès aux lois des variables et devons les estimer par
des estimateurs empiriques. Ainsi, nous avons les deux types de tableaux suivants :

Définition 63 (Tableaux des distributions conditionnelles)


Étant données une variable X prenant les modalités {a1 , . . . , ap } et une variable Y prenant les
modalités {b1 , . . . , bq }, le tableau de la distribution conditionnelle de Y sachant X est
défini par :
HH Y
b · · · bℓ · · · bq Total
HH 1
H
X
n1q
a1 n11
n1• · · · nn1•1ℓ
· · · n1• 1
.. .. .. .. ..
. . . . .
nk1 nkℓ nkq
ak nk• · · · nk• · · · nk• 1
.. .. .. .. ..
. . . . .
np1 nkℓ npq
ap np• · · · np• · · · np• 1
f•1 · · · f•ℓ · · · f•q 1
7.2. INDÉPENDANCE 91

Le tableau de la distribution conditionnelle de X sachant Y est défini par :

HH Y b
H
··· bℓ ··· bq
X HH 1
n11 n1ℓ n1q
a1 n•1 ··· n•ℓ ··· n•q f1•
.. .. .. .. ..
. . . . .
nk1 nkℓ nkq
ak n•1 ··· n•ℓ ··· n•q fk•
.. .. .. .. ..
. . . . .
np1 nkℓ npq
ap n•1 ··· n•ℓ ··· n•q fp•
Total 1 ··· 1 ··· 1 1

Attention au piège
Notons que dans ces tableaux, la dernière colonne ou dernière ligne, dont les cases ne sont pas toutes
égales à 1, ne représentent pas la somme des cases précédentes.

Exemple fil rouge


Dans notre exemple fil rouge, le tableau de poursuite d’études selon l’âge est le suivant :

Age
18 ans et moins 19 ans 20 ans et plus

Chapitre 7 : Quali/Quali
oui 60,61% 41,67% 34,29% 45,65%
Poursuite nsp 6,06% 29,17% 25,71% 19,57%
d’études non 33,33% 29,17% 40,00% 34,78%
Total 100% 100% 100% 100,00%

Ce tableau permet de répondre à la question A de savoir si la distribution de poursuite d’études


varie en fonction de l’âge ou non. En l’occurrence, il semblerait que plus les individus sont jeunes, plus
leur choix est déterminé notamment vers la poursuite d’études et plus ils vieillissent, moins ils semblent
vouloir poursuivre des études.

Le tableau de l’âge selon la poursuite d’études est le suivant :

Age
Total
18 ans et moins 19 ans 20 ans et plus
oui 47,62% 23,81% 28,57% 100,00%
Poursuite nsp 11,11% 38,89% 50,00% 100,00%
d’études non 34,38% 21,88% 43,75% 100,00%
35,87% 26,09% 38,04% 100,00%

Ce tableau permet de répondre à la question B puisqu’en fixant la modalité de la variable poursuite


d’études à "oui", nous pouvons regarder la distribution par tranches d’âge et voir que c’est chez les plus
jeunes que le souhait de poursuite d’études est le plus marqué.

Nous pouvons représenter les distributions conditionnelles sous forme de diagrammes empilés (voir la
figure 7.1) : nous pouvons ainsi les comparer. Nous pouvons également regarder chaque distribution condi-
tionnellement à une réponse à l’aide d’un diagramme en tuyaux d’orgue ou de Pareto (voir la figure 7.2) :
dans ce cas, la comparaison est plus compliquée mais nous pouvons étudier chaque distribution.

7.2 Indépendance
Dans l’exemple fil rouge, la question qui se pose est de savoir s’il y a une (in)dépendance entre la
volonté ou non de poursuivre les études et l’âge des étudiants.
7.2. INDÉPENDANCE 92

Diagrammes empilés de la poursuite d'études suivant l'âge Diagrammes empilés de l'âge suivant la poursuite d'études
100,00% 100,00%

90,00% 90,00%

80,00% 80,00%

70,00% 70,00%

60,00% 60,00%
Non 20 ans et plus
50,00% 50,00%
NSP 19 ans

40,00% Oui 40,00% 18 ans et moins

30,00% 30,00%

20,00% 20,00%

10,00% 10,00%

0,00% 0,00%
18 ans et moins 19 ans 20 ans et plus Oui NSP Non

Figure 7.1 – Représentation des diagrammes empilés des différentes distributions : à gauche, la distri-
bution de la poursuite d’études en fonction de l’âge et, à droite, la distribution de l’âge en fonction de la
poursuite d’études.

18 ans et moins 19 ans 20 ans et plus


70,00% 70,00% 70,00%

60,00% 60,00% 60,00%

50,00% 50,00% 50,00%

40,00% 40,00% 40,00%

30,00% 30,00% 30,00%

20,00% 20,00% 20,00%

10,00% 10,00% 10,00%

0,00% 0,00% 0,00%


Oui NSP Non Oui NSP Non Oui NSP Non
Chapitre 7 : Quali/Quali

Fréquences conditionnelles en fonction de l’âge

Oui NSP Non


50,00% 50,00% 50,00%
45,00% 45,00% 45,00%
40,00% 40,00% 40,00%
35,00% 35,00% 35,00%
30,00% 30,00% 30,00%
25,00% 25,00% 25,00%
20,00% 20,00% 20,00%
15,00% 15,00% 15,00%
10,00% 10,00% 10,00%
5,00% 5,00% 5,00%
0,00% 0,00% 0,00%
18 ans et moins 19 ans 20 ans et plus 18 ans et moins 19 ans 20 ans et plus 18 ans et moins 19 ans 20 ans et plus

Fréquences conditionnelles en fonction du souhait de poursuivre des études ou non

Figure 7.2 – Représentation des tuyaux d’orgue des différentes fréquences conditionnelles.

7.2.1 Définitions
Pour répondre à cette question, nous avons besoin de faire un petit rappel :

Rappel (Indépendance de deux variables)


Étant données une variable X prenant les modalités {a1 , . . . , ap } et une variable Y prenant les
modalités {b1 , . . . , bq }, nous disons que les variables X et Y sont indépendantes si pour tout
(k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}, nous avons :

P (X = ak , Y = bℓ ) = P (X = ak ) P (Y = bℓ ) .

La proposition suivante nous permet de voir l’indépendance de deux variables d’une autre façon :
7.2. INDÉPENDANCE 93

Propriétés 23 (Indépendance de deux variables)


Étant données une variable X prenant les modalités {a1 , . . . , ap } et une variable Y prenant les
modalités {b1 , . . . , bq }, si les variables X et Y sont indépendantes alors pour tout (k, ℓ) ∈
{1, . . . , p} × {1, . . . , q} tel que P (Y = bℓ ) ̸= 0, nous avons :

P ( X = ak | Y = bℓ ) = P (X = ak ) .

Preuve
Par la combinaison des deux définitions, nous avons :

P (X = ak , Y = bℓ )
P ( X = ak | Y = bℓ ) =
P (Y = bℓ )
P (X = ak ) P (Y = bℓ )
=
P (Y = bℓ )
= P (X = ak ) .

Exemple fil rouge


Si nous supposons que les variables sont indépendantes, alors le fait de vouloir poursuivre ou non ses
études ne devrait pas avoir de lien avec l’âge. Donc, dans le tableau des probabilités conditionnelles de la
poursuite d’études en fonction de l’âge, nous devrions avoir les mêmes fréquences tout au long de chaque

Chapitre 7 : Quali/Quali
ligne ; autrement dit, les 3 premières colonnes seraient identiques entre elles et identiques à la colonne
finale.

Cette propriété se traduit de la façon suivante :

Définition 64 (Indépendance)
Nous disons que le caractère Y ne dépend pas du caractère X si et seulement si pour tout
(k, k ′ , ℓ) ∈ {1, . . . , p} × {1, . . . , p} × {1, . . . , q}, nous avons :
nkℓ nk ′ ℓ
= .
nk• nk ′ •

Proposition 24
Nous avons les trois propriétés suivantes :

• Interprétation : Y ne dépend pas de X si et seulement si pour tout (k, ℓ) ∈ {1, . . . , p} ×


{1, . . . , q}, nous avons :
nkℓ n•ℓ
= .
nk• n
• Y ne dépend pas de X si et seulement si pour tout (k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}, nous
avons :
nk• n•ℓ
nkℓ =
n
ou encore, en fréquences :
fkℓ = fk• f•ℓ .

• Réciprocité : Si Y ne dépend pas de X alors X ne dépend pas de Y.


7.2. INDÉPENDANCE 94

Preuve
Interprétation :
Nous savons que pour tout ℓ ∈ {1, . . . , q}, nous avons :
Pp
n•ℓ k=1 nkℓ
=
n n
p
X nkℓ
=
n
k=1
p
X nkℓ nk•
= .
nk• n
k=1

Or, comme Y ne dépend pas de X, nous savons que pour tout (k, k ′ , ℓ) ∈ {1, . . . , p}×{1, . . . , p}×{1, . . . , q},
nous avons :
nkℓ nk ′ ℓ
= .
nk• nk ′ •
Une autre façon de le voir est de constater que sur toute une colonne, la valeur de nnk• kℓ
est la même donc
ne dépend pas de k. Notons, C cette valeur, nous avons donc :
p
n•ℓ X nkℓ nk•
=
n nk• n
k=1
p
X nk•
= C
n
k=1
p
X nk•
= C
Chapitre 7 : Quali/Quali

n
k=1
Pp
k=1 nk•
= C
n
n
= C
n
= C.

Autrement dit, pour tout (k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}, nous avons :
nkℓ n•ℓ
=C= .
nk• n
Lien avec les probabilités :
Ce résultat est une conséquence du précédent : Y ne dépend pas de X si et seulement si pour tout
(k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}, nous avons :
nkℓ n•ℓ nk• n•ℓ
= ⇔ nkℓ =
nk• n n
nkℓ nk• n•ℓ
⇔ =
n nn
nk• n•ℓ
⇔ fkℓ =
n n
⇔ fkℓ = fk• f•ℓ .

Réciprocité :
Y ne dépend pas de X si et seulement si pour tout (k, k ′ , ℓ) ∈ {1, . . . , p} × {1, . . . , p} × {1, . . . , q}, nous
avons
nkℓ n•ℓ
= .
nk• n
Or
nkℓ nk•
=
n•ℓ n
n’est possible par la première propriété que si et seulement si X ne dépend pas de Y.
7.2. INDÉPENDANCE 95

Attention au piège
En théorie, X et Y sont indépendantes si et seulement si :

∀(k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}fkℓ = fk• f•ℓ .

Partant de ce constat, nous pourrions considérer qu’il suffit de vérifier cette propriété dans le tableau des
fréquences et que, si elle n’est pas vérifiée pour au moins une case, cela signifie que X et Y ne sont pas
indépendantes.
Or, si nous mettons une règle aussi stricte, nous rejetterons quasiment à chaque fois l’hypothèse
d’indépendance y compris lorsque celle-ci est vraie car nous ne tenons pas compte de la fluctuation des
variables aléatoires. Seul un test d’hypothèse permettra de répondre à cette problématique.

7.2.2 Liaison entre deux variables qualitatives


Pour apprécier à quel point nous sommes proches ou non d’une relation d’indépendance, nous introdui-
sons le tableau des effectifs croisés qu’il faudrait avoir théoriquement si les variables étaient indépendantes.
Pour cela, nous regardons ce que vaudraient les effectifs de chaque variable (ou effectifs marginaux) si
nous étions sous l’hypothèse d’indépendance.

Définition 65 (Effectif théorique)


Étant données une variable X prenant les modalités {a1 , . . . , ap } et une variable Y prenant les
modalités {b1 , . . . , bq }, nous appelons effectif théorique, noté ckℓ , l’effectif affecté au couple
de modalités (ak , bℓ ) correspondant aux deux hypothèses suivantes :

• les deux caractères X et Y sont indépendants,

Chapitre 7 : Quali/Quali
• les distributions marginales de X et Y de ce tableau de contingence théorique sont les
mêmes que celles du tableau de contingence observé.

Par les résultats précédents, nous avons :

Proposition 25 (Valeurs des effectifs théoriques)


Avec les notations précédentes, nous avons pour tout (k, ℓ) ∈ {1, . . . , p} × {1, . . . , q} la formule
suivante :
nk• n•ℓ
ckℓ = .
n

Preuve
C’est une conséquence des résultats de la section précédente.

Attention au piège
Attention, comme son nom l’indique, cet effectif n’est que théorique et il n’a pas de raisons d’être un
nombre entier (un peu comme quand nous entendons que chaque femme possède 2,2 enfants en moyenne).

Définition 66 (Tableau des effectifs théoriques)


Le tableau des effectifs théoriques est le suivant :
HH Y
H
b1 ··· bℓ ··· bq Total
X HH
n1• n•q
a1 c11 = n1•nn•1 · · · c1ℓ = n1•nn•ℓ · · · c1q = n n1•
.. .. .. .. ..
. . . . .
nk• n•1 nk• n•ℓ nk• n•q
ak ck1 = n ··· ckℓ = n ··· ckq = n nk•
.. .. .. .. ..
. . . . .
n n n n n n
ap cp1 = p•n •1 ··· cpℓ = p•n •ℓ ··· cpq = p•n •q np•
Total n•1 ··· n•ℓ ··· n•q n
7.2. INDÉPENDANCE 96

Remarque
Nous retrouvons ainsi les mêmes marginales dans le tableau des effectifs observés et celui des effectifs
théoriques.

Exemple fil rouge


Dans notre exemple, nous obtenons le tableau des effectifs théoriques suivants :

Age
Total
18 ans et moins 19 ans 20 ans et plus
oui 15,07 10,96 15,98 42
Poursuite nsp 6,46 4,70 6,85 18
d’étude non 11,48 8,35 12,17 32
Total 33 24 35 92

Nous voyons que les effectifs théoriques ne sont pas des entiers.

À partir de ces notations, nous pouvons introduire la statistique du Khi2 :

Définition 67 (Statistique du Khi2)


À l’aide des notations précédentes, la statistique du Khi2, notée χ2n , est définie par :
p X
q 2
X (nkℓ − ckℓ )
χ2n = .
Chapitre 7 : Quali/Quali

ckℓ
k=1 ℓ=1

Remarque
La division par ckℓ sert à normaliser, nous verrons dans la formule de la statistique Φ2 l’intérêt de cette
normalisation.
En regardant cette statistique, nous pouvons nous demander l’intérêt du carré dans cette formule. Si
nous mettons de côté la normalisation, regardons ce qu’il arriverait sans le carré :
p X
X q p X
X q p X
X q
(nkℓ − ckℓ ) = nkℓ − ckℓ
k=1 ℓ=1 k=1 ℓ=1 k=1 ℓ=1
= n−n
= 0.

Dans le cas des fréquences, nous avons remarqué que les variables sont indépendantes si et seulement
si fkℓ = fk• f•ℓ . Nous pouvons ainsi calculer le tableau des fréquences théoriques.

Définition 68 (Tableau des fréquences théoriques)


Le tableau des fréquences théoriques est le suivant :
HH Y
HH b1 ··· bℓ ··· bq Total
X H
a1 f1• f•1 · · · f1• f•ℓ · · · f1• f•q f1•
.. .. .. .. ..
. . . . .
ak fk• f•1 · · · fk• f•ℓ · · · fk• f•q fk•
.. .. .. .. ..
. . . . .
ap fp• f•1 ··· fp• f•ℓ ··· fp• f•q fp•
Total f•1 ··· f•ℓ ··· f•q 1
7.2. INDÉPENDANCE 97

À l’aide des notations précédentes, nous pouvons introduire la statistique du Φ2 qui se calcul à
partir des fréquences théoriques et qui est liée à la statistique du χ2n (comme nous le verrons dans la
proposition 26).

Définition 69 (Statistique du Phi2)


À l’aide des notations précédentes, la statistique du Phi2, notée Φ2 , est définie par :
q
p X 2
X (fkℓ − fk• f•ℓ )
Φ2 = .
fk• f•ℓ
k=1 ℓ=1

Nous avons le lien suivant entre les deux statistiques :

Proposition 26 (Lien entre le χ2n et le Φ2 )


À l’aide des notations précédentes, nous avons :

χ2n
Φ2 = .
n

Preuve

Chapitre 7 : Quali/Quali
Avec les notations précédentes, nous avons :
p q 2
χ2n 1 X X (nkℓ − ckℓ )
=
n n ckℓ
k=1 ℓ=1
p X q nk• n•ℓ 2

1 X nkℓ − n
= nk• n•ℓ
n n
k=1 ℓ=1
p X q  nkℓ nk• n•ℓ
2
1 X n n − n2
= nk• n•ℓ
n n n2
k=1 ℓ=1
p X
q nkℓ nk• n•ℓ 2

X 1 n2 n − n × n
= 2
× nk• n•ℓ
n
k=1 ℓ=1 n × n
p X q 2
X (fkℓ − fk• f•ℓ )
=
fk• f•ℓ
k=1 ℓ=1
= Φ2 .

Remarque
Au vu de la proposition précédente, les deux statistiques valent la même chose à une constante multipli-
cative près et ont donc les mêmes propriétés.

Proposition 27 (Khi2/Phi2 et indépendance)


Nous avons la propriété suivante :

Φ2 = 0 ⇔ χ2n = 0 ⇔ X et Y sont indépendants.


7.2. INDÉPENDANCE 98

Preuve
La première équivalence est triviale avec la proposition précédente :

χ2n
χ2n = 0 ⇔ =0
n
⇔ Φ2 = 0.

Pour l’autre équivalence, nous avons :


p X
q 2
X (nkℓ − ckℓ )
χ2n = 0 ⇔ =0
ckℓ
k=1 ℓ=1
2
(nkℓ − ckℓ )
⇔ ∀(k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}, =0
ckℓ
2
⇔ ∀(k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}, (nkℓ − ckℓ ) = 0
⇔ ∀(k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}, nkℓ − ckℓ = 0
nk• n•ℓ
⇔ ∀(k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}, nkℓ =
n
⇔ X et Y sont indépendants.

La deuxième équivalence est vraie car les termes de la somme sont tous positifs et la dernière par la
proposition de la partie précédente.

Remarque
Chapitre 7 : Quali/Quali

Pour étudier si les variables sont indépendantes ou non, nous mesurons donc l’éloignement de χ2n ou Φ2
par rapport à 0.

En particulier, nous pouvons nous intéresser à la contribution au Khi2 de chaque couple de modalités
(ak , bℓ ).

Définition 70 (Tableau des contributions au Khi2)


Le tableau des contributions au Khi2 est le tableau résumé des termes de la statistique
du Khi2 :
HH Y
HH b1 ··· bℓ ··· bq
X H
(n11 −c11 )2 (n1j −c1ℓ )2 (n1q −c1q )2
a1 c11 ··· c1ℓ ··· c1q
.. .. .. ..
. . . .
(nk1 −ck1 )2 (nkℓ −ckℓ )2 (nkq −ckq )2
ak ck1 ··· ckℓ ··· ckq
.. .. .. ..
. . . .
2 2
(np1 −cp1 ) (npℓ −cpℓ ) (npq −cpq )2
ap cp1 ··· cpℓ ··· cpq

Exemple fil rouge


Dans notre exemple, le tableau des contributions au Khi2 est :

Age
18 ans et moins 19 ans 20 ans et plus
oui 1,616 0,084 0,991
Poursuite nsp 3,076 1,131 0,676
d’étude non 0,020 0,218 0,274

Nous voyons que dans les couples de modalités qui contribuent le plus, il y a :
1. 18 ans et moins qui ne savent pas.
7.2. INDÉPENDANCE 99

2. 18 ans et moins qui veulent continuer les études.


3. 19 ans qui ne savent pas.
Grâce à ce tableau, nous en déduisons les valeurs du Khi2 en sommant toutes les cases et du Phi2 en
divisant χ2n par n :
χ2n ≈ 8, 085 et Φ2 ≈ 0, 087882599.

Définition 71 (Contribution à la statistique du χ2 )


Nous pouvons séparer les contributions en différentes catégories :

• Attraction du couple (k, ℓ) si nkℓ > ckℓ .


• Répulsion du couple (k, ℓ) si nkℓ < ckℓ .
(nkq −ckq )2
• La contribution de la cellule (k, ℓ) au χ2 est ckq .

De même, nous avons le tableau des contribution au Phi2.

Définition 72 (Tableau des contributions au Phi2)


Le tableau des contributions au Phi2 est le tableau résumé des termes de la statistique
du Phi2 :

Chapitre 7 : Quali/Quali
HH Y
H b1 ··· bℓ ··· bq
X HH
(f11 −f1• f•1 )2 2
(f1q −f1• f•q )2
a1 f1• f•1 · · · (f1ℓf−f 1• f•ℓ )
1• f•ℓ
··· f1• f•q
.. .. .. ..
. . . .
(fk1 −fk• f•1 )2 (fkℓ −fk• f•ℓ )2 (fkq −fk• f•q )2
ak fk• f•1 ··· fk• f•ℓ ··· fk• f•q
.. .. .. ..
. . . .
(fp1 −fp• f•1 )2 (fpℓ −fp• f•ℓ )2 (fpq −fp• f•q )2
ap fp• f•1 ··· fp• f•ℓ ··· fp• f•q

Remarque
Les définitions 71 peuvent être adaptées au cas du Φ2 en comparant cette fois fkℓ et fk• f•ℓ .

7.2.3 La statistique V 2 de Cramer


Comme pour le chapitre 6, nous cherchons à connaître les valeurs maximales des statistiques pour
apprécier l’indépendance.

Proposition 28 (Valeurs maximales et minimales du Khi2)


Nous avons :
0 ≤ χ2n ≤ n min(p − 1, q − 1).

Remarque
Les valeurs maximales sont obtenues dans des cas de fréquences particulières et dans le cas où l’une des
variables est une fonction de l’autre.
7.3. POINT MÉTHODE 100

Définition 73 (Statistique V 2 de Cramer)


À l’aide des notations précédentes, la statistique V 2 de Cramer est définie par :

χ2n Φ2
V2 = = .
n min(p − 1, q − 1) min(p − 1, q − 1)

Avec les résultats précédents, nous avons les propriétés suivantes :

Proposition 29 (Comportement du V 2 de Cramer)


Nous avons :
• 0 ≤ V 2 ≤ 1.

• V 2 = 0 ⇔ X et Y sont indépendantes.

Il existe une fonction f telle que Y = f (X)
• V2 = 1 ⇒ . Autrement dit, il existe une
Il existe une fonction g telle que X = g(Y)
relation fonctionnelle entre X et Y.

Exemple fil rouge


Pour l’exemple, le V 2 de Cramer vaut 0, 0439413. La valeur étant tellement faible qu’on peut considérer
qu’il n’y a pas de dépendance entre la classe d’âge et le fait de penser continuer les études ou non.
Chapitre 7 : Quali/Quali

7.3 Point méthode


Nous concluons ce chapitre par un point méthode.

Point méthode (Corrélation pour deux variables qualitatives)


Pour étudier la corrélation entre deux variables qualitatives X et Y, nous faisons :
• Par les effectifs :
1. Calcul du tableau de contingence ou tri croisé en effectif (voir les définitions 59
et 60).
2. Calcul du tableau des effectifs théoriques (voir la définition 66 et la proposition 25).
3. Calcul du tableau de contribution au Khi2 (voir la définition 70).
4. Calcul de la statistique du Khi2 (voir la définition 67).

• Par les fréquences :


1. Calcul de la distribution conjointe aussi appelée tri croisé en fréquences (voir les
définitions 61 et 62).
2. Calcul du tableau des fréquences théoriques (voir la définition 68).
3. Calcul du tableau de contribution au Phi2 (voir la définition 72).
4. Calcul de la statistique du Phi2 (voir la définition 69).
Puis, dans chacun des cas, nous avons :
5. Calcul du V 2 de Cramer (voir la définition 73).

6. Conclure suivant les valeurs de V 2 :


• Si V 2 est proche de 1 alors il semble y avoir une corrélation entre les deux variables ;
c’est-à-dire que connaître la valeur de l’une donne énormément d’informations sur
la valeur de l’autre.
7.3. POINT MÉTHODE 101

• Si V 2 est proche de 0 alors il semble que les deux variables sont indépendantes ;
c’est-à-dire que connaître la valeur de l’une n’apporte pas d’information (ou peu)
sur la valeur de l’autre.

Chapitre 7 : Quali/Quali
Chapitre 8
Liaison entre deux variables quantitatives
"Il est prouvé que fêter les anniversaires est bon pour la santé. Les statistiques montrent que les
personnes qui en fêtent le plus deviennent les plus vieilles."
Den Hartog.

8.1 Introduction
Dans cette partie, nous étudions le lien entre deux variables quantitatives. Pour illustrer nos propos,
nous prenons comme exemple fil rouge le cas d’étudiants dont nous connaissons le nombre d’heures passées
à étudier pour un examen et les notes (sur 100) qu’ils ont obtenues. Le tableau des données individuelles
est donné dans le tableau 8.1.

Table 8.1 – Tableau de données individuelles utilisé comme fil rouge.

Étudiant Heures d’études Note (sur 100)


Chapitre 8 : Quali/Quanti

1 7 70
2 6 50
3 10 90
4 7 75
5 12 85
6 5 60
7 4 55
8 10 80
9 9 70

Nous pouvons alors nous demander s’il existe un lien entre les deux phénomènes. Si oui, de quelle
nature est-il ? Nous pouvons également nous demander si le travail influe sur la note. Remarquons toutefois
que la question inverse semble plus compliquée à vérifier dans la mesure où le temps de travail a été mesuré
avant l’obtention de la note. Il n’y pas ici de symétrie entre les deux problématiques.

8.1.1 Description des données


Nous pouvons commencer par calculer des statistiques de position et de dispersion (voir le tableau 8.2).

Table 8.2 – Tableau de données individuelles utilisé comme fil rouge.

Moyenne Variance
X ≈ 7, 8 ≈ 6, 17
Y ≈ 70, 6 ≈ 163, 58

Nous pouvons également représenter les points afin de voir si nous repérons visuellement une relation
particulière. La figure 8.1 représente le nuage de points avec la valeur moyenne des heures d’études (trait

102
8.1. INTRODUCTION 103

vertical) et la moyenne des notes (trait horizontal). Le point à l’intersection des deux traits correspond
au barycentre du nuage.

100

95
3
90
5
85
8
80
4
75
9
Notes

70
1
65
6
60
7
55
2
50

45

40
3 4 5 6 7 8 9 10 11 12 13
Heures d'études

Chapitre 8 : Quali/Quanti
Figure 8.1 – Nuage de points de l’exemple. Les traits symbolisent les emplacements des moyennes.

Vis-à-vis des droites symbolisant les moyennes, nous pouvons remarquer que les points sont surtout
situés en bas à gauche ou en haut à droite. De plus, il semblerait qu’ils se concentrent autour d’une droite
croissante assez marquée : plus le nombre d’heures croît, meilleure est la note.
La (mauvaise) utilisation de la statistique à travers les âges
En 2005, la Floride décide d’adopter la loi Stand Your Ground qui permet à chaque personne de pouvoir
riposter si elle pense qu’elle est en position de légitime défense. Par exemple, si vous vous faites braquer
par quelqu’un dans la rue et que vous pourriez vous enfuir sans mettre votre vie en jeu, vous deviez fuir
avant cette loi. Depuis cette loi, vous avez le droit de tirer le ou la premier·ère. En 2014, le département
de l’application de la loi de Floride publia le graphique mis en figure 8.2 pour montrer l’évolution du
nombre de morts et l’impact de cette loi. À première vue, nous avons envie de dire que cette loi a permis
de diminuer fortement le nombre de morts. Toutefois, si on regarde de plus près, on s’aperçoit que l’axe
des ordonnées est inversé : en fait, il y a eu beaucoup plus de morts après la mise en place de cette loi.
Notons que le graphique représente une série chronologique qui est un cas un peu particulier de croise-
ment de variables quantitatives. Ce type de graphique ne sera donc pas utilisé dans le cours mais la mise
en garde reste la même pour des nuages de points : inverser un axe peut être source d’incompréhensions.

L’image 8.2 a été récupérée sur le site :


https://www.businessinsider.fr/us/gun-deaths-in-florida-increased-with-stand-your-ground-2014-2.
8.1. INTRODUCTION 104

Figure 8.2 – Nombre de morts par armes à feu en Floride par année. L’axe des ordonnées est inversé ce
qui perturbe l’interprétation.
Chapitre 8 : Quali/Quanti

8.1.2 Vers la notion de covariance


Avant de continuer, nous avons besoin d’introduire une nouvelle notion :

Définition 74 (Variables centrées)


Nous disons que la variable x est centrée si sa moyenne x est nulle.
Nous disons que nous centrons la variable quand nous la transformons comme suit pour
tout i ∈ {1, . . . , n} :
xi ← xi − x.

Exemple fil rouge


Dans l’exemple fil rouge, le tableau des variables centrées est le suivant :

Heures d’études Notes (sur 100) Double


(centrées) (centrées) Produit
1 −0, 78 −0, 56 0, 43
2 −1, 78 −20, 56 36, 54
3 2, 22 19, 44 43, 21
4 −0, 78 4, 44 −3, 46
5 4, 22 14, 44 60, 99
6 −2, 78 −10, 56 29, 32
7 −3, 78 −15, 56 58, 77
8 2, 22 9, 44 20, 99
9 1, 22 −0, 56 −0, 68
8.2. COVARIANCE 105

Remarque
Le centrage des variables permet de voir certaines particularités plus facilement :
• Une valeur centrée négative signifie que la valeur initiale est en-dessous de la moyenne.
• À l’inverse, une valeur centrée positive signifie que la valeur initiale est au-dessus de la moyenne.

• Une valeur centrée proche de zéro signifie que la valeur initiale est proche de la moyenne.

Remarque
Nous pouvons vouloir représenter le nuage de points centrés, pour cela, il suffit de reprendre le graphique
précédent et de déplacer les axes sur les emplacements des moyennes (comme sur la figure 8.1).

Exemple fil rouge


Comment interpréter ces variables centrées ? Dans le tableau précédent, nous avons ajouté une colonne
contenant les doubles produits des variables centrées. Nous voyons plusieurs configurations :
• les valeurs positives et très positives : cela signifie que les deux valeurs sont chacune du même côté
de la moyenne (soit toutes les deux au-dessus, soit toutes les deux en-dessous). C’est le cas des
individus 2, 3, 5, 6, 7 et 8.
• les valeurs négatives ou très négatives : dans ce cas, les signes sont opposés et l’une des valeurs est
au-dessus de la moyenne et l’autre en-dessous. C’est le cas de l’individu 4.
• les valeurs proches de 0 : dans ce cas, soient les deux valeurs sont proches des moyennes, soit l’une
est très très proche de la moyenne.
Dans notre cas, la somme des doubles produits sera très positives indiquant que la plupart des valeurs
sont du même côté de la moyenne et qu’il y a certainement une corrélation.

Chapitre 8 : Quali/Quanti
8.2 Covariance
Commençons par la définition.

Définition 75 (Covariance)
Étant données deux variables x et y, la covariance entre x et y est définie par :
n
1X
cov (x, y) = (xi − x) (yi − y) .
n i=1

Exemple fil rouge


Dans l’exemple, la covariance vaut approximativement 27,35. Nous voyons qu’elle est éloignée de 0 de
façon positive. Si la valeur avait été négative, il y aurait eu une corrélation négative : plus x est grand et
plus y serait petit.

Proposition 30 (Lien avec la variance)


var (x) = cov (x, x) .

Preuve
Nous avons :
n
1X
cov (x, x) = (xi − x) (xi − x)
n i=1
8.2. COVARIANCE 106

n
1X 2
= (xi − x)
n i=1
= var (x) .

Nous pouvons ensuite lister quelques une des propriétés de la covariance :

Propriétés 31 (Covariance)
Étant données deux variables x et y de même longueur n, alors nous avons pour a et b réels :

1. var (x + y) = var (x) + var (y) + 2cov (x, y).


2. cov (ax, by) = abcov (x, y).
3. cov (x, y) = cov (y, x).

4. Comme pour la variance, nous avons une formule pratique :


n n
! n
!
1X 1X 1X
cov (x, y) = (xi yi ) − xi yi = xy − x y.
n i=1 n i=1 n i=1

5. Si x et y sont indépendantes alors cov (x, y) = 0. Il n’y a pas de réciproque (c’est-à-dire


qu’on peut avoir une covariance nulle avec des variables qui ne sont pas indépendantes).
Chapitre 8 : Quali/Quanti

Preuve
Les preuves reposent sur la linéarité de la moyenne. À savoir que :

x+y = x + y,
ax = ax.

Nous avons donc :

1. Développement :
En reprenant la formule, nous avons :
n
1X 2
var (x + y) = (xi + yi − x + y)
n i=1
n
1X 2
= (xi + yi − (x + y))
n i=1
n
1X 2
= [(xi − x) + (yi − y)]
n i=1
n
1 Xh 2 2
i
= (xi − x) + 2 (xi − x) (yi − y) + (yi − y)
n i=1
n n n
1X 2 1X 1X 2
= (xi − x) + 2 (xi − x) (yi − y) + (yi − y)
n i=1 n i=1 n i=1
= var (x) + var (y) + 2cov (x, y) .
8.2. COVARIANCE 107

2. Bilinéarité :
De même :
n
1X 
cov (ax, by) = (axi − ax) byi − by
n i=1
n
1X
= (axi − ax) (byi − by)
n i=1
n
1X
= a (xi − x) b (yi − y)
n i=1
n
ab X
= (xi − x) (yi − y)
n i=1
= abcov (x, y) .

3. Symétrie :
Par définition :
n
1X
cov (y, x) = (yi − y) (xi − x)
n i=1
n
1X
= (xi − x) (yi − y)
n i=1
= cov (x, y) .

Chapitre 8 : Quali/Quanti
4. Formule utile :
Comme pour la démonstration de la variance, nous avons :
n
1X
cov (x, y) = (xi − x) (yi − y)
n i=1
n
1X
= (xi yi − xi y − xyi + x y)
n i=1
n n n n
1X 1X 1X 1X
= xi yi − xi y − xyi + xy
n i=1 n i=1 n i=1 n i=1
n n n n
1X 1X 1X 1X
= xi yi − y × xi −x × yi +x y × 1
n i=1 n i=1 n i=1 n i=1
| {z } | {z } | {z }
=x =y =n
n
1 X n
= xi yi − 2x y + x y ×
n i=1
n
n
1X
= xi yi − x y.
n i=1

Attention au piège
Il est très important de garder en tête qu’une covariance nulle ne veut pas dire que les deux variables sont
indépendantes. C’est bien dans l’autre sens, et uniquement dans l’autre sens, qu’il existe une relation de
cause à effet.
8.3. COEFFICIENT DE CORRÉLATION LINÉAIRE (DE PEARSON) 108

Corollaire 32 (Généralisation)
Étant données deux variables x et y de même longueur n, alors nous avons pour a et b réels :

var (ax + by) = a2 var (x) + b2 var (y) + 2abcov (x, y) .

Preuve
C’est une combinaison des propriétés 1 et 2 précédentes.

Remarque
Nous pouvons mettre en relation ce résultat avec les produits remarquables :

(ax + by)2 = a2 x2 + b2 y 2 + 2abxy.

Proposition 33 (Calcul à partir du tri croisé)


Si nous avons le tableau de tri croisé alors nous avons la formule suivante :
p X
X q
cov (x, y) = fkj (ak − x) (bj − y) .
k=1 j=1

Remarque
La covariance dépend des unités dans lesquelles sont mesurées les variables X et Y. Une fois de plus,
nous avons une nécessité de normalisation.
Chapitre 8 : Quali/Quanti

8.3 Coefficient de corrélation linéaire (de Pearson)


Le coefficient étudié est donc le suivant :

Définition 76 (Coefficient de corrélation linéaire (de Pearson))


Le coefficient de corrélation linéaire (de Pearson), noté r(X, Y), est défini par :

cov (X, Y) cov (X, Y)


r(X, Y) = =p p .
σ̂X σ̂Y var (X) var (Y)

Comme précédemment, nous étudions les propriétés du coefficient de corrélation :

Propriétés 34 (Coefficient de corrélation linéaire (de Pearson))


Nous avons les propriétés suivantes :
1. −1 ≤ r(X, Y) ≤ 1.

2. Si X et Y sont indépendants alors r(X, Y) = 0 ; la réciproque n’est pas toujours vraie.


3. S’il existe une relation linéaire entre X et Y alors |r(X, Y)| = 1. En particulier, nous
avons pour tout a ∈ R⋆ et b ∈ R :

r(X, aX + b) = signe(a) et r(X, X) = 1

où la fonction a 7→ signe(a) vaut 1 si a est strictement positif, -1 si a est strictement


négatif et 0 sinon.
8.3. COEFFICIENT DE CORRÉLATION LINÉAIRE (DE PEARSON) 109

Preuve
1. Le résultat est obtenu par l’inégalité de Cauchy-Schwarz de Schwarz (1890) (non abordé dans ce cours)
et qui nous affirme que :
|cov (X, Y)| ≤ σ̂X σ̂Y ⇔ |r (X, Y)| ≤ 1.
2. Si X et Y sont indépendants alors :

cov (X, Y)
r(X, Y) =
σ̂X σ̂Y
0
=
σ̂X σ̂Y
= 0.

3. Par les propriétés de la covariance et de l’écart-type, nous avons pour tout a ∈ R⋆ et b ∈ R :

cov (X, aX + b)
r(X, aX + b) =
σ̂X σ̂aX+b
acov (X, X)
=
σ̂X |a| σ̂X
avar (X)
= 2
|a| σ̂X
a var (X)
=
|a| var (X)
= signe(a).

Ce qui nous donne la deuxième formule. De plus, comme la fonction signe vaut seulement −1 ou 1, nous

Chapitre 8 : Quali/Quanti
avons également le premier résultat. Enfin, si nous prenons a = 1 et b = 0, nous avons le dernier résultat.

Remarque
Attention aux conclusions hâtives, ce n’est pas forcément parce qu’il semble y avoir une corrélation entre
X et Y que l’une influence l’autre. Il est possible qu’il y ait un facteur confondant (voire même que ce
soit du pur hasard).

La (mauvaise) utilisation de la statistique à travers les âges


Dans son article, Messerli (2012) présente le graphique représentant le lien entre la consommation de
chocolat par habitant et le nombre de prix Nobel par habitant pour les pays ayant eu au moins un prix
Nobel (voir la figure 8.3). Il calcule même le coefficient de corrélation linéaire de Pearson qui vaut dans
ce cas 0, 791 donnant l’impression qu’il y a une corrélation entre le chocolat et le nombre de prix Nobel
(il fait même un test dont la p-valeur est significative voulant dire qu’il y a effectivement une corrélation ;
cf cours sur les tests). En voyant cette corrélation, nous pourrions être amenés à croire que le chocolat
rendrait plus intelligent mais ce serait négliger un autre effet : la richesse des pays. En effet, les pays situés
en haut à droite ont tendance à être plus riches que les pays en bas à gauche : les habitants peuvent ainsi
bénéficier de meilleures conditions pour l’enseignement et la recherche mais aussi avoir plus de moyens
pour des denrées de luxe telles que le chocolat.
8.3. COEFFICIENT DE CORRÉLATION LINÉAIRE (DE PEARSON) 110

Figure 8.3 – Graphique représentant le lien entre la consommation de chocolat par habitant et le nombre
de prix Nobel par habitant pour les pays ayant eu au moins un prix Nobel.
La (mauvaise) utilisation de la statistique à travers les âges
En 2005, Bobby Henderson créa une parodie de religion appelée le pastafarisme. L’un des fondements de
cette religion est de dire que les pirates sont les premiers pastafariens et qu’ils protègent le monde. Pour
prouver ce qu’il dit, il montra la corrélation quasi parfaite entre le nombre de pirates et la température
Chapitre 8 : Quali/Quanti

moyenne mondiale (voir la figure 8.4) : moins il y a de pirates et plus la température augmente. Bien sûr,
cette corrélation est un hasard. Avec la venue du Big Data, il est de plus en plus facile de tout comparer,
il est donc fondamental de vérifier que les conclusions sont logiques.

Pour plus d’informations sur le pastafarisme, vous pouvez consulter la page wikipédia d’où est tirée l’image 8.4 :
https://fr.wikipedia.org/wiki/Pastafarisme.
8.4. POINT MÉTHODE 111

Figure 8.4 – Graphique représentant le lien entre la température moyenne mondiale et le nombre de
pirates.
La (mauvaise) utilisation de la statistique à travers les âges
Pour sensibiliser à la différence entre corrélation et causalité, les décodeurs du journal Le monde proposent
un générateur de corrélation aléatoire :
https://www.lemonde.fr/les-decodeurs/article/2019/01/02/
correlation-ou-causalite-brillez-en-societe-avec-notre-generateur-aleatoire-de

Chapitre 8 : Quali/Quanti
-comparaisons-absurdes_5404286_4355770.html
N’hésitez pas à vous amuser avec.

8.4 Point méthode


Nous concluons ce chapitre par un point méthode.

Point méthode (Corrélation pour deux variables quantitatives)


Pour étudier la corrélation entre deux variables quantitatives X et Y, nous faisons :
1. Calcul des moyennes x et y des variables (voir la section 3.2.1).

2. Calcul de la covariance soit à l’aide de la définition 75, soit du point 4 des propriété 31.
3. Calcul des écart-types σ̂X et σ̂Y (voir la proposition 11).
4. Calcul du rapport de corrélation linéaire (de Pearson) r(X, Y) (voir la définition 76).
5. Conclure suivant les valeurs de r(X, Y) :

• Si r(X, Y) est proche de 1 alors il semble y avoir une corrélation positive entre les
deux variables ; c’est-à-dire que si l’une augmente alors l’autre aussi (et inversement).
• Si r(X, Y) est proche de -1 alors il semble y avoir une corrélation négative entre les
deux variables ; c’est-à-dire que si l’une augmente alors l’autre diminue (et inverse-
ment).
• Si r(X, Y) est proche de 0 alors il n’est pas possible de conclure.
Chapitre 9
Variable qualitative ordonnée dépendant d’une
variable qualitative ordonnée
"Si vous faites une course cycliste et que vous doublez le dernier, quelle est alors votre place ?"

Énigme de logique

9.1 Introduction
Dans cette partie, nous traitons le cas particulier des données qualitatives ordonnées. Dans un premier
temps, nous proposons un critère basé sur le rapport de corrélation linéaire vu dans la section 8.3 puis
nous parlerons du coefficient de Kendall.

Avant cela, nous devons introduire la notion de rang. Pour cela, nous prenons un exemple fil rouge.

Exemple fil rouge


Chapitre 9 : Quali Ordonnées

Nous avons demandé à 10 étudiants si


• Ils aimaient les maths :

A1 : "pas du tout", A2 : "un peu", A3 : "beaucoup"

• Ils aimaient l’économie :

B1 : "pas du tout", B2 : "un peu", B3 : "beaucoup", B4 : "à la folie"

L’ordre est donc sur les variables. Nous avons obtenu les résultats suivants :
individu Goût pour les Maths Goût pour l’Eco
1 A1 B1
2 A1 B2
3 A1 B3
4 A2 B3
5 A2 B2
6 A2 B4
7 A3 B3
8 A3 B4
9 A3 B2
10 A3 B4
Ici, nous pouvons dire qu’un individu est devant un autre si la modalité du goût pour les maths est plus
basse que celle des autres. Dans notre exemple, nous avons plusieurs ex-æquo.

112
9.1. INTRODUCTION 113

Définition 77 (Rang)
Étant donné un échantillon d’observations x1 , . . . , xn d’une variable qualitative ordonnée X
prenant ses valeurs dans {a1 , . . . , aK }. Si les valeurs prises par les xi sont toutes distinctes
alors nous pouvons les ordonner de telle sorte que x(1) < · · · < x(n) où x(i) correspond à
l’observation telle qu’il y a dans l’échantillon exactement i − 1 valeurs plus faibles et n − i
valeurs plus fortes. Le rang de xi , noté rang(xi ), est la valeur (i) obtenue.
En cas d’égalité, nous pouvons tout de même classer les valeurs de telle sorte que x(1) ≤
· · · ≤ x(n) et alors nous avons plusieurs choix :
• Le rang classique consiste, en cas de valeurs identiques, à donner le rang de la première
observation à tout le groupe puis de continuer l’indexation comme précédemment.
• Le rang moyen consiste, en cas de valeurs identiques, à donner la moyenne des rangs
des observations à tout le groupe puis de continuer l’indexation comme précédemment.

• Le rang sportif consiste, en cas de valeurs identiques, à donner le rang de la première


observation à tout le groupe puis de continuer l’indexation en prenant le rang suivant.

Exemple fil rouge


La notion de rang est plus facile à comprendre sur un exemple que par des mots :
individu Goût pour les Maths Rang classique Rang moyen Rang sportif
1 A1 1 2 1
2 A1 1 2 1
3 A1 1 2 1
4 A2 4 5 2
5 A2 4 5 2
6 A2 4 5 2

Chapitre 9 : Quali Ordonnées


7 A3 7 8,5 3
8 A3 7 8,5 3
9 A3 7 8,5 3
10 A3 7 8,5 3

Remarque
Nous verrons par la suite que le choix du rang n’a généralement que peu d’influence sur la corrélation
(ou non) des points.

Point logiciel
Dans Excel, les différentes façon de calculer les rangs sont obtenues avec les fonctions suivantes :

• Rang classique : RANG.


• Rang moyen : MOYENNE.RANG.
• Le rang sportif n’est, quand à lui, pas implémenter à l’heure actuelle.

Exemple fil rouge


Nous pouvons calculer et représenter comme un nuage de points les rangs pour le rang classique et le
rang moyen :
9.2. COEFFICIENT DE CORRÉLATION DES RANGS 114

Rang classique Rang moyen


individu Rang Maths Rang Eco individu Rang Maths Rang Eco
1 1 1 1 2 1
2 1 2 2 2 3
3 1 5 3 2 6
4 4 5 4 5 6
5 4 2 5 5 3
6 4 8 6 5 9
7 7 5 7 8,5 6
8 7 8 8 8,5 9
9 7 2 9 8,5 3
10 7 8 10 8,5 9
Nous avons également représenté sur la figure 9.1 les nuages de points associés aux rangs. Nous voyons
que nous avons la même structure de chaque côté. Il semblerait qu’il y ait une légère corrélation positive
entre les deux rangs.

Rang classique Rang Moyen


9 6 8 10 6 8
8 10 9
10
Rangs de l'économie

Rangs de l'économie

7 8
7
6
6 3 4 7
5 3 4 7
5
4
4
3 2 3
2 2 2 5 9
1 1
1 5 9 1
0 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 9 10
Rangs des maths Rangs des maths
Chapitre 9 : Quali Ordonnées

Figure 9.1 – Représentation des rangs par des nuages de points : rang classique à gauche et rang moyen
à droite.

9.2 Coefficient de corrélation des rangs


Au vu des résultats du chapitre précédent, nous pouvons proposer un coefficient en prenant en compte
le fait que les rangs sont des données quantitatives discrètes.

Définition 78 (Coefficient de corrélation des rangs)


Étant données deux variables qualitatives ordonnées X et Y, le coefficient de corrélation
des rangs, noté rrang (X, Y), est défini par :

rrang (X, Y) = r(rang(X), rang(Y))

où r est le coefficient de corrélation linéaire vu au chapitre précédent.

Exemple fil rouge


Dans l’exemple fil rouge, nous avons pour chacune des méthodes pour calculer le rang :
• Rang classique : r ≈ 0, 48.

• Rang moyen : r ≈ 0, 49.


Comme nous l’avions signalé, la méthode utilisée a une faible influence sur le résultat. Notons que le
coefficient est proche de 0, 5, confirmant qu’il y a une faible corrélation entre les deux variables.
9.3. COEFFICIENT DE KENDALL 115

9.3 Coefficient de Kendall


Le principe du coefficient de Kendall est de s’appuyer sur la notion de concordance entre individus
c’est-à-dire de savoir si les individus sont d’accord sur les goûts de deux variables ordinales ou pas.
Exemple fil rouge
Dans l’exemple fil rouge, nous avons :
• l’individu 2 qui n’aime pas du tout les maths et un peu l’économie.

• l’individu 4 qui aime un peu les maths et beaucoup l’économie.


• l’individu 9 qui aime beaucoup les maths et un peu l’économie.
Nous pouvons dire que les avis des individus 2 et 4 sont concordants puisqu’ils vont dans le même sens
(l’individu 4 a deux avis plus forts que ceux de l’individu 2). Par contre, l’individu 4 et l’individu 9 ont des
avis discordants puisque l’individu 4 aime plus l’économie que l’individu 9 mais moins les mathématiques.
Enfin, l’individu 2 et l’individu 9 sont ex-æquo sur les

Le but du coefficient de Kendall est de voir quels sont les individus qui sont d’accord, ceux qui ne le
sont pas et ceux qui sont ex-æquo.

Définitions 79 (Concordance des avis)


Étant donnés deux échantillon d’observations x1 , . . . , xn et y1 , . . . , yn de deux variables quali-
tatives ordonnées X et Y prenant leurs valeurs dans {a1 , . . . , aK } et dans {b1 , . . . , bL } munis
de l’ordre < (pour simplifier, nous utilisons le même symbole d’ordre pour les deux groupes).
Nous disons que les individus i et j sont :

• ex-æquo (ou vrais ex-æquo selon X et Y) si xi = xj et yi = yj .


• ex-æquo selon X si uniquement xi = xj .

Chapitre 9 : Quali Ordonnées


• ex-æquo selon Y si uniquement yi = yj .
• d’accord si xi > xj et yi > yj ou alors si xi < xj et yi < yj ; c’est-à-dire si les deux
avis de l’un sont strictement plus grands que les deux avis de l’autre.
• en désaccord si xi > xj et yi < yj ou alors si xi < xj et yi > yj ; c’est-à-dire si les
deux avis des individus sont contraires.

Exemple fil rouge


Nous mettons dans la table 9.1 le récapitulatif des statuts des avis entre les individus de l’exemple fil
rouge. Pour faire ce tableau, nous avons mis les individus sur un graphique en fonction de leurs choix
(voir la gauche de la figure 9.2) et, pour comparer deux points, il suffit de remarquer que (voir la droite
de la figure 9.2 pour l’individu 4) :
• S’ils sont au même endroit alors ils sont ex-æquo.
• S’ils sont sur le même trait vertical (resp. horizontal) alors ils sont ex-æquo selon X (resp. Y).

• Sinon, si l’un des points est en bas à gauche de l’autre (ou en haut à droite), alors ils sont en accord ;
sinon, ils sont en désaccord.
Nous observons que le tableau est symétrique par rapport à sa diagonale (cela vient du fait que la
concordance des avis est symétrique) et les lignes 8 et 10 (mais aussi les colonnes) sont identiques car les
individus 8 et 10 sont ex-æquo.
Au final, nous avons :
• 12 ex-æquo.
• 22 ex-æquo selon X.
9.3. COEFFICIENT DE KENDALL 116

• 16 ex-æquo selon Y.
• 40 accords.
• 10 désaccords.

Table 9.1 – Tableau récapitulatif des concordances d’avis (voir définition 79) entre les individus de
l’exemple fil rouge : ex-æquo (e), ex-æquo selon X (eX), ex-æquo selon Y (eY), d’accord (a) ou en
désaccord (d).
Ind 1 2 3 4 5 6 7 8 9 10
1 e eX eX a a a a a a a
2 eX e eX a eY a a a eY a
3 eX eX e eY d a eY a d a
4 a a eY e eX eX eY a d a
5 a eY d eX e eX a a eY a
6 a a a eX eX e d eY d eY
7 a a eY eY a d e eX eX eX
8 a a a a a eY eX e eX e
9 a eY d d eY d eX eX e eX
10 a a a a a eY eX e eX e

Y (Eco) Y (Eco)
6 8 10 6 8 10
B4 • • B4 • •

3 4 7 3 4 7
Chapitre 9 : Quali Ordonnées

B3 • • • B3 • • •

2 5 9 2 5 9
B2 • • • B2 • • •

1 1
B1 • B1 •

X (Maths) X (Maths)
A1 A2 A3 A1 A2 A3

Figure 9.2 – Représentation schématique des individus pour voir la concordance des avis. À gauche, la
grille avec les points suivant les choix ordonnés. À droite, la comparaison des choix de l’individu 4 avec les
autres individus : les ex-æquo avec lui sont sur le même point, les ex-æquo en X sont sur le trait vertical
violet, les ex-æquo en Y sont sur le trait horizontal bleu, les individus d’accord avec lui sont dans l’un
des deux rectangles verts et ceux en désaccord sont dans l’un des deux rectangles rouges.

Point méthode (Vérification du tableau des concordances)


Pour vérifier que le tableau des concordances n’est pas erroné, il faut au moins vérifier que :
• la diagonale ne contient que des ex-æquo.

• le tableau est symétrique c’est-à-dire que pour toute case (i, j), la case (j, i) est identique.
• si deux individus sont ex-æquo alors les lignes et les colonnes correspondantes sont égales.
9.3. COEFFICIENT DE KENDALL 117

Définition 80 (Coefficient τ de Kendall)


Étant donnés deux échantillon d’observations x1 , . . . , xn et y1 , . . . , yn de deux variables qualita-
tives ordonnées X et Y, nous désignons par A le nombre d’accord, D le nombre de désaccords,
Eℓ le nombre d’ex-æquo en lignes (eX+e) et Ec le nombre d’ex-æquo en colonnes (eY+e). Le
coefficient de Kendall, noté τ , est défini sous condition qu’il n’y a pas que des ex-aequo par :
A−D
τ=p .
(n − Eℓ) (n2 − Ec)
2

Exemple fil rouge


À l’aide des calculs précédents, nous avons :
40 − 10
τ = p
(102 − 22) (102 − 16)
30
= √
78 × 84
30
= √
6552
30

80.94
≈ 0.37.

Proposition 35 (Borne du tau de Kendall)


Nous avons :
−1 ≤ τ ≤ 1.

Chapitre 9 : Quali Ordonnées


De plus, nous avons :

• τ = 1 si et seulement si les individus sont d’accord ou ex-æquo.


• τ = −1 si et seulement si les individus sont en désaccord ou ex-æquo.

Preuve
Si nous notons E le nombre de paires d’individus ex-æquo, NeX le nombre de (Ex) et NeY le nombre de
paires (Ey) alors, nous avons :
A + D + NeX + NeY + E = n2 .
Par l’inégalité triangulaire, nous avons :
|A − D| ≤ |A| + |D|
≤ A + D car A et D sont positifs
≤ n2 − (NeX + NeY + E) .

Ainsi, nous obtenons :


A−D
|τ | = p
(n2 − Eℓ) (n2 − Ec)
|A − D|
= p
(n2 − Eℓ) (n2 − Ec)
n2 − (NeX + NeY + E)
≤ p
[n2 − (NeX + E)] [n2 − (NeY + E)]
9.3. COEFFICIENT DE KENDALL 118

s
2
[n2 − (NeX + NeY + E)]

[n − (NeX + E)] [n2 − (NeY + E)]
2
v
u 2
u n − (NeX + NeY + E) n2 − (NeX + NeY + E)
≤ u
2
× 2
t| n − (N{zeX + E) } | n − (N{zeY + E) }
u
≤1 ≤1

≤ 12
≤ 1.

Ceci conclut l’inégalité.


Ensuite, regardons la condition τ = 1 :
A−D
τ =1 ⇔ p =1
(n2 − Eℓ) (n2 − Ec)
A + D − 2D
⇔ p =1
[n2 − (NeX + E)] [n2 − (NeY + E)]
p
⇔ n2 − (NeX + NeY + E) − 2D = [n2 − (NeX + E)] [n2 − (NeY + E)]
 2 2 
n − (NeX + NeY + E + 2D) = n2 − (NeX + E) n2 − (NeY + E) .
 

Or, nous observons que si D = NeX = NeY = 0 alors l’égalité est vérifiée donc c’est une condition
suffisante pour que τ soit égal à 1. À l’opposé, si l’une des valeurs D, NeX ou NeY est non nulle, nous
observons que la partie gauche de l’égalité est strictement plus petite que la partie droite donc c’est
également une condition nécessaire. Conclusion, τ vaut 1 si et seulement si D = NeX = NeY = 0 ce qui
donne le résultat.
La démarche est similaire pour montrer que τ = −1 si et seulement si A = NeX = NeY = 0.
Chapitre 9 : Quali Ordonnées

Exemple fil rouge


Le coefficient calculé étant d’à peu près 0.37, nous retrouvons qu’il semble y avoir une légèrement corré-
lation positive entre les deux variables X et Y.

Remarque
Il est également possible de calculer les paramètres du coefficient de Kendall en utilisant le tableau de
contingence. En effet, ce tableau donne un aperçu rapide des couples avec lesquels nous sommes d’accord,
en désaccord ou ex-æquo. Pour ce faire, nous choisissons une case du tableau de contingence et alors :
• les cases situées strictement plus haut à gauche ou plus bas à droite sont en accord.
• les cases situées strictement plus haut à droite ou plus bas à gauche sont en désaccord.

Attention à multiplier les résultats par le nombre de couples concernés (c’est-à-dire l’effectif de la case
correspondante).
Pour obtenir le nombre d’ex-æquo en X (resp. en Y), il suffit de faire la somme des valeurs des marginales
mises au carré.

Exemple fil rouge


Dans la table 9.2, nous avons mis tous les tableaux nécessaires pour calculer le coefficient de Kendall
dans le cas de notre exemple fil rouge. Pour cela, nous devons calculer les tableaux du nombre de paires
d’accord (table 9.2 (c)) et en désaccord (table 9.2 (d)) : chaque case correspond au nombre de couples en
accord ou en désaccord avec la paire de la case correspondante. Dans la table 9.2 (b), nous présentons
l’exemple pour la paire (A2,B3) : il y a quatre couples en accord (2 couples à 1 d’effectif en haut à gauche
et un couple avec un effectif de 2 en bas à droite) et 1 couple en désaccord (en bas à gauche dans le
tableau). À l’aide de la table 9.2 (c), nous voyons qu’il y 40 paires d’accord et avec le tableau 9.2, nous
9.3. COEFFICIENT DE KENDALL 119

voyons qu’il y a 10 paires en désaccord. Enfin, grâce aux marginales du tableau de contingence (voir la
talbe 9.2 (a)), nous voyons qu’il y 34 couples ex-aequo en X (32 + 32 + 42 ) et 28 couples ex-aequo en Y.
Nous retrouvons ainsi les résultats vus précédemment.

Table 9.2 – Tableaux nécessaires pour calculer les paramètres du coefficient de Kendall à partir du
tableau de contingence pour l’exemple fil rouge : (a) tableau de contingence, (b) exemple de calculs à
faire pour le couple (A2,B3) avec en vert les couples d’accord et en rouge les couples en désaccord, (c)
tableau récapitulatif du nombre de couples en accord avec chaque couple et (d) le nombre de couples en
désaccord.

PP Eco B1
PP
B2 B3 B4 Total PP
PP Eco B1
Maths PPP B2 B3 B4
P Maths PPP
A1 1 1 1 0 3 P
A1 1 1 1 0
A2 0 1 1 1 3
A3 0 1 1 2 4 A2 0 1 1 1
A3 0 1 1 2
Total 1 3 3 3 10
(a) (b)

PP Eco B1 PP Eco B1
PP PP
B2 B3 B4 B2 B3 B4
Maths PPP
P Maths PPP
P
A1 7 5 3 0 A1 0 0 2 0
A2 0 4 4 3 A2 0 1 1 2
A3 0 1 3 10 A3 0 3 1 0

(c) (d)

Chapitre 9 : Quali Ordonnées


Deuxième partie

Situations d’Apprentissage et
d’Évaluation (SAÉ)
Chapitre 9 : Quali Ordonnées

120
Chapitre 10
Introduction aux Situations d’Apprentissage
et d’Évaluation
"Ce que nous devons apprendre à faire, nous l’apprenons en le faisant."
Aristote.

Dans cette partie, nous présentons les deux Situations d’apprentissage et d’Évaluation (ou SAÉ) qui
sont en lien avec la Ressource 1-05 Statistique Descriptive 1 :
• SAÉ 1-03 : Préparation et synthèses d’un tableau de donnée en vue d’une analyse exploratoire
simple

• SAÉ 1-06 : Mise en oeuvre d’une enquête.


Le but de ces SAÉ est d’appliquer en autonomie ce qui a été appris en cours. L’évaluation de
chacune d’elles se fera à l’aide d’apprentissages critiques que nous rappellerons dans ce polycopié.

Chapitre 10 : Introduction SAÉ

121
Chapitre 11
SAÉ 1-03 : Préparation et synthèse d’un ta-
bleau de données en vue d’une analyse explo-
ratoire simple
"Les statistiques sont fiables, lorsqu’elles comparent des données strictement comparables en tous
points, ce qui est rarement possible."
Patrick Louis Richard

Cette SAÉ repose sur les deux ressources suivantes :

• R.1-04 Statistique descriptive 1

• R.1-10 Projet Personnel et Professionnel 1

Cette SAÉ se déroulera sur 2 heures de formation et 40 heures en autonomie.

11.1 Objectifs et problématique professionnelle


La description des données est l’étape principale dans un travail d’analyse des données. En amont de
ce travail, la phase de préparation des données est une étape primordiale dans le processus de traitement
des données.
En tant que statisticien·ne, l’étudiant·e pourra être amené·e à construire des tableaux et des gra-
phiques. Iel devra ainsi comprendre les mécanismes qui sous-tendent la construction de ces tableaux
et graphiques, pour l’analyse des données. Les étudiant·z·s doivent à travers ce travail, s’approprier la
culture de la donnée.
Les objectifs de cette SAÉ sont les suivants :
Chapitre 11 : SAÉ 1-03

• Faire comprendre à l’étudiant les mécanismes qui sous-tendent la construction des tableaux et des
graphiques, pour l’analyse des données.

• Le sensibiliser à l’importance de l’appropriation de la donnée et de sa préparation en amont de


l’analyse

• Lui faire comprendre que l’exploration simple des données doit être un préalable à tout travail
statistique.

11.2 Descriptif générique


L’étudiant est mis en situation de réalisation ou d’analyse d’une étude de statistique descriptive.
Premier travail d’exploration statistique d’un jeu de données ayant plusieurs variables et observations,
cette étape contribue à la réussite d’une analyse pertinente des données et à la compréhension de l’enjeu
métier derrière.
À partir de données réelles, recueillies au préalable par l’étudiant ou fournies par l’enseignant, l’étu-
diant doit être capable de produire des tableaux et des indicateurs pertinents, afin de présenter les données
de manière synthétique et de faire ressortir le lien éventuel avec les variables.

122
11.3. APPRENTISSAGES CRITIQUES 123

Les données, issues de problématiques concrètes et réelles, nécessitent une préparation que les étu-
diants doivent savoir mener. Cela contribue à l’appropriation de la problématique et cette étape de
compréhension des données est une étape primordiale dans le traitement statistique de données.
Cette SAÉ repose sur les deux ressources suivantes :

• R.1-04 Statistique descriptive 1

• R.1-10 Projet Personnel et Professionnel 1

Cette SAÉ se déroulera sur 2 heures de formation et 40 heures en autonomie.

11.3 Apprentissages critiques


Les apprentissages critiques visés sont :

• AC12.01 | Réaliser que les sources de données ont des caractéristiques propres à considérer (varia-
tion, précision, mise à jour...)

• AC12.02 | Comprendre qu’une analyse correcte ne peut émaner que de données propres et préparées

• AC12.03 | Comprendre l’intérêt des synthèses numériques et graphiques pour décrire une variable
statistique

• AC12.04 | Comprendre l’intérêt des synthèses numériques et graphiques pour mettre en évidence
des liaisons entre variables.

11.4 Mise en œuvre


Cette SAÉ est évaluée par le biais d’un projet. Les étudiants, regroupés en binômes, pourront choisir
entre quatre jeux de données :

• Les données sur les 2640 plus grandes fortunes au monde le 4 avril 2023.

• Les résultats des matchs des équipes internationales masculines de rugby de niveau 1 depuis 1871.

• Les musiques écoutées sur Spotify.

• Les informations sur des vêtements vendus par une entreprise aux États-Unis.

Un descriptif pour chaque jeu de données est proposé dans la suite de la section (voir la section 11.4.1).

Chapitre 11 : SAÉ 1-03


Pour chaque jeux de données, les binômes devront réaliser un rapport présentant les données, analysant
les variables jugées pertinentes pour répondre à la problématique.

11.4.1 Présentation des données


Milliardaires : Dans le fichier Milliardaires.xlsx sont regroupées différentes informations sur les
2640 plus grandes fortunes au monde le 4 avril 2023. Votre entreprise a été embauchée pour analyser ces
données : où se trouvent ces grandes fortunes dans le monde ? Quels sont les domaines d’activité les plus
lucratifs ?

Matchs de Rugby : Le fichier Rugby.xlsx contient des informations sur les matchs des équipes
internationales masculines de rugby de niveau 1 : l’Angleterre, du Pays de Galles, de l’Irlande, de l’Écosse,
de l’Italie, de la France, de l’Afrique du Sud, de la Nouvelle-Zélande, de l’Australie et de l’Argentine.
Les données sont tirées de Wikipedia et inspirées de l’ensemble de données de Mart Jurisoo sur le
football international 1 .
Votre entreprise a été embauchée pour analyser ces données et, en particulier, savoir comment la France
se positionne par rapport aux autres pays. Un des premiers traitements à faire sera de transformer les
données pour extraire les résultats par équipe.
1. https://www.kaggle.com/datasets/martj42/international-football-results-from-1872-to-2017
11.4. MISE EN ŒUVRE 124

Spotify : Le fichier Spotify.xlsx a été créé via le package spotifyr. Charlie Thompson, Josiah Parry,
Donal Phipps, et Tom Wolff ont écrit ce package pour faciliter l’obtention de vos propres données ou
de métadonnées générales autour des chansons depuis l’API de Spotify. Dans ce fichier, vous retrouverez
des informations sur 32 833 musiques (groupes, styles, intérêts...) à la mi-octobre 2023. Vous avez été
embauché·e par un producteur intéressé par savoir ce qui fait qu’une musique est écouté sur Spotify ou
pas.

Données sur les ventes : Une entreprise voudrait embaucher votre boîte pour analyser ses données
clients. Néanmoins, elle souhaite d’abord vous tester et a simulé un jeu de données (le fichier Ventes.xlsx)
qu’elle vous a transmis. Son objectif est de voir si vous êtes capables d’analyser ces données pour faire
ressortir des comportements de vente qui pourraient les intéresser. Toutefois, si vous arrivez à extraire
des éléments témoignant du fait que ce sont bien des données simulées et non des vraies données, il serait
intéressant de les mettre aussi en avant.

11.4.2 Évaluation
Le jeu de données choisi doit être étudié avec la mise en application de tout ce que vous avez appris
durant la ressource 1-04. Cette étude fera l’objet de la rédaction d’un rapport qui devra vérifier les règles
classiques de rédaction de rapport (voir le compte-rendu corrigé du TP3 et le chapitre 12 pour plus de
détails). En particulier, votre rapport devra comporter :
• Une introduction avec le contexte et la problématique (donnée dans le sujet), une présentation
de l’individu statistique et le plan développé dans la suite.
• Un corps de texte décomposé en au moins deux sections (qui peuvent elles-mêmes avoir des sous
sections). Ce corps de texte devra présenter au moins une variable de chaque type avec à chaque
fois des tris à plat (si cela est possible), des résumés statistiques pertinents et des graphiques. Ces
tris à plat, résumés statistiques et graphiques sont en support des commentaires que vous ferez pour
décrire les variables et devront être utilisés judicieusement.
• Une conclusion qui reprend les points forts du corps du texte et qui propose une ouverture sur les
perspectives suivantes de l’étude.
• Une annexe contenant les détails techniques des données brutes comme, par exemple, le nom de
chaque colonne, ce qu’elles représentent et le type de variables ou encore les éventuels transforma-
tions que vous avez dû faire (par exemple, expliciter la création de nouvelles variables ou la gestion
des valeurs manquantes et/ou abbérentes).
Attention au piège
Dans le tableau 11.1, nous avons mis les points qui seront évalués durant ce projet. Il est important de
vérifier que votre projet permettra d’évaluer ces points (par exemple, vérifiez que vous n’avez pas oublié
Chapitre 11 : SAÉ 1-03

de proposer l’analyse d’une variable quantitative sans regroupement et une avec regroupement).

11.4.3 Apprentissages critiques


L’évaluation de cette SAÉ se fait sur 4 apprentissages critiques :
• AC12.01 | Réaliser que les sources de données ont des caractéristiques propres à considérer (varia-
tion, précision, mise à jour...)
• AC12.02 | Comprendre qu’une analyse correcte ne peut émaner que de données propres et préparées
• AC12.03 | Comprendre l’intérêt des synthèses numériques et graphiques pour décrire une variable
statistique
• AC12.04 | Comprendre l’intérêt des synthèses numériques et graphiques pour mettre en évidence
des liaisons entre variables.
Nous les avons sous découpés afin de vous aider à comprendre ce que nous attendons (voir le ta-
bleau 11.1).
En plus de ces compétences, vous serez également évalué·e·s sur la qualité de votre rapport et votre
comportement professionnel (assiduité, autonomie, prise d’initiative, prise en compte des remarque de
votre tuteur ou de votre tutrice, façon de rédiger un courriel...).
11.4. MISE EN ŒUVRE 125

Table 11.1 – Tableau des compétences qui seront évaluées dans la SAÉ 1-03

Compétences Non acquise En cours Acquise


Réaliser que les sources de données ont des caractéristiques
propres à considérer (variation, précision, mise à jour...)
Commentaires sur les sources (recueil, protocole éventuel,
contexte, enjeux. . .)
Présenter l’individu statistique et la population
Comprendre qu’une analyse correcte ne peut émaner
que de données propres et préparées
Qualité des données (unités, données manquantes...)
Nettoyage des données (valeurs abbérentes, regroupement de
modalités, création de variables, recodage...)
Comprendre l’intérêt des synthèses numériques et graphiques
pour décrire une variable statistique
Résumés numériques d’une variable qualitative
Graphique(s) d’une variable qualitative
Commentaires des résultats de l’analyse d’une variable qualita-
tive
Résumés statistiques d’une variable quantitative
Graphique(s) d’une variable quantitative
Commentaires des résultats de l’analyse d’une variable quanti-
tative
Argumenter en quoi le choix de ces variables est pertinent vis-à-
vis de la problématique

Chapitre 11 : SAÉ 1-03


Comprendre l’intérêt des synthèses numériques et graphiques pour mettre en évidence
des liaisons entre variables.
Résumés numériques du croisement de deux variables
Graphique(s) du croisement de deux variables
Commentaires des résultats d’une analyse croisée de 2 variables
Argumenter en quoi le choix de ces croisements est pertinent
vis-à-vis de la problématique
11.5. FEUILLE DE ROUTE 126

11.5 Feuille de route


Afin de vous aider durant ces heures d’autonomie, voici quelques questions à se poser.

11.5.1 Exploration du fichier de données brutes


Une fois le document en votre possession, il est important de l’explorer. Voici quelques questions à
vous poser :
• Quel est l’individu statistique ? Combien possédez-vous d’observations ?
• Combien avez-vous de variables ?
• Pour chaque variable, il faut se demander :
– Quel est le type de la variable ?
– Y-a-t-il des valeurs manquantes ?
– Un recodage est-il nécessaire ?
• Quelle(s) variable(s) semblent pertinentes vis-à-vis de votre problématique ? En particulier : quelle(s)
variable(s) seront à expliquées et quelle(s) variable(s) seront explicative(s) ?

11.5.2 Premières analyses


Une fois les premiers traitements faits, il faut commencer les analyses.

• Pour chaque variable qualitative d’intérêt :


– Faire un tri à plat.
– Faire différents graphiques afin de sélectionner au final celui qui illustrera au mieux votre
argumentaire.
• Pour chaque variable quantitative discrète :
– Faire un tri à plat.
– Faire différents graphiques afin de sélectionner au final celui qui illustrera au mieux votre
argumentaire.
– Calculer différents résumés statistiques afin d’utiliser dans le rapport celui qui sera le plus
pertinent pour aider à présenter votre jeu de données.
• Pour chaque variable quantitative continue :
Chapitre 11 : SAÉ 1-03

– Faire une analyse sur les données individuelles (graphiques et résumés statistiques) pour faire
ressortir les tendances les plus intéressantes.
– Faire un regroupement par classe et proposer une analyse (tri à plat, graphiques et résumés
statistiques approchés).

11.5.3 Croisements
Une fois l’étude univariée faite, il est important d’étudier les croisements (lorsque le cours a suffisam-
ment avancé) :

• Réfléchir aux croisements intéressants : en particulier, essayez de croiser vos variables d’intérêts
avec vos variables explicatives.
• Pour chaque croisement, proposer :
– Un tableau de valeurs (lorsque celui-ci a un sens).
– Un graphique associé.
– Un indicateur de liaison à commenter. Attention, ce n’est pas parce que votre indicateur de
liaison ne semble pas aller dans votre sens qu’il ne faut pas en parler.
11.5. FEUILLE DE ROUTE 127

11.5.4 Création du rapport


En parallèle des études, il est important d’écrire le rapport. Quelques rappels :
• Il est destiné à une personne n’étant pas forcément à l’aise avec la statistique. Tout terme technique
utilisé devra donc être explicité.

• Chaque paragraphe doit être personnalisé : éviter les copier/coller et réfléchissez à une structure
cohérente et agréable à lire.
• Le rapport ne doit pas être écrit à la fin. Il sert de support à votre étude. En particulier, certains
de vos questionnements les plus pertinents arriveront en rédigeant votre rapport. Il serait dommage
de passer à côté de nouvelles réflexions.

11.5.5 Avant le rendu final


Le rapport sera à rendre pour l’interruption pédagogique de Noël (donc avant le 23 décembre). Avant
de le rendre, il est important de vérifier :

• Tous les commentaires de travail ont été effacés.


• La table des matières a été mise à jour.
• Toutes les compétences pourront être évaluées par votre tuteur ou votre tutrice.

11.5.6 Quelques pièges dans lesquels il ne faut pas tomber


Voici quelques erreurs classiques faites par les élèves :
• Le but du rapport est la la description des données. Bien souvent, vous souhaiterez expliquer
des corrélations, inférer sur les raisons de ce que vous voyez mais il faut garder en tête que vous
n’avez pas encore les outils pour le faire. La solution consiste à mettre vos idées sous forme
de questions dans le texte et d’ouvertures à la fin de la conclusion.
• Vous n’aurez pas une meilleure note si vous mettez des tonnes de pages. Pour ce rapport,
un nombre de pages autour de 10 est une bonne estimation (sans compter les annexes). Bien sûr,
cela dépendra de la taille de vos tableaux et/ou de vos graphiques, de la mise en page... Par contre,
il est inutile de présenter toutes les variables surtout si vous ne les commenter pas. Une erreur
serait de faire des paragraphes du style "Voici mon graphique et mon tableau, on a une moyenne
de tant" et c’est tout. Un rapport doit montrer que :
– Vous avez su choisir le meilleur graphique et le ou les meilleur(s) résumé(s) statistique(s) pour
expliquer ce que vous souhaitez.

Chapitre 11 : SAÉ 1-03


– Vous savez interpréter correctement un graphique et un tableau et aider le lecteur ou la lectrice
à comprendre ce que vous voyez.
• Soyez précis·e et évitez les termes vagues comme "beaucoup" par exemple. Plutôt que de dire, il
y a beaucoup d’individus, mettez le chiffre exact.

• De même, évitez les commentaires subjectifs comme "on voit clairement que" par exemple. Si
c’est clair, tout le monde le verra, pas la peine de le dire. Et si vous dites ça pour éviter d’avoir à
expliquer, c’est une erreur car ça attire au contraire l’oeil.

11.5.7 Calendrier
Afin de vous aider à vous organiser, je vous remets le calendrier prévisionnel (il est possible que
l’emploi du temps évolue) dans la table 11.2.
11.5. FEUILLE DE ROUTE 128

Table 11.2 – Calendrier prévisionnel pour l’année 2023-2024.


Chapitre 11 : SAÉ 1-03
Troisième partie

Compléments

Chapitre 11 : SAÉ 1-03

129
Chapitre 12
Rédaction d’un rapport
"Il ne faut pas prendre les gens pour des cons, mais il ne faut pas oublier qu’ils le sont."
Les inconnus dans leur sktech Les publicitaires

Dans ce chapitre, nous remettons toutes les règles pour rédiger correctement un rapport.
Attention au piège
Les règles présentées ici sont pour les rapports de projet tuteuré et de stage. Certaines règles ne sont
donc pas obligatoires pour les rapports à remettre à la fin d’un cours.

Il est important de ne pas confondre un rapport (qui doit respecter les règles énoncées ici) avec un
compte-rendu qu’on demande parfois à la fin d’un TP (qui est parfois l’accumulation de réponses à des
questions).

12.1 Structure
La structure d’un rapport se décompose obligatoirement en :

• La page de garde incluant notamment :

– Le titre.
– Le nom des auteurs.
– Les logos.
Chapitre 12 : Rédaction d’un rapport

– Le nom des tuteur·trice·s.

• Les remerciements.

• La page de résumés ; l’un en français et l’autre en anglais avec des mots clefs.

• La table des matières.

• L’introduction.

• Le corps du texte.

• La conclusion.

• Le glossaire, l’index et la bibliographie.

• Les annexes.

Nous détaillons chaque point dans la suite.

12.1.1 Page de gade


La page de garde doit répondre au quadruplet qui, quoi, logos et nom des tuteur·trice·s.

130
12.1. STRUCTURE 131

Titre
Le titre est censé être explicite et doit résumer en quelques mots l’étude. Il faut bien garder en tête
que la première impression se fera à partir du titre donc ne le négligez pas.
Attention au piège
Parfois des étudiants écrivent comme titre Rapport ou Mon rapport ; ceci reviendrait à écrire un livre
intitulé Mon livre. Dans ce cas, le lecteur ou la lectrice n’est pas informé·e sur le contenu.

Auteurs
La liste des auteurs doit être présente avec, si possible, leurs adresses courriels et leurs affiliations.
En statistique, nous avons la coutume de mettre les auteurs par ordre alphabétique des noms de famille.
Une seule exception peut être faite si un auteur en particulier a rédigé la quasi totalité du rapport et fait
quasiment toutes les études ; dans ce cas, il arrive que l’ordre alphabétique soit cassé pour le mettre en
premier auteur.

Logos
Les logos de l’entreprise pour laquelle vous effectuez votre projet tuteuré ou votre stage et le logo de
la formation dans le cadre de laquelle vous faites votre étude doivent apparaître.

Nom des tuteur·trice·s


Les noms des tuteur·trice·s que vous avez doivent également être présents. S’il y a un ou une com-
manditaire (notamment dans le cadre d’un projet tuteuré), ceci doit également être signalé.

12.1.2 Remerciements
La page qui suit celle de garde est réservée aux remerciements. Ces remerciements sont l’occasion de
faire un point sur les aides que vous avez reçues durant votre travail.
Remarque
Dans le cadre d’un rapport à rendre à la suite d’un TP ou dans le cadre de la SAÉ 1-03 par exemple, il
n’est pas nécessaire de mettre des remerciements.

12.1.3 Résumés et mots clefs

Chapitre 12 : Rédaction d’un rapport


La page suivante contient un résumé en français et un résumé en anglais (aussi appelé abstract) ainsi
que des mots clefs.
Attention au piège
L’abstract n’est pas la simple traduction du résumé en français (encore moins le google traduction de
celui-ci). Il doit être pensé dans sa globalité.

Remarque
Dans le cadre d’un rapport à rendre à la suite d’un TP ou dans le cadre de la SAÉ 1-03 par exemple, il
n’est pas nécessaire de mettre des résumés et des mots clefs.

12.1.4 Table des matières


La table des matières donnent les titres des sections importantes et les pages.
Attention au piège
Une fois le rapport totalement écrit, il est bien sûr primordial de mettre à jour la table des matières.
Cette remarque peut paraître inutile et pourtant, régulièrement, des auteurs oublient...
12.1. STRUCTURE 132

Point logiciel
Dans le logiciel Word , nous pouvons insérer une table des matières en utilisant l’outil Table
des matières du sous-menu Référence. Dans le langage Latex , nous pouvons utiliser la
commande tableofcontents.

12.1.5 Introduction
L’introduction se décompose en trois parties :

• Le contexte : il s’agit d’expliquer l’origine de l’étude que vous présentez. Par exemple, est-ce qu’il
y a déjà eu des travaux avant ? Est-ce que vous adaptez dans un autre contexte des résultats ?

• La problématique : il faut mettre en évidence la problématique à laquelle ce rapport essaye de


répondre. Il n’est pas nécessaire de la poser sous forme de question mais elle doit être explicite.

• Le plan : il s’agit d’expliquer comment vous avez structuré votre rapport. Attention, le plan ne
consiste pas à refaire la table des matières mais bien à expliquer la logique de la structure de votre
texte.

12.1.6 Corps du texte


Le corps du texte est là où vous mettez toutes vos études et vos résultats. Il se structure généralement
en section et sous-section (voir plus) commençant par un titre et une courte introduction. Il est important
de proposer un plan le plus équilibré possible.
Attention au piège
Attention, il est important de ne jamais mettre deux titres à la suite : cela signifierait que vous n’avez
pas introduit la structure de votre section.

Sauf cas exceptionnels, il n’y a jamais de codes ou de démonstrations dans le corps d’un rapport
de statistique : ils sont mis en annexes. Les rares cas où vous pouvez mettre du code ou une démonstration
est quand c’est le centre de votre problématique (par exemple pour expliquer comment optimiser un code
permettant le tri d’une liste).
Attention au piège
Dans certains cours, il vous sera demandé de faire des compte-rendus où vous répondrez juste à des
questions. Dans ces cas là, les enseignant·e·s pourront vous autoriser à mettre du code. Néanmoins, il ne
Chapitre 12 : Rédaction d’un rapport

faut pas que ce soit une habitude dans vos rapports (surtout pour le rapport de stage).

De plus, il est important de justifier vos choix (pourquoi avez-vous utilisé cette méthode et pas une
autre par exemple).

12.1.7 Conclusion
La conclusion vient à la fin et se décompose en deux/trois parties :

• La mise en évidence des résultats importants : la première partie consiste à remettre les
résultats les plus importants qui étaient présents dans votre corps de texte. Cela peut vous paraître
redondant mais le but est de résumer ce qui doit être retenu de votre étude.

• Les limites : votre étude ne sera que très rarement une finalité. Souvent, vous vous serez aperçu·e
en faisant l’étude qu’il vous a manqué une information ou une co-variable importante ; la fin de la
conclusion est alors un moment pour le signaler dans le but de proposer une meilleure étude après.

• Les perspectives : une fois l’étude finie, vous aurez certainement des idées d’amélioration (par
exemple, vous avez fait une étude sur les chiens mais certaines constatations pourraient être amé-
liorées en ne regardant que les caniches) ; les perspectives sont le moment où vous pouvez préciser
les nouvelles idées que vous auriez eues. Ce point est très important car il montre le recul et la
maîtrise que vous avez sur le sujet que vous avez étudié.
12.2. MISE EN FORME GÉNÉRALE 133

Attention au piège
Il ne faut en aucun cas qu’un nouveau résultat apparaisse dans la conclusion (comme on vous l’a peut-
être appris dans les dissertations de philosophie). Ici, on ne fait que résumer les informations les plus
importantes.

12.1.8 Glossaire, index et bibliographie


Le glossaire regroupe tous les sigles, acronyme et les mots métiers utilisés dans votre rapport avec
leurs définitions afin que le lecteur ou la lectrice puisse (re)trouver le sens. Ceci ne doit pas vous empêcher
de les expliquer la première fois que vous les utilisez.
L’index recense les mots jugés importants avec la page à laquelle ils sont définis dans votre rapport.
Enfin, la bibliographie et la webographie recensent les documents sur lesquels certaines affirma-
tions de votre texte s’appuient. Dans ce cas, vous devez indiquer dans le document la source également
au moment où vous l’utilisez (par exemple, dans ce document, nous mettons parfois "d’après...").

12.1.9 Annexes
Les annexes sont la partie essentiellement réservée aux détails techniques. En aucun cas, elles ne
contiendront des résultats importants : il faut pouvoir comprendre l’étude sans avoir à lire les annexes.
Elles contiennent en particulier :

• Les codes utilisés pour les études : ils doivent être commentés et prêts à être utilisés (pas de
dépendance à un code obscur par exemple).

• Les démonstrations : pour les mêmes raisons, elles doivent être décomposées en différents bouts afin
de faciliter la lecture.

• Le plan de codage.

Remarque
Les annexes permettent souvent de soulager le texte principal. Par exemple, si certains graphiques sont
redondants, nous pouvons garder le plus pertinent dans le corps du texte et mettre les autres en annexe.
Dans ce cas, il faut que les commentaires faits concernent principalement le graphique laissé dans le corps
du texte.

Attention au piège
Par contre, il est important qu’il soit fait référence dans le corps du texte des annexes. Par exemple,

Chapitre 12 : Rédaction d’un rapport


lorsque vous présentez votre formulaire, vous signalez que le plan de codage est disponible en annexe (en
précisant la localisation).

12.2 Mise en forme générale


Toutes les pages doivent être numérotées (y compris les annexes). La numérotation se fait automati-
quement pour éviter tout problème. Le texte doit être justifier ; c’est-à-dire que les lignes du texte doivent
commencer et finir au même niveau à gauche et à droite si elles ne finissent pas un paragraphe (comme
dans le document présenté ici).

Point logiciel (Numérotation automatique des pages)


Dans le logiciel Word , la numérotation se fait à l’aide de l’option numéro des pages dans le
champs En-tête et pied de page du menu Insertion. Dans le langage Latex , la numérotation
se fait automatiquement avec la plupart des styles de document proposés par défaut (article,
livre, rapport...).

Le rapport doit être rédigé dans un français adapté à la communication écrite (dans un registre non
narratif, proscrire le «je» et limiter le «on» et le «nous»), sans faute d’orthographe ni de grammaire. En
particulier, c’est un rapport professionnel et pas un journal intime.
12.3. GRAPHIQUES ET TABLEAUX 134

12.3 Graphiques et tableaux


Les graphiques et les tableaux ne peuvent pas être placés n’importe où dans un texte. Comme pour
le reste, ils doivent satisfaire un certain nombre de règles :
• Une section ne doit jamais commencer par une figure ou un tableau ; il faut toujours un texte avant.
• Ils doivent toujours avoir une légende ; c’est-à-dire un texte commençant par Figure [numéro de la
figure] ou Tableau (ou table) [numéro du tableau] puis le descriptif de ce qui est présenté. Il est
important que les figures et les tableaux puissent se comprendre sans la lecture du texte. La légende
se trouve toujours en dessous pour les figures et au-dessus pour les tableaux.
• Si la figure ou le tableau porte sur une partie des données (par exemple, s’il y a des données
manquantes), il faut indiquer le nombre d’individus statistiques et le pourcentage par rapport à
l’échantillon de départ pour ne pas biaiser les interprétations.
• Quand nous citons une figure ou un tableau, nous utilisons son numéro (par exemple voir la figure 7 ).
Il est imprécis d’utiliser des textes du type voir la figure ci-dessous ; en effet, cela peut être la figure
juste en dessous ou une figure bien plus loin.
• Toute figure doit être citée dans un rapport de statistique. Si vous ne citez pas cette figure, c’est
qu’elle n’a pas sa place. Certain·e·s étudiant·e·s aiment bien rajouter des figures pour faire joli ;
cela surcharge le rapport inutilement. Pour faire un beau rapport, il est préférable de soigner la
visualisation des figures obligatoires pour la compréhension.
• La lisibilité des graphiques est importante : faites attention à la qualité de l’image de ces derniers.
• Pour les graphiques, il faut qu’il y ait un titre global et un titre pour chaque axe.
• Les unités doivent apparaître (dans les tableaux ou les légendes des graphiques notamment).

12.4 Quel niveau de détails est nécessaire ?


Quand un rapport est rédigé, il doit être compris·e. Il est important de ré-expliquer des points qui
peuvent nous paraître simples si ces derniers sont primordiaux pour la compréhension. Une erreur faite
par quelqu’un qui rédige un rapport est d’oublier quelles étaient ses connaissances quand il a débuté
l’étude.
La jauge est souvent difficile à placer :
• Trop de détails pour des points triviaux alourdissent la lecture du texte.
Chapitre 12 : Rédaction d’un rapport

• Un manque de précisions et le texte devient incompréhensible.


Dans le cas des rapports en SD, il s’agira de viser un étudiant qui a suivi les mêmes cours que vous :
il faut donc faire des brefs rappels des notions utilisées (car elles ne sont pas toujours présentes dans les
esprits immédiatement) et détailler tous les nouveaux outils (ou jargons spécifiques utilisés dans votre
étude).
La (mauvaise) utilisation de la statistique à travers les âges
Il arrive (régulièrement) que des personnes fassent exprès de complexifier leurs rapports de peur que, si
c’est compréhensible par tout le monde, les gens pensent que ce qu’ils ont fait était trop facile. En fait,
vous comprendrez avec le temps que c’est l’inverse : faire un rapport ou une présentation qui soit la plus
pédagogue possible est très complexe et montre que vous avez un grand recul et une très bonne maîtrise
du sujet donc n’hésitez pas à rédiger des rapports clairs et limpides.

L’autre travers consiste à rester vague. La rédaction doit être composée d’un discours scientifique et
technique (par opposition à un discours « grand public ») en utilisant les termes précis vus en cours.
Remarque
En particulier, il est courant de voir des termes vagues comme beaucoup alors qu’on peut le quantifier
(d’ailleurs beaucoup ne représente pas la même quantité pour deux personnes). Par exemple, "cette année,
il y a beaucoup d’étudiants dans la formation SD" est moins précis que "cette année, il y a 58 étudiants
dans la formation SD".
12.5. PLAGIAT 135

12.5 Plagiat
Il est bien sûr possible de s’inspirer d’articles ou du travail d’autres personnes lorsque nous rédigeons
un rapport : il ne s’agit pas d’inventer la roue à chaque fois mais bien de s’appuyer sur l’existant. Par
contre, il faut reformuler avec vos mots les idées et surtout citer les références. A la fin de ce polycopié, il
y a une bibliographie des documents qui nous ont servis à préparer ce cours : nous les recensons et nous
précisons à chaque fois quand nous utilisons des informations. Cela a deux intérêts :
• D’abord valoriser vos recherches personnelles en montrant que vous vous êtes renseigné·e et que
vous avez suffisamment compris de quoi il s’agissait pour pouvoir proposer votre propre version.
• Ensuite, s’il y a des erreurs, vous pourrez vérifier facilement dans le document initial.
Tout plagiat, c’est-à-dire des phrases copier/coller, que ce soit du texte, des figures, des tableaux ou
même du code, sera évidemment sanctionné.
La (mauvaise) utilisation de la statistique à travers les âges
Une année, l’introduction d’un étudiant avait des tournures de phrases particulières et ne ressemblait
pas au reste du document. Généralement, ceci est dû à un copier/coller provenant d’un site internet.
Après une recherche rapide, les moteurs de recherche (wikipédia, google...) ne donnent pas de résultats
probants. Mais en cherchant un peu plus profondément, nous nous sommes aperçus que l’étudiant avait
récupéré un paragraphe entier de la version anglaise d’un article wikipédia qu’il avait traduit de façon
brute (peut-être en utilisant google traduction) et l’avait incorporé dans son texte. Malgré l’ingéniosité
de la démarche, il a eu droit à la même sanction. Comprenez bien qu’un ou une enseignant·e qui lit des
rapports régulièrement sent quand il y a tricherie.

Si vous avez un doute sur ce qui est possible ou non de faire, parlez en à votre enseignant·e
référent·e ; son rôle est également de vous aider dans la rédaction d’un rapport.
Enfin, il existe des logiciels pour détecter le plagiat. Les enseignants de SD les utilisent régulièrement.

12.6 Les travers dans lesquels il ne faut pas tomber


Voici quelques unes des erreurs classiques faites par les étudiant·e·s :
• Le titre ne veut rien dire : par exemple, Voici mon rapport.
• Il y a deux titres à la suite sans texte. Ceci signifie qu’il n’y a pas eu de paragraphe d’introduction.
• Les figures n’ont pas de légendes et surtout les étudiants disent de regarder la figure ci-après ou

Chapitre 12 : Rédaction d’un rapport


ci-dessous (quand ils pensent à dire de la regarder). Une figure doit être compréhensible même si
le lecteur ou la lectrice a survolé le texte l’entourant.
• Il n’y a pas le pourcentage de répondants dans les légendes des figures ou des tableaux.
• Dans le cas de rapports basés sur un énoncé avec des questions (comme en TP par exemple),
certain·e·s étudiant·e·s se contentent de répondre aux questions (en mettant juste 1. voici la réponse
à la question 1 ).
• La conclusion (quand elle est présente) contient de nouveaux résultats.
• Des pans entiers du texte sont des simples copier/coller de sites internet.

12.7 Particularités des rapports de stage


Le rapport de stage doit permettre à l’étudiant·e de communiquer :
• Son expérience de travail et de vie en entreprise.
• L’application de ses connaissances acquises lors de la formation, ainsi que de son propre savoir faire
pour la réalisation de la (des) mission(s) confiée(s) par l’entreprise.
En plus des points vus précédemment, le rapport de stage comporte généralement :
12.7. PARTICULARITÉS DES RAPPORTS DE STAGE 136

• Une présentation de l’entreprise juste après l’introduction. En particulier, cette présentation


doit permettre de comprendre où l’auteur se situe au sein de cette entreprise et en quoi sa mission
va servir à celle-ci.

• Une explication des objectifs et la problématique ou plus généralement les missions du travail.
• Un détail des données déjà à la disposition de l’auteur et celles à recueillir ainsi que leurs
formats.
• Une présentation des logiciels mis à disposition.

• Les difficultés rencontrées pour mener à bien la mission (manque d’informations, informations
non fiables, difficultés techniques...). Ces informations sont importantes d’une part pour comprendre
le temps mis pour réaliser les missions et, d’autre part, pour que les personnes qui reprendront les
travaux ne fassent pas les mêmes erreurs voir améliorent l’accueil des stagiaires.
• un bilan personnel doit être ajouté à la conclusion.

Cas d’un stage avec une application informatique. En plus du rapport, lorsque le sujet du stage
porte sur le développement d’une application informatique, il est également souhaitable de joindre deux
guides :

• le guide de l’utilisateur qui permet d’expliquer à un utilisateur comment utiliser votre application.
En général, on trouvera des copies d’écran commentées de l’application qui rendent compte des pro-
cédures pour utiliser les fonctionnalités de l’application. Si l’auteur a développé une fonctionnalité
d’aide en ligne, il peut en reprendre le contenu dans le guide.
• le guide du développeur qui permet à quelqu’un qui aurait à reprendre les développements (main-
tenance, évolution) de s’y retrouver. On devra par exemple trouver tout ce qui concerne la mo-
délisation et les développements. Attention, sur ce deuxième point, il ne s’agit pas de fournir un
listing papier de tout le code de l’application, mais bien de rendre compte de l’organisation de des
programmes (quelle fonction/procédure fait quoi, appelle quelle autre, etc.). Évidemment, il faut
aussi que les codes soient correctement commentés.

Ces deux guides sont des documents spécifiques, faits à l’attention d’un utilisateur et d’un développeur
(ce qui n’est pas le cas du rapport). Ils ne sont pas forcément très volumineux et on peut y retrouver
certains éléments (schémas, textes, etc.) identiques à ceux qu’on trouve dans le rapport
Chapitre 12 : Rédaction d’un rapport
Chapitre 13
Corrections des exercices

13.1 Exercices de l’introduction


13.1.1 Exercice 1.5.1
Il fallait trouver :
• Horizontal :
1. Probabilité
2. Discrète
3. Individu
4. Population
5. Continu
6. Nominal
7. Codage
• Vertical :
(A) Descriptive
(B) Protocole
(C) Statistique
(D) Données
(E) Exploration
(F) Quantitative
(G) Ordinal
(H) Qualitative
(I) Échantillon Chapitre 13 : Corrections

13.2 Exercices sur le chapitre des variables qualitatives


13.2.1 Exercice 2.4.1
Les mots à trouver sont :
(a) Tri à plat : tri - A (première lettre d’Atchoum) - plat
(b) Diagramme en tuyau d’orgue : Dia (début de diamant) - G’ - rat - ment - tuyau - d’ - orgue
(c) Diagramme circulaire : dix - ya (oui en allemand) - gramme (entre décagramme et décigramme)
- cirque - Q - lait - R’
(d) Tableau de données individuelles : table - Aude - œufs (au pluriel donc phonétiquement "E")
- do - nez - undi (lundi sans le "L") - vide (symbole mathématique de l’ensemble vide) - U - aile.

137
13.3. EXERCICES SUR LE CHAPITRE DES VARIABLES QUANTITATIVES DISCRÈTES 138

13.3 Exercices sur le chapitre des variables quantitatives dis-


crètes
13.3.1 Exercice 3.4.1
La grille corrigée est mise dans la figure 13.1.

IQ x me σ̂x cv fk Qk W ak

σ̂x Q k W x IQ a k cv me f k

ak fk cv me Q k W x IQ σ̂x

cv W σ̂x a k me Q k IQ f k x

fk IQ x W σ̂x cv me a k Q k

Q k me a k fk x IQ W σ̂x cv

W σ̂x IQ Q k a k x fk cv me

x ak fk cv W me σ̂x Q k IQ

me cv Q k IQ f k σ̂x ak x W

Figure 13.1 – Grille corrigée pour le sudoku de l’exercice 3.4.1.

13.4 Exercices des variables quantitatives continues


13.4.1 Exercice 4.6.1
Les 18 mots à retrouver dans la grille 4.2 sont :
• BOXPLOT
• CENTILE
• CIRCULAIRE
• DIAGRAMME
• EMPILE
• KURTOSIS
• MAX
Chapitre 13 : Corrections

• MEDIANE
• MIN (au centre de NOMINALE)
• MOYENNE
• NOMINALE
• PARETO
• PLAT
• QUARTILE
• REPARTITION
13.4. EXERCICES DES VARIABLES QUANTITATIVES CONTINUES 139

• TRI
• TUYAU

• VARIANCE
Nous mettons dans la table 13.1 la correction avec les lettres restantes entourées.

Table 13.1 – Correction de la grille pour le mot barré de l’exercice 4.6.1.


V E N N E Y O M L I Q

A R C O E N P C X U B

R I E M P I L E A D O

I A E I P R A R M I X

A L O N F O T E R A P

N U E A S I S U I G L

C C I L L O N N Y R O

E R M E D I A N E A T

S I S O T R U K E M U

L C E N T I L E L M E

N O I T I T R A P E R

Avec les lettres restantes, nous formons LICENCE PROFESSIONNELLE.

Chapitre 13 : Corrections
Bibliographie

V. Audigier. Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les
données manquantes. PhD thesis, Rennes, Agrocampus Ouest, 2015.
S. Checknews. Cnews a-t-elle diffusé un graphique trompeur sur les intentions de vote aux eu-
ropéennes ? Libération, 2019. URL https://www.liberation.fr/checknews/2019/05/06/
cnews-a-t-elle-diffuse-un-graphique-trompeur-sur-les-intentions-de-vote-aux-europeennes_
1725212.
M. Damgé. Sept conseils pour ne pas se faire avoir par les représentations graphiques. Le
monde, Les décodeurs, 2018. URL https://www.lemonde.fr/les-decodeurs/article/2018/
05/22/sept-conseils-pour-ne-pas-se-faire-avoir-par-les-representations-graphiques_
5302680_4355770.html.

P. L. De Micheaux, R. Drouilhet, et B. Liquet. Le logiciel R : Maitriser le langage-Effectuer des analyses


statistiques. Springer Science & Business Media, 2011.
P. Gautret, J.-C. Lagier, P. Parola, L. Meddeb, M. Mailhe, B. Doudier, J. Courjon, V. Giordanengo,
V. E. Vieira, H. T. Dupont, et al. Hydroxychloroquine and azithromycin as a treatment of covid-19 :
results of an open-label non-randomized clinical trial. International journal of antimicrobial agents,
page 105949, 2020.
J. Goetz, S. Lapoix, et H. Poulain. Data gueule, 2014. URL https://www.youtube.com/user/
datagueule/.
T. Hamblin. Fake. British medical journal (Clinical research ed.), 283(6307) :1671, 1981.

F. Husson, J. Josse, S. Le, J. Mazet, et M. F. Husson. Package ‘factominer’. An R package, 96 :698, 2016.
E. Lucet, L. Richard, J.-P. Canet, B. B. Bringer, et E. Gagnier. Cash investigation, 2013. URL https:
//www.youtube.com/c/cashinvestigationf2/about.
F. H. Messerli. Chocolate consumption, cognitive function, and nobel laureates. The New England Journal
of Medicine, 367 :1562–1564, 2012. URL http://www.nejm.org/doi/full/10.1056/NEJMon1211064).
P. L. Micheaux, R. Drouilhet, et B. Liquet. Le logiciel R. 2011.
H. A. Schwarz. Über ein die flächen kleinsten flächeninhalts betreffendes problem der variationsrechnung.
Chapitre 14 : Bibliographie et index

Dans Gesammelte Mathematische Abhandlungen, pages 223–269. Springer, 1890.

L. Sweeney. Guaranteeing anonymity when sharing medical data, the datafly system. Dans Proceedings
of the AMIA Annual Fall Symposium, page 51. American Medical Informatics Association, 1997a.
L. Sweeney. Weaving technology and policy together to maintain confidentiality. The Journal of Law,
Medicine & Ethics, 25(2-3) :98–110, 1997b.

N. Uyttendaele, L. Maugeri, et G. Grisi. La statistique expliquée à mon chat, 2016. URL https:
//www.youtube.com/channel/UCWty1tzwZW_ZNSp5GVGteaA/featured.

140
Index

Absolu Causalité, 77
Classe modale (absolue), 70 Centile, 62
Mode, 43 approché, 70
Abstract, 131 Centre, 70
Accord Chat
Individus d’accord, 115 Statistique expliquée à mon chat, 8
Acronyme, 133 Chocolat
Amplitude, 65 corrélation et moustaches de chats, 8
Analyse Circulaire
SAÉ 1-03 : Préparation et synthèse d’un ta- Diagramme circulaire, 35
bleau de données en vue d’une analyse ex- Classe, 79
ploratoire simple, 122 isoamplitudes, 65
Annexe, 130, 133 isofréquences, 65, 66
Aplatissement modale (absolue), 70
Coefficient, 55, 63 modale (relative), 70
Apprentissage Regroupement en classes, 64
critique, 121 Regroupement en classes isoamplitudes, 65
Situation d’Apprentissage et d’Évaluation, 121 Regroupement en classes isofréquences, 65, 66
Approché statistique, 64
Centile approchée, 70 Clef
Décile approché, 70 Mot clef, 130, 131
Fractile approché d’ordre α, 70 Codage, 8
Intervalle interquartile approché, 72 Plan, 16
Intervalle interquartile approché (longueur), 72 Coefficient
Moyenne, 72 d’aplatissement, 55, 63
Médiane approchée, 70 d’asymétrie, 55, 63
Quartile approché, 70 de corrélation des rangs, 114
Variance, 72 de corrélation linéaire (de Pearson), 108
Asymétrie de Kendall, 117
Coefficient, 55, 63 de variation, 55, 63
Attraction Commanditaire, 131
du couple (k, ℓ), 99 Conclusion, 130, 132
Auteur Concordance
Nom des auteurs, 130, 131 entre individus, 115
Constante
Chapitre 14 : Bibliographie et index

Barre Moyenne d’une constante, 48


Diagramme en barres, 30 Contexte, 132
Bâton Continu
Diagramme en bâtons, 30, 56, 63 Variable, 13
Bibliographie, 130, 133 Contribution
Bilan de la cellule (k, ℓ) au χ2 , 99
personnel, 136 Corps
Bimodal du texte, 130, 132
Distribution, 43 Corrélation
Boîte Chocolat, corrélation et moustaches de chats,
à moustaches, 59, 63 8
Boxplot, 59, 63 rapport de corrélation de Y par rapport à X,
82
Camembert, 35 Covariance, 105

141
INDEX 142

Critique Diagramme empilé, 34


Apprentissage critique, 121 Empirique
Croisé Fonction de répartition empirique, 57, 63
Tableau croisé dynamique, 26 Ensemble
Cumulé discret, 41
Polygone des fréquences cumulées, 68 Entreprise
Logo, 130, 131
Data Présentation, 136
Scientist, 7 Equité
Scientist : serment, 7 Serment d’Hippocrate du Data Scientist, 7
Décile, 45, 62 Étendue, 50, 63
approché, 70 Évaluation
Décision Situation d’Apprentissage et d’Évaluation, 121
Prise de décision, 8, 10 Ex-æquo
Densité, 67 Individus, 115
Désaccord Individus ex-æquo selon X, 115
Individus en désaccord, 115 Individus ex-æquo selon Y, 115
Diaconis Excel
Règle de Freedman-Diaconis, 66 Boxplot, 61
Diagramme Boîte à moustaches, 61
circulaire, 35 Bug, 66
de Pareto, 32 Diagramme circulaire, 36
empilé, 34 Diagramme de Pareto, 33
en barres, 30 Diagramme empilé, 34
en bâtons, 30, 56, 63 Diagramme en bâtons, 56
en tuyaux d’orgue, 30 Diagramme en tuyaux d’orgue ou en barres, 30
Discret Fonction de répartition empirique, 59
Ensemble, 41 Histogramme, 68
Variable, 13 Maximum, 45
Dispersion Minimum, 45
Résumé statistique, 42 Moyenne, 46
Distribution, 28 Regroupement en classes isoamplitudes, 66
bimodale, 43 Regroupement en classes isofréquences, 66
conjointe, 89 Tableau croisé dynamique, 26
Mode, 28 Tri à plat, 26
multimodale, 43 Variance, 52
unimodale, 43 Expérience
Donnée Plan, 15
censurée, 17 Explicatif
manquante, 17 Variable, 14
Tableau de données individuelles, 22 Expliquer
Données Variable à expliquer, 14
Explorations des données, 8, 10 Exploration
Jeu de données, 8 des données, 8, 10
Pré-traitement des données, 8, 10 Exploratoire
Chapitre 14 : Bibliographie et index

Dynamique SAÉ 1-03 : Préparation et synthèse d’un ta-


Tableau croisé dynamique, 26 bleau de données en vue d’une analyse ex-
ploratoire simple, 122
Écart-type, 52, 63
Echantillon Fonction
statistique, 12 de répartition empirique, 57, 63
Taille, 22 Forme
Effectif Résumé statistique, 42
de la modalité ak , 24 Fractile, 59
du groupe k, 79 approché d’ordre α, 70
marginal, 87 d’ordre α, 45, 62
théorique, 95 Médiane, 44, 63
total, 88 Freedman
Empilé Règle de Freedman-Diaconis, 66
INDEX 143

Fréquence, 65 Classes isoamplitudes, 65


associée au groupe k, 79 Regroupement en classes isoamplitudes, 65
cumulée de la modalité ak , 25 Isofréquence
de la modalité ak , 24 Classes isofréquences, 65, 66
marginale, 88, 89 Regroupement en classes isofréquences, 65, 66
Polygone des fréquences cumulées, 68
Jeu
Garde de données, 8
Page de garde, 130
Géométrique Kendall
Moyenne, 50, 63 Coefficient, 117
Glossaire, 130, 133 Kurtosis, 55, 63
Graphique, 134
Groupe, 79 Latex
Groupe k, 79 Table des matières, 132, 133
Liaison
Harmonique Indicateur, 75, 76
Moyenne, 50, 63 Limite, 132
Hippocrate Linéarité
Serment d’Hippocrate du Data Scientist, 7 de la moyenne, 48
Histogramme, 30, 67 Logo
Densité, 67 des entreprises, 130, 131
Longueur
Identifiant, 17 de l’intervalle interquartile, 51, 63
Indépendance de l’intervalle interquartile approché, 72
et responsabilité (Serment d’Hippocrate du Data
Scientist), 7 Manquant
de deux variables, 92 Donnée, 17
Index, 130, 133 Valeur, 17
Indicateur Matière
de liaison, 82 Table des matières, 130, 131
de liaisons, 75, 76 Maximum, 45
Individu Médiane, 44, 63
Concordance, 115 approchée, 70
statistique, 10, 22 Minimum, 45
Tableau de données individuelles, 22 Modalité, 23
Individus active, 23
d’accord, 115 Effectif de la modalité ak , 24
en désaccord, 115 Fréquence cumulée de la modalité ak , 25
ex-æquo, 115 Fréquence de la modalité ak , 24
ex-æquo selon X, 115 Mode, 28, 62
ex-æquo selon Y, 115 absolu, 43
Intégrité Classe modale (absolue), 70
et rigueur (Serment d’Hippocrate du Data Scien- Classe modale (relative), 70
tist), 7 relatif, 43
Chapitre 14 : Bibliographie et index

Interdécile Modélisation
Rapport, 51, 63 statistique, 8, 10
Interquartile Mot
Intervalle, 51, 63 clef, 130, 131
Intervalle interquartile approché, 72 Moustache
Intervalle interquartile approché (longueur), 72 Boîte, 59, 63
Lougueur de l’intervalle, 51, 63 Moyenne, 46, 63
Intervalle approchée, 72
interquartile, 51, 63 d’une constante, 48
interquartile (longueur), 51, 63 de la variable Y dans le groupe k, 80
interquartile approché, 72 géométrique, 50, 63
interquartile approché (longueur), 72 harmonique, 50, 63
Introduction, 130, 132 Linéarité, 48
Isoamplitude quadratique, 50, 63
INDEX 144

Multimodal fermée, 16
Distribution, 43 ouverte, 16
à choix multiplies, 16
Nom à choix ordonné, 16
des auteurs, 130, 131
des des tuteur·trice·s, 130, 131 R
Nominal Boxplot, 61
Variable, 12 Boîte à moustaches, 61
Non Diagramme circulaire, 36
réponse, 17 Diagramme de Pareto, 33
Diagramme empilé, 35
Ordinal Diagramme en bâtons, 56
Variable, 13 Diagramme en tuyaux d’orgue ou en barres, 30
Orgue Fonction de répartition empirique, 59
Diagramme en tuyaux d’orgue, 30 Histogramme, 68
Outsider, 60 Maximum, 45
Minimum, 45
Page
Moyenne, 46
de garde, 130
Tri à plat, 26
Pareto
Variance, 52
Diagramme de Pareto, 32
Rang, 113
Pearson
classique, 113
Coefficient de corrélation linéaire (de Pearson),
moyen, 113
108
sportif, 113
Perspective, 132
Plagiat, 135 Rapport
Plan, 132 de corrélation de Y par rapport à X, 82
d’expérience, 15 interdécile, 51, 63
de codage, 16 Recueil, 8
Plat Règle
Tri à plat, 26, 42, 62, 64 de Freedman-Diaconis, 66
Polygone de Sturges, 66
des fréquences cumulées, 68 de Yule, 66
Population Regroupement
statistique, 10 en classes, 64
Position en classes isoamplitudes, 65
Résumé statistique, 42 en classes isofréquences, 65, 66
Préparation Relatif
SAÉ 1-03 : Préparation et synthèse d’un ta- Classe modale (relative), 70
bleau de données en vue d’une analyse ex- Mode, 43
ploratoire simple, 122 Remerciement, 130, 131
Présentation Répartition
de l’entreprise, 136 Fonction de répartition empirique, 57, 63
Pré-traitement Réponse
des données, 8, 10 Non réponse, 17
Chapitre 14 : Bibliographie et index

Prévision, 8, 10 Répulsion
Probabilités, 7 du couple (k, ℓ), 99
Problématique, 132 Respect
Protocole, 8 Serment d’Hippocrate du Data Scientist, 7
Responsabilité
Quadratique et indépendance (Serment d’Hippocrate du Data
Moyenne, 50, 63 Scientist), 7
Qualitatif Résumé, 130, 131
Variable, 12 Abstract, 131
Quantitatif statistique, 42, 78
Variable, 13 statistique de dispersion, 42
Quartile, 45, 62 statistique de forme, 42
approché, 70 statistique de position, 42
Question, 8 Rigueur
INDEX 145

et intégrité (Serment d’Hippocrate du Data Scien- des effectifs théoriques, 95


tist), 7 des fréquences théoriques, 96
SAÉ 1-03 : Préparation et synthèse d’un ta-
SAÉ bleau de données en vue d’une analyse ex-
1-03 : Préparation et synthèse d’un tableau de ploratoire simple, 122
données en vue d’une analyse exploratoire Taille
simple, 122 de l’échantillon, 22
Situation d’Apprentissage et d’Évaluation, 121 Text
Serment mining, 16
d’Hippocrate du Data Scientist, 7 Texte
Sigle, 133 Corps du texte, 130, 132
Situation Titre, 130, 131
d’Apprentissage et d’Évaluation, 121 Transparence
Skewness, 55, 63 Serment d’Hippocrate du Data Scientist, 7
Sondage, 15 Tri
Sous-population, 79 croisé en effectis, 88
associée à la modalité ak , 79 croisé en fréquences, 89
Sous-échantillon à plat, 26, 42, 62, 64
statistique, 12 des tuteur·trice·
Statistique, 7 Nom des tuteur·trice·s, 130, 131
V 2 de Cramer, 100 Tuyau
Classe, 64 Diagramme en tuyaux d’orgue, 30
descriptive, 10
descriptive 1, 7 Unimodal
du Khi2, 96 Distribution, 43
du Phi2, 97
Echantillon, 12 Valeur
expliqué à mon chat, 8 manquante, 17
Individu, 10 Variable
Individu statistique, 22 centrée, 104
Modélisation, 8, 10 explicative, 14
Population, 10 qualitative, 12, 78
Résumé, 42 qualitative dépendant d’une variable qualita-
Résumé statistique de dispersion, 42 tive, 87
Résumé statistique de forme, 42 qualitative nominale, 12
Résumé statistique de position, 42 qualitative ordinale, 13
Sous-échantillon, 12 qualitative ordonnée dépendant d’une variable
Variable, 12 qualitative ordonnée, 112
Variable statistique, 22 quantitative, 13, 78
Strate, 79 quantitative continue, 13
Sturges quantitative discrète, 13
Règle, 66 quantitative dépendant d’une variable qualita-
Synthèse tive, 78
SAÉ 1-03 : Préparation et synthèse d’un ta- quantitative dépendant d’une variable quanti-
bleau de données en vue d’une analyse ex- tative, 102
Chapitre 14 : Bibliographie et index

ploratoire simple, 122 statistique, 12, 22


à expliquer, 14
Table Variance, 51, 63
des matières, 130, 131 approchée, 72
Tableau, 134 de la variable Y dans le groupe k, 81
croisé dynamique, 26 interclasse, 82
de contingence, 88 intraclasse, 82
de données individuelles, 22 totale, 82
de la distribution conditionnelle de X sachant Variation
Y, 91 Coefficient, 55, 63
de la distribution conditionnelle de Y sachant
X, 90 Webographie, 133
des contributions au Khi2, 98 Word
des contributions au Phi2, 99 Table des matières, 132, 133
INDEX 146

Yule Qe 3 : troisième quartile approché, 70


Règle, 66 x : moyenne approchée, 72
e
me
f : médiane approchée, 70
Notations x : moyenne d’une distribution, 46
Ck : k ème centile (ou fractile d’ordre k/100), 45 σ̂x : écart-type de l’échantillon x, 52
C95 : 95ème centile (ou fractile d’ordre 0.95), 45 var (x) : variance de l’échantillon x, 51
C99 : 99ème centile (ou fractile d’ordre 0.99), 45 vgar (x) : moyenne approchée, 72
Dk : k ème décile (ou fractile d’ordre k/10), 45 ak : k ème modalité, 23
Fk : fréquence cumulée de la k ème classe, 64 ck : centre de la k ème classe, 70
Fk : fréquence cumulée de la modalité ak , 25 cv : coefficient de variation, 55
IQ : longueur de l’intervalle interquartile, 51 dk : densité de la k ème classe, 67
N : effectif total., 88 fk : fréquence de la k ème classe, 64
N : nombre de valeurs effectives d’une variable, fk : fréquence de la modalité ak , 24
24 i : indices pour les individus, 23
Nk : effectif de la modalité ak , 24 j : indice pour les variables, 23
Q1 : premier quartile (ou fractile d’ordre 0.25), me : médiane, 44
45 n : taille de l’échantillon, 22
Q3 : troisième quartile (ou fractile d’ordre 0.25), nk : effectif de la k ème classe, 64
45 nkℓ : nombre d’individus vérifiant à la fois x =
Rk/ℓ : rapport interdécile, 51 ak et y = bℓ ., 87
V 2 : statistique V 2 de Cramer., 100 p : nombre de variables, 23
W : étendue d’une distribution, 50
Yk : moyenne de la variable Y dans le groupe
k, 80
ak : k ème modalité, 79
B : variance interclasse, 82
V : variance totale, 82
W : variance intraclasse, 82
χ2n : statistique du Khi2., 96
ckℓ : effectif théorique., 95
η 2 : rapport de corrélation de Y par rapport à
X, 82
fk : fréquence associée au groupe k, 79
fkℓ : fréquence des individus vérifiant à la fois
x = ak et y = bℓ ., 88
fk• : fréquence des individus vérifiant x = ak .,
88
f•ℓ : fréquence des individus vérifiant y = bℓ .,
89
n : effectif total., 88
n : nombre total d’individus, 79
nk : effectif du groupe k, 79
nk• : nombre d’individus vérifiant x = ak ., 87
n•ℓ : nombre d’individus vérifiant y = bℓ ., 87
ϕ2n : statistique du Phi2., 97
Chapitre 14 : Bibliographie et index

r(X, Y) : Coefficient de corrélation linéaire (de


Pearson)., 108
rrang (X, Y) : Coefficient de corrélation des rangs.,
114
rang(xi ) : rang de l’observation xi au sein d’un
échantillon, 113
τ : coefficient de Kendall, 117
vark (Y) : variance de la variable Y dans le
groupe k, 81
Cek : k ème centile approché, 70
De k : k ème décile approché, 70
IQ
f : Longueur de l’intervalle interquartile ap-
proché, 72
Qe 1 : premier quartile approché, 70

Vous aimerez peut-être aussi