Académique Documents
Professionnel Documents
Culture Documents
1
Chapitre 0 : Rien
2 Variables qualitatives 22
2.1 Définitions et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Tri à plat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.1 Diagramme en tuyaux d’orgue ou en barres . . . . . . . . . . . . . . . . . . . . . . 29
2.3.2 Diagramme de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.3 Diagramme empilé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.4 Diagramme circulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.1 Jouons avec le vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2
TABLE DES MATIÈRES 3
Chapitre 0 : Rien
4.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.6.1 Jouons avec le vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6 Quanti × Quali 78
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 Rapport de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.3 Point méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7 Quali × Quali 87
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.1.1 Distribution conjointe du couple (X, Y) . . . . . . . . . . . . . . . . . . . . . . . . 87
7.1.2 Distribution conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2.2 Liaison entre deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . 95
7.2.3 La statistique V 2 de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.3 Point méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5
Chapitre 0 : Rien
6
Chapitre 1 : Introduction Univariée
Chapitre 1
Introduction
"Je ne crois aux statistiques que lorsque je les ai moi-même falsifiées."
Winston Churchill
1.1 Avant-propos
Le but du cours de Statistique Descriptive 1 est de comprendre les fondements de la Statistique.
La statistique est une branche des mathématiques qui étudie les statistiques c’est-à-dire les résultats de
calculs statistiques réalisés à partir des jeux de données.
Il faut faire attention à différencier le domaine des probabilités où nous nous donnons un modèle
dans lequel nous effectuons des calculs et la statistique où nous observons des données et nous tentons
de les expliquer en faisant éventuellement appel à un modèle probabiliste.
Attention au piège
En tant que branche des mathématiques, la statistique est une science rigoureuse qui impose un certain
nombre de règles et d’obligations. Il n’est donc pas possible de faire tout ce que nous souhaitons juste
parce que ce serait joli et que cela montrerait mieux que nous avons raison.
Nous verrons que la statistique est souvent mal utilisée ce qui la décrédibilise parfois aux yeux des
personnes qui n’ont pas eu de formations poussées en statistique (comme la citation de Winston Churchill
en témoigne). Le rôle des statisticien·ne·s est de s’assurer que les conclusions obtenues à partir de jeux
de données proviennent d’études rigoureuses.
Pour conclure cette introduction, nous vous invitons à faire vôtre le serment d’Hippocrate du Data
Scientist 1 :
1. Intégrité scientifique et rigueur : J’exploiterai les données avec toute la rigueur requise et en
conformité avec les meilleurs standards de ma profession.
2. Transparence : J’informerai de manière compréhensible et précise toutes les parties prenantes sur
les finalités, les modalités et les implications potentielles de mon utilisation des données.
3. Equité : Je veillerai à toujours m’assurer que des individus ou des groupes ne soient pas discriminés
par rapport à des critères illégaux ou illégitimes, de manière directe ou indirecte, sur la base de mes
travaux sur les données.
4. Respect : J’exercerai mon activité professionnelle en respectant la vie privée et la dignité des
personnes dans toutes leurs dimensions.
7
1.1. AVANT-PROPOS 8
Une étude statistique a pour but de répondre à une question dans un domaine d’application parti-
culier à partir d’un jeu de données.
Une étude statistique se déroule en plusieurs étapes :
1. La réflexion sur le protocole à suivre pour le recueil des données (plan d’expériences, plan de
sondage, élaboration d’un questionnaire ...) ;
3. L’exploration des données (statistique descriptive, analyse des données, fouille de données, ...),
sans chercher à les modéliser ;
5. Si les données sont issues d’un échantillon, modélisation statistique : statistique inférentielle,
appel à un modèle probabiliste ;
Chacune de ces étapes est importante pour que les résultats de l’étude répondent correctement à
la question posée initialement. En particulier, il arrive que certaines co-variables n’aient pas été prises
en compte dans le cadre de l’étude et viennent fausser les résultats. Nous renvoyons par exemple les
statisticien·ne·s intéressé·e·s à la vidéo Chocolat, corrélation et moustaches de chats 2 de la chaîne Youtube
la statistique expliquée à mon chat 3 proposée par Uyttendaele et al. (2016).
La (mauvaise) utilisation de la statistique à travers les âges
Lors de la pandémie du virus appelé covid19, une molécule, appelée hydroxychloroquine, a été mise en avant
médiatiquement : essentiellement deux camps se sont opposés ; l’un disant que ce médicament soignait la
maladie et l’autre qu’il était inefficace voire toxique. Nous allons reprendre deux études présentées par
chacun des camps pour montrer que le protocole ne permet pas de conclure ni dans un sens, ni dans
l’autre.
La première étude est celle faite par Gautret et al. (2020) sur l’effet jugé positif de la molécule ; elle
était appelée dans les médias comme la première étude du professeur Raoult. Dans cette étude, plusieurs
patients ont été suivis durant 6 jours dans plusieurs établissements : l’Institut Hospitalier Universitaire
Infection Méditerranée à Marseille où ils ont pris un traitement chloroquine+azythromicine et un groupe
n’ayant eu aucun traitement provenant de différents établissements (Nice, Avignon et Besançon). Les
différents reproches peuvent être regroupés par thématiques :
• Le premier problème fut l’évaluation de l’état des patients. En effet, dans chacun des groupes, les
patients ont été testés tous les jours et, pour un même patient, il arrivait que les résultats changent
entre positif et négatif chaque jour. Les tests n’étaient donc pas fiables à 100%.
• Le deuxième reproche fut le faible nombre de personnes impliquées dans l’essai clinique (à savoir
26 patients traités) et la diversité des profils. En effet, comme il y avait quasiment unicité des
profils, il n’était pas possible de différencier clairement l’effet du traitement par rapport aux autres
co-variables potentielles (comme l’âge). Au moment où ce polycopié est rédigé, une estimation est
de 2,3% de morts. Ceci veut dire que sur 26 individus, on peut s’attendre à n’avoir que 0,6 mort
ce qui est en dessous d’un mort. En conclusion, s’il n’y a pas de mort dans l’étude, ceci peut être
indépendant du traitement.
• Le plus gros reproche fut l’exclusion de 6 des 26 patients pour non-suivis. Ceci fut problématique
car si 2 patients ont choisi d’arrêter d’eux-mêmes (donc nous ne pouvons critiquer ce choix), pour
les 4 autres, ils ont été sortis car 3 sont partis en soin intensif et 1 est décédé. Or, écarter les patients
qui ne répondent pas positivement au traitement ne peut qu’augmenter le taux de réussite du reste
de la cohorte.
• Le quatrième reproche fut également le suivi du groupe placebo (c’est-à-dire le groupe qui n’avait
pas pris le traitement) car il a été fait de manière plus légère (les charges virales n’ont pas été faites
La deuxième étude, dite du Lancet du nom du journal qui la publia, regroupait cette fois 96 032
patients atteints du covid19 et traités avec de la chloroquine ou de l’hydroxychloroquine et révélait un
important sur-risque de mortalité. Après avoir été étudiées de plus près, il s’est finalement avéré que les
données étaient certainement fausses et/ou corrigées arbitrairement. Nous mettons ici quelques éléments
qui ont permis de mettre en évidence le problème :
• Le taux de mortalité était très supérieur à tout ce qui avait été enregistré jusqu’alors. Même si la
conclusion de l’étude était la sur-mortalité du traitement, des conclusions aussi flagrantes auraient
mérité une meilleure critique de la part des auteurs.
• Le nombre de morts attribués pour l’Australie était supérieur (73 patients morts dans 5 hôpitaux)
que toutes les données remontées par le pays entier (68 morts en tout). De plus, un hôpital fut
surpris de se retrouver dans l’étude alors qu’il n’avait jamais transmis ses données.
• Le descriptif des patients (la prise en charge autre que le traitement par exemple) était très flou. Il
n’était pas possible de savoir si des co-variables auraient expliqué certaines morts.
• Les doses données ont également surpris puisque certains patients d’Amérique auraient eu des doses
de 600mg alors qu’aucun hôpital n’avait donné de doses supérieures à 500mg.
Après toute cette polémique, l’article fut finalement retiré car la société qui avait fourni les
données n’était pas capable de prouver leur exactitude. Nous renvoyons vers le site de Libé-
ration les statisticien·ne· intéressé·e·s : https://www.liberation.fr/checknews/2020/06/02/
pourquoi-l-etude-du-lancet-sur-l-hydroxychloroquine-est-elle-sous-le-feu-des-critiques_
1789844
Nous voyons bien par ces deux exemples contraires l’importance d’un protocole correctement établi.
L’une de ces deux affirmations est peut-être juste, toutefois, sans une étude rigoureuse, aucune des deux
n’est acceptée par la totalité de la communauté scientifique.
Attention au piège
Il arrive parfois que les statisticien·ne·s ne soient associé·e·s qu’à partir de l’étape 3. Ceci est souvent
trop tard car les données récoltées (parfois des plans à plusieurs millions d’euros) ne permettent pas de
répondre à la question posée.
La réflexion sur le protocole doit également être l’occasion de considérer les erreurs potentielles. Par
exemple, si nous récupérons des données de manière manuscrite, il y a un risque d’erreur humaine ou
de mauvaise lecture de ce qui est marqué. A l’opposé, mettre des garde fous sur des recueils virtuels
peut empêcher d’avoir certains résultats. Les étapes d’exploration et de prétraitement des données sont
également importantes pour repérer les erreurs potentielles.
La (mauvaise) utilisation de la statistique à travers les âges
Un exemple classique d’erreur qui a encore la vie dure dans notre inconscient collectif est le fait que les
épinards soient remplis de fer :
• En 1870, le biochimiste allemand nommé E. von Wolf découvre que les épinards contiennent environ
2,7mg de fer pour 100g. L’histoire raconte que, quand sa secrétaire recopia la valeur, elle oublia la
virgule ce qui multiplia par 10 la teneur.
• En 1881, un chercheur nommé Gustav von Bunge réévalue la teneur en fer mais se trompe entre
le poids des épinards frais et des épinards déshydratés. Comme les épinards sont constitués à 90%
d’eau, l’erreur était à nouveau de 1 pour 10.
• Dans les années 1930 à 1937, la communauté scientifique réévalua cette teneur et découvrit des
deux erreurs mais elle ne réussit pas à convaincre le public. Il fallut attendre l’article de Hamblin
(1981) de 1981, soit plus d’un siècle après, pour que les médias reprennent l’information.
1.2. INDIVIDUS ET VARIABLES STATISTIQUES 10
Nous conseillons le site Science & fourchette recensant les nombreuses erreurs commises au fil des ans
sur les épinards : http://sciencefourchette.com/2014/04/11/popeye-est-une-supercherie/ dont
Chapitre 1 : Introduction Univariée
A chacun de ces buts correspond une ou plusieurs techniques (voir le tableau 1.1).
Table 1.1 – Mise en relation des objectifs (à gauche) avec les outils possibles (au milieu). La dernière
colonne correspond au cours dans lequel nous verrons ces notions.
Il est important de ne pas utiliser une technique pour un autre objectif. De même, nous verrons par
la suite que chaque outil correspond à un ou plusieurs objectifs précis : leur choix est donc primordial.
Attention au piège
Les constatations faites durant l’étude portent uniquement sur la population étudiée (en tenant compte
de ses spécificités).
Figure 1.1 – Exemple d’étude où la conclusion (tweet de gauche) fut reprise sans recul sur le fait que
la population était largement vaccinée et donc, sans avoir pris en compte les probabilités conditionnelles
(rappelées par le tweet de droite).
Remarque
Les termes population et individus font naturellement penser à des êtres humains. Néanmoins, l’individu
peut également être un groupement d’êtres humains (par exemple si nous étudions le comportement de
plusieurs villes, ce sera la ville l’individu statistique) ou des objets (par exemple un capteur de tempéra-
ture).
Exemple
Si nous étudions les personnages de Star Wars, ce sont des personnes fictives qui peuvent également être
des robots par exemple.
1.2. INDIVIDUS ET VARIABLES STATISTIQUES 12
Attention au piège
Le fait qu’il y ait un être humain dans une étude ne veut pas dire que l’individu statistique sera un
être humain. Par exemple, si nous observons le suivi d’un traitement donné à des patients et que nous
Chapitre 1 : Introduction Univariée
faisons des prélèvements à différents moments, l’individu statistique sera alors le couplage patient + date
du prélèvement.
Point méthode
Un individu statistique doit être unique. Si vous avez un doute sur la qualification de votre
individu statistique, demandez-vous si un même individu se retrouve plusieurs fois. Dans
l’exemple précédent, nous voyons que si nous prenons uniquement le patient alors il sera associé
à plusieurs prélèvements.
Exemple
Si nous étudions les vidéos de la plateforme Youtube, la caractérisation de l’unicité se fait par l’identifiant
de la vidéo. En effet, une même vidéo (par exemple un clip de musique) peut être déposée par plusieurs
youtubeurs et chacune de ces vidéos est pourtant unique.
Une fois la population statistique définie, le mieux serait de récupérer les informations pour tous les
individus présents. En pratique, c’est bien sûr compliqué pour des questions de temps et d’argent. Nous
introduisons alors de nouvelles notions :
Définitions 2 ((Sous-)échantillon)
Un échantillon (statistique) est un sous-ensemble de la population statistique. On appelle
sous-échantillon une partie de cet échantillon (nous y reviendrons dans la partie sur la
statistique descriptive bivariée).
Attention au piège
Il est important de s’assurer que ce sous-ensemble soit vraiment représentatif de la population. Par
exemple, si nous étudions la proportion de cancers en France dans la population et que l’échantillon
ne contient que des hommes, nous aurons une sur-représentation des cancers des testicules et une sous-
représentation des cancers du sein.
Exemple
Dans le cadre d’une enquête sur la consommation des personnes âgées, nous pouvons leur demander leur
âge, leur poids, leurs habitudes alimentaires (boivent-elles du café ou pas ? Si oui, combien de tasses par
jour ?), la ville dans laquelle elles vivent...
Les variables statistiques peuvent être classées en deux types contenant chacun deux sous-catégories.
• Les variables qualitatives ordinales lorsqu’un ordre accepté par tout le monde peut être
Exemples
• Genre d’une personne : variable qualitative nominale car il n’est pas possible d’additionner un
homme + une femme et qu’il n’y a pas d’ordre naturel et accepté par tous entre les hommes et les
femmes.
• La situation familiale (célibataire, marié·e, veuf·ve, en couple...) : variable qualitative nominale car
il n’est pas possible d’additionner célibataire + en couple par exemple et qu’il n’y a pas d’ordre
naturel et accepté par tous.
• "Êtes-vous totalement d’accord, plutôt d’accord, plutôt pas d’accord ou pas du tout d’accord sur le fait
que le professeur de statistique est vraiment pédagogue ?" est une question renvoyant une réponse
qui est une variable qualitative ordinale puisqu’un ordre naturel est présent mais on ne peut pas
faire d’opérations arithmétiques sur les modalités de réponse.
• Le nombre d’enfants d’une personne : variable quantitative discrète puisque l’essentiel de la popula-
tion se concentre sur un faible nombre d’enfants et qu’on peut calculer le nombre d’enfants moyens
par personne.
• La pression atmosphérique : variable quantitative continue puisque nous pouvons calculer une pres-
sion moyenne et que, si on a un appareil suffisamment précis, il est possible de relever un ensemble
continu de valeurs.
Oui Non
Une opération arithmétique
est-elle possible ?
Indépendamment de leur type, il faut également différencier les variables qui nous permettront de
répondre à la question.
Exemple
Dans le cas des passagers du Titanic, nous cherchons à expliquer la variable survie en fonction de diffé-
rentes variables explicatives (âge, prix du billet, port d’embarquement...).
Dans toutes ces situations, il est important de prendre du temps pour savoir si les données répondent
réellement à la question posée : comment ont-elles été récoltées ? Est-ce que toutes les variables impor-
Remarque
Le choix de la méthode pour recueillir les données peut avoir une influence dans les résultats. Par exemple,
si nous laissons les sondés remplir des questionnaires, ils peuvent commettre des erreurs. A l’opposé, si
des enquêteurs posent les questions, il peut y avoir une réticence à répondre à certaines questions.
• "non pas ronde" : techniquement et si on est puriste, la terre n’est pas ronde mais plutôt ovale
car la distance entre le centre et le niveau de la mer est 21km plus longue qu’aux pôles. Donc,
partant de ce principe, aucune des propositions n’est vraie donc il faudrait que tout le monde soit
en désaccord.
• "comme on nous le dit depuis l’école" : enfin, on peut être contre cette partie si on vit dans un
environnement qui ne nous a jamais dit que la Terre était ronde.
La formulation crée donc une confusion qui empêche l’interprétation des résultats.
De façon identique, la question "L’astrologie est une science" mériterait de savoir d’abord si les
interrogé·e·s savent ce qu’est l’astrologie. En effet, certaines personnes confondent parfois astrologie et
astronomie ; or ce dernier est bien une science qui étudie les astres, leur origine, leur évolution...
1.3. RECUEIL ET STOCKAGE DES DONNÉES 16
Si les données ont été recueillies sur un questionnaire papier, il est nécessaire de définir un plan de
codage qui explique comment on va transcrire l’information portée par le questionnaire dans le fichier
informatique. Ce plan de codage doit en particulier établir les correspondances entre :
• le numéro de la question ;
• le texte de la question ;
Remarque
Dans le cas des enquêtes ou questionnaires, on distingue aussi :
• les questions fermées : une réponse unique à choisir dans une liste → variable qualitative.
• les questions à choix multiple : plusieurs réponses possibles dans une liste → autant de questions
oui/non que de réponses possibles.
• les questions à choix ordonné : plusieurs réponses possibles ordonnées → réponse donnée en
premier choix, puis couples ordonnées de deux réponses, etc.
• les questions ouvertes : texte laissé libre → nécessite un recodage ou appel au text mining.
Le nombre de variables statistiques peut être beaucoup plus élevé que le nombre de questions dans le
questionnaire.
Attention au piège
Le codage peut faire l’objet d’un choix : par exemple, doit-on coder le sexe en homme ou femme ? H ou
F ? 0 ou 1 ?
• si le codage est numérique, le type de la variable n’est pas nécessairement quantitatif : exemple,
le sexe codé 1/2 pour Homme/Femme. Il est parfois plus prudent de garder un codage "texte" pour
ne pas perdre de vue le type de la variable.
• si la question est à réponses multiples, nous transformons chaque modalité (réponse) possible en
nouvelle variable qui prend pour valeur 1 si la réponse a été choisie, 0 si elle n’a pas été choisie.
• si la question est ouverte, on saisit le texte tel qu’il est. On fera appel au text mining et à des
logiciels spécialisés pour la traiter.
• si la variable est quantitative, on précisera bien l’unité dans laquelle est recensée la mesure.
Définitions 6 (Identifiant)
En général, il existe une variable, appelée identifiant qui permet d’identifier l’individu statis-
Attention au piège
Le fait qu’il y ait des valeurs manquantes peut être une information en tant que telle. Nous pouvons
distinguer deux catégories :
• Les valeurs manquantes par omission aussi appelées données censurées : par exemple, lorsqu’une
enquête est faite, il arrive que les personnes ayant des salaires élevés préfèrent ne pas les déclarer.
• Les valeurs manquantes "aléatoirement", nous entendons par là le fait qu’il n’y ait pas de raison
sous-jacente (un capteur défectueux, un oubli de réponses...).
Pendant longtemps, les valeurs manquantes gênantes étaient remplacées par la valeur moyenne de la
variable (par exemple, le package FactoMineR de Husson et al. (2016) sur ). Les recherches récentes
sur le sujet montrent que cela casse la structure et fausse généralement les analyses (voir par exemple
Audigier (2015)). Ces points seront étudiés notamment dans la ressource R6.02 : Méthodes statistiques
pour le Big Data.
Remarque
Quelques cas particuliers :
• L’identifiant est une variable informatique, mais pas statistique (aucun intérêt à l’étudier pour elle
même).
• Si la variable est quantitative, elle peut être regroupée en classes (voir chapitre sur les variables
quantitatives).
• La valeur manquante peut être codée par un caractère manquant (blanc) ou par un code spécifique
(NA ou 99).
Enfin, il est préférable de choisir des modalités de réponses qui soient communes à différentes études.
Pour les enquêtes socio-économiques, l’INSEE a établi des nomenclatures qu’il est bienvenu d’utiliser :
http://www.insee.fr/fr/methodes/default.asp?page=nomenclatures/liste-nomenclatures.htm
Citons en particulier :
• La nomenclature des professions et catégories socioprofessionnelles (PCS, ex-CSP) : Donne 8 groupes
socioprofessionnels et 42 catégories socioprofessionnelles qui regroupent 486 professions.
• La nomenclature des activités principales exercées (APE, ex-NAF) : Donne les secteurs d’activités
des entreprises en France selon 21 sections, 88 divisions, 272 groupes, 615 classes, 732 sous-classes.
Si on utilise l’une des ces nomenclatures, le plan de codage doit préciser quel niveau est choisi.
Exemple fil rouge
Durant cette partie, nous étudierons l’enquête proposée par De Micheaux et al. (2011) sur l’alimentation
de 226 personnes âgées de la région de Bordeaux en 2000. En particulier, nous aurons les informations
suivantes :
• sexe, situation familiale : variables qualitatives nominales.
• consommation journalière de thé, de café (en nombre de tasses) : variables quantitatives discrètes.
1.3. RECUEIL ET STOCKAGE DES DONNÉES 18
• taille (en cm), poids (en kg), âge le jour de l’enquête (en années) : variables quantitatives continues.
Chapitre 1 : Introduction Univariée
• consommation hebdomadaire de viande, poisson, fruits crus, fruits et légumes cuits, chocolat (0 :
jamais, 1 : < 1 fois, 2 : 1 fois, 3 : 2 ou 3, 4 : 4 à 6 fois, 5 : tous les jours) : variables qualitatives
ordonnées.
• matière grasse utilisée préférentiellement pour la cuisson : variable qualitative nominale.
Un extrait du plan de codage associé à ces données est mis dans la table 1.2. Nous pouvons remarquer
que, dans cet exemple, une question correspond à une et une seule variable (ce n’est pas toujours le cas).
Le codage pour la variable poisson est numérique tandis que le codage pour la variable viande est une
chaîne de caractères.
De plus, pour les données sensibles non anonymes, il est important de faire une déclaration auprès de
la Commission Nationale de l’Informatique et des Libertés (CNIL) 6 .
Remarque
Le fait de mettre les questions discriminantes en optionnelles ne permet pas de se dédouaner si nous
prenons conscience que nous pouvons identifier certains individus ultérieurement.
Attention au piège
Il n’est pas nécessaire d’avoir le nom et prénom pour que les données ne soient pas plus anonymes. Par
exemple, le numéro de sécurité sociale est unique ; les numéros de téléphone ont tendance à être uniques
aussi.
Un autre exemple serait de demander des caractéristiques discriminantes pour une population : si
la population est composé de 98 femmes et 2 hommes (une jeune personne et une autre proche de la
retraite), le couplage sexe et âge permettrait de dire qui est qui lorsque l’un des deux hommes répondrait.
Bien que ces questions ne permettent pas de différencier les femmes, cela reste un problème d’anonymat.
Notons que, dans cet exemple, demander le sexe n’est pas pertinent puisque la sous population hommes
est bien plus petite que celle composée de femmes.
Ces règles peuvent paraître contraignantes mais arrivent après quelques abus 7 . Elles sont donc néces-
saires pour permettre à chacun et chacune de ne pas voir leurs données mal utilisées.
5. Le règlement officiel est disponible à l’adresse suivante : https://eur-lex.europa.eu/legal-content/FR/TXT/HTML/
?uri=CELEX:32016R0679.
6. Le site est disponible ici : https://www.cnil.fr/professionnel.
7. Voir par exemple l’épisode de Cash Investigation proposé par Lucet et al. (2013) appelé Marketing : les stratégies
secrètes : https://www.youtube.com/watch?v=dMgh1UAfn7A.
1.5. EXERCICES 20
avait supprimé des identifiants comme le nom, les adresses et les numéros de sécurité sociale mais en
ont laissé d’autres comme le code postal, la date de naissance et le sexe. Latanya Sweeney, étudiante à
l’époque, a réussi à retrouver le dossier du gouverneur en utilisant la base de données des listes électorales.
En 1997, la procédure fut améliorée pour identifier tous les membres de la base de données ce qui a rompu
totalement l’anonymat (voir par exemple Sweeney (1997a) et Sweeney (1997b)). Avec la nouvelle RGPD,
il n’est pas possible de diffuser ces informations (sensibles puisque médicales) sans l’accord des personnes
concernées.
1.5 Exercices
Nous mettons dans cette partie quelques exercices.
(E)
(C)
1.
2.
(H)
(I)
3.
(B)
(D)
4.
5. (G)
6.
7.
Chapitre 2
Chapitre 2 : Qualitatives
Variables qualitatives
"Le loto, c’est un impôt sur les gens qui ne comprennent pas les statistiques."
Anonyme
Dans ce chapitre, nous nous intéresserons aux variables qualitatives, à la manière de les décrire et de
les représenter. La différence entre une variable qualitative nominale et une variable qualitative ordinale se
faisant uniquement sur l’ordre de leurs modalités, nous présenterons les deux simultanément en précisant
les situations où un outil ne s’applique pas pour les variables qualitatives ordinales.
Exemple
Nous représentons en figure 2.1 un extrait des données de l’étude de De Micheaux et al. (2011) sous la
forme d’un tableau individuel.
Remarque
Lorsque les données sont mises sous forme de tableau de données individuelles, un individu correspond à
une ligne. Il est alors plus facile de bien comprendre ce qui caractérise un individu de la population.
22
2.1. DÉFINITIONS ET NOTATIONS 23
Chapitre 2 : Qualitatives
Figure 2.1 – Extrait du tableau des données individuelles de l’étude de De Micheaux et al. (2011)
Corollaire 1
Un tableau de données individuelles possède n lignes c’est-à-dire exactement autant que la
taille de l’échantillon.
Notation
Lorsque nous avons un tableau de données individuelles, nous notons souvent x ce tableau de tailles n
lignes et p colonnes (p étant alors le nombre de variables). Nous utilisons alors les indices i pour les
individus et j pour les variables. Nous notons alors xi,j la case à l’intersection de la ième ligne et de la
j ème colonne qui représente la modalité de l’individu i pour la variable j. Dans le tableau de la figure 2.1,
nous pouvons voir, par exemple, que cette valeur peut être numérique, alphabétique...
Dans les cours de statistiques descriptives 1 et 2, nous ne nous intéresserons qu’à des variables prises
séparément (univarié) ou par deux (bivarié) ; par conséquent, nous nous autoriserons à ne pas préciser
l’indice j.
Définition 10 (Modalités)
Nous appelons modalités les valeurs pouvant être prises par une variable qualitative. Nous
disons qu’une modalité est active si elle est prise par au moins un individu.
Notation
Dans la suite, nous utiliserons la notation ak pour parler de la k ème modalité. L’ensemble des K modalités
possibles est donc {a1 , a2 , . . . , ak , . . . , aK }. Dans le cas des variables qualitatives ordinales, cet ensemble
est ordonné, c’est-à-dire que a1 < a2 < · · · < ak < · · · < aK où < représente une relation d’ordre admise
par tout le monde.
2.2. TRI À PLAT 24
Attention au piège
Il est important de différencier le k minuscule servant à représenter "une modalité quelconque" du K
majuscule qui est le nombre de modalités.
Chapitre 2 : Qualitatives
Hypothèse
Pour la suite du chapitre, nous nous intéresserons qu’à une seule variable qualitative (nominale
ou ordonnée), notée X, prenant N valeurs effectives ; c’est-à-dire que N ≤ n représente le
nombre d’individus ayant une valeur pour la modalité concernée.
Remarque
Avec les notations précédentes, le nombre de valeurs manquantes de la variable se calcule en faisant la
différence n − N .
Proposition 2
Nous avons, par définition :
∀k ∈ {1, . . . , K}, 0 ≤ fk ≤ 1,
K
X K
X
Nk = N et fk = 1.
k=1 k=1
Preuve
La première relation vient du fait que pour chaque modalité, l’effectif est un entier positif et il ne peut pas
y avoir plus d’individus qui ont répondu à une modalité que le nombre total d’individus ayant répondu
(par définition). Ainsi, nous avons pour tout k compris entre 1 et K :
0 Nk N
0 ≤ Nk ≤ N ⇔ ≤ ≤ ⇔ 0 ≤ fk ≤ 1.
N N N
La première égalité vient du fait que nous sommons les effectifs Nk sur toutes les modalités ak .
2.2. TRI À PLAT 25
Chapitre 2 : Qualitatives
= Nk par l’égalité précédente,
N
k=1
| {z }
=N
N
=
N
= 1.
Avant de continuer, nous introduisons le principe de fréquence cumulée dans le cas de variable quali-
tative ordonnée :
Attention au piège
Une fréquence est toujours comprise entre 0 et 1. On peut parfois utiliser le symbole des pourcentages
(%) mais, comme son nom l’indique (pour-cent), la valeur indiquée est alors divisée implicitement par
100. Par exemple :
68
68% = = 0, 68.
100
Corollaire 3
Une modalité ak est active si et seulement si Nk > 0 (ou fk > 0).
2.2. TRI À PLAT 26
Hypothèse
Pour la suite du chapitre, nous supposerons que toutes les modalités ak sont actives.
Si la variable contient des données manquantes (c’est-à-dire si N < n), nous préciserons le
pourcentage de répondants lorsque nous présenterons le tableau (généralement, nous le mettons
dans la légende du tableau ; voir le chapitre 12).
Point méthode
Afin de vérifier que nous ne nous sommes pas trompé·e·s dans les calculs, il est important de
vérifier plusieurs valeurs :
• Est-ce que la somme des cases de la colonne Effectifs vaut bien N ?
• Est-ce que la somme des cases de la colonne Fréquences vaut bien 1 ?
Point logiciel
Dans le logiciel Excel , le tri à plat se fait très facilement grâce à la fonctionnalité tableau
croisé dynamique. Dans le langage R , il peut se faire grâce à la commande table par
exemple.
Utilisation d’Excel
Pour faire un tri à plat (par exemple, celui de la variable sexe de l’exemple fil rouge), il faut procéder de
la façon suivante (voir la figure 2.2 pour une illustration) :
(a) d’abord, il faut sélectionner la colonne qui nous intéresse ; dans l’exemple fil rouge, c’était la A.
Sélectionner toute la colonne plutôt que juste les données concernées permet une mise à jour auto-
matique.
2.2. TRI À PLAT 27
Table 2.1 – Tris à plat des variables sexe (en haut à gauche), situation familiale (en haut à droite),
matgras (consommation de matière grasse ; en bas à gauche) et viande (consommation hebdomadaire de
viande ; en bas à droite).
Chapitre 2 : Qualitatives
(b) Ensuite, il faut aller dans Insertion puis Tableau croisé dynamique (le cercle rouge sur la figure).
(c) Une fenêtre s’ouvre proposant les données que vous avez sélectionnées. Notons au passage qu’il est
possible de récupérer des données extérieures au fichier aussi. La deuxième partie propose de choisir
l’emplacement du tableau croisé dynamique ; par défaut, il propose de créer une nouvelle feuille.
(d) Comme nous avons conservé les valeurs, une nouvelle feuille est créée (voir rond orange) qu’il
vaut mieux renommer pour l’organisation du fichier. Sur cette feuille se trouve le tableau croisé
dynamique (en jaune) et la barre d’outil pour le manipuler (en vert).
(e) Dans la barre d’outils de droite, cliquez sur la case ou faites glisser le nom de votre variable dans
la partie Lignes.
(f) Dans le tableau de gauche sont apparues les modalités recensées dans la variable. Cette phase est
l’occasion de voir s’il y a des valeurs mal entrées.
P
(g) Á nouveau, faites glisser le nom de votre variable mais dans la partie Valeur cette fois.
(h) Si les modalités ne sont pas numériques, le tableau va alors créer une colonne avec les effectifs de
chaque variable. Sinon, il fera la somme (par exemple, s’il y a 10 modalités 2, il mettre 20).
P
(i) Une deuxième fois, faites glisser le nom de votre variable mais dans la partie Valeur.
(k) Pour avoir les fréquences plutôt que les effectifs, cliquez sur la petite flèche à droite de ce nouveau
champs et choisissez Paramètres des champs de valeurs.
(l) Une nouvelle fenêtre s’ouvre alors. Dans le champs Résumer le champs de valeurs par, Nombre est
surligné si Excel a compris que c’était des qualitatives, sinon, ce sera Somme. Dans ce deuxième
cas, il faudra donc changer pour Nombre.
Figure 2.2 – Procédure pour créer un tri à plat à l’aide d’un tableau croisé dynamique en Excel (voir
le paragraphe correspondant pour les étapes détaillées).
Attention au piège
C’est la modalité qui est le mode et non pas sa fréquence. Ainsi, il ne faut pas dire que, pour la
variable sexe, le mode est 62% ; c’est bien la modalité Femme qui est le mode.
Chapitre 2 : Qualitatives
Point méthode (Uniquement pour les variables qualitatives nominales)
Pour faciliter la lecture et l’interprétation du tri à plat, il est recommandé, pour les variables
qualitatives nominales uniquement, de trier les lignes par fréquences décroissantes. Ainsi,
le ou les mode(s) sont en premier et les modalités avec une faible fréquence apparaissent à la
fin.
Enfin, il est possible de regrouper les modalités de faible fréquence comme précisé ci-dessous.
Point méthode
Quand il y a beaucoup de modalités avec des faibles fréquences, nous pouvons choisir de les
regrouper. Dans ce cas, il est important de :
2.3 Graphiques
Dans cette partie, nous présenterons les quatre graphiques utilisés pour les variables qualitatives à
savoir :
• Le diagramme en tuyaux d’orgue ou en barres.
• Le diagramme de Pareto (uniquement pour les variables qualitatives nominales).
• Le diagramme empilé.
• Le diagramme circulaire.
Table 2.2 – Tris à plat de la variable matgras (consommation de matière grasse) avant le regroupement
des modalités (à gauche) et après (à droite). Les modalités regroupées sont : colza et isio4 (autres matières
grasses végétales) d’un côté et beurre et canard (autres matières grasses animales) de l’autre côté.
Chapitre 2 : Qualitatives
• Les barres sont toutes espacées de la même distance (elles ne se collent pas).
• Le nom de chaque modalité doit apparaître en dessous de chaque barre.
• Dans le cas de variables qualitatives ordinales, il faut conserver l’ordre naturel des mo-
dalités.
Attention au piège
Il est important de respecter les règles énoncées dans la définition 15. En particulier, les erreurs les plus
classiques à ne pas faire :
• Il ne faut jamais coller les barres. Le fait de coller les barres est réservé aux histogrammes.
• Il faut toujours donner une épaisseur aux barres. En particulier, il ne faut jamais faire juste
un trait ; le fait de ne faire qu’un trait est réservé aux diagrammes en bâtons (voir la définition 36).
Point logiciel
Dans le logiciel Excel , le diagramme en tuyaux d’orgues ou en barres se fait grâce à la
fonctionnalité histogramme (qui porte mal son nom). Dans le langage R , il peut se faire
grâce à la commande barplot, la commande plot en l’utilisant sur un objet de type factor
ou en utilisant le package ggplot2 par exemple.
2.3. GRAPHIQUES 31
Chapitre 2 : Qualitatives
Figure 2.3 – Représentation sous forme de tuyaux d’orgues (ou en barres) de la variable matgras.
Jamais en 3D
Bien que certains logiciels, comme Excel , proposent une version 3D, il est souvent trompeur de l’utiliser.
Sur la figure 2.4, nous avons repris le diagramme mis dans la figure 2.3 (à gauche) et nous avons proposé
une version 3D (à droite). Nous pouvons déjà remarquer que, comme les traits des ordonnées ne sont pas
juste à côté des barres, l’inclinaison permet de donner l’impression que les valeurs sont plus faibles : par
exemple, nous avons l’impression que la modalité arachide a une fréquence au niveau de la barre 0,3 et
celle d’isio4 une fréquence plus petite que 10%. De plus, l’inclinaison met en avant les dernières modalités
(comme olive et tournesol) et nous avons l’impression que la modalité tournesol a une fréquence presque
deux fois plus grande que celle de l’arachide.
Il est toutefois possible d’utiliser vos talents artistiques en faisant de la data visualisation tant que
les graphiques respectent les règles : par exemple, il n’est pas obligatoire que les barres aient toute la
même couleur et, si les modalités représentent des pays, il est tout à fait autorisé de mettre les drapeaux
pour les couleurs (ou alors en utilisant des cartes ; voir les cours de licence professionnelle ESSIG). Nous
pouvons imaginer aussi remplacer les barres par des symboles homme et femme pour la variable sexe tant
que les largeurs restent les mêmes et que les hauteurs de chacune d’elles sont claires.
Figure 2.4 – A gauche, représentation sous forme de tuyaux d’orgues (ou en barres) de la variable
matgras comme proposée dans la figure 2.3. A droite, le même diagramme fait en 3D grâce au logiciel
Excel afin de montrer les biais que l’utilisation du 3D peut engendrer.
2.3. GRAPHIQUES 32
Figure 2.5 – Représentation sous forme de diagramme en tuyaux d’orgue du taux de participation des
agents de la SNCF durant les grève des 13 et 18 avril 2018 : à gauche, le graphique présenté sur le site
de la SNCF en ne prenant pour les ordonnées que les valeurs de 18% à 23% ; à droite le graphique qu’il
aurait fallu faire pour ne pas biaiser la visualisation. Les graphiques sont tirés de l’article Sept conseils
pour ne pas se faire avoir par les représentations graphiques écrit par Damgé (2018).
Attention au piège
La version 2016 du logiciel Excel s’autorise à parfois zoomer sur le haut du graphique afin de mieux
voir les petites variations ; c’est-à-dire qu’il choisit de ne pas faire commencer l’axe des ordonnées à 0.
Bien sûr, il n’est pas question de mettre un graphique zoomé sans avoir précisé la version avec l’axe
débutant à 0 ; sinon, cela pourrait être interprété comme une volonté de biaiser les interprétations des
résultats.
L’article Sept conseils pour ne pas se faire avoir par les représentations graphiques écrit par Damgé
(2018) est disponible à l’adresse suivante : https://www.lemonde.fr/les-decodeurs/article/2018/05/22/
sept-conseils-pour-ne-pas-se-faire-avoir-par-les-representations-graphiques_5302680_4355770.html
2.3. GRAPHIQUES 33
Attention au piège
Comme nous intervenons sur l’ordre des modalités, le diagramme de Pareto ne s’utilise jamais pour des
variables qualitatives ordonnées.
Chapitre 2 : Qualitatives
Figure 2.6 – Représentation sous forme de diagramme de Pareto de la variable matgras après concaté-
nation des modalités les plus faibles.
Remarque
L’intérêt du graphique de Pareto est de pouvoir repérer facilement le ou les mode(s) de la distribution
(situés en premier) et de comparer deux modalités avec des fréquences proches.
Point logiciel
Dans le logiciel Excel , le diagramme de Pareto se fait de la même manière que le diagramme
en tuyaux d’orgue ; il faut juste organiser les modalités par ordre croissant de leurs fréquences.
Dans le langage R , il peut se faire grâce à la commande barplot, la commande plot en
l’utilisant sur un objet de type ordered (après avoir prédéfini correctement l’ordre) ou en
utilisant le package ggplot2 par exemple.
Source : article CNews a-t-elle diffusé un graphique trompeur sur les intentions de vote aux européennes ?
écrit par Checknews (2019).
Chapitre 2 : Qualitatives
Figure 2.7 – Représentation sous forme de diagramme en tuyaux d’orgue horizontaux du taux d’intention
de vote pour les trois listes nationales principales : à gauche, l’infographie proposée par la chaîne CNews
incluant les barres symbolisant les intentions de vote plus un rectangle noir au bout avec les valeurs. A
droite, la représentation schématique du nombre de pixels par pourcentage d’intention de votes utilisés
dans la longueur. Les graphiques sont tirés de l’article CNews a-t-elle diffusé un graphique trompeur sur
les intentions de vote aux européennes ? écrit par Checknews (2019).
• Les rectangles sont empilés les uns au-dessus des autres de telle sorte que la hauteur
totale fasse 100%.
Remarque
Bien qu’il n’y ait pas d’obligations pour les variables qualitatives nominales, il est recommandé d’ordonner
les modalités par fréquences décroissantes.
Point logiciel
Dans le logiciel Excel , le diagramme empilé se fait à l’aide de la fonctionnalité histogramme
empilé à 100% puis en inversant les lignes et les colonnes dans les options. Dans le langage
L’article CNews a-t-elle diffusé un graphique trompeur sur les intentions de vote aux européennes ? écrit
par Checknews (2019) est disponible à l’adresse suivante : https://www.liberation.fr/checknews/2019/05/06/
cnews-a-t-elle-diffuse-un-graphique-trompeur-sur-les-intentions-de-vote-aux-europeennes_1725212
2.3. GRAPHIQUES 35
Chapitre 2 : Qualitatives
Figure 2.8 – Représentation sous forme de diagramme empilé de la variable viande.
• Chaque angle (et donc chaque zone) est proportionnel à la fréquence de la modalité
associée.
Remarque
Il est souvent conseillé d’afficher les fréquences et/ou les effectifs associés à chaque zone.
Pour les variables qualitatives nominales, il est fortement recommandé d’organiser d’abord les modalités
par ordre décroissant de leurs fréquences afin de mieux les comparer.
Enfin, il est conseillé que le premier rayon soit celui partant du centre et allant verticalement vers le haut.
Attention au piège
Bien que très visuel, le diagramme circulaire rend les comparaisons entre fréquences des modalités plus
difficiles à faire car nous ne sommes pas vraiment habitué·e·s à comparer des angles (par opposition
à la comparaison des fréquences dans le cas des diagrammes en tuyaux d’orgue). En particulier, il est
fortement déconseillé d’utiliser ce diagramme si :
2.3. GRAPHIQUES 36
Chapitre 2 : Qualitatives
Figure 2.9 – A gauche, représentation sous forme de diagramme circulaire de la variable matgras avec
les modalités organisées par ordre alphabétique. A droite, la représentation sous forme de diagramme
circulaire de la même variable mais après regroupement des petites modalités et réorganisation des mo-
dalités par ordre décroissant des fréquences.
Point logiciel
Dans le logiciel Excel , le diagramme circulaire se fait grâce à la fonctionnalité secteur 2D.
Dans le langage R , il peut se faire grâce au package ggplot2 par exemple.
360◦ × fk
360◦
Attention au piège
A cause des cumuls d’arrondis, il est conseillé de commencer par calculer les angles des modalités avec
une faible fréquence : une erreur d’approximation sur les grands angles se verra moins que sur les petits.
Jamais en 3D
Bien que très utilisé, la version en 3D du diagramme circulaire peut permettre de montrer tout et son
contraire. Nous avons représenté dans la figure 2.10 un diagramme circulaire sous différents angles (les
valeurs utilisées sont mises dans la table 2.3 pour les statisticien·ne·s qui voudraient réessayer). Nous
2.3. GRAPHIQUES 37
Table 2.3 – Valeurs utilisées pour la représentation des diagrammes circulaires de la figure 2.10.
Bleu 20
Rouge 30
Vert 10
Violet 50
Cyan 60
Chapitre 2 : Qualitatives
avons l’impression que c’est la modalité rouge qui a la plus grande fréquence sur la figure de gauche, puis
la modalité violette sur la figure du centre et enfin la modalité cyan sur la figure de droite (c’est cette
dernière qui est effectivement le mode).
De plus, il est encore plus dangereux d’utiliser les visualisations qui permettent de sortir des parts du
diagramme circulaire car il devient encore plus compliqué de tout comparer.
Figure 2.10 – Nous avons représenté un diagramme circulaire sous différents angles pour donner l’im-
pression que la modalité dominante n’est pas la même : ce serait la rouge pour la gauche, la violette pour
le milieu alors que c’est la cyan comme nous le voyons sur la droite. Les valeurs utilisées sont mises dans
la table 2.3.
Figure 2.11 – Capture d’écran faite par l’utilisateur de Twitter @jmAlric11 d’un diagramme circulaire
proposé par BFMTV. Nous pouvons constater que la zone rouge fait plus de 180◦ alors que la proportion
correspondante est de 48%.
Figure 2.12 – Capture d’écran faite par l’utilisateur de Twitter @ElJj d’un diagramme circulaire proposé
par TF1 sur la répartition des élus au sein des partis durant l’élection européenne de 2019. Nous constatons
un décalage entre la proportion des zones et le nombre d’élus affichés.
Chapitre 2 : Qualitatives
Figure 2.13 – Capture d’écran faite d’un diagramme circulaire proposé par la chaîne américaine ABC
sur les préoccupations des gens durant la crise du COVID19 aux Etats-Unis en 2020. Nous constatons
que la somme des pourcentages fait 178%. Source inconnue.
2.4 Exercices
Nous mettons dans cette partie quelques exercices.
(a) (b)
(c) (d)
Dans ce chapitre nous allons traiter uniquement les variables quantitatives discrètes ; c’est-à-dire les
variables où des opérations sont possibles mais avec un faible nombre de modalités. Un exemple classique
est le nombre d’enfants dans une famille. Pour bien comprendre les outils développés dans ce chapitre,
nous rappelons le point suivant :
Attention au piège
Attention, il ne faut pas penser qu’un ensemble discret est forcément composé uniquement d’entiers. Par
exemple, nous pouvons imaginer une expérience se faisant à température fixe (18◦ , 18, 5◦ ou 19◦ ) et, dans
ce cas, nous avons une variable quantitative discrète avec des valeurs qui ne sont pas entières.
Contre-exemple
Comme vu précédemment, la frontière entre discret et continu est souvent floues (comme l’exemple de la
température). En particulier, nous aurons tendance à dire que nous sommes en présence d’une variable
continue si une subdivision est possible. Par exemple, pour les tailles d’une personne, nous pouvons
proposer des tailles de 173,85 cm et cela a un sens physique. A l’opposé, dire qu’une famille a en moyenne
2,6 enfants n’a pas de sens physique.
Point méthode
Pour conclure cette courte introduction, il faut surtout se demander si l’utilisation des outils
présentés ici aide à la compréhension :
• Si la réponse est oui alors vous pouvez considérer que c’est une variable quantitative
discrète.
• Si la réponse est non, c’est une variable quantitative continue.
41
3.1. TRI À PLAT 42
Si la variable contient des données manquantes (c’est-à-dire si N < n), nous préciserons le
pourcentage de répondants lorsque nous présenterons le tableau (généralement, nous le mettons
dans la légende du tableau ; voir le chapitre 12).
Table 3.1 – Tri à plat des variables Thé (à gauche) et Café (à droite).
• les résumés statistiques de dispersion qui expriment la variabilité des valeurs prises ;
Mode
Comme pour les variables qualitatives, nous utilisons la notion de mode. Nous faisons toutefois
quelques distinctions :
• Un mode absolu de la distribution est une modalité qui apparaît avec la plus grande
fréquence.
• Un mode (relatif) de la distribution est une modalité qui apparaît avec une fréquence
supérieure à celle des valeurs voisines immédiates. Les modes absolus sont les modes dont
la fréquence est plus élevée que celle des autres modes.
Par définition, un mode absolu est également un mode relatif.
Hypothèse
Dans ce cours, nous sous-entendons que quand on est égal, on est plus élevé (au sens large).
C’est une inégalité supérieure ou égale.
Attention au piège
Ce n’est pas parce que nous ne mettons les modalités qui ont un effectif nul dans le tri à plat qu’elles ne
comptent pas. En particulier, la modalité 9 de la variable Thé est une modalité relative car la modalité
8 a un effectif nul.
Remarque
Nous verrons dans la section graphique que le diagramme en bâtons permet de repérer rapidement les
modes.
Point méthode
Comme un mode absolu est un mode relatif, il est préférable de commencer par chercher les
modes relatifs puis, parmi ces derniers, de trouver le ou les mode(s) absolu(s).
• Une distribution est dite unimodale si elle ne possède qu’un seul mode.
• Elle est dite bimodale si elle en possède deux.
• Elle est dite multimodale si elle en possède plusieurs (c’est-à-dire au moins deux).
3.2. RÉSUMÉS STATISTIQUES 44
Fractile
Nous commençons par le fractile le plus connu.
Définition 22 (Médiane)
La médiane est une valeur centrale qui divise la population en deux sous-populations d’ef-
fectifs égaux : la sous-population des individus de modalité inférieure à la médiane et la sous-
population des individus de modalité supérieure à la médiane.
Nous la notons me.
Chapitre 3 : Quantitatives discrètes
Remarque
En d’autres termes, me est une médiane si les 2 conditions suivantes sont réalisées :
1. La proportion d’individus dont la valeur est inférieure ou égale à me est supérieure ou égale à 0.5.
2. La proportion d’individus dont la valeur est supérieure ou égale à me est supérieure ou égale à 0.5.
Attention au piège
La médiane doit forcément appartenir aux valeurs de l’ensemble. Généralement, la définition vue en lycée
est légèrement différente car elle concerne la médiane des variables quantitatives continues.
Attention au piège
Il y a parfois des hésitations de la part des étudiants quand la modalité possède une fréquence cumulée
exactement égale à 50% : dans ce cas, c’est la médiane. Attention toutefois aux arrondis et vérifiez bien
que l’arrondis n’a pas été fait au point supérieur.
Point logiciel
Dans le logiciel Excel , la fonction MEDIANE ne calcule pas ce type de médiane ; il faut trouver
une autre solution. De même pour la fonction median du langage R .
Preuve
En effet, la suite k 7→ Fk est croissante donc il ne peut exister qu’une seule valeur vérifiant la définition 22.
Tout ce que nous venons de présenter est vrai pour tous les fractiles.
Définition 23 (Fractiles)
Étant donné un réel α compris entre 0 (strictement) et 1, le fractile d’ordre α est la première
valeur pour laquelle les fréquences cumulées dépassent α.
Point logiciel
Dans le logiciel Excel et le langage R , le minimum et le maximum se calculent grâce aux
fonctions MIN et MAX. Dans le langage R , c’est grâce aux fonctions min et max (en minuscules).
Définition 24 (Quartiles)
Les quartiles sont les fractiles d’ordre 0.25, 0.5 et 0.75 notés souvent Q 1 , me et Q 3 .
Définition 25 (Déciles)
Les déciles sont les fractiles d’ordre 0.1, 0.2,. . ., 0.8 et 0.9 notés souvent D 1 , D 2 ,. . .,D 8 et
D9 .
Définition 26 (Centiles)
Les centiles sont les fractiles avec un ordre k/100, 1 ≤ k ≤ 99 notés souvent C k . Parmi eux,
C 95 et C 99 sont souvent utilisés.
Attention au piège
Le fait de parler de centile d’ordre k avec k ∈ {1, . . . , 99} peut faire oublier que la valeur α du fractile est
comprise entre 0 et 1.
Remarque
Il est tout à fait possible d’avoir des fractiles valant la même valeur comme, par exemple, Q1 = Q3 . Ceci
est d’autant plus plausible quand il y a peu de modalités. En particulier, lorsque certains quartiles sont
égaux, c’est souvent une variable quantitative discrète.
3.2. RÉSUMÉS STATISTIQUES 46
Moyenne
La statistique résumée de position est la moyenne.
Définition 27 (Moyenne)
Étant donné un échantillon de n observations x1 , . . . , xn , la moyenne, notée x, est définie
par :
n
1X x1 + x2 + . . . + xn
x= xi = .
Chapitre 3 : Quantitatives discrètes
n i=1 n
Point logiciel
Dans le logiciel Excel , la moyenne se calcule grâce à la fonction MOYENNE. Dans le langage
R , c’est grâce à la fonction mean.
Remarque
Si notre échantillon possède beaucoup de fois la même valeur (comme c’est souvent le cas avec les variables
quantitatives discrètes), il est préférable de faire des regroupements par paquets. Par exemple, si nous
avons le 11-échantillon suivant : 4, 1, 2, 3, 2, 3, 3, 3, 2, 4 et 3. Alors, nous pouvons faire le calcul de la
façon suivante :
n
1X
x = xi
n i=1
x1 + x2 + . . . + xn
=
n
4+1+2+3+2+3+3+3+2+4+3
=
11
1 seul 3 individus 5 individus 2 individus
z}|{ z }| { z }| { z }| {
1 +2 + 2 + 2+3 + 3 + 3 + 3 + 3+ 4 + 4
=
11
1×1+3×2+5×3+2×4
=
11
1 + 6 + 15 + 8
=
11
30
=
11
≈ 2, 73.
Preuve
Nous faisons la démonstration sous deux versions pour habituer les lecteur·trice·s qui ne connaissent pas
le signe somme.
3.2. RÉSUMÉS STATISTIQUES 47
Preuve
Nous distribuons la division par n au sein de la somme présentée dans la proposition 5 :
K
1X
x = nk ak
n
k=1
K
X nk
= ak
n
k=1
|{z}
=fk
Chapitre 3 : Quantitatives discrètes
K
X
= fk a k .
k=1
x = c.
Preuve
Comme toutes les valeurs xi valent la même constante c alors les modalités se résument à une seule a1 = c
d’effectif n1 = n. Par la formule sur les effectifs de la proposition 5, nous avons :
K
1X
x = nk ak
n
k=1
1
= × n1 × a1
n
1
= ×n×c
n
n
= ×c
n
= c.
x+y = x + y,
λx = λx.
3.2. RÉSUMÉS STATISTIQUES 49
Preuve
Pour la première équation, il s’agit simplement de réorganiser les valeurs :
Remarque
Nous avons proposé les démonstrations avec des · · · et des sommes pour encourager les lecteur·trice·s à
s’habituer à ces formules. Nous recommandons celles et ceux qui seraient intéressé·e·s à refaire chaque
démonstration avec l’autre version.
Preuve
n
X n
X n
X
(xi − x) = (xi ) − (x)
i=1 i=1 i=1
n n
1X X
= n× xi −x 1 car x ne dépend pas de i,
n i=1 i=1
| {z }
x
= nx − x × n
= 0.
Il est important de noter que la moyenne et la médiane n’ont pas la même sensibilité.
Remarque
Contrairement à la médiane, la moyenne est sensible aux valeurs extrêmes. Nous avons mis en ligne une
vidéo pour vous aider à visualiser ce fait : https://youtu.be/ytXAymqRPUc.
3.2. RÉSUMÉS STATISTIQUES 50
Attention au piège
Dans le cas des variables quantitatives discrètes, la médiane appartient forcément à l’ensemble des
modalités possibles tandis que la moyenne peut prendre une valeur autre que celles des modalités.
Enfin, nous concluons par la présentation d’autres types de moyennes utilisées dans différents contextes :
n
!1/n
Y √
mG = xi = n
x1 × · · · xn = elog x .
i=1
Étendue
Définition 29 (Étendue)
L’étendue (range en anglais) de la distribution x1 , . . . , xn , notée W , est définie comme l’écart
(positif) entre la plus grande et la plus petite valeur :
W = max xi − min xi .
1≤i≤n 1≤i≤n
Intervalle interquartile
Attention au piège
L’erreur la plus commune faite par les étudiants est de dire que l’intervalle interquartile vaut 5 par
exemple : il y a confusion entre l’intervalle (c’est-à-dire l’objet [Q1 ; Q3 ]) et sa longueur.
min xi ≤ Q1 ≤ Q3 ≤ max xi
1≤i≤n 1≤i≤n
1. IQ ≥ 0 (comme pour W ).
2. IQ ≤ W .
Rapport interdécile
Le rapport interdécile est utilisé en économie notamment.
Dk
Rk/ℓ = .
Dℓ
Exemple
Typiquement, le rapport R9/1 = D9 /D1 est utilisé pour l’évolution des salaires en France.
Attention au piège
Chapitre 3 : Quantitatives discrètes
Il existe couramment deux types d’estimateurs de la variance : celui présenté dans la définition 32 et
l’estimateur dit sans-biais dont la division se fait par n − 1 :
n
1 X 2
(xi − x) .
n − 1 i=1
Quand nous utilisons une fonction, il est important de savoir quelle estimation est utilisée (par exemple,
en lisant l’aide du logiciel).
Point logiciel
Dans le logiciel Excel , la variance et l’écart-type de la définition 32 se calculent grâce aux
fonctions VARP ou VAR.P.N. Dans le langage R , il n’y a que l’estimation non biaisée qui est
implémentée dans la fonction var.
Dans les calculatrices, les deux types d’écart-types sont calculés : ils sont souvent noté s
et σ. Pour savoir lequel correspond à celui que nous étudions, il suffit de prendre le petit. En
effet, comme nous divisons par n plutôt que n − 1 (donc par un nombre plus grand), la valeur
sera plus petite.
Comme pour les moyennes, nous pouvons faire des regroupements par paquets :
Preuve
Les preuves sont identiques à celles de propositions 5 et 6.
Attention au piège
La plupart des étudiants font l’erreur de mettre les nk et les fk au carré également : ceci n’a pas de sens.
En effet, le carré représente la distance de chaque modalité par rapport à la moyenne tandis que les nk
et fk sont simplement des unités de comptage.
Une formule encore plus utile pour calculer la variance est la suivante :
var (x) = x2 − x 2
n
!
1X 2
= x − x2
n i=1 i
3.2. RÉSUMÉS STATISTIQUES 53
K
!
1X
= nk ak − x2
2
n
k=1
K
!
X
= fk a2k − x2 .
k=1
Remarque
Cette formule ne fonctionne que pour la variance où nous divisons par n. Si nous prenons l’estimateur
non biaisé (où nous divisons par n − 1), cela ne fonctionne plus.
Preuve
2
Comme un carré est toujours positif, nous avons pour tout i ∈ {1, . . . , n} que (xi − x) est positif. La
somme de termes positifs est positive et comme nous divisons par un entier naturel, cela reste positif.
D’où le résultat.
Quelques résultats :
3.2. RÉSUMÉS STATISTIQUES 54
Preuve
Nous avons :
n
1X 2
var (x) = 0 ⇔ (xi − x) = 0
n i=1
n
X 2
⇔ (xi − x) = 0
i=1
2
⇔ ∀i ∈ {1, . . . , n}, (xi − x) = 0 car chaque terme de la somme est positif,
⇔ ∀i ∈ {1, . . . , n}, xi − x = 0
⇔ ∀i ∈ {1, . . . , n}, xi = x.
Donc la variance est nulle si et seulement si toutes les valeurs sont égales à la moyenne, c’est-à-dire à une
même valeur. Donc si et seulement elles sont toutes identiques.
Attention au piège
Si vous trouvez que la variance est nulle, vérifiez que tous les termes sont identiques ; sinon, l’erreur
la plus courante est l’oubli du carré dans la formule de la définition 32 (ce qui donne la formule de la
proposition 9 qui est nulle d’après cette même proposition).
Comme pour les moyennes, il existe une formule pour multiplier par un scalaire.
Propriétés 14
Forme quadratique de la variance Étant données une variable x1 , . . . , xn prenant leurs valeurs
dans R et une constante λ ∈ R alors, nous avons :
= λ2 var (x) .
√
La deuxième formule vient du fait que λ2 = |λ|.
Remarque
Pour juger si une distribution est plus ou moins dispersée, il est recommandé de comparer les écart-types
plutôt que les variances car ces premiers sont dans la même unité que les données (par exemple, l’écart-
Définition 33
Étant donné un échantillon de n observations x1 , . . . , xn , le coefficient de variation, noté
cv , est définie par : q P
1 n 2
σ̂x n i=1 (xi − x)
cv = = 1
Pn .
x n i=1 xi
Coefficient d’asymétrie
Remarque
Plus la distribution sera symétrique, plus le coefficient sera proche de 0.
Coefficient d’aplatissement
Sa formule vaut : Pn
1 4
n i=1 (xi − x)
G2 (x) = − 3.
σ̂x4
Remarque
Il sera proche de 0 si la distribution ressemble à une loi gaussienne et négatif si les points sont répartis
Chapitre 3 : Quantitatives discrètes
uniformément.
3.3 Graphiques
Dans cette partie, nous mettons les trois graphiques que nous pouvons utiliser pour représenter les
variables quantitatives discrètes :
• Le diagramme en bâtons.
• Le segment est parallèle à l’axe des ordonnées (ou perpendiculaire à l’axe des abscisses
suivant le point de vue).
• Il se situe en abscisse au niveau de la modalité ak .
• Il va de 0 à fk .
Attention au piège
Contrairement aux diagrammes en barres (voir la définition 15), les segments des diagrammes en bâtons
n’ont pas d’épaisseurs.
De plus, il ne faut jamais enlever les modalités qui n’ont pas d’effectifs : il faut garder l’écart nécessaire.
Point logiciel
Dans le logiciel Excel , il n’existe pas de fonctions pour en construire simplement ; nous
verrons en TP une procédure pour le faire à partir de nuage de points. Dans le langage R ,
il peut se faire en utilisant le package ggplot2 par exemple.
3.3. GRAPHIQUES 57
Remarque
Les minis traits veticaux sur le graphique 3.2 devrait plutôt être des C ouverts vers la droite pour
symboliser que nous ne prenons pas la valeur.
Attention au piège
Les étudiants oublient souvent le premier trait de hauteur y = 0 (celui avant l’abscisse 0 sur la figure 3.2)
et parfois le trait d’ordonnée y = 1 (après la valeur 10 sur le même graphique).
3.3. GRAPHIQUES 59
Point logiciel
Dans le logiciel Excel , il n’existe pas de fonctions pour en construire simplement ; nous
verrons en TP une procédure pour le faire à partir de nuage de points. Dans le langage R ,
il peut se faire en utilisant le package ggplot2 par exemple.
1. Nous traçons une droite horizontal de hauteur correspondante au fractile choisi (par
exemple y = 0, 5 pour la médiane).
2. Nous cherchons à quel moment la fonction de répartition empirique se trouve au dessus
(pour la première fois) de la droite tracée.
3. La modalité correspondante (que nous pouvons voir en abscisse) est le fractile recherché.
• Un trait vertical relie les centres des traits symbolisant le premier quartile et le minimum.
Remarque
En pratique, quand le minimum et/ou le maximum est très éloigné des quartiles, nous préférons choisir
une autre représentation.
1. Nous traçons 3 traits horizontaux de mêmes longueurs placés aux niveaux de chacun des
3 quartiles centraux : Q1 , médiane et Q3 .
2. Deux traits relient verticalement les extrémités du premier (Q1 ) et du troisième quartiles
(Q3 ). Ce trait est censé passer par les extrémités du trait horizontal symbolisant la
médiane.
(d) (Facultatif) Enfin, nous mettons des croix bleues pour chaque modalité effec-
tive (c’est-à-dire ayant un effectif non nul) entre Q3 + 1, 5IQ et le maximum
(également dans l’alignement des centres des traits horizontaux).
• Si la réponse est non (et que le maximum est donc plus petit que Q3 + 1, 5IQ), nous
procédons comme pour la version proposée dans la définition 38 :
(a) Nous traçons le trait horizontal correspondant au maximum.
(b) Nous relions ce trait au trait symbolisant le troisième quartile.
5. Nous faisons la procédure symétrique avec le bas du graphique en comparant le minimum
avec la valeur Q1 − 1, 5IQ.
Dans le cas où le maximum serait plus grand que Q3 + 1, 5IQ et/ou que le minimum serait plus
petit
que Q1 − 1, 5IQ, nous
devons préciser combien
d’individus se trouvent dans les intervalles
min xi ; Q1 − 1, 5IQ et Q3 + 1, 5IQ; max xi ; nous appelons ces points des outsiders.
1≤i≤n 1≤i≤n
Figure 3.3 – Représentation sous forme de boxplot ou boîte à moustaches de la variable Thé.
Remarque
Il existe une autre variante consistant à ne pas dépasser Q1 − 3IQ et Q3 − 3IQ : si le maximum (resp. le
minimum) est plus grand que Q3 − 3IQ (resp. plus petit que Q1 − 3IQ), nous mettons la croix rouge au
niveau de Q3 + 3IQ (resp Q1 − 3IQ) et nous ne mettons pas de croix bleues au delà de cette limite.
3.4. EXERCICES 61
Point logiciel
Dans le logiciel Excel , il n’existe pas de fonctions pour en construire simplement ; nous
verrons en TP une procédure pour le faire à partir de nuage de points. Dans le langage R ,
nous pouvons utiliser la fonction boxplot ou le package ggplot2 par exemple.
3.4 Exercices
x me σ̂x fk Qk
IQ cv
ak cv me Q k W x σ̂x
cv σ̂x a k me IQ x
IQ x me a k
Q k me a k W cv
W IQ Q k a k x fk me
Q k IQ σ̂x ak
Le but de cet exercice est de remplir la grille de la figure 3.4 avec les notations x, Q k , W , IQ, σ̂x ,
cv , me, a k et f k de telle sorte que :
• Toutes les cases soient remplies.
• Chaque notation doit apparaître une et une seule fois :
"Trois statisticiens vont à la chasse. À un moment, ils voient un sanglier. Le premier vise mais tire 5
mètres à gauche. Le second vise à son tour mais tire 5 mètres à droite. Le troisième commence à se lever
et se diriger vers le sanglier. ’Que fais-tu ?’ demande le premier. ’Bah, je vais chercher la carcasse : en
moyenne, on l’a eu.’"
Blague mathématique
Dans ce chapitre nous traitons le dernier type de variables c’est-à-dire les variables quantitatives conti-
nues. Pour rappel, une variable continue est une variable avec beaucoup de modalités. Pour comprendre
les raisonnements que nous utilisons, voici l’hypothèse faite sur les variables continues.
Remarque
Pour bien comprendre cette hypothèse, reprenons le nombre d’enfants dans une famille : une famille peut
en avoir 2 et une autre 3 mais aucune famille ne peut en avoir 2,5. À l’opposé, pour les tailles, il peut
y avoir une personne qui fasse 178cm et une autre qui fasse 179cm ; toutefois, il peut aussi y avoir une
personne qui puisse faire 178,5cm voir 17,6765cm si l’outil qui nous sert à mesurer est assez précis.
Dans ce chapitre, nous commençons par reprendre les résumés statistiques et les graphiques vus dans
le chapitre 3 afin de voir ceux que nous pouvons garder (éventuellement avec des modifications) ceux qui
n’ont pas de raisons d’être utilisés.
62
4.1. ÉTUDE À PARTIR DES DONNÉES INDIVIDUELLES 63
✓ Boxplot ou boîte à moustaches : les mêmes règles que pour le chapitre 3 s’appliquent (voir
les définitions 38 et 39).
4.2. ÉTUDE À PARTIR DES DONNÉES REGROUPÉES EN CLASSES : CRÉATION 64
Chapitre 4 : Quantitatives continues
Figure 4.1 – Représentation des fonctions empiriques des variables Thé (à gauche) et Poids (à droite).
Dans ce cas, nous disons que les intervalles sont des classes statistiques.
Nous ne faisons apparaître que les classes [ak ; bk [ qui ont un effectif non nul : nk est le nombre
d’individus dans la k ème classes, fk la fréquence et Fk la fréquence cumulée.
Nous avons également la version symétrique avec les intervalles ]ak ; bk ] ouverts à gauche et
fermé à droite.
4.2. ÉTUDE À PARTIR DES DONNÉES REGROUPÉES EN CLASSES : CRÉATION 65
Attention au piège
Nous pouvons remarquer en faisant des essais que le choix des classes a une influence sur l’analyse (voir
par exemple la vidéo https://youtu.be/jrNIgMMnO_c). Pour éviter les fraudes, il n’existe que deux
types de regroupement reconnus.
Remarque
Le regroupement en classes isoamplitudes est généralement le plus utilisé.
Attention au piège
L’erreur la plus souvent commise par les étudiant·e·s est de mal compter le nombre d’individus dans un
intervalle car ils oublient qu’une borne ouverte signifie que nous ne prenons pas en compte la valeur.
Table 4.1 – Tri à plat de la variable Taille après regroupement en classes isoamplitudes (à gauche) et
en classes isofréquences (à droite).
Attention au piège
L’information présentée est sensible au choix des classes. Il faut donc répondre aux questions suivantes :
combien de classes ? Quelles bornes choisir ? Ces réponses peuvent légèrement faire varier les commentaires
des analyses.
S’il existe un regroupement naturel ou habituel (par exemple, des tailles allant de 10 en 10 et donnant
un nombre raisonnable de classes), il est préférable de s’y conformer.
Pour vous aider dans le choix du nombre de classes, il existe plusieurs critères utilisés dans les logiciels.
1 + log2 (n)
classes où log2 est le logarithme en base 2 ; c’est-à-dire que nous pouvons écrire la formule
avec le logarithme népérien de la façon suivante :
ln(n)
1+ .
ln(2)
10
1+ log10 (n).
3
2 × IQ(x)
√3
n
√
où 3
n est la racine cubique de n et IQ(x) la longueur de l’intervalle inter-quartile.
Point logiciel
Dans le logiciel Excel , il est possible de faire facilement un regroupement en classes isoam-
plitudes à partir d’un tableau croisé dynamique en cliquant sur le bouton Grouper les champs
dans la barre de menu. Le regroupement en classes isofréquences doit se faire manuellement
en utilisant le bouton Grouper la sélection dans la barre de menu. Dans les deux cas, il sera
ensuite nécessaire de renommer les classes pour faire apparaître les intervalles.
Attention au piège
À partir du moment où les classes sont formées, nous ne pouvons plus savoir comment sont répartis les
points au sein de chaque classe. Nous avons perdu de l’information : nous ne pouvons plus reconstruire
le tableau des données individuelles à partir d’un regroupement en classes.
4.3. ÉTUDE À PARTIR DES DONNÉES REGROUPÉES EN CLASSES : GRAPHIQUES 67
Dans le suite, nous présentons les graphiques puis les statistiques modifiées.
• Histogramme.
4.3.1 Histogramme
Nous commençons par mettre la définition.
Définitions 44 (Histogramme)
Étant donnée une variable quantitative continue regroupée par classe, l’histogramme repré-
sente les classes sous forme de rectangles vérifiant les conditions suivantes pour chaque classe
effective :
• Le rectangle est posé sur l’axe des abscisses avec un côté sur l’axe des abscisses à l’em-
placement de l’intervalle de la classe correspondante.
• L’aire du rectangle est égal à la fréquence de la classe.
La hauteur du rectangle de la k ème classe, appelée densité et notée d k , est donc égale à
fk
dk =
ℓk
où ℓk est la longueur de l’intervalle (ou amplitude) de la classe. Les coins du rectangles sont
donc situés à (ak , 0), (bk , 0), (bk , dk ) et (ak , dk ).
Attention au piège
Contrairement aux diagrammes en barres ou en tuyaux d’orgues (vu dans la définition 15), nous nous
attendons à ce que les rectangles soient collés : sinon, cela signifie qu’entre deux classes effectives, il y a
toujours au moins une classe sans effectif et cela peut laisser penser que la subdivision choisie n’est pas
optimale pour représenter les données.
4.3. ÉTUDE À PARTIR DES DONNÉES REGROUPÉES EN CLASSES : GRAPHIQUES 68
Point logiciel
Il n’existe pas de fonctions pour faire un histogramme dans Excel : le graphique appelé
histogramme est en fait un diagramme en barres. Il existe toutefois des macros pour pouvoir en
créer (nous en voyons une en TP). Dans le langage R , il est possible de faire un histogramme
à l’aide de la commande hist ou grâce au package ggplot2 par exemple.
Attention au piège
Lorsque les étudiant·e·s calculent les densités, ils s’aperçoivent que, pour l’isoamplitude, nous devons
diviser les fréquences par la même valeur. Par contre, ils oublient souvent que ce n’est pas le cas pour les
isofréquences.
2. Construction des segments de droites reliant les points. Construction des deux demis-
droites :
• Celle d’équation y = 0 venant de −∞ et allant jusqu’au point (a1 , 0).
• Celle d’équation y = 1 partant du point (bK , 1) et allant vers +∞.
4.4. RÉSUMÉS STATISTIQUES APPROCHÉS 69
Polygone des fréquences cumulées Polygone des fréquences cumulées Polygone des fréquences cumulées
1 1 1
0,9 0,9 0,9
0,8 0,8 0,8
0,7 0,7 0,7
0,6 0,6 0,6
0,5 0,5 0,5
0,4 0,4 0,4
0,3 0,3 0,3
0,2 0,2 0,2
0,1 0,1 0,1
0 0 0
135 140 145 150 155 160 165 170 175 180 185 190 195 135 140 145 150 155 160 165 170 175 180 185 190 195 135 140 145 150 155 160 165 170 175 180 185 190 195
Attention au piège
L’erreur la plus courante parmi les étudiant·e· est de mettre les points (ak , Fk ) au lieu des points (bk , Fk ) :
la ligne brisée est alors décalée vers la gauche. Dans ce cas, il y a souvent un problème pour la première
demi-droite (celle d’équation y = 0) car elle ne rencontre aucun point.
Point méthode
Pour différencier des regroupements en classes isoamplitudes et en classes isofréquences, il faut
regarder si les jonctions des segments (c’est-à-dire les points de construction) sont ont leurs
abscisses ou leurs ordonnées répartis régulièrement :
• Si ce sont les abscisses qui sont espacées de la même longueur alors nous avons un re-
groupement en classes isoamplitudes.
• Si ce sont les ordonnées alors nous avons un regroupement en classes isofréquences.
Hypothèse
Nous supposons que les classes sont de la forme ]ak ; bk ] ou [ak ; bk [.
4.4. RÉSUMÉS STATISTIQUES APPROCHÉS 70
Attention au piège
L’erreur la plus souvent commise est de faire la différence des bornes plutôt que la somme : si vous avez
un doute essayez de vous souvenir que le centre est en fait la moyenne de deux points.
Chapitre 4 : Quantitatives continues
Classe modale
Nous avons vu que les modes étaient les modalités avec les plus grands effectifs ; l’équivalent des
modalités devient alors les classes.
Attention au piège
Dans cette définition, nous parlons bien de densité et pas de fréquence : pour les regroupements par
isoamplitudes, cela reviendrait au même mais il y a une réelle différence pour les regroupements en
classes isofréquences.
Fractile
Pour estimer les fraciles (approchés), nous utilisons le polygone des fréquences cumulées.
À l’aide de cette définition, nous pouvons caractériser tous les fractiles particuliers.
(1) Tracer le trait horizontal y = α sur le graphe du polygone des fréquences cumulées.
(2) Tracer le trait vertical passant par l’intersection du trait horizontal et de la courbe re-
présentant le polygone.
(3) x
eα est l’abscisse du trait vertical.
x
eα
Fb − Fa
y = fa + (x − a).
b−a
(3) Trouver x
eα vérifiant y = α :
Fb − Fa b−a
α = Fa + xα − a) ⇔ x
(e eα = a + (α − Fa ).
b−a Fb − Fa
Fb Fb Fb
α α α
Fa Fa Fa
a b a b a x
eαb
Remarque
Nous avons mis dans ce point méthode la démonstration pour retrouver la dernière formule mais vous
pouvez vous contenter du résultat si vous préférez.
Moyenne
Comme expliqué en début de section, nous utilisons les centres comme représentants des classes (voir
la définition 46).
4.5. RÉCAPITULATIF 72
Remarque
Nous voyons que les formules utilisées sont proches de celles des propositions 5 et 6.
Chapitre 4 : Quantitatives continues
Intervalle interquartile
Comme nous avons des approximations des quartiles, nous pouvons donc calculer l’intervalle inter-
quartile.
noté IQ
f et valant :
IQ e3 − Q
f =Q e1 .
Variance
Comme pour la moyenne, nous pouvons utiliser les formules avec les effectifs ou les fréquences pour
estimer la variance.
Proposition 16 (Moyenne des centres aux carrés moins carré de la moyenne approchée)
En notant ck les centres de chaque classe, nk et fk les effectifs et fréquences associés, nous
avons : !
K
f2 e2 1X 2 e2
ar (x) = x − x =
vg nk ck − x
n
k=1
4.5 Récapitulatif
Dans les quatre chapitres, nous avons vu un grand nombre d’outils s’adaptant à un ou plusieurs type
de variables. Nous mettons dans la figure 4.4 le récapitulatif schématique : un outil peut être utilisé pour
4.6. EXERCICES 73
Quanti Continue
Classes isoamplitudes ou
isofréquences, classe modale,
Quali Nominale
statistiques approchées,
histogramme, polygone régulier
Diagramme de Pareto
Quanti discrète
Quali Ordinale
Figure 4.4 – Représentation schématique de la possibilité d’utiliser un outil pour un type de variable : si
l’outil se trouve dans la zone d’un type alors il peut être utilisé, sinon cela signifie qu’il n’est pas adapté.
4.6 Exercices
Nous mettons dans cette partie quelques exercices.
A R C O E N P C X U B
R I E M P I L E A D O
I A E I P R A R M I X
A L O N F O T E R A P
N U E A S I S U I G L
C C I L L O N N Y R O
E R M E D I A N E A T
S I S O T R U K E M U
L C E N T I L E L M E
N O I T I T R A P E R
Chapitre 5
De l’univarié vers le bivarié
"Méfiez-vous des statisticiens : pour eux, l’être humain moyen possède un testicule et un sein."
Epsilon, personnage du livre "0% De matière grise : Une aventure d’Epsilon" de Chen Apan.
Par exemple, si nous reprenons les données de l’enquête sur l’alimentation de 226 personnes âgées de
la région de Bordeaux en 2000 (que nous pouvons trouver dans le livre de De Micheaux et al. (2011)) et
que nous étudions la variable taille, nous obtenons, par exemple, l’histogramme en haut de la figure 5.1.
Cette représentation donne des informations sur la position (il y a une unique classe modale [157,5 ;162,5[),
la dispersion (les valeurs s’étendent de 137,5 à 192,5) mais donne le sentiment que la taille d’un individu
est indépendante de son genre.
Or, si nous regardons les histogrammes en ne conservant que les femmes de l’échantillon (en couleur or
en bas de la figure 5.1) ou que les hommes (en argent en bas de la figure 5.1), nous voyons que les résumés
statistiques ont changé : la classe modale des femmes est plutôt [152,5 ;162,5[ mais celle des hommes est
maintenant [167,5 ;172,5[ ; de plus, la plus grande femme mesure moins de 177,5cm tandis que le plus
petit homme mesure au moins 157,5cm.
Table 5.1 – Bilan des chapitres correspondants aux croisements possibles suivant le type de la variable
%
qu’on cherche à expliquer (colonnes) en fonction du type de la variable explicative (lignes). Le sym-
bole est utilisé pour signifier qu’il n’existe pas d’indicateurs de liaisons dans ce sens et qu’il faudra
considérer le sens inverse. Les chapitres en orange signifie que nous considérons, dans ces cas, que la
variable qualitative ordinale est avant tout une variable qualitative.
hhhh
hhhh à expliquer
hhh Qualitative Quantitative Ordinale
en fonction de hhh h
% %
Qualitative 7 6 7
Quantitative 8
Ordinale 7 6 9
Nous pouvons observer qu’il n’y a pas d’indicateurs de liaisons d’un croisement d’une qualitative
expliquée par une quantitative. Cela ne veut pas dire que nous ne pouvons pas étudier la corrélation
entre les deux mais il faudra prendre l’indicateur de liaison correspondant au cas inverse (même si la
causalité est dans le sens que la quantitative impliquerait la qualitative).
75
5.1. INDICATEUR DE LIAISONS 76
40
30
Effectifs
20
10
Chapitre 5 : Introduction Bivariée
40
30
sexe
Effectifs
Femme
20
Homme
10
Figure 5.1 – Représentation par des histogrammes d’isoamplitude 5 de la variable taille (en cm) en
mélangeant toute la population (en haut) puis en divisant suivant les hommes et les femmes (en bas).
Attention au piège
Attention, nous parlons ici d’indicateurs de liaison. En particulier, nous ne pourrons jamais savoir s’il y
a effectivement corrélation ou pas ; pour confirmer (ou infirmer), il faudra faire un test (voir la ressource
2-06 Statistique inférentielle).
5.2. LA CORRÉLATION N’IMPLIQUE PAS LA CAUSALITÉ 77
6.1 Introduction
Chapitre 6 : Quanti/Quanti
Commençons par un exemple, le tableau 6.1 représente le sexe (variable qualitative) et le salaire net
mensuel (variable quantitative) de 17 personnes travaillant en France en 2013 1 .
Sexe Salaire
(Variable X) (Variable Y)
H 3 892e
H 2 100e
H 1 882e
H 2 921e
H 1 709e
H 1 559e
H 1 254e
H 2 405e
F 1 485e
F 2 029e
F 2 368e
F 1 268e
F 1 374e
F 1 794e
F 1 154e
F 3 036e
F 1 619e
Table 6.1 – Exemple de salaires nets mensuels pour des hommes et des femmes salariés en France 2013.
Il est possible de faire une analyse de chaque variable comme nous pouvons le voir sur la figure 6.1.
En particulier, nous constatons qu’il y a légèrement plus de femmes que d’hommes dans l’échantillon et
que plus de 50% des salaires se trouvent en dessous de 1800e. Nous observons également que les plus
grands salaires sont de plus en plus éloignés, signifiant que les salaires les plus hauts sont de plus en plus
forts.
Nous pouvons également calculer des résumés statistiques de la variable Salaire comme la moyenne
(Y ≈ 1 991, 12e) et la variance (var (Y) ≈ 51 5058, 22).
1. En fait, ce sont les 9 déciles des salaires des hommes et des femmes en France en 2013 ; nous avons simplement enlevé
le deuxième décile des hommes pour avoir un échantillon déséquilibré entre les effectifs des deux sous-populations. Source :
INSEE. http://www.inegalites.fr/spip.php?article972
78
6.1. INTRODUCTION 79
Figure 6.1 – Analyse univariée du tableau 6.1 : à gauche est représenté le diagramme circulaire de la
répartition hommes/femmes et à droite la boxplot des salaires.
Chapitre 6 : Quanti/Quanti
Toutefois, comme nous connaissons les sexes de chaque individu, nous pouvons faire la même chose
uniquement sur les individus de sexe féminin ou uniquement sur ceux de sexe masculin. Se pose alors la
question de l’homogénéité : est-ce que le salaire dépend du sexe ? Ou, au contraire, si je choisis au hasard
un individu parmi les hommes dans la population, est-ce que j’ai autant de chances d’avoir un salaire
inférieur à 1 500e que si j’avais choisi parmi femmes ?
Avant de répondre à ces questions, nous avons besoin d’introduire certaines définitions et notations.
Définition 53 (Sous-population)
Une sous-population ou groupe ou classe ou strate est une partie de l’échantillon qui est
identifiée (par exemple nous pouvons isoler les individus correspondant à des hommes ou à des
femmes).
Exemple
En particulier, les femmes de l’échantillon précédent forment une sous-population.
Point logiciel
Dans le logiciel Excel, pour ne garder qu’une sous-population, il suffit d’utiliser la commande
filtrer.
6.1. INTRODUCTION 80
K K
1X X
Y= nk Yk = fk Yk .
n
k=1 k=1
Autrement dit, la moyenne globale est la moyenne pondérée des moyennes des groupes.
Preuve
1
Pn
Comme Yk = nk i=1 yi 1{xi =ak } , nous avons :
K K
" n
#
1X 1X 1 X
nk Y k = nk × yi 1{xi =ak }
n n nk i=1
k=1 k=1
K n
1 XX
= yi 1{xi =ak }
n i=1
k=1
n K
1X X
= yi 1{xi =ak }
n i=1
k=1
| {z }
=1 car xi vaut forcément
une et une seule de ces valeurs
n
1X
= yi
n i=1
= Y.
nk
La deuxième égalité découle naturellement de la première puisque fk = n .
33849
=
17
≈ 1991, 12.
Chapitre 6 : Quanti/Quanti
Remarque
Si nous cherchons à mimer naïvement la formule de la décomposition de la moyenne, nous calculerons
donc :
K
X
fk vark (Y).
k=1
Or, chaque variance est calculée uniquement sur un seul groupe et les valeurs sont donc comparées aux
moyennes des groupes (pas à la moyenne globale). Par conséquent, la variabilité entre les groupes n’est
alors pas prise en compte.
Preuve
Comme précédemment, nous décomposons le calcul :
K K
X X 2
fk vark (Y) + fk Y k − Y
k=1 k=1
K
" n
# K
X 1 X 2 X 2
= fk × yi − Yk 1{xi =ak } + fk Yk − Y
nk i=1
k=1 k=1
K
" n
# K
X fk X 2
X 2
= yi2 − 2yi Yk + Yk 1{xi =ak } + fk Y k − Y
nk i=1
k=1 k=1
6.2. RAPPORT DE CORRÉLATION 82
" K n
! K n
! K n
!#
X fk X 2 X fk X X fk X 2
= y 1{xi =ak } + (−2) yi Yk 1{xi =ak } + Y 1{xi =ak }
nk i=1 i nk i=1 nk i=1 k
k=1 k=1 k=1
K
X 2
+ fk Y k − Y
k=1
!
K n K n K n
X nk X 2 X 1 X X fk 2 X
= y 1{xi =ak } − 2 fk Yk × yi 1{xi =ak } + Y 1{xi =ak }
nnk i=1 i nk i=1 nk k i=1
k=1 k=1 k=1
| {z } | {z }
Yk nk
K 2
X 2
+ fk Yk − 2Yk Y + Y
k=1
K n
! K K K K K
X 1X 2 X 2 X fk nk 2 X 2 X X 2
= y 1{xi =ak } −2 fk Y k + Yk + fk Yk − 2 fk Yk Y + fk Y
n i=1 i nk
k=1 k=1 k=1 k=1 k=1 k=1
n K K K K K K
1 X 2X X 2 X 2 X 2 X 2X
= yi 1{xi =ak } −2 fk Y k + fk Y k + fk Yk −2Y fk Yk +Y fk
n i=1
k=1 k=1 k=1 k=1 k=1 k=1
Chapitre 6 : Quanti/Quanti
| {z }| {z } | {z } | {z }
=1 =0 =Y =1
n
1 X 2 2
= yi2 − 2Y + Y
n i=1
2
= Y2 −Y
= var (Y) .
Définition 57
Nous appelons variance totale de l’échantillon, notée souvent V, la variance var (Y).
Nous appelons variance intraclasse, notée souvent W (pour Within), la partie
PK
k=1 fk vark (Y).
Nous appelons variance interclasse, notée souvent B (pour Between), la partie
PK 2
k=1 fk Yk − Y .
Remarque
Avec ces notations, la formule du théorème de la décomposition de la variance s’écrit :
V = W + B.
Une fois cette constatation faite, nous pouvons nous interroger sur la façon d’évaluer les parts impu-
tables aux variances intra et interclasse. Pour cela, nous introduisons un indicateur de liaison
Cet indicateur mesure la part de variabilité globale imputable aux différences de groupe. Il s’interprète,
multiplié par 100, en pourcentage de la variance expliquée par les classes.
6.2. RAPPORT DE CORRÉLATION 83
• η 2 ∈ [0; 1].
• η 2 = 1 si et seulement si W = 0 ; c’est-à-dire que les individus d’un même groupe prennent
tous la même modalité pour Y ; ou encore la variable Y est constante à l’intérieur de
toutes les classes.
Remarque
Le rapport de corrélation de Y par rapport à X indique dans quelle mesure les variations de Y sont
expliquées par X.
Preuve
Chapitre 6 : Quanti/Quanti
0≤B≤B+W ⇔ 0≤B≤V
0 B V
⇔ ≤ ≤
V V V
⇔ 0 ≤ η 2 ≤ 1.
Preuve
PK 2
Nous venons de voir que η 2 = 0 équivaut à B = 0. Or, nous avons B = k=1 fk Y k − Y dont tous les
termes sont positifs. Donc, nous en déduisons :
K
X 2
B=0 ⇔ fk Y k − Y =0
k=1
6.2. RAPPORT DE CORRÉLATION 84
2
⇔ ∀k ∈ {1, . . . , K}, fk Yk − Y =0
2
⇔ ∀k ∈ {1, . . . , K}, fk = 0 ou Yk − Y =0
⇔ ∀k ∈ {1, . . . , K}, fk = 0 ou Yk − Y = 0
⇔ ∀k ∈ {1, . . . , K}, fk = 0 ou Yk = Y.
Donc, toutes les classes (qui ont un effectif non nul) ont une moyenne égale à Y ; par conséquent, toutes
les moyennes prennent la même valeur (à savoir la moyenne globale).
Remarque
Par exemple, nous pouvons avoir le cas suivant :
X Y
1 −1
1 1
2 −2
2 2
alors la première et la deuxième classe possèdent la même moyenne 0 et la moyenne globale vaut 0. Par
Chapitre 6 : Quanti/Quanti
Preuve
PK
Nous venons de voir que η 2 = 1 équivaut à W = 0. Or, nous avons W = k=1 fk vark (Y) dont tous les
termes sont positifs. Donc, nous en déduisons :
K
X
W=0 ⇔ fk vark (Y) = 0
k=1
⇔ ∀k ∈ {1, . . . , K}, fk vark (Y) = 0
⇔ ∀k ∈ {1, . . . , K}, fk = 0 ou vark (Y) = 0.
Donc, toutes les classes (qui ont un effectif non nul) ont une variance nulle.
Remarque
Par exemple, nous pouvons avoir le cas suivant :
X Y
1 3
1 3
2 2
2 2
alors les observations prennent pour chaque classe la même valeur et la variance est donc nulle. Par
conséquent, la variance intraclasse W est nulle.
Un coefficient η 2 égal à 1 signifie donc que la variable Y est très fortement liée à la variable X.
6.3. POINT MÉTHODE 85
Attention au piège
Le rapport de corrélation η 2 n’est pas linéaire. Avec les exemples précédents, nous voyons à peu près
qu’une valeur de η 2 très proche de 1 signifie que la variable Y est très liée à la variable X et que si le
rapport est proche de 0, les moyennes sont plutôt similaires. En revanche, si la valeur est proche de 0.5,
nous ne pouvons pas dire que nous sommes dans une situation équidistante des deux précédentes.
H F
fk 0, 4706 0, 5294
Yk 2215 1792
vark (Y) 635108, 9 324000, 8
B ≈ 44653, 6
W ≈ 470404, 6
Chapitre 6 : Quanti/Quanti
V ≈ 515058, 2.
Enfin, nous pouvons calculer le rapport de corrélation :
B
η2 = ≈ 0, 0867
V
qui est très proche de 0 signifiant qu’il n’y a pas une réelle variabilité interclasse par rapport à la variabilité
totale.
0,001 0,0008
0,0009
0,0007
0,0008
0,0006
0,0007
0,0005
Densité de fréquence
Densité de fréquence
0,0006
0,0005 0,0004
0,0004
0,0003
0,0003
0,0002
0,0002
0,0001
0,0001
0 0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 0 500 1000 1500 2000 2500 3000 3500 4000 4500
Valeur de la variable Valeur de la variable
Figure 6.2 – Histogrammes des salaires en fonction des sexes des individus : les femmes à gauche et les
hommes à droite.
Point méthode (Dépendance entre une variable quanti et une variable quali)
Pour étudier si une variable qualitative X influe sur une variable quantitative Y, nous faisons :
1. Calcul de la variance intra-classe W (voir la définition 57) en utilisant les variances
vark (Y) de chaque groupe k (voir la définition 56).
6.3. POINT MÉTHODE 86
2. Calcul des moyennes Yk de chaque groupe (voir la définition 55) et de la moyenne globale
Y (voir la proposition 17).
7.1 Introduction
Pour cette partie, nous allons prendre, pour exemple fil rouge, l’enquête pédagogique effectuée auprès
des étudiants de 1ère année du département STID (année 1995-96). Elle permet d’étudier la relation entre
les réponses concernant la poursuite des études : "Envisagez-vous une poursuite d’études après l’obtention
du DUT ?" et l’âge des étudiants découpé en 3 classes.
• La "poursuite d’études" a 3 modalités :
Chapitre 7 : Quali/Quali
1. Oui.
2. Ne sait pas (nsp).
3. Non.
• L’âge est découpé en 3 classes :
1. 18 ans et moins.
2. 19 ans.
3. 20 ans et plus.
Définition 59 (Effectifs)
Étant données une variable X prenant les modalités {a1 , . . . , ap } et une variable Y prenant
les modalités {b1 , . . . , bq }, nous introduisons les notations suivantes :
• Pour tout k ∈ {1, . . . , p} et tout ℓ ∈ {1, . . . , q}, nous notons nkℓ le nombre d’individus
vérifiant à la fois x = ak et y = bℓ .
• Pour tout k ∈ {1, . . . , p}, nous notons nk• le nombre d’individus vérifiant x = ak ; les nk•
sont appelés les effectifs marginaux du couple (X, Y ). En particulier, nous avons :
q
X
nk• = nkℓ .
ℓ=1
• Pour tout ℓ ∈ {1, . . . , q}, nous notons n•ℓ le nombre d’individus vérifiant y = bℓ ; les n•ℓ
sont appelés les effectifs marginaux du couple (X, Y ). En particulier, nous avons :
p
X
n•ℓ = nkℓ .
k=1
87
7.1. INTRODUCTION 88
• L’effectif total est noté par la suite n ou N et représente le nombre d’individus dans
l’étude. En particulier, nous avons :
p X
X q p
X q
X
n= nkℓ = nk• = n•ℓ
k=1 ℓ=1 k=1 ℓ=1
Dans notre exemple fil rouge, nous avons le tableau des effectifs suivant :
Age
Total
18 ans et moins 19 ans 20 ans et plus
oui 20 10 12 42
Poursuite nsp 2 7 9 18
d’études non 11 7 14 32
Total 33 24 35 92
Remarquons que dans ce tableau, les deux effectifs 7 ne traduisent pas la même information pour les deux
lignes puisque les effectifs marginaux ne sont pas les mêmes. Ce phénomène prendra toute son importance
dans la suite.
Définition 61 (Fréquences)
Étant données une variable X prenant les modalités {a1 , . . . , ap } et une variable Y prenant
les modalités {b1 , . . . , bq }, nous introduisons les notations suivantes :
• Pour tout k ∈ {1, . . . , p} et tout ℓ ∈ {1, . . . , q}, nous notons fkℓ la fréquence des individus
vérifiant à la fois x = ak et y = bℓ définie pour tout (k, ℓ) ∈ {1, . . . , p} × {1, . . . , q} par :
nkℓ
fkℓ =
n
• Pour tout k ∈ {1, . . . , p}, nous notons fk• la fréquence des individus vérifiant x = ak ;
les fk• sont appelées les fréquences marginales du couple (X, Y ). En particulier, nous
7.1. INTRODUCTION 89
avons :
q
X
fk• = fkℓ .
ℓ=1
• Pour tout ℓ ∈ {1, . . . , q}, nous notons f•ℓ la fréquence des individus vérifiant y = bℓ ;
les f•ℓ sont appelées les fréquences marginales du couple (X, Y ). En particulier, nous
avons :
Xp
f•ℓ = fkℓ .
k=1
Proposition 22
Nous avons le résultat suivant :
p X
X q p
X q
X
fkℓ = fk• = f•ℓ = 1.
k=1 ℓ=1 k=1 ℓ=1
Preuve
Chapitre 7 : Quali/Quali
Nous savons que :
p X
q p q
X 1 XX n
nkℓ = n ⇔ nkℓ =
n n
k=1 ℓ=1 k=1 ℓ=1
p X
q
X nkℓ
⇔ =1
n
k=1 ℓ=1
Xp X q p
X q
X
⇔ fkℓ = fk• = f•ℓ = 1.
k=1 ℓ=1 k=1 ℓ=1
Age
Total
18 ans et moins 19 ans 20 ans et plus
oui 21,74% 10,87% 13,04% 45,65%
Poursuite nsp 2,17% 7,61% 9,78% 19,57%
d’études non 11,96% 7,61% 15,22% 34,78%
Total 35,87% 26,09% 38,04% 100,00%
Pour introduire l’intérêt de la distribution conditionnelle, nous reprenons l’exemple fil rouge :
Exemple fil rouge
À partir des données, nous pouvons nous poser les questions suivantes :
Dans la suite, nous cherchons à voir si la distribution de l’une des variables est influencée par la
distribution de l’autre. Pour cela, nous calculons les probabilités conditionnelles.
P (X = ak , Y = bℓ )
P ( X = ak | Y = bℓ ) =
P (Y = bℓ )
Dans le cadre de la statistique, nous n’avons pas accès aux lois des variables et devons les estimer par
des estimateurs empiriques. Ainsi, nous avons les deux types de tableaux suivants :
HH Y b
H
··· bℓ ··· bq
X HH 1
n11 n1ℓ n1q
a1 n•1 ··· n•ℓ ··· n•q f1•
.. .. .. .. ..
. . . . .
nk1 nkℓ nkq
ak n•1 ··· n•ℓ ··· n•q fk•
.. .. .. .. ..
. . . . .
np1 nkℓ npq
ap n•1 ··· n•ℓ ··· n•q fp•
Total 1 ··· 1 ··· 1 1
Attention au piège
Notons que dans ces tableaux, la dernière colonne ou dernière ligne, dont les cases ne sont pas toutes
égales à 1, ne représentent pas la somme des cases précédentes.
Age
18 ans et moins 19 ans 20 ans et plus
Chapitre 7 : Quali/Quali
oui 60,61% 41,67% 34,29% 45,65%
Poursuite nsp 6,06% 29,17% 25,71% 19,57%
d’études non 33,33% 29,17% 40,00% 34,78%
Total 100% 100% 100% 100,00%
Age
Total
18 ans et moins 19 ans 20 ans et plus
oui 47,62% 23,81% 28,57% 100,00%
Poursuite nsp 11,11% 38,89% 50,00% 100,00%
d’études non 34,38% 21,88% 43,75% 100,00%
35,87% 26,09% 38,04% 100,00%
Nous pouvons représenter les distributions conditionnelles sous forme de diagrammes empilés (voir la
figure 7.1) : nous pouvons ainsi les comparer. Nous pouvons également regarder chaque distribution condi-
tionnellement à une réponse à l’aide d’un diagramme en tuyaux d’orgue ou de Pareto (voir la figure 7.2) :
dans ce cas, la comparaison est plus compliquée mais nous pouvons étudier chaque distribution.
7.2 Indépendance
Dans l’exemple fil rouge, la question qui se pose est de savoir s’il y a une (in)dépendance entre la
volonté ou non de poursuivre les études et l’âge des étudiants.
7.2. INDÉPENDANCE 92
Diagrammes empilés de la poursuite d'études suivant l'âge Diagrammes empilés de l'âge suivant la poursuite d'études
100,00% 100,00%
90,00% 90,00%
80,00% 80,00%
70,00% 70,00%
60,00% 60,00%
Non 20 ans et plus
50,00% 50,00%
NSP 19 ans
30,00% 30,00%
20,00% 20,00%
10,00% 10,00%
0,00% 0,00%
18 ans et moins 19 ans 20 ans et plus Oui NSP Non
Figure 7.1 – Représentation des diagrammes empilés des différentes distributions : à gauche, la distri-
bution de la poursuite d’études en fonction de l’âge et, à droite, la distribution de l’âge en fonction de la
poursuite d’études.
Figure 7.2 – Représentation des tuyaux d’orgue des différentes fréquences conditionnelles.
7.2.1 Définitions
Pour répondre à cette question, nous avons besoin de faire un petit rappel :
P (X = ak , Y = bℓ ) = P (X = ak ) P (Y = bℓ ) .
La proposition suivante nous permet de voir l’indépendance de deux variables d’une autre façon :
7.2. INDÉPENDANCE 93
P ( X = ak | Y = bℓ ) = P (X = ak ) .
Preuve
Par la combinaison des deux définitions, nous avons :
P (X = ak , Y = bℓ )
P ( X = ak | Y = bℓ ) =
P (Y = bℓ )
P (X = ak ) P (Y = bℓ )
=
P (Y = bℓ )
= P (X = ak ) .
Chapitre 7 : Quali/Quali
ligne ; autrement dit, les 3 premières colonnes seraient identiques entre elles et identiques à la colonne
finale.
Définition 64 (Indépendance)
Nous disons que le caractère Y ne dépend pas du caractère X si et seulement si pour tout
(k, k ′ , ℓ) ∈ {1, . . . , p} × {1, . . . , p} × {1, . . . , q}, nous avons :
nkℓ nk ′ ℓ
= .
nk• nk ′ •
Proposition 24
Nous avons les trois propriétés suivantes :
Preuve
Interprétation :
Nous savons que pour tout ℓ ∈ {1, . . . , q}, nous avons :
Pp
n•ℓ k=1 nkℓ
=
n n
p
X nkℓ
=
n
k=1
p
X nkℓ nk•
= .
nk• n
k=1
Or, comme Y ne dépend pas de X, nous savons que pour tout (k, k ′ , ℓ) ∈ {1, . . . , p}×{1, . . . , p}×{1, . . . , q},
nous avons :
nkℓ nk ′ ℓ
= .
nk• nk ′ •
Une autre façon de le voir est de constater que sur toute une colonne, la valeur de nnk• kℓ
est la même donc
ne dépend pas de k. Notons, C cette valeur, nous avons donc :
p
n•ℓ X nkℓ nk•
=
n nk• n
k=1
p
X nk•
= C
n
k=1
p
X nk•
= C
Chapitre 7 : Quali/Quali
n
k=1
Pp
k=1 nk•
= C
n
n
= C
n
= C.
Autrement dit, pour tout (k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}, nous avons :
nkℓ n•ℓ
=C= .
nk• n
Lien avec les probabilités :
Ce résultat est une conséquence du précédent : Y ne dépend pas de X si et seulement si pour tout
(k, ℓ) ∈ {1, . . . , p} × {1, . . . , q}, nous avons :
nkℓ n•ℓ nk• n•ℓ
= ⇔ nkℓ =
nk• n n
nkℓ nk• n•ℓ
⇔ =
n nn
nk• n•ℓ
⇔ fkℓ =
n n
⇔ fkℓ = fk• f•ℓ .
Réciprocité :
Y ne dépend pas de X si et seulement si pour tout (k, k ′ , ℓ) ∈ {1, . . . , p} × {1, . . . , p} × {1, . . . , q}, nous
avons
nkℓ n•ℓ
= .
nk• n
Or
nkℓ nk•
=
n•ℓ n
n’est possible par la première propriété que si et seulement si X ne dépend pas de Y.
7.2. INDÉPENDANCE 95
Attention au piège
En théorie, X et Y sont indépendantes si et seulement si :
Partant de ce constat, nous pourrions considérer qu’il suffit de vérifier cette propriété dans le tableau des
fréquences et que, si elle n’est pas vérifiée pour au moins une case, cela signifie que X et Y ne sont pas
indépendantes.
Or, si nous mettons une règle aussi stricte, nous rejetterons quasiment à chaque fois l’hypothèse
d’indépendance y compris lorsque celle-ci est vraie car nous ne tenons pas compte de la fluctuation des
variables aléatoires. Seul un test d’hypothèse permettra de répondre à cette problématique.
Chapitre 7 : Quali/Quali
• les distributions marginales de X et Y de ce tableau de contingence théorique sont les
mêmes que celles du tableau de contingence observé.
Preuve
C’est une conséquence des résultats de la section précédente.
Attention au piège
Attention, comme son nom l’indique, cet effectif n’est que théorique et il n’a pas de raisons d’être un
nombre entier (un peu comme quand nous entendons que chaque femme possède 2,2 enfants en moyenne).
Remarque
Nous retrouvons ainsi les mêmes marginales dans le tableau des effectifs observés et celui des effectifs
théoriques.
Age
Total
18 ans et moins 19 ans 20 ans et plus
oui 15,07 10,96 15,98 42
Poursuite nsp 6,46 4,70 6,85 18
d’étude non 11,48 8,35 12,17 32
Total 33 24 35 92
Nous voyons que les effectifs théoriques ne sont pas des entiers.
ckℓ
k=1 ℓ=1
Remarque
La division par ckℓ sert à normaliser, nous verrons dans la formule de la statistique Φ2 l’intérêt de cette
normalisation.
En regardant cette statistique, nous pouvons nous demander l’intérêt du carré dans cette formule. Si
nous mettons de côté la normalisation, regardons ce qu’il arriverait sans le carré :
p X
X q p X
X q p X
X q
(nkℓ − ckℓ ) = nkℓ − ckℓ
k=1 ℓ=1 k=1 ℓ=1 k=1 ℓ=1
= n−n
= 0.
Dans le cas des fréquences, nous avons remarqué que les variables sont indépendantes si et seulement
si fkℓ = fk• f•ℓ . Nous pouvons ainsi calculer le tableau des fréquences théoriques.
À l’aide des notations précédentes, nous pouvons introduire la statistique du Φ2 qui se calcul à
partir des fréquences théoriques et qui est liée à la statistique du χ2n (comme nous le verrons dans la
proposition 26).
χ2n
Φ2 = .
n
Preuve
Chapitre 7 : Quali/Quali
Avec les notations précédentes, nous avons :
p q 2
χ2n 1 X X (nkℓ − ckℓ )
=
n n ckℓ
k=1 ℓ=1
p X q nk• n•ℓ 2
1 X nkℓ − n
= nk• n•ℓ
n n
k=1 ℓ=1
p X q nkℓ nk• n•ℓ
2
1 X n n − n2
= nk• n•ℓ
n n n2
k=1 ℓ=1
p X
q nkℓ nk• n•ℓ 2
X 1 n2 n − n × n
= 2
× nk• n•ℓ
n
k=1 ℓ=1 n × n
p X q 2
X (fkℓ − fk• f•ℓ )
=
fk• f•ℓ
k=1 ℓ=1
= Φ2 .
Remarque
Au vu de la proposition précédente, les deux statistiques valent la même chose à une constante multipli-
cative près et ont donc les mêmes propriétés.
Preuve
La première équivalence est triviale avec la proposition précédente :
χ2n
χ2n = 0 ⇔ =0
n
⇔ Φ2 = 0.
La deuxième équivalence est vraie car les termes de la somme sont tous positifs et la dernière par la
proposition de la partie précédente.
Remarque
Chapitre 7 : Quali/Quali
Pour étudier si les variables sont indépendantes ou non, nous mesurons donc l’éloignement de χ2n ou Φ2
par rapport à 0.
En particulier, nous pouvons nous intéresser à la contribution au Khi2 de chaque couple de modalités
(ak , bℓ ).
Age
18 ans et moins 19 ans 20 ans et plus
oui 1,616 0,084 0,991
Poursuite nsp 3,076 1,131 0,676
d’étude non 0,020 0,218 0,274
Nous voyons que dans les couples de modalités qui contribuent le plus, il y a :
1. 18 ans et moins qui ne savent pas.
7.2. INDÉPENDANCE 99
Chapitre 7 : Quali/Quali
HH Y
H b1 ··· bℓ ··· bq
X HH
(f11 −f1• f•1 )2 2
(f1q −f1• f•q )2
a1 f1• f•1 · · · (f1ℓf−f 1• f•ℓ )
1• f•ℓ
··· f1• f•q
.. .. .. ..
. . . .
(fk1 −fk• f•1 )2 (fkℓ −fk• f•ℓ )2 (fkq −fk• f•q )2
ak fk• f•1 ··· fk• f•ℓ ··· fk• f•q
.. .. .. ..
. . . .
(fp1 −fp• f•1 )2 (fpℓ −fp• f•ℓ )2 (fpq −fp• f•q )2
ap fp• f•1 ··· fp• f•ℓ ··· fp• f•q
Remarque
Les définitions 71 peuvent être adaptées au cas du Φ2 en comparant cette fois fkℓ et fk• f•ℓ .
Remarque
Les valeurs maximales sont obtenues dans des cas de fréquences particulières et dans le cas où l’une des
variables est une fonction de l’autre.
7.3. POINT MÉTHODE 100
χ2n Φ2
V2 = = .
n min(p − 1, q − 1) min(p − 1, q − 1)
• V 2 = 0 ⇔ X et Y sont indépendantes.
Il existe une fonction f telle que Y = f (X)
• V2 = 1 ⇒ . Autrement dit, il existe une
Il existe une fonction g telle que X = g(Y)
relation fonctionnelle entre X et Y.
• Si V 2 est proche de 0 alors il semble que les deux variables sont indépendantes ;
c’est-à-dire que connaître la valeur de l’une n’apporte pas d’information (ou peu)
sur la valeur de l’autre.
Chapitre 7 : Quali/Quali
Chapitre 8
Liaison entre deux variables quantitatives
"Il est prouvé que fêter les anniversaires est bon pour la santé. Les statistiques montrent que les
personnes qui en fêtent le plus deviennent les plus vieilles."
Den Hartog.
8.1 Introduction
Dans cette partie, nous étudions le lien entre deux variables quantitatives. Pour illustrer nos propos,
nous prenons comme exemple fil rouge le cas d’étudiants dont nous connaissons le nombre d’heures passées
à étudier pour un examen et les notes (sur 100) qu’ils ont obtenues. Le tableau des données individuelles
est donné dans le tableau 8.1.
1 7 70
2 6 50
3 10 90
4 7 75
5 12 85
6 5 60
7 4 55
8 10 80
9 9 70
Nous pouvons alors nous demander s’il existe un lien entre les deux phénomènes. Si oui, de quelle
nature est-il ? Nous pouvons également nous demander si le travail influe sur la note. Remarquons toutefois
que la question inverse semble plus compliquée à vérifier dans la mesure où le temps de travail a été mesuré
avant l’obtention de la note. Il n’y pas ici de symétrie entre les deux problématiques.
Moyenne Variance
X ≈ 7, 8 ≈ 6, 17
Y ≈ 70, 6 ≈ 163, 58
Nous pouvons également représenter les points afin de voir si nous repérons visuellement une relation
particulière. La figure 8.1 représente le nuage de points avec la valeur moyenne des heures d’études (trait
102
8.1. INTRODUCTION 103
vertical) et la moyenne des notes (trait horizontal). Le point à l’intersection des deux traits correspond
au barycentre du nuage.
100
95
3
90
5
85
8
80
4
75
9
Notes
70
1
65
6
60
7
55
2
50
45
40
3 4 5 6 7 8 9 10 11 12 13
Heures d'études
Chapitre 8 : Quali/Quanti
Figure 8.1 – Nuage de points de l’exemple. Les traits symbolisent les emplacements des moyennes.
Vis-à-vis des droites symbolisant les moyennes, nous pouvons remarquer que les points sont surtout
situés en bas à gauche ou en haut à droite. De plus, il semblerait qu’ils se concentrent autour d’une droite
croissante assez marquée : plus le nombre d’heures croît, meilleure est la note.
La (mauvaise) utilisation de la statistique à travers les âges
En 2005, la Floride décide d’adopter la loi Stand Your Ground qui permet à chaque personne de pouvoir
riposter si elle pense qu’elle est en position de légitime défense. Par exemple, si vous vous faites braquer
par quelqu’un dans la rue et que vous pourriez vous enfuir sans mettre votre vie en jeu, vous deviez fuir
avant cette loi. Depuis cette loi, vous avez le droit de tirer le ou la premier·ère. En 2014, le département
de l’application de la loi de Floride publia le graphique mis en figure 8.2 pour montrer l’évolution du
nombre de morts et l’impact de cette loi. À première vue, nous avons envie de dire que cette loi a permis
de diminuer fortement le nombre de morts. Toutefois, si on regarde de plus près, on s’aperçoit que l’axe
des ordonnées est inversé : en fait, il y a eu beaucoup plus de morts après la mise en place de cette loi.
Notons que le graphique représente une série chronologique qui est un cas un peu particulier de croise-
ment de variables quantitatives. Ce type de graphique ne sera donc pas utilisé dans le cours mais la mise
en garde reste la même pour des nuages de points : inverser un axe peut être source d’incompréhensions.
Figure 8.2 – Nombre de morts par armes à feu en Floride par année. L’axe des ordonnées est inversé ce
qui perturbe l’interprétation.
Chapitre 8 : Quali/Quanti
Remarque
Le centrage des variables permet de voir certaines particularités plus facilement :
• Une valeur centrée négative signifie que la valeur initiale est en-dessous de la moyenne.
• À l’inverse, une valeur centrée positive signifie que la valeur initiale est au-dessus de la moyenne.
• Une valeur centrée proche de zéro signifie que la valeur initiale est proche de la moyenne.
Remarque
Nous pouvons vouloir représenter le nuage de points centrés, pour cela, il suffit de reprendre le graphique
précédent et de déplacer les axes sur les emplacements des moyennes (comme sur la figure 8.1).
Chapitre 8 : Quali/Quanti
8.2 Covariance
Commençons par la définition.
Définition 75 (Covariance)
Étant données deux variables x et y, la covariance entre x et y est définie par :
n
1X
cov (x, y) = (xi − x) (yi − y) .
n i=1
Preuve
Nous avons :
n
1X
cov (x, x) = (xi − x) (xi − x)
n i=1
8.2. COVARIANCE 106
n
1X 2
= (xi − x)
n i=1
= var (x) .
Propriétés 31 (Covariance)
Étant données deux variables x et y de même longueur n, alors nous avons pour a et b réels :
Preuve
Les preuves reposent sur la linéarité de la moyenne. À savoir que :
x+y = x + y,
ax = ax.
1. Développement :
En reprenant la formule, nous avons :
n
1X 2
var (x + y) = (xi + yi − x + y)
n i=1
n
1X 2
= (xi + yi − (x + y))
n i=1
n
1X 2
= [(xi − x) + (yi − y)]
n i=1
n
1 Xh 2 2
i
= (xi − x) + 2 (xi − x) (yi − y) + (yi − y)
n i=1
n n n
1X 2 1X 1X 2
= (xi − x) + 2 (xi − x) (yi − y) + (yi − y)
n i=1 n i=1 n i=1
= var (x) + var (y) + 2cov (x, y) .
8.2. COVARIANCE 107
2. Bilinéarité :
De même :
n
1X
cov (ax, by) = (axi − ax) byi − by
n i=1
n
1X
= (axi − ax) (byi − by)
n i=1
n
1X
= a (xi − x) b (yi − y)
n i=1
n
ab X
= (xi − x) (yi − y)
n i=1
= abcov (x, y) .
3. Symétrie :
Par définition :
n
1X
cov (y, x) = (yi − y) (xi − x)
n i=1
n
1X
= (xi − x) (yi − y)
n i=1
= cov (x, y) .
Chapitre 8 : Quali/Quanti
4. Formule utile :
Comme pour la démonstration de la variance, nous avons :
n
1X
cov (x, y) = (xi − x) (yi − y)
n i=1
n
1X
= (xi yi − xi y − xyi + x y)
n i=1
n n n n
1X 1X 1X 1X
= xi yi − xi y − xyi + xy
n i=1 n i=1 n i=1 n i=1
n n n n
1X 1X 1X 1X
= xi yi − y × xi −x × yi +x y × 1
n i=1 n i=1 n i=1 n i=1
| {z } | {z } | {z }
=x =y =n
n
1 X n
= xi yi − 2x y + x y ×
n i=1
n
n
1X
= xi yi − x y.
n i=1
Attention au piège
Il est très important de garder en tête qu’une covariance nulle ne veut pas dire que les deux variables sont
indépendantes. C’est bien dans l’autre sens, et uniquement dans l’autre sens, qu’il existe une relation de
cause à effet.
8.3. COEFFICIENT DE CORRÉLATION LINÉAIRE (DE PEARSON) 108
Corollaire 32 (Généralisation)
Étant données deux variables x et y de même longueur n, alors nous avons pour a et b réels :
Preuve
C’est une combinaison des propriétés 1 et 2 précédentes.
Remarque
Nous pouvons mettre en relation ce résultat avec les produits remarquables :
Remarque
La covariance dépend des unités dans lesquelles sont mesurées les variables X et Y. Une fois de plus,
nous avons une nécessité de normalisation.
Chapitre 8 : Quali/Quanti
Preuve
1. Le résultat est obtenu par l’inégalité de Cauchy-Schwarz de Schwarz (1890) (non abordé dans ce cours)
et qui nous affirme que :
|cov (X, Y)| ≤ σ̂X σ̂Y ⇔ |r (X, Y)| ≤ 1.
2. Si X et Y sont indépendants alors :
cov (X, Y)
r(X, Y) =
σ̂X σ̂Y
0
=
σ̂X σ̂Y
= 0.
cov (X, aX + b)
r(X, aX + b) =
σ̂X σ̂aX+b
acov (X, X)
=
σ̂X |a| σ̂X
avar (X)
= 2
|a| σ̂X
a var (X)
=
|a| var (X)
= signe(a).
Ce qui nous donne la deuxième formule. De plus, comme la fonction signe vaut seulement −1 ou 1, nous
Chapitre 8 : Quali/Quanti
avons également le premier résultat. Enfin, si nous prenons a = 1 et b = 0, nous avons le dernier résultat.
Remarque
Attention aux conclusions hâtives, ce n’est pas forcément parce qu’il semble y avoir une corrélation entre
X et Y que l’une influence l’autre. Il est possible qu’il y ait un facteur confondant (voire même que ce
soit du pur hasard).
Figure 8.3 – Graphique représentant le lien entre la consommation de chocolat par habitant et le nombre
de prix Nobel par habitant pour les pays ayant eu au moins un prix Nobel.
La (mauvaise) utilisation de la statistique à travers les âges
En 2005, Bobby Henderson créa une parodie de religion appelée le pastafarisme. L’un des fondements de
cette religion est de dire que les pirates sont les premiers pastafariens et qu’ils protègent le monde. Pour
prouver ce qu’il dit, il montra la corrélation quasi parfaite entre le nombre de pirates et la température
Chapitre 8 : Quali/Quanti
moyenne mondiale (voir la figure 8.4) : moins il y a de pirates et plus la température augmente. Bien sûr,
cette corrélation est un hasard. Avec la venue du Big Data, il est de plus en plus facile de tout comparer,
il est donc fondamental de vérifier que les conclusions sont logiques.
Pour plus d’informations sur le pastafarisme, vous pouvez consulter la page wikipédia d’où est tirée l’image 8.4 :
https://fr.wikipedia.org/wiki/Pastafarisme.
8.4. POINT MÉTHODE 111
Figure 8.4 – Graphique représentant le lien entre la température moyenne mondiale et le nombre de
pirates.
La (mauvaise) utilisation de la statistique à travers les âges
Pour sensibiliser à la différence entre corrélation et causalité, les décodeurs du journal Le monde proposent
un générateur de corrélation aléatoire :
https://www.lemonde.fr/les-decodeurs/article/2019/01/02/
correlation-ou-causalite-brillez-en-societe-avec-notre-generateur-aleatoire-de
Chapitre 8 : Quali/Quanti
-comparaisons-absurdes_5404286_4355770.html
N’hésitez pas à vous amuser avec.
2. Calcul de la covariance soit à l’aide de la définition 75, soit du point 4 des propriété 31.
3. Calcul des écart-types σ̂X et σ̂Y (voir la proposition 11).
4. Calcul du rapport de corrélation linéaire (de Pearson) r(X, Y) (voir la définition 76).
5. Conclure suivant les valeurs de r(X, Y) :
• Si r(X, Y) est proche de 1 alors il semble y avoir une corrélation positive entre les
deux variables ; c’est-à-dire que si l’une augmente alors l’autre aussi (et inversement).
• Si r(X, Y) est proche de -1 alors il semble y avoir une corrélation négative entre les
deux variables ; c’est-à-dire que si l’une augmente alors l’autre diminue (et inverse-
ment).
• Si r(X, Y) est proche de 0 alors il n’est pas possible de conclure.
Chapitre 9
Variable qualitative ordonnée dépendant d’une
variable qualitative ordonnée
"Si vous faites une course cycliste et que vous doublez le dernier, quelle est alors votre place ?"
Énigme de logique
9.1 Introduction
Dans cette partie, nous traitons le cas particulier des données qualitatives ordonnées. Dans un premier
temps, nous proposons un critère basé sur le rapport de corrélation linéaire vu dans la section 8.3 puis
nous parlerons du coefficient de Kendall.
Avant cela, nous devons introduire la notion de rang. Pour cela, nous prenons un exemple fil rouge.
L’ordre est donc sur les variables. Nous avons obtenu les résultats suivants :
individu Goût pour les Maths Goût pour l’Eco
1 A1 B1
2 A1 B2
3 A1 B3
4 A2 B3
5 A2 B2
6 A2 B4
7 A3 B3
8 A3 B4
9 A3 B2
10 A3 B4
Ici, nous pouvons dire qu’un individu est devant un autre si la modalité du goût pour les maths est plus
basse que celle des autres. Dans notre exemple, nous avons plusieurs ex-æquo.
112
9.1. INTRODUCTION 113
Définition 77 (Rang)
Étant donné un échantillon d’observations x1 , . . . , xn d’une variable qualitative ordonnée X
prenant ses valeurs dans {a1 , . . . , aK }. Si les valeurs prises par les xi sont toutes distinctes
alors nous pouvons les ordonner de telle sorte que x(1) < · · · < x(n) où x(i) correspond à
l’observation telle qu’il y a dans l’échantillon exactement i − 1 valeurs plus faibles et n − i
valeurs plus fortes. Le rang de xi , noté rang(xi ), est la valeur (i) obtenue.
En cas d’égalité, nous pouvons tout de même classer les valeurs de telle sorte que x(1) ≤
· · · ≤ x(n) et alors nous avons plusieurs choix :
• Le rang classique consiste, en cas de valeurs identiques, à donner le rang de la première
observation à tout le groupe puis de continuer l’indexation comme précédemment.
• Le rang moyen consiste, en cas de valeurs identiques, à donner la moyenne des rangs
des observations à tout le groupe puis de continuer l’indexation comme précédemment.
Remarque
Nous verrons par la suite que le choix du rang n’a généralement que peu d’influence sur la corrélation
(ou non) des points.
Point logiciel
Dans Excel, les différentes façon de calculer les rangs sont obtenues avec les fonctions suivantes :
Rangs de l'économie
7 8
7
6
6 3 4 7
5 3 4 7
5
4
4
3 2 3
2 2 2 5 9
1 1
1 5 9 1
0 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 9 10
Rangs des maths Rangs des maths
Chapitre 9 : Quali Ordonnées
Figure 9.1 – Représentation des rangs par des nuages de points : rang classique à gauche et rang moyen
à droite.
Le but du coefficient de Kendall est de voir quels sont les individus qui sont d’accord, ceux qui ne le
sont pas et ceux qui sont ex-æquo.
• Sinon, si l’un des points est en bas à gauche de l’autre (ou en haut à droite), alors ils sont en accord ;
sinon, ils sont en désaccord.
Nous observons que le tableau est symétrique par rapport à sa diagonale (cela vient du fait que la
concordance des avis est symétrique) et les lignes 8 et 10 (mais aussi les colonnes) sont identiques car les
individus 8 et 10 sont ex-æquo.
Au final, nous avons :
• 12 ex-æquo.
• 22 ex-æquo selon X.
9.3. COEFFICIENT DE KENDALL 116
• 16 ex-æquo selon Y.
• 40 accords.
• 10 désaccords.
Table 9.1 – Tableau récapitulatif des concordances d’avis (voir définition 79) entre les individus de
l’exemple fil rouge : ex-æquo (e), ex-æquo selon X (eX), ex-æquo selon Y (eY), d’accord (a) ou en
désaccord (d).
Ind 1 2 3 4 5 6 7 8 9 10
1 e eX eX a a a a a a a
2 eX e eX a eY a a a eY a
3 eX eX e eY d a eY a d a
4 a a eY e eX eX eY a d a
5 a eY d eX e eX a a eY a
6 a a a eX eX e d eY d eY
7 a a eY eY a d e eX eX eX
8 a a a a a eY eX e eX e
9 a eY d d eY d eX eX e eX
10 a a a a a eY eX e eX e
Y (Eco) Y (Eco)
6 8 10 6 8 10
B4 • • B4 • •
3 4 7 3 4 7
Chapitre 9 : Quali Ordonnées
B3 • • • B3 • • •
2 5 9 2 5 9
B2 • • • B2 • • •
1 1
B1 • B1 •
X (Maths) X (Maths)
A1 A2 A3 A1 A2 A3
Figure 9.2 – Représentation schématique des individus pour voir la concordance des avis. À gauche, la
grille avec les points suivant les choix ordonnés. À droite, la comparaison des choix de l’individu 4 avec les
autres individus : les ex-æquo avec lui sont sur le même point, les ex-æquo en X sont sur le trait vertical
violet, les ex-æquo en Y sont sur le trait horizontal bleu, les individus d’accord avec lui sont dans l’un
des deux rectangles verts et ceux en désaccord sont dans l’un des deux rectangles rouges.
• le tableau est symétrique c’est-à-dire que pour toute case (i, j), la case (j, i) est identique.
• si deux individus sont ex-æquo alors les lignes et les colonnes correspondantes sont égales.
9.3. COEFFICIENT DE KENDALL 117
Preuve
Si nous notons E le nombre de paires d’individus ex-æquo, NeX le nombre de (Ex) et NeY le nombre de
paires (Ey) alors, nous avons :
A + D + NeX + NeY + E = n2 .
Par l’inégalité triangulaire, nous avons :
|A − D| ≤ |A| + |D|
≤ A + D car A et D sont positifs
≤ n2 − (NeX + NeY + E) .
s
2
[n2 − (NeX + NeY + E)]
≤
[n − (NeX + E)] [n2 − (NeY + E)]
2
v
u 2
u n − (NeX + NeY + E) n2 − (NeX + NeY + E)
≤ u
2
× 2
t| n − (N{zeX + E) } | n − (N{zeY + E) }
u
≤1 ≤1
√
≤ 12
≤ 1.
Or, nous observons que si D = NeX = NeY = 0 alors l’égalité est vérifiée donc c’est une condition
suffisante pour que τ soit égal à 1. À l’opposé, si l’une des valeurs D, NeX ou NeY est non nulle, nous
observons que la partie gauche de l’égalité est strictement plus petite que la partie droite donc c’est
également une condition nécessaire. Conclusion, τ vaut 1 si et seulement si D = NeX = NeY = 0 ce qui
donne le résultat.
La démarche est similaire pour montrer que τ = −1 si et seulement si A = NeX = NeY = 0.
Chapitre 9 : Quali Ordonnées
Remarque
Il est également possible de calculer les paramètres du coefficient de Kendall en utilisant le tableau de
contingence. En effet, ce tableau donne un aperçu rapide des couples avec lesquels nous sommes d’accord,
en désaccord ou ex-æquo. Pour ce faire, nous choisissons une case du tableau de contingence et alors :
• les cases situées strictement plus haut à gauche ou plus bas à droite sont en accord.
• les cases situées strictement plus haut à droite ou plus bas à gauche sont en désaccord.
Attention à multiplier les résultats par le nombre de couples concernés (c’est-à-dire l’effectif de la case
correspondante).
Pour obtenir le nombre d’ex-æquo en X (resp. en Y), il suffit de faire la somme des valeurs des marginales
mises au carré.
voyons qu’il y a 10 paires en désaccord. Enfin, grâce aux marginales du tableau de contingence (voir la
talbe 9.2 (a)), nous voyons qu’il y 34 couples ex-aequo en X (32 + 32 + 42 ) et 28 couples ex-aequo en Y.
Nous retrouvons ainsi les résultats vus précédemment.
Table 9.2 – Tableaux nécessaires pour calculer les paramètres du coefficient de Kendall à partir du
tableau de contingence pour l’exemple fil rouge : (a) tableau de contingence, (b) exemple de calculs à
faire pour le couple (A2,B3) avec en vert les couples d’accord et en rouge les couples en désaccord, (c)
tableau récapitulatif du nombre de couples en accord avec chaque couple et (d) le nombre de couples en
désaccord.
PP Eco B1
PP
B2 B3 B4 Total PP
PP Eco B1
Maths PPP B2 B3 B4
P Maths PPP
A1 1 1 1 0 3 P
A1 1 1 1 0
A2 0 1 1 1 3
A3 0 1 1 2 4 A2 0 1 1 1
A3 0 1 1 2
Total 1 3 3 3 10
(a) (b)
PP Eco B1 PP Eco B1
PP PP
B2 B3 B4 B2 B3 B4
Maths PPP
P Maths PPP
P
A1 7 5 3 0 A1 0 0 2 0
A2 0 4 4 3 A2 0 1 1 2
A3 0 1 3 10 A3 0 3 1 0
(c) (d)
Situations d’Apprentissage et
d’Évaluation (SAÉ)
Chapitre 9 : Quali Ordonnées
120
Chapitre 10
Introduction aux Situations d’Apprentissage
et d’Évaluation
"Ce que nous devons apprendre à faire, nous l’apprenons en le faisant."
Aristote.
Dans cette partie, nous présentons les deux Situations d’apprentissage et d’Évaluation (ou SAÉ) qui
sont en lien avec la Ressource 1-05 Statistique Descriptive 1 :
• SAÉ 1-03 : Préparation et synthèses d’un tableau de donnée en vue d’une analyse exploratoire
simple
121
Chapitre 11
SAÉ 1-03 : Préparation et synthèse d’un ta-
bleau de données en vue d’une analyse explo-
ratoire simple
"Les statistiques sont fiables, lorsqu’elles comparent des données strictement comparables en tous
points, ce qui est rarement possible."
Patrick Louis Richard
• Faire comprendre à l’étudiant les mécanismes qui sous-tendent la construction des tableaux et des
graphiques, pour l’analyse des données.
• Lui faire comprendre que l’exploration simple des données doit être un préalable à tout travail
statistique.
122
11.3. APPRENTISSAGES CRITIQUES 123
Les données, issues de problématiques concrètes et réelles, nécessitent une préparation que les étu-
diants doivent savoir mener. Cela contribue à l’appropriation de la problématique et cette étape de
compréhension des données est une étape primordiale dans le traitement statistique de données.
Cette SAÉ repose sur les deux ressources suivantes :
• AC12.01 | Réaliser que les sources de données ont des caractéristiques propres à considérer (varia-
tion, précision, mise à jour...)
• AC12.02 | Comprendre qu’une analyse correcte ne peut émaner que de données propres et préparées
• AC12.03 | Comprendre l’intérêt des synthèses numériques et graphiques pour décrire une variable
statistique
• AC12.04 | Comprendre l’intérêt des synthèses numériques et graphiques pour mettre en évidence
des liaisons entre variables.
• Les données sur les 2640 plus grandes fortunes au monde le 4 avril 2023.
• Les résultats des matchs des équipes internationales masculines de rugby de niveau 1 depuis 1871.
• Les informations sur des vêtements vendus par une entreprise aux États-Unis.
Un descriptif pour chaque jeu de données est proposé dans la suite de la section (voir la section 11.4.1).
Matchs de Rugby : Le fichier Rugby.xlsx contient des informations sur les matchs des équipes
internationales masculines de rugby de niveau 1 : l’Angleterre, du Pays de Galles, de l’Irlande, de l’Écosse,
de l’Italie, de la France, de l’Afrique du Sud, de la Nouvelle-Zélande, de l’Australie et de l’Argentine.
Les données sont tirées de Wikipedia et inspirées de l’ensemble de données de Mart Jurisoo sur le
football international 1 .
Votre entreprise a été embauchée pour analyser ces données et, en particulier, savoir comment la France
se positionne par rapport aux autres pays. Un des premiers traitements à faire sera de transformer les
données pour extraire les résultats par équipe.
1. https://www.kaggle.com/datasets/martj42/international-football-results-from-1872-to-2017
11.4. MISE EN ŒUVRE 124
Spotify : Le fichier Spotify.xlsx a été créé via le package spotifyr. Charlie Thompson, Josiah Parry,
Donal Phipps, et Tom Wolff ont écrit ce package pour faciliter l’obtention de vos propres données ou
de métadonnées générales autour des chansons depuis l’API de Spotify. Dans ce fichier, vous retrouverez
des informations sur 32 833 musiques (groupes, styles, intérêts...) à la mi-octobre 2023. Vous avez été
embauché·e par un producteur intéressé par savoir ce qui fait qu’une musique est écouté sur Spotify ou
pas.
Données sur les ventes : Une entreprise voudrait embaucher votre boîte pour analyser ses données
clients. Néanmoins, elle souhaite d’abord vous tester et a simulé un jeu de données (le fichier Ventes.xlsx)
qu’elle vous a transmis. Son objectif est de voir si vous êtes capables d’analyser ces données pour faire
ressortir des comportements de vente qui pourraient les intéresser. Toutefois, si vous arrivez à extraire
des éléments témoignant du fait que ce sont bien des données simulées et non des vraies données, il serait
intéressant de les mettre aussi en avant.
11.4.2 Évaluation
Le jeu de données choisi doit être étudié avec la mise en application de tout ce que vous avez appris
durant la ressource 1-04. Cette étude fera l’objet de la rédaction d’un rapport qui devra vérifier les règles
classiques de rédaction de rapport (voir le compte-rendu corrigé du TP3 et le chapitre 12 pour plus de
détails). En particulier, votre rapport devra comporter :
• Une introduction avec le contexte et la problématique (donnée dans le sujet), une présentation
de l’individu statistique et le plan développé dans la suite.
• Un corps de texte décomposé en au moins deux sections (qui peuvent elles-mêmes avoir des sous
sections). Ce corps de texte devra présenter au moins une variable de chaque type avec à chaque
fois des tris à plat (si cela est possible), des résumés statistiques pertinents et des graphiques. Ces
tris à plat, résumés statistiques et graphiques sont en support des commentaires que vous ferez pour
décrire les variables et devront être utilisés judicieusement.
• Une conclusion qui reprend les points forts du corps du texte et qui propose une ouverture sur les
perspectives suivantes de l’étude.
• Une annexe contenant les détails techniques des données brutes comme, par exemple, le nom de
chaque colonne, ce qu’elles représentent et le type de variables ou encore les éventuels transforma-
tions que vous avez dû faire (par exemple, expliciter la création de nouvelles variables ou la gestion
des valeurs manquantes et/ou abbérentes).
Attention au piège
Dans le tableau 11.1, nous avons mis les points qui seront évalués durant ce projet. Il est important de
vérifier que votre projet permettra d’évaluer ces points (par exemple, vérifiez que vous n’avez pas oublié
Chapitre 11 : SAÉ 1-03
de proposer l’analyse d’une variable quantitative sans regroupement et une avec regroupement).
Table 11.1 – Tableau des compétences qui seront évaluées dans la SAÉ 1-03
– Faire une analyse sur les données individuelles (graphiques et résumés statistiques) pour faire
ressortir les tendances les plus intéressantes.
– Faire un regroupement par classe et proposer une analyse (tri à plat, graphiques et résumés
statistiques approchés).
11.5.3 Croisements
Une fois l’étude univariée faite, il est important d’étudier les croisements (lorsque le cours a suffisam-
ment avancé) :
• Réfléchir aux croisements intéressants : en particulier, essayez de croiser vos variables d’intérêts
avec vos variables explicatives.
• Pour chaque croisement, proposer :
– Un tableau de valeurs (lorsque celui-ci a un sens).
– Un graphique associé.
– Un indicateur de liaison à commenter. Attention, ce n’est pas parce que votre indicateur de
liaison ne semble pas aller dans votre sens qu’il ne faut pas en parler.
11.5. FEUILLE DE ROUTE 127
• Chaque paragraphe doit être personnalisé : éviter les copier/coller et réfléchissez à une structure
cohérente et agréable à lire.
• Le rapport ne doit pas être écrit à la fin. Il sert de support à votre étude. En particulier, certains
de vos questionnements les plus pertinents arriveront en rédigeant votre rapport. Il serait dommage
de passer à côté de nouvelles réflexions.
• De même, évitez les commentaires subjectifs comme "on voit clairement que" par exemple. Si
c’est clair, tout le monde le verra, pas la peine de le dire. Et si vous dites ça pour éviter d’avoir à
expliquer, c’est une erreur car ça attire au contraire l’oeil.
11.5.7 Calendrier
Afin de vous aider à vous organiser, je vous remets le calendrier prévisionnel (il est possible que
l’emploi du temps évolue) dans la table 11.2.
11.5. FEUILLE DE ROUTE 128
Compléments
129
Chapitre 12
Rédaction d’un rapport
"Il ne faut pas prendre les gens pour des cons, mais il ne faut pas oublier qu’ils le sont."
Les inconnus dans leur sktech Les publicitaires
Dans ce chapitre, nous remettons toutes les règles pour rédiger correctement un rapport.
Attention au piège
Les règles présentées ici sont pour les rapports de projet tuteuré et de stage. Certaines règles ne sont
donc pas obligatoires pour les rapports à remettre à la fin d’un cours.
Il est important de ne pas confondre un rapport (qui doit respecter les règles énoncées ici) avec un
compte-rendu qu’on demande parfois à la fin d’un TP (qui est parfois l’accumulation de réponses à des
questions).
12.1 Structure
La structure d’un rapport se décompose obligatoirement en :
– Le titre.
– Le nom des auteurs.
– Les logos.
Chapitre 12 : Rédaction d’un rapport
• Les remerciements.
• La page de résumés ; l’un en français et l’autre en anglais avec des mots clefs.
• L’introduction.
• Le corps du texte.
• La conclusion.
• Les annexes.
130
12.1. STRUCTURE 131
Titre
Le titre est censé être explicite et doit résumer en quelques mots l’étude. Il faut bien garder en tête
que la première impression se fera à partir du titre donc ne le négligez pas.
Attention au piège
Parfois des étudiants écrivent comme titre Rapport ou Mon rapport ; ceci reviendrait à écrire un livre
intitulé Mon livre. Dans ce cas, le lecteur ou la lectrice n’est pas informé·e sur le contenu.
Auteurs
La liste des auteurs doit être présente avec, si possible, leurs adresses courriels et leurs affiliations.
En statistique, nous avons la coutume de mettre les auteurs par ordre alphabétique des noms de famille.
Une seule exception peut être faite si un auteur en particulier a rédigé la quasi totalité du rapport et fait
quasiment toutes les études ; dans ce cas, il arrive que l’ordre alphabétique soit cassé pour le mettre en
premier auteur.
Logos
Les logos de l’entreprise pour laquelle vous effectuez votre projet tuteuré ou votre stage et le logo de
la formation dans le cadre de laquelle vous faites votre étude doivent apparaître.
12.1.2 Remerciements
La page qui suit celle de garde est réservée aux remerciements. Ces remerciements sont l’occasion de
faire un point sur les aides que vous avez reçues durant votre travail.
Remarque
Dans le cadre d’un rapport à rendre à la suite d’un TP ou dans le cadre de la SAÉ 1-03 par exemple, il
n’est pas nécessaire de mettre des remerciements.
Remarque
Dans le cadre d’un rapport à rendre à la suite d’un TP ou dans le cadre de la SAÉ 1-03 par exemple, il
n’est pas nécessaire de mettre des résumés et des mots clefs.
Point logiciel
Dans le logiciel Word , nous pouvons insérer une table des matières en utilisant l’outil Table
des matières du sous-menu Référence. Dans le langage Latex , nous pouvons utiliser la
commande tableofcontents.
12.1.5 Introduction
L’introduction se décompose en trois parties :
• Le contexte : il s’agit d’expliquer l’origine de l’étude que vous présentez. Par exemple, est-ce qu’il
y a déjà eu des travaux avant ? Est-ce que vous adaptez dans un autre contexte des résultats ?
• Le plan : il s’agit d’expliquer comment vous avez structuré votre rapport. Attention, le plan ne
consiste pas à refaire la table des matières mais bien à expliquer la logique de la structure de votre
texte.
Sauf cas exceptionnels, il n’y a jamais de codes ou de démonstrations dans le corps d’un rapport
de statistique : ils sont mis en annexes. Les rares cas où vous pouvez mettre du code ou une démonstration
est quand c’est le centre de votre problématique (par exemple pour expliquer comment optimiser un code
permettant le tri d’une liste).
Attention au piège
Dans certains cours, il vous sera demandé de faire des compte-rendus où vous répondrez juste à des
questions. Dans ces cas là, les enseignant·e·s pourront vous autoriser à mettre du code. Néanmoins, il ne
Chapitre 12 : Rédaction d’un rapport
faut pas que ce soit une habitude dans vos rapports (surtout pour le rapport de stage).
De plus, il est important de justifier vos choix (pourquoi avez-vous utilisé cette méthode et pas une
autre par exemple).
12.1.7 Conclusion
La conclusion vient à la fin et se décompose en deux/trois parties :
• La mise en évidence des résultats importants : la première partie consiste à remettre les
résultats les plus importants qui étaient présents dans votre corps de texte. Cela peut vous paraître
redondant mais le but est de résumer ce qui doit être retenu de votre étude.
• Les limites : votre étude ne sera que très rarement une finalité. Souvent, vous vous serez aperçu·e
en faisant l’étude qu’il vous a manqué une information ou une co-variable importante ; la fin de la
conclusion est alors un moment pour le signaler dans le but de proposer une meilleure étude après.
• Les perspectives : une fois l’étude finie, vous aurez certainement des idées d’amélioration (par
exemple, vous avez fait une étude sur les chiens mais certaines constatations pourraient être amé-
liorées en ne regardant que les caniches) ; les perspectives sont le moment où vous pouvez préciser
les nouvelles idées que vous auriez eues. Ce point est très important car il montre le recul et la
maîtrise que vous avez sur le sujet que vous avez étudié.
12.2. MISE EN FORME GÉNÉRALE 133
Attention au piège
Il ne faut en aucun cas qu’un nouveau résultat apparaisse dans la conclusion (comme on vous l’a peut-
être appris dans les dissertations de philosophie). Ici, on ne fait que résumer les informations les plus
importantes.
12.1.9 Annexes
Les annexes sont la partie essentiellement réservée aux détails techniques. En aucun cas, elles ne
contiendront des résultats importants : il faut pouvoir comprendre l’étude sans avoir à lire les annexes.
Elles contiennent en particulier :
• Les codes utilisés pour les études : ils doivent être commentés et prêts à être utilisés (pas de
dépendance à un code obscur par exemple).
• Les démonstrations : pour les mêmes raisons, elles doivent être décomposées en différents bouts afin
de faciliter la lecture.
• Le plan de codage.
Remarque
Les annexes permettent souvent de soulager le texte principal. Par exemple, si certains graphiques sont
redondants, nous pouvons garder le plus pertinent dans le corps du texte et mettre les autres en annexe.
Dans ce cas, il faut que les commentaires faits concernent principalement le graphique laissé dans le corps
du texte.
Attention au piège
Par contre, il est important qu’il soit fait référence dans le corps du texte des annexes. Par exemple,
Le rapport doit être rédigé dans un français adapté à la communication écrite (dans un registre non
narratif, proscrire le «je» et limiter le «on» et le «nous»), sans faute d’orthographe ni de grammaire. En
particulier, c’est un rapport professionnel et pas un journal intime.
12.3. GRAPHIQUES ET TABLEAUX 134
L’autre travers consiste à rester vague. La rédaction doit être composée d’un discours scientifique et
technique (par opposition à un discours « grand public ») en utilisant les termes précis vus en cours.
Remarque
En particulier, il est courant de voir des termes vagues comme beaucoup alors qu’on peut le quantifier
(d’ailleurs beaucoup ne représente pas la même quantité pour deux personnes). Par exemple, "cette année,
il y a beaucoup d’étudiants dans la formation SD" est moins précis que "cette année, il y a 58 étudiants
dans la formation SD".
12.5. PLAGIAT 135
12.5 Plagiat
Il est bien sûr possible de s’inspirer d’articles ou du travail d’autres personnes lorsque nous rédigeons
un rapport : il ne s’agit pas d’inventer la roue à chaque fois mais bien de s’appuyer sur l’existant. Par
contre, il faut reformuler avec vos mots les idées et surtout citer les références. A la fin de ce polycopié, il
y a une bibliographie des documents qui nous ont servis à préparer ce cours : nous les recensons et nous
précisons à chaque fois quand nous utilisons des informations. Cela a deux intérêts :
• D’abord valoriser vos recherches personnelles en montrant que vous vous êtes renseigné·e et que
vous avez suffisamment compris de quoi il s’agissait pour pouvoir proposer votre propre version.
• Ensuite, s’il y a des erreurs, vous pourrez vérifier facilement dans le document initial.
Tout plagiat, c’est-à-dire des phrases copier/coller, que ce soit du texte, des figures, des tableaux ou
même du code, sera évidemment sanctionné.
La (mauvaise) utilisation de la statistique à travers les âges
Une année, l’introduction d’un étudiant avait des tournures de phrases particulières et ne ressemblait
pas au reste du document. Généralement, ceci est dû à un copier/coller provenant d’un site internet.
Après une recherche rapide, les moteurs de recherche (wikipédia, google...) ne donnent pas de résultats
probants. Mais en cherchant un peu plus profondément, nous nous sommes aperçus que l’étudiant avait
récupéré un paragraphe entier de la version anglaise d’un article wikipédia qu’il avait traduit de façon
brute (peut-être en utilisant google traduction) et l’avait incorporé dans son texte. Malgré l’ingéniosité
de la démarche, il a eu droit à la même sanction. Comprenez bien qu’un ou une enseignant·e qui lit des
rapports régulièrement sent quand il y a tricherie.
Si vous avez un doute sur ce qui est possible ou non de faire, parlez en à votre enseignant·e
référent·e ; son rôle est également de vous aider dans la rédaction d’un rapport.
Enfin, il existe des logiciels pour détecter le plagiat. Les enseignants de SD les utilisent régulièrement.
• Une explication des objectifs et la problématique ou plus généralement les missions du travail.
• Un détail des données déjà à la disposition de l’auteur et celles à recueillir ainsi que leurs
formats.
• Une présentation des logiciels mis à disposition.
• Les difficultés rencontrées pour mener à bien la mission (manque d’informations, informations
non fiables, difficultés techniques...). Ces informations sont importantes d’une part pour comprendre
le temps mis pour réaliser les missions et, d’autre part, pour que les personnes qui reprendront les
travaux ne fassent pas les mêmes erreurs voir améliorent l’accueil des stagiaires.
• un bilan personnel doit être ajouté à la conclusion.
Cas d’un stage avec une application informatique. En plus du rapport, lorsque le sujet du stage
porte sur le développement d’une application informatique, il est également souhaitable de joindre deux
guides :
• le guide de l’utilisateur qui permet d’expliquer à un utilisateur comment utiliser votre application.
En général, on trouvera des copies d’écran commentées de l’application qui rendent compte des pro-
cédures pour utiliser les fonctionnalités de l’application. Si l’auteur a développé une fonctionnalité
d’aide en ligne, il peut en reprendre le contenu dans le guide.
• le guide du développeur qui permet à quelqu’un qui aurait à reprendre les développements (main-
tenance, évolution) de s’y retrouver. On devra par exemple trouver tout ce qui concerne la mo-
délisation et les développements. Attention, sur ce deuxième point, il ne s’agit pas de fournir un
listing papier de tout le code de l’application, mais bien de rendre compte de l’organisation de des
programmes (quelle fonction/procédure fait quoi, appelle quelle autre, etc.). Évidemment, il faut
aussi que les codes soient correctement commentés.
Ces deux guides sont des documents spécifiques, faits à l’attention d’un utilisateur et d’un développeur
(ce qui n’est pas le cas du rapport). Ils ne sont pas forcément très volumineux et on peut y retrouver
certains éléments (schémas, textes, etc.) identiques à ceux qu’on trouve dans le rapport
Chapitre 12 : Rédaction d’un rapport
Chapitre 13
Corrections des exercices
137
13.3. EXERCICES SUR LE CHAPITRE DES VARIABLES QUANTITATIVES DISCRÈTES 138
IQ x me σ̂x cv fk Qk W ak
σ̂x Q k W x IQ a k cv me f k
ak fk cv me Q k W x IQ σ̂x
cv W σ̂x a k me Q k IQ f k x
fk IQ x W σ̂x cv me a k Q k
Q k me a k fk x IQ W σ̂x cv
W σ̂x IQ Q k a k x fk cv me
x ak fk cv W me σ̂x Q k IQ
me cv Q k IQ f k σ̂x ak x W
• MEDIANE
• MIN (au centre de NOMINALE)
• MOYENNE
• NOMINALE
• PARETO
• PLAT
• QUARTILE
• REPARTITION
13.4. EXERCICES DES VARIABLES QUANTITATIVES CONTINUES 139
• TRI
• TUYAU
• VARIANCE
Nous mettons dans la table 13.1 la correction avec les lettres restantes entourées.
A R C O E N P C X U B
R I E M P I L E A D O
I A E I P R A R M I X
A L O N F O T E R A P
N U E A S I S U I G L
C C I L L O N N Y R O
E R M E D I A N E A T
S I S O T R U K E M U
L C E N T I L E L M E
N O I T I T R A P E R
Chapitre 13 : Corrections
Bibliographie
V. Audigier. Imputation multiple par analyse factorielle : Une nouvelle méthodologie pour traiter les
données manquantes. PhD thesis, Rennes, Agrocampus Ouest, 2015.
S. Checknews. Cnews a-t-elle diffusé un graphique trompeur sur les intentions de vote aux eu-
ropéennes ? Libération, 2019. URL https://www.liberation.fr/checknews/2019/05/06/
cnews-a-t-elle-diffuse-un-graphique-trompeur-sur-les-intentions-de-vote-aux-europeennes_
1725212.
M. Damgé. Sept conseils pour ne pas se faire avoir par les représentations graphiques. Le
monde, Les décodeurs, 2018. URL https://www.lemonde.fr/les-decodeurs/article/2018/
05/22/sept-conseils-pour-ne-pas-se-faire-avoir-par-les-representations-graphiques_
5302680_4355770.html.
F. Husson, J. Josse, S. Le, J. Mazet, et M. F. Husson. Package ‘factominer’. An R package, 96 :698, 2016.
E. Lucet, L. Richard, J.-P. Canet, B. B. Bringer, et E. Gagnier. Cash investigation, 2013. URL https:
//www.youtube.com/c/cashinvestigationf2/about.
F. H. Messerli. Chocolate consumption, cognitive function, and nobel laureates. The New England Journal
of Medicine, 367 :1562–1564, 2012. URL http://www.nejm.org/doi/full/10.1056/NEJMon1211064).
P. L. Micheaux, R. Drouilhet, et B. Liquet. Le logiciel R. 2011.
H. A. Schwarz. Über ein die flächen kleinsten flächeninhalts betreffendes problem der variationsrechnung.
Chapitre 14 : Bibliographie et index
L. Sweeney. Guaranteeing anonymity when sharing medical data, the datafly system. Dans Proceedings
of the AMIA Annual Fall Symposium, page 51. American Medical Informatics Association, 1997a.
L. Sweeney. Weaving technology and policy together to maintain confidentiality. The Journal of Law,
Medicine & Ethics, 25(2-3) :98–110, 1997b.
N. Uyttendaele, L. Maugeri, et G. Grisi. La statistique expliquée à mon chat, 2016. URL https:
//www.youtube.com/channel/UCWty1tzwZW_ZNSp5GVGteaA/featured.
140
Index
Absolu Causalité, 77
Classe modale (absolue), 70 Centile, 62
Mode, 43 approché, 70
Abstract, 131 Centre, 70
Accord Chat
Individus d’accord, 115 Statistique expliquée à mon chat, 8
Acronyme, 133 Chocolat
Amplitude, 65 corrélation et moustaches de chats, 8
Analyse Circulaire
SAÉ 1-03 : Préparation et synthèse d’un ta- Diagramme circulaire, 35
bleau de données en vue d’une analyse ex- Classe, 79
ploratoire simple, 122 isoamplitudes, 65
Annexe, 130, 133 isofréquences, 65, 66
Aplatissement modale (absolue), 70
Coefficient, 55, 63 modale (relative), 70
Apprentissage Regroupement en classes, 64
critique, 121 Regroupement en classes isoamplitudes, 65
Situation d’Apprentissage et d’Évaluation, 121 Regroupement en classes isofréquences, 65, 66
Approché statistique, 64
Centile approchée, 70 Clef
Décile approché, 70 Mot clef, 130, 131
Fractile approché d’ordre α, 70 Codage, 8
Intervalle interquartile approché, 72 Plan, 16
Intervalle interquartile approché (longueur), 72 Coefficient
Moyenne, 72 d’aplatissement, 55, 63
Médiane approchée, 70 d’asymétrie, 55, 63
Quartile approché, 70 de corrélation des rangs, 114
Variance, 72 de corrélation linéaire (de Pearson), 108
Asymétrie de Kendall, 117
Coefficient, 55, 63 de variation, 55, 63
Attraction Commanditaire, 131
du couple (k, ℓ), 99 Conclusion, 130, 132
Auteur Concordance
Nom des auteurs, 130, 131 entre individus, 115
Constante
Chapitre 14 : Bibliographie et index
141
INDEX 142
Interdécile Modélisation
Rapport, 51, 63 statistique, 8, 10
Interquartile Mot
Intervalle, 51, 63 clef, 130, 131
Intervalle interquartile approché, 72 Moustache
Intervalle interquartile approché (longueur), 72 Boîte, 59, 63
Lougueur de l’intervalle, 51, 63 Moyenne, 46, 63
Intervalle approchée, 72
interquartile, 51, 63 d’une constante, 48
interquartile (longueur), 51, 63 de la variable Y dans le groupe k, 80
interquartile approché, 72 géométrique, 50, 63
interquartile approché (longueur), 72 harmonique, 50, 63
Introduction, 130, 132 Linéarité, 48
Isoamplitude quadratique, 50, 63
INDEX 144
Multimodal fermée, 16
Distribution, 43 ouverte, 16
à choix multiplies, 16
Nom à choix ordonné, 16
des auteurs, 130, 131
des des tuteur·trice·s, 130, 131 R
Nominal Boxplot, 61
Variable, 12 Boîte à moustaches, 61
Non Diagramme circulaire, 36
réponse, 17 Diagramme de Pareto, 33
Diagramme empilé, 35
Ordinal Diagramme en bâtons, 56
Variable, 13 Diagramme en tuyaux d’orgue ou en barres, 30
Orgue Fonction de répartition empirique, 59
Diagramme en tuyaux d’orgue, 30 Histogramme, 68
Outsider, 60 Maximum, 45
Minimum, 45
Page
Moyenne, 46
de garde, 130
Tri à plat, 26
Pareto
Variance, 52
Diagramme de Pareto, 32
Rang, 113
Pearson
classique, 113
Coefficient de corrélation linéaire (de Pearson),
moyen, 113
108
sportif, 113
Perspective, 132
Plagiat, 135 Rapport
Plan, 132 de corrélation de Y par rapport à X, 82
d’expérience, 15 interdécile, 51, 63
de codage, 16 Recueil, 8
Plat Règle
Tri à plat, 26, 42, 62, 64 de Freedman-Diaconis, 66
Polygone de Sturges, 66
des fréquences cumulées, 68 de Yule, 66
Population Regroupement
statistique, 10 en classes, 64
Position en classes isoamplitudes, 65
Résumé statistique, 42 en classes isofréquences, 65, 66
Préparation Relatif
SAÉ 1-03 : Préparation et synthèse d’un ta- Classe modale (relative), 70
bleau de données en vue d’une analyse ex- Mode, 43
ploratoire simple, 122 Remerciement, 130, 131
Présentation Répartition
de l’entreprise, 136 Fonction de répartition empirique, 57, 63
Pré-traitement Réponse
des données, 8, 10 Non réponse, 17
Chapitre 14 : Bibliographie et index
Prévision, 8, 10 Répulsion
Probabilités, 7 du couple (k, ℓ), 99
Problématique, 132 Respect
Protocole, 8 Serment d’Hippocrate du Data Scientist, 7
Responsabilité
Quadratique et indépendance (Serment d’Hippocrate du Data
Moyenne, 50, 63 Scientist), 7
Qualitatif Résumé, 130, 131
Variable, 12 Abstract, 131
Quantitatif statistique, 42, 78
Variable, 13 statistique de dispersion, 42
Quartile, 45, 62 statistique de forme, 42
approché, 70 statistique de position, 42
Question, 8 Rigueur
INDEX 145