Vous êtes sur la page 1sur 22

Dr Yacine Kouba

Email: yacinoargelino@gmail.com
Qu’est-ce que les statistiques ?
 La statistique est l'une des disciplines les plus connues qui se concentre
principalement sur la collecte, l'organisation, l'analyse, l'interprétation et la
visualisation des données. Auparavant, les statistiques étaient pratiquées par les
statisticiens, les économistes et les chefs d'entreprise pour calculer et représenter
les données pertinentes dans leur domaine. Aujourd'hui, les statistiques jouent un
rôle central dans divers domaines tels que la science des données, l'apprentissage
automatique, l'analyse des données, l'analyse de l'intelligence économique,
l'informatique et bien d'autres encore.

 Exemples : Les chercheurs souhaitent comprendre si une intervention médicale


contribue à réduire le fardeau d'une maladie, comment la personnalité est liée à la
prise de décision, si un nouvel engrais augmente le rendement des cultures,
comment un système politique affecte la politique commerciale, qui va voter pour
un parti politique lors de la prochaine élection, quels sont les changements à long
terme dans la population d'une espèce de poisson.
Terminologies de base en statistique
Population : une population est l’ensemble des ressources à partir desquelles nous
pouvons collecter des données Échantillon : un échantillon n’est rien d’autre qu’un
sous-ensemble de la population qui est utilisé pour l’échantillonnage des données et
dans les statistiques inférentielles pour prédire le résultat.
Variable : une variable représente une caractéristique d’un objet ou d’un système que
l’on a l’intention de mesurer ou d’attribuer des valeurs, et bien sûr, cela varie.
Observations : les unités sur lesquelles nous mesurons les données, telles que les
personnes, les voitures, les animaux ou les plantes, sont appelées observations.
Distribution de probabilités : une distribution de probabilité est un concept
mathématique qui donne principalement les probabilités d’occurrence de différents
résultats possibles généralement pour une expérience menée par des statisticiens.
 Paramètre statistique : le paramètre statistique ou de population est
essentiellement une quantité qui aide à indexer une famille de distributions de
probabilité comme la moyenne, la médiane ou le mode d’une population.
Types de concepts statistiques
Statistiques descriptives: Les statistiques descriptives sont un concept qui nous permet
d’analyser et de résumer des données et de les organiser sous forme de nombres, de
graphiques, de diagrammes à barres, d’histogramme, de diagramme circulaire, etc. Les
statistiques descriptives sont simplement un processus de description de nos données
existantes. Il transforme les observations brutes en données significatives qui peuvent être
interprétées et utilisées plus en détail. Des concepts tels que l’écart-type, la tendance centrale
sont largement utilisés dans le monde entier lorsqu’il s’agit d’apprendre des statistiques
descriptives.
 Statistiques inférentielles: Les statistiques inférentielles, quant à elles, sont un concept
important qui consiste à tirer des conclusions sur la base de petits échantillons collectés
auprès de l’ensemble de la population. Par exemple, lors d’un sondage électoral, les gens
voudront souvent prédire les résultats du sondage à la sortie des urnes, de sorte qu’ils
mèneront un sondage dans diverses parties de l’État ou du pays et enregistreront leur
opinion. Sur la base des informations qu’ils ont recueillies, ils ont tendance à tirer des
conclusions et à faire des inférences pour prédire les résultats pour l’ensemble de la
population.
Statistiques descriptives
Quelques points clés à retenir
Les statistiques descriptives font appel à trois principaux types de mesures : les
mesures de la tendance centrale, les mesures de la variabilité (ou de l’étalement) et
les mesures de la distribution des fréquences.
 Distribution de fréquence : la distribution de fréquence représente l’occurrence
d’un événement ou d’un élément et est utilisée pour analyser des données
qualitatives et quantitatives. Il documente et présente l’information sous forme
de tableau.
 Tendance centrale : capturez l’essence de la collecte de données, une somme de
tous les dénombrements ou occurrences.
 Variabilité : la variabilité est le degré de dispersion entre les points de données,
et il s’agit d’un concept statistique fondamental qui donne un aperçu de la
propagation, de la distribution ou de l’incohérence des données.
Descriptive Statistics
Types de variables
 Si nous avons spécifié la population d’intérêt pour une question de
recherche spécifique, nous pouvons penser à ce qui est intéressant
dans nos observations. Une caractéristique particulière de ces
observations peut être recueillie dans une variable statistique X.
Toute information qui nous intéresse peut être capturée dans une
telle variable. Par exemple, si nos observations se réfèrent à des
êtres humains, X peut décrire l’état matrimonial, le sexe, l’âge ou
tout autre élément qui peut se rapporter à une personne. Bien sûr,
nous pouvons nous intéresser à de nombreuses caractéristiques
différentes, chacune d’entre elles étant rassemblée dans une
variable différente Xi , i = 1, 2,..., p. Chaque observation ω (OMEGA)
prend une valeur particulière pour X. Si X fait référence au genre,
chaque observation, c’est-à-dire chaque personne, a une valeur
particulière x qui se réfère soit à « homme », soit à « femme ».
Types de variables
 Variables discrètes : variables qui ne peuvent prendre qu'un nombre fini de valeurs.
Toutes les variables qualitatives sont discrètes, comme la couleur des yeux ou la
région d'un pays. Mais les variables quantitatives peuvent également être discrètes :
la taille des chaussures ou le nombre de semestres étudiés sont discrets car le
nombre de valeurs que ces variables peuvent prendre est limité.
 Variables continues : variables pouvant prendre un nombre infini de valeurs. Des
exemples sont le temps nécessaire pour se rendre à l'université, la longueur d'une
antilope et la distance entre deux planètes. On dit parfois que les variables
continues sont des variables qui sont "mesurées plutôt que comptées". Il s'agit
d'une définition plutôt informelle qui aide à comprendre la différence entre les
variables discrètes et les variables continues. Le point crucial est que les variables
continues peuvent, en théorie, prendre un nombre infini de valeurs ; par exemple,
la taille d'une personne peut être enregistrée comme 172 cm. Cependant, la taille
réelle sur le ruban de mesure peut être 172,3 cm, qui a été arrondie à 172 cm. Si
l'on disposait d'un meilleur instrument de mesure, on obtiendrait 172,342 cm. Mais
la taille réelle de cette personne est un nombre avec un nombre indéfini de
décimales, tel que 172.342975328...cm. Peu importe ce que nous rapportons ou
obtenons, une variable qui peut prendre un nombre infini de valeurs est définie
comme une variable continue.
Echelle d’une variable
 Echelle nominale: Les valeurs d’une variable nominale ne peuvent pas être ordonnées. Il peut s’agir, par exemple, du
sexe d’une personne (homme-femme) ou du statut d’une demande (en attente ou non en attente).
 Échelle ordinale: Les valeurs d’une variable ordinale peuvent être ordonnées. Cependant, les différences entre ces
valeurs ne peuvent pas être interprétées de manière significative. Par exemple, les valeurs possibles du niveau
d’éducation (aucun – enseignement primaire – enseignement secondaire – diplôme universitaire) peuvent être
ordonnées de manière significative, mais les différences entre ces valeurs ne peuvent pas être interprétées. De même,
la satisfaction à l’égard d’un produit (insatisfait-satisfait-très satisfait) est une variable ordinale car les valeurs que cette
variable peut prendre peuvent être ordonnées, mais les différences entre « insatisfait-satisfait » et « satisfait-très
satisfait » ne peuvent pas être comparées de manière numérique.
 Échelle continue: Les valeurs d'une variable continue peuvent être ordonnées. En outre, les différences entre ces
valeurs peuvent être interprétées de manière significative. Par exemple, la taille d'une personne est une variable
continue parce que les valeurs peuvent être ordonnées (170 cm, 171 cm, 172 cm, ...) et que les différences entre ces
valeurs peuvent être comparées (la différence entre 170 et 171 cm est la même que la différence entre 171 et 172 cm).
Parfois, l'échelle continue est divisée en sous-échelles.
 Échelle d'intervalle. Seules les différences entre les valeurs, et non les rapports, peuvent être interprétées. Un exemple
de cette échelle serait la température (mesurée en ◦C) : la différence entre -2 ◦C et 4 ◦C est de 6 ◦C, mais le rapport 4/-2
=-2 ne signifie pas que -4 ◦C est deux fois plus froid que 2 ◦C.
 Échelle des rapports. Les différences et les rapports peuvent être interprétés. La vitesse en est un exemple : 60 km/h,
c'est 40 km/h de plus que 20 km/h. De plus, 60 km/h est trois fois plus rapide que 20 km/h car le rapport entre les deux
est de 3.
 Échelle absolue. L'échelle absolue est identique à l'échelle des rapports, à l'exception du fait que les valeurs sont
mesurées en unités "naturelles". Un exemple est le "nombre de semestres étudiés" où aucune unité artificielle telle que
km/hor, ◦C n'est nécessaire : les valeurs sont simplement 1, 2, 3,.....
Types de variables
Les données qualitatives sont toujours discrètes, mais les données quantitatives peuvent être
à la fois discrètes (par exemple, la taille des chaussures) et continues (par exemple, la
température). Les variables nominales sont toujours qualitatives et discrètes (par exemple, la
couleur des yeux), tandis que les variables continues sont toujours quantitatives (par
exemple, la température). Les variables catégorielles peuvent être à la fois qualitatives (par
exemple, la couleur des yeux) et quantitatives (niveau de satisfaction sur une échelle de 1 à
5). Les variables catégorielles ne sont jamais continues.
Types of variables
Dimensionnalité des ensembles de données

• Univarié : Mesure effectuée sur une variable par sujet. Par exemple, nous
pouvons déterminer le type de transmission, automatique (A) ou manuelle
(M), sur chacune des dix automobiles récemment achetées chez un certain
concessionnaire, ce qui donne l’ensemble de données catégorielles M A A A A
MAAMA

• Bivarié : Mesure effectuée sur deux variables par sujet. Par exemple, notre
ensemble de données peut consister en une paire (taille, poids) pour chaque
joueur de basket-ball d’une équipe, la première observation étant (72, 168),
la seconde (75, 212), et ainsi de suite).

• Multivariable : Mesure effectuée sur plusieurs variables par sujet. Par


exemple, un médecin chercheur peut déterminer la tension artérielle
systolique, la tension artérielle diastolique et le taux de cholestérol sérique de
chaque patient participant à une étude. Chaque observation serait un triple
de nombres, comme (120, 80, 146).
TD Exercise 1

Décrivez à la fois la population et les observations pour les questions de


recherche suivantes :

Évaluation de la satisfaction des employés d’une compagnie aérienne.

Description des notes des élèves d’un devoir.

a. Comparaison de deux médicaments qui traitent de l’hypertension


artérielle.
Solution to Exercise 1

a) La population est constituée de tous les employés de la compagnie aérienne.


Il peut s’agir du personnel administratif, des pilotes, des stewards, du personnel
de nettoyage et autres. Chaque employé se rapporte à une observation de
l’enquête.
b) La population comprend tous les étudiants qui participent à l’examen.
Chaque élève représente une observation.
 (c) Toutes les personnes souffrant d’hypertension artérielle dans la zone
d’étude (ville, province, pays, ...), constituent la population d’intérêt. Chacune
de ces personnes est une observation.
TD Exercise 2

Lesquelles des variables suivantes sont qualitatives et lesquelles sont


quantitatives ? Spécifiez lesquelles des variables quantitatives sont
discrètes et lesquelles sont continues :
Temps de trajet pour se rendre au travail, pointure, parti politique
préféré, prix d’un repas, couleur des yeux, sexe, longueur d’onde de la
lumière, satisfaction de la clientèle sur une échelle de 1 à 10, délai de
livraison d’un colis, groupe sanguin, nombre de buts dans un match
de hockey, taille d’un enfant, objet d’un courriel.
Solution to Exercise 2

Qualitatif : parti politique préféré, couleur des yeux, sexe, groupe


sanguin, objet d’un courriel.
Quantitatif et discret : pointure, satisfaction client sur une échelle de 1 à
10, nombre de buts dans un match de hockey.
 Quantitatif et continu : Temps de trajet pour se rendre au travail, prix
d’un repas à la cantine, longueur d’onde de la lumière, délai de
livraison d’un colis, taille d’un enfant.
TD Exercise 3
Identifiez l’échelle des variables suivantes :
a) Parti politique pour lequel vous avez voté lors d’une
élection
b) La difficulté des différents niveaux d’un jeu vidéo
c) Temps de production d’une voiture
d) Âge des tortues
e) Année calendaire
f) Prix d’une tablette de chocolat
g) Numéro d’identification de l’étudiant
h) Classement final d’un concours de beauté
(i) Quotient intellectuel.
Solution to Exercise 3

 (a) Le choix d'un parti politique est mesuré sur une échelle nominale. Les noms des partis
n'ont pas d'ordre naturel.
 (b) Typiquement, le niveau d'un jeu informatique est mesuré sur une échelle ordinale : par
exemple, le niveau 10 peut être plus difficile que le niveau 5, mais cela n'implique pas que
le niveau 10 soit deux fois plus difficile que le niveau 5, ou que la différence de difficulté
entre les niveaux 2 et 3 soit la même que la différence entre les niveaux 10 et 11.
 (c) Le temps de production d'une voiture est mesuré sur une échelle continue (échelle de
rapport). En pratique, il peut être mesuré en jours à partir du début de la production.
 (d) Cette variable est mesurée sur une échelle continue (échelle de rapport). En général,
l'âge est saisi en années à partir du jour de la naissance.
 (e) L'année calendaire est une variable continue mesurée sur une échelle d'intervalle. Il
convient de noter que l'année que nous définissons comme "zéro" est arbitraire et qu'elle
varie d'une culture à l'autre. Comme l'année zéro est arbitraire et que nous avons aussi des
dates antérieures à cette année, l'année calendaire est mesurée sur une échelle d'intervalle.
Solution to Exercise 3
 (f) L'échelle est continue (échelle de rapport).
 (g) L'échelle des numéros d'identification est nominale. Le numéro d'identification peut en
effet être composé de chiffres ; cependant, "112233" ne se réfère pas à quelque chose de
moitié moins/bon que "224466". Le numéro est descriptif.
 (h) Le classement final est mesuré sur une échelle ordinale. Les classements peuvent être
clairement ordonnés et les participants peuvent être classés en utilisant leurs résultats
finaux. Cependant, le premier gagnant peut ne pas avoir "le double" de la beauté du
deuxième gagnant, il s'agit simplement d'un classement.
 (i) Le quotient intellectuel est une variable sur une échelle continue. Il est construit de
manière à ce que les différences soient interprétables, c'est-à-dire qu'être 10 points au-
dessus ou 10 points au-dessous du score moyen de 100 points signifie le même écart par
rapport à la moyenne. Cependant, les ratios ne peuvent pas être interprétés, c'est pourquoi
le quotient intellectuel est mesuré sur une échelle d'intervalles.
TD Exercise 4

Examinez les questions de recherche qui consistent à décrire les attitudes des
parents à l'égard de la vaccination, la proportion d'entre eux qui souhaitent que
leur dernier enfant soit vacciné contre la varicelle, et si cette proportion diffère
en fonction du sexe et de l'âge.

(a) Quelle est la méthode de collecte de données la plus appropriée pour


répondre aux questions ci-dessus : enquête ou expérience ?

(b) Comment saisir les attitudes à l'égard de la vaccination en une seule variable ?

(c) Quelles sont les variables nécessaires pour répondre à toutes les questions ci-
dessus ? Décrivez l'échelle de chacune d'entre elles.

(d) Réfléchissez à ce que serait un ensemble de données approprié. Maintenant,


avec cet ensemble de données, essayez de rédiger les questions de recherche ci-
dessus aussi précisément que possible.
Solution to Exercise 4

(a) Le modèle d'étude approprié est l'enquête. Les informations seraient obtenues
par le biais d'un questionnaire remis à un échantillon de parents. Il ne s'agit pas
d'une expérience contrôlée car nous ne manipulons pas une variable particulière
tout en contrôlant les autres ; nous recueillons plutôt des données sur toutes les
variables d'intérêt.
(b) Il existe différentes options pour connaître l'attitude des parents : bien sûr, on
pourrait simplement demander "que pensez-vous de la vaccination ?"; cependant,
la saisie de longues réponses dans une variable "attitude" peut rendre difficile la
synthèse et la distillation des informations obtenues. Une façon courante de traiter
ces variables est de traduire un concept en un score : par exemple, on peut poser 5
questions de type "oui/non" (au lieu d'une question générale) qui concernent les
attitudes à l'égard de la vaccination, telles que "pensez-vous que la vaccination
peut être nocive pour votre enfant ? ou "êtes-vous d'accord pour dire qu'il est
prioritaire de vacciner les nourrissons au cours de leur première année de vie ?" Le
nombre de réponses montrant une attitude positive à l'égard de la vaccination
peut être résumé. S'il y a 5 questions, il y a jusqu'à 5 points "à gagner". Ainsi,
chaque parent peut se voir poser 5 questions et son attitude peut être résumée sur
une échelle allant de 0 à 5, en fonction des réponses données.
Solution to Exercise 4

c) Les variables suivantes sont nécessaires :

• Attitude : il est possible que plusieurs variables soient nécessaires pour saisir les
informations des parents dans un score, voir (b) pour plus de détails. L'échelle est
ordinale car un score plus élevé correspond à une attitude plus positive à l'égard de
la vaccination, mais les différences entre les différents niveaux de score ne peuvent
pas être interprétées de manière significative.
- Vacciné : variable binaire (de type "oui-non") indiquant si le parent accepte ou non
que son plus jeune enfant soit vacciné contre la varicelle. Il s'agit d'une variable
nominale.
- Sexe : pour comparer "vacciné" pour les parents de sexe masculin et féminin. Il
s'agit d'une variable nominale.

Vous aimerez peut-être aussi