Vous êtes sur la page 1sur 37

Sta$s$ques appliquées aux

sciences humaines et sociales


Niveau : Initié

daniel.eudes@sciencespo.fr
daniel.eudes@univ-reims.fr

D. EUDES 2020-2021 1
Qu’est-ce que la Statistique ?
• Statistique : Science et techniques d'interprétation mathématique de
données complexes et nombreuses, permettant de faire des
prévisions.
• On distingue souvent deux branches de la statistique.
o Statistiques descriptives : méthodes pour organiser et résumer l’information.
o Statistiques inférentielles : méthodes pour effectuer des estimations et des
prévisions à partir de l’étude d’un échantillon, et juger de la fiabilité de ces
conclusions.
• Ces deux branches sont complémentaires : on a besoin d’utiliser les
deux simultanément

2020-2021 2
Individu
• En sta@s@ques, un individu est une unité sta@s@que d’observa@on,
dont on étudie une ou plusieurs caractéris@ques. Mais une unité
peut-être un groupe (ex. famille, ville…)
• Il ne s’agit donc pas forcément d’un individu au sens habituel du
terme.
• Par exemple, si l’on s’intéresse au PIB, l’individu sera un pays.

2020-2021 3
Population vs échantillon
• Popula'on : ensemble des individus qui nous intéressent.
• Echan'llon : par@e de la popula@on pour laquelle nous avons des
informa@ons.
• Taille de l’échan'llon : nombre d’individus sondés (N).
• Souvent on cherche à “apprendre des choses” sur une popula@on,
alors que l’on ne dispose d’informa@ons que sur un échan@llon de
cePe popula@on.
• Série sta's'que : liste de valeurs (observa@ons) d'un même
ensemble, dans laquelle l'ordre des termes n'est pas significa@f. Elle
est généralement retranscrite dans un tableau de données.
2020-2021 4
Sondage vs recensement

• Recensement : (du la@n recensere, « passer en revue ») enquête


sta@s@que qui porte sur tous les individus d’une popula@on donnée.
• Sondage : un sondage est une méthode sta@s@que visant à évaluer
les propor@ons de différentes caractéris@ques d'une popula@on à
par@r de l'étude d'une par@e seulement de cePe popula@on, appelée
échan@llon.

2020-2021 5
Les méthodes non-probabilistes ou
échantillon empirique
Ces méthodes sont u,lisées dans le cas où on connait toutes les unités de sondage d’une popula,on
et donc lorsqu’il est impossible de me8re en place l’étude sur un échan,llon aléatoire. Ces
méthodes sont les plus u,lisées lors d'études marke,ng.
• La méthode des quotas : Ce8e méthode permet de s’assurer que chaque par,e de la popula,on
sera représentée de manière similaire à sa propor,on dans la popula,on de base. C’est donc une
ques,on de propor,on dans ce8e méthode, on cherche à reproduire la popula,on de base à plus
pe,te échelle pour pouvoir extrapoler les résultats de l’échan,llon à la popula,on de base.
• Les échan0llons de convenance : Cet échan,llon est en quelque sorte un choix qui est arbitré par
l’enquêteur. Il est généralement choisi pour des contraintes liées à la pra,cité, l’accessibilité et le
coût. Bien sûr les résultats ,rés de votre enquête ne pourront donc pas être extrapolés puisque
ce8e méthode ne permet pas de reproduire la popula,on de base.
• Les échan0llons boules de neige : Ce8e méthode vise à choisir un groupe d’individus et à les
interroger afin qu’ils iden,fient à leur tour d’autres membres de ce groupe ou qu’ils transme8ent
le ques,onnaire à d’autres personnes de profil similaire qui seront eux aussi interrogés et ainsi de
suite. Ce8e méthode d’échan,llonnage est généralement u,liser pour étudier les décisions
d’achat.

2020-2021 6
Les méthodes probabilistes ou les
échantillons aléatoires
Avec ces méthodes, tous les types d’individus sont suscep,bles d’être interrogés, ce ne sont donc
pas forcément des échan,llons qui respectent les quotas mais ils sont plutôt dû au hasard.
• La méthode du 0rage au sort : Ce8e méthode est complètement liée au hasard, on décide ici de
ne pas choisir directement les répondants mais plutôt de laisser le hasard désigner qui seront les
heureux élus. Il est donc possible de ne pas avoir des résultats très significa,fs lors de l’u,lisa,on
de ce8e méthode.
• L’échan0llonnage stra0fié : Ce8e méthode u,lise également un ,rage au sort mais quelque peu
différent de celui u,lisé dans la méthode précédente. Avant d’effectuer ce ,rage au sort, on va
répar,r la popula,on en strates homogènes c’est-à-dire un classement selon l’âge ou la catégorie
socio-professionnelle par exemple. Ce8e méthode permet donc d’avoir des résultats significa,fs
dans chaque strate de la popula,on étudiée. Le seul problème auquel on peut faire face est
l’absence d’une liste exhaus,ve de toutes les unités de sondage de popula,on et donc certaines
strates peuvent être sous voire non représentées lors de l’étude.
• L’échan0llonnage par grappes : Ce8e méthode divise la popula,on en grappes, c’est-à-dire en
sous-ensembles (groupes). Chacun de ces sous-ensembles devant être représenta,f de la
popula,on mère. L’échan,llonnage par grappes consiste donc à ,rer aléatoirement des individus
au sein des grappes choisies et mener l’étude sur ces individus. Ce groupe peut être une famille,
une aggloméra,on, un établissement, un quar,er, un canton.

2020-2021 7
Variable
• Une variable est une caractéris@que qui varie d’un individu à l’autre.
o Ex : couleur des yeux de l’individu, PIB du pays, nombre de vues de la vidéo
Youtube, etc.
• Chaque individu de l’échan@llon nous donne une valeur de la
variable.
• On appelle modalités d’une variable l’ensemble des valeurs que cePe
variable peut prendre.

2020-2021 8
Variable numérique vs variable catégorielle
• Si ces modalités sont des nombres : variable
numérique/quan'ta've.
o Nombre de frères et soeurs, montant total exporté, etc.

• Si ces modalités ne sont pas des nombres : variable


catégorielle/qualita've.
o Couleur d’une voiture, candidat choisi par un individu, etc.

2020-2021 9
Variable nominale vs variable ordinale

• S’il existe un ordre naturel entre les modalités d’une variable


qualita@ve : variable ordinale
o Niveau de saHsfacHon, idéologie poliHque (gauche/droite), etc.

• S’il n’existe aucun ordre naturel : variable nominale,


o Couleur des yeux, ville de résidence, etc.

2020-2021 10
TransformaAon de variables quanAtaAve en
qualitaAve
• Une variable quantitative peut être mise sous forme qualitative
ordinale en constituant des classes d’appartenance (ex. le salaire =
variable quantitative et les tranches de salaire = variable qualitative
ordinale).

2020-2021 11
Variable discrète vs variable conAnue
• On dis@ngue deux types de variable quan@ta@ve :
• Variable discrète : le nombre de valeurs que peut prendre la variable
est dénombrable.
o Note à un examen, nombre d’amis, etc.

• Variable con'nue : la variable peut prendre un nombre infini de


Valeurs.
o Taille, temps passé devant la TV, etc.

2020-2021 12
Variable d’intervalles vs variable de raAos
• Variable d’intervalles = Les données sont échelonnées sur une échelle
d’intervalle. La comparaison des différences de valeurs a un sens, mais pas
la comparaison des ra7os de valeurs.
o Température en oC : La différence entre 10°C et 11°C est iden6que à celle entre 20°C
et 21°C. Le zéro ne correspond pas l’absence de l’élément. A 0°C, il y a toujours une
température.
o L’an 0 ne correspond pas au début de l’univers.
o Discrètes exemple : date en général.
o Con6nues exemple : température.
• Variable de ra/os ou de rapport : S’il existe un “zéro naturel”. Ce sont des
variables d’intervalles avec un zéro naturel.
o Par exemple pour la durée d’un test, à 0, il n’y pas de temps.
o Discrètes exemple : âge, nombre d’habitants.
o Con6nues exemple : distance, masse.

2020-2021 13
Variable d’intervalles vs variable de ra/os
• La différence fondamentale entre ces deux types d'échelles est liée au
statut de la valeur nulle : sur une échelle d'intervalle, le zéro est situé
de manière arbitraire, comme pour la mesure des températures par
exemple (échelles Celsius et Fahrenheit). Sur une échelle de rapport,
en revanche, le zéro a une significa@on précise, puisqu'il désigne
l'absence du caractère considéré (âge, salaire, taille, vitesse, etc.). En
sciences humaines et sociales, on considère en général qu'à certaines
condi@ons tout au moins, les échelles obtenues en u@lisant différents
types d'instruments (épreuves ou tests d'ap@tudes ou de
connaissance; échelles d'a]tude, d'intérêt, de mo@va@on, etc.)
présentent les caractéris@ques d'une échelle d'intervalle.
2020-2021 14
Résumé

2020-2021 15
Caractéristique des niveaux de mesure

Niveau de mesure Y a-t-il un ordre intrinsèque entre Y a-t-il une unité standard de
les valeurs ? mesure ?
Nominal Non Non
Ordinal Oui Non
D’intervalle / ratio Oui Oui

2020-2021 16
Effectif et fréquence
• Effec'f : Dans le dépouillement des valeurs d’une variable sta@s@que,
nombre de valeurs qui correspondent à un caractère donné ou qui
appar@ennent à une classe par@culière de valeurs.
• Effec'f total : Nombre total d’individus dans l’échan@llon.
• Fréquence = Effec@f / Effec@f Total

2020-2021 17
Mesure de la tendance centrale
• Mode : valeur la plus fréquemment prise par une variable quan7ta7ve.
• Médiane : valeur x qui permet de couper l’ensemble des valeurs en deux
par7es égales : meCant d’un côté une moi7é des valeurs, qui sont toutes
inférieures ou égales à x et de l’autre côté l’autre moi7é des valeurs, qui
sont toutes supérieures ou égales à x.
• Moyenne : Indique le centre de gravité de l’ensemble des valeurs
observées pour la variable.
• Percen/le : Soit p un réel entre 0 et 1, le 100p-ième percen7le est un
nombre q tel que 100p% des valeurs sont inférieures à q, et 100(1 − p)%
sont supérieures à p.
o En par6culier, le 25ème percen6le est appelé “premier quar6le” et le 75ème “troisième
quar6le”.
o Et la médiane est le 50ème percen6le.

2020-2021 18
Moyenne
• Moyenne arithmé'que : valeur unique que devraient avoir tous les
individus d’une popula@on (ou d’un échan@llon) pour que la somme
de leurs valeurs soit inchangée.

2020-2021 19
Calcul de la Médiane
• Nombre d’observa'on impair : la médiane est l’observa@on se
trouvant au milieu du nombre d’individus.
• Nombre d’observa'on pair : la médiane est la moyenne des 2
observa@ons se trouvant au milieu.

2020-2021 20
Choix entre la Moyenne et la Médiane
• La médiane est plus adaptée lorsque la distribu@on est asymétrique.
• La médiane est moins affectée par les valeurs extrêmes.

2020-2021 21
Exemple de Calcul
• Calculer l’étendue, la moyenne et la médiane des notes des 2
étudiants suivants :
Etudiant 1 Etudiant 2
2,1 8
3 8,5
5 8,8
6 10
19,5 10,1
20 10,2
Etendue
Moyenne
Médiane

2020-2021 22
Calcul de la Variance
• Moyenne quadra@que des écarts à la moyenne ; mesure la dispersion
des valeurs observées autour de la moyenne.
• Variance empirique ou non biaisée : Moyenne des carrés des écarts à
la moyenne

• Si la popula@on est > 50 individus on u@lise la variance biaisée en


divisant par N.
2020-2021 23
Calcul de l’Ecart-type
• La variance n’a pas la même dimension que la variable qu’elle décrit,
d’où l’usage de sa racine carrée, appelée “écart-type”

• Plus l’écart-type est petit, plus les données sont concentrées


autour de la moyenne
2020-2021 24
Mesure de la dispersion de la variable
• Posi'on : point autour duquel se regroupent à un certain degré les
valeurs d’une variable.
• Dispersion : variabilité des valeurs que peut prendre une variable.
• Etendue : différence entre la valeur maximale et la valeur minimale.

2020-2021 25
Formules Excel

N < 50 ou sur un échan;llon N > 50 sur la population


Etendue =MAX()-MIN()
Moyenne =MOYENNE()
Médiane =MEDIANE()
Taille de l’échantillon =NB()
Non biaisé (on prend n-1) Biaisé (on prend n)
Variance =VAR.S() =VAR.P.N()
Ecart-type =ECARTYPE.STANDARD() = ECARTYPE.PEARSON()

2020-2021 26
Représentation graphique
• La représentation graphique des données relatives à un caractère
unique repose sur la proportionnalité des longueurs, ou des aires, des
graphiques, aux effectifs, ou aux fréquences, des différentes
modalités du caractère. Pour un caractère qualitatif, on utilise
principalement trois types de représentation graphique : le
diagramme en bâtons, la représentation par tuyaux d'orgue et la
représentation par secteurs.

2020-2021 27
L’histogramme ou Diagramme en bâtons
ou Tuyaux d'orgue
• Nous portons en abscisse les modalités, de façon arbitraire. Nous
portons en ordonnée des segments dont la longueur est
proportionnelle aux effectifs (ou aux fréquences) de chaque modalité.
Nous appelons polygone statistique ou diagramme polygonal, la ligne
obtenue en joignant les sommets des bâtons.

2020-2021 28
Diagramme en secteurs ou circulaire

• Les diagrammes circulaires, ou semi-circulaires, consistent à partager


un disque ou un demi-disque, en tranches, ou secteurs,
correspondant aux modalités observées et dont la surface est
proportionnelle à l'effectif, ou à la fréquence, de la modalité.

2020-2021 29
Graphique en courbe
• Nous portons en abscisse les modalités, par ordre croissant. Nous
portons en ordonnée des points dont la valeur est proportionnelle
aux effectifs (ou aux fréquences) de chaque modalité. L’ensemble de
points (visibles ou non) reliés par un segment de droite (ligne qui va
d'un point à un autre) est la courbe.

2020-2021 30
Diagramme en boîte à moustache ou en boîte
de Tukey ou box-plot
• Graphique simple composé d’un rectangle duquel deux droites
sortent afin de représenter le 1er et le 3ème quartile, la médiane et les
maximums. La moyenne peut apparaître par un point.

2020-2021 31
Calcul des quartiles
Il ne faut pas confondre l’effectif du quartile et sa valeur.
• 1er quartile Q1 :
Effectif de Q1=N/4 si pas entier on prend le plus petit entier supérieur
• 2ème quartile Q2 :
Q2=Médiane
• 3ème quartile Q3 :
Effectif de Q3=N/4*3 si pas entier on prend le plus petit entier supérieur
• 4ème quartile Q4 :
Q4=Max
• Ecart interquartile :
Ecart=Q3-Q1

2020-2021 32
Boîte de Tukey et valeurs atypiques
• Pour faire apparaître les valeurs atypiques ou aberrantes on peut
utiliser une valeur standard des moustaches et les valeurs en dehors
de ces moustaches seront des valeurs atypiques ou suspectes (points
en dessus ou en dessous).

2020-2021 33
Les différentes problématiques de la statistique
La statistique descriptive (ou exploratoire)
• Objectifs : résumer, synthétiser l’information contenue dans une
série statistique, mettre en évidence ses propriétés.
• suggérer des hypothèses relatives à la population dont est issu
l’échantillon.
• Outils utilisés : Tableaux (table des fréquences,..), Graphiques (box-
plots, histogrammes,..), indicateurs (moyenne, corrélation,..).
• Méthodes : Statistique descriptive classiques (uni et
bidimensionnelles) Méthodes d’ADD.

2020-2021 34
Les différentes problématiques de la statistique
La statistique descriptive
• La statistique descriptive s’est enrichie ces dernières années de
nombreuses techniques de visualisation de données
multidimensionnelles, connues sous le nom d’analyse des données,
puis de datamining. Parmi ces méthodes on trouve :
o les méthodes de classification (partitionnement, CAH), visant à réduire la
taille de l’échantillon en classant les individus dans des groupes de
caractéristiques homogènes.
o les méthodes d’analyse factorielle (ACP, AFCM,...) qui cherchent à réduire le
nombre de caractéristiques d’une population en les résumant par un petit
nombre de composantes synthétiques.

2020-2021 35
Les différentes problématiques de la statistique
La statistique inférentielle (ou décisionnelle ou prédictive)
• Objectifs : étendre (inférer) les propriétés constatées sur l’échantillon
à la population. Valider ou infirmer des hypothèses sur la population
énoncées a priori ou formulées après une phase exploratoire.
• Spécificité : La série de données est considéré comme un échantillon
d’une population, suppose un modèle probabiliste sur la population.
Nécessite des méthodes d’échantillonnage.
• Méthodes : Estimation = approcher des paramètres de la population à
partir de l’échantillon. Tests = valider ou d’infirmer des hypothèses
émises sur ces paramètres. Modélisation et de prévision : recherche
d’une relation entre une variable et plusieurs autres, valable pour
l’ensemble de la population.

2020-2021 36
Les différentes problématiques de la statistique
• Probabilités = théorie permettant de modéliser des phénomènes
aléatoires
• Statistiques = repose sur l’observation de données issues d’un
phénomène concret.
o Le rôle des probabilités est nul en statistique descriptive, prépondérant en
statistique inférentielle.
o Les caractéristiques d’une grande population peuvent être considérées
comme des variables aléatoires (on recode celles qui sont qualitatives). Les
observations recueillies dans une série statistique peuvent être considérées
comme des réalisations de ces variables.
o Lorsque l’échantillonnage est bien fait, on pourra approcher les
caractéristiques théoriques (probabilistes) de la population (loi de
probabilités etc...) à l’aide de statistiques calculées à partir d’un échantillon.

2020-2021 37

Vous aimerez peut-être aussi