Académique Documents
Professionnel Documents
Culture Documents
données
Maud Dennebouy
2021
2 Plans expérimentaux 7
2.1 Le plan expérimental simple . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Le plan expérimental simple à groupes indépendants . . . . . . . . 7
2.1.2 Le plan expérimental à mesures répétées . . . . . . . . . . . . . . . 8
2.2 Plan expérimental factoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Plan quasi-expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Plan non-expérimental ou corrélationnel . . . . . . . . . . . . . . . . . . . 9
2.5 Choisir le plan expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1
IMAD B1 - semestre d’automne 2021-2022
6 L’inférence statistique 16
6.1 Statistique inférentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6.2 Procédure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.3 Issue d’un test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
9 Régression linéaire 24
9.1 Droite de régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . 24
9.1.1 Comment estimer la droite de régression linéaire . . . . . . . . . . . 24
9.1.2 Interprétation des coefficients de régression . . . . . . . . . . . . . . 24
9.2 Les postulats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
9.3 La taille d’effet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Index 28
1 Démarche scientifique
1.1 Méthode scientifique
Méthode scientifique : Démarche logique d’une science, c’est-à-dire l’ensemble des
moyens mis en œuvre afin de répondre à une question. Il s’agit d’un procédé explicite
et reproductible, d’une série de règles à observer dans l’étude d’un problème précis.
Toute méthode recourt à des procédures ou à des techniques rigoureuses de collecte d’in-
formation.
Population : Ensemble de tous les individus, de tous les objets ou de tous les groupes,
c’est-à-dire de toutes les unités statistiques sur lesquelles on peut effectuer des mesures
ou sur lesquelles porte une recherche, et duquel on peut prélever un échantillon.
Unité statistique : Élément de la population étudiée, sur lequel on mesure une variable.
Recension des écrits : Cerner l’état des connaissances actuelles sur le sujet d’intérêt.
→ permet de pouvoir appréhender les différentes théories existantes concernant l’objet de
recherche.
Hypothèse :
— Prédiction émise par le chercheur quant aux résultats de sa recherche.
— Réponse provisoire à la question de départ qui est issue de la théorie dans une
démarche scientifique.
Une hypothèse scientifique doit être réfutable, c’est-à-dire qu’elle doit permettre des
énoncés qui la contredisent.
Opérationnalisation :
— Concrétiser
Désigne le processus
ce que l'on de concrétisation
veut de ce queprécis
étudier en phénomène l’on &veut étudier scientifiquement.
observable
— Étape intermédiaire et essentielle entre l’hypothèse et le travail empirique d’analyse
où l’on spécifie ce que nous allons analyser précisément pour vérifier notre hypothèse.
Opérationnalisation du cadre théorique : Traduire une théorie abstraite et une hypothèse
générale en phénomènes concrets et précis que l’on peut expérimenter.
Opérationnalisation des variables : C’est le passage entre les variables théoriques (concepts)
et variables à mesure (indicateurs)
Quoi observer ?
Quel indicateur choisir parmi la population d’indicateurs ?
Au moins un indicateur comme variable dépendante et un autre comme variable indépen-
dante.
Qui observer ?
Quelle est la population d’intérêt ? A qui veut-on généraliser ?
Choisir un échantillon d’unité d’observation.
Comment observer ?
Quelle est la meilleure manière d’observer l’échantillon pour mesurer les variables d’inté-
rêt ?
Quel est le rôle du chercheur durant la récolte des données ?
Quand observer ?
À quel moment faut-il observer l’échantillon ?
Observation unique vs mesures répétées.
Variable indépendante - VI
Variable dont l’effet est au centre de l’hypothèse de recherche. Ses valeurs/modalités sont
Variable dépendante - VD
Variable d’intérêt soumise aux conséquences de la VI. Elle représente l’objet de recherche
et est mesurée par le chercheur.
2 Plans expérimentaux
Pour monterscientifique
L’expérience une expérience permettant
va nécessiter un plan d’établir
expérimental clairement la présenceprécise,
précis: méthodologie ou l’absence claire,
qui peut être répliquée, non équivoque, réaliste.
d’une relation de cause à effet entre une VI et une VD, le chercheur doit concevoir un
En sciences humaines, il existe des difficultés qui ont conséquences sur plan expérimental, (par
plan expérimental.
exemple: Problèmes éthiques, Difficulté d’isolation, “Troisième variable”, Variables non manipulables (variables sujet), Complexité de l’être
humain, “Généralisabilité” souvent limitée
2.1 Le plan expérimental simple Groupe expérimental & groupe témoin, 1 seul variable indépendante
Plan expérimental simple : Agencement des situations auxquelles seront exposés les
participants du groupe expérimental et ceux du groupe témoin (de contrôle) afin d’établir
les effets d’une seule variable indépendante sur les participants.
répétées du test.
Une variable est qualitative si ses différentes formes sont des catégories ou des attributs.
Variable qualitative nominale : Variable qualitative dont les modalités ne peuvent
pas être ordonnées.
Variable qualitative ordinale : variable qualitative dont les modalités peuvent
être ordonnées
Une variable est quantitative si la caractéristique observée s’exprime sous la forme d’une
valeur numérique.
Variable quantitative discrète : Variable quantitative qui ne peut pas, en théorie,
couvrir toutes les valeurs d’un intervalle.
Variable quantitative continue : Variable quantitative qui peut, en théorie, cou-
vrir toutes les valeurs d’un intervalle.
— Tableau de fréquences : Les données sont groupées par classes de même ampli-
tude.
— Histogramme
— Diagramme de dispersion
--> nuage de points donne le lien entre les 2 variables
Mode : Le mode est représenté par la modalité ou la valeur la plus fréquente. Le symbole
est M o pour la population et mo pour l’échantillon. Le mode est le centre de concentration
des données.
Une distribution peut être unimodale / bimodale / amodale.
Si les données d'une série statistiques sont groupées on parle de classe modale
Médiane : La médiane est la mesure de tendance centrale qui divise une série statistique
ordonnée en deux groupes comptant chacun environ (parfois exactement) 50% des don-
nées. La médiane est le centre de position. Le symbole est M d pour la population et md
pour l’échantillon. ! médiane = valeur du rang, pas numéro du rang ! (même unité que la modalité)
Procédure
Il faut !d’abord classer les données en ordre croissant.!n observations n = nb de rangs
— Pour une variable qualitative ordinale
— La modalité de la donnée qui occupe le rang n/2 si n est pair.
— La modalité de la donnée qui occupe le rang (n + 1)/2 si n est impair.
— Pour une variable quantitative discrète ou continue
— Lamoyenne
- La valeur dedes
la données
donnée qui
de occupe
rang n/2leetrang (n +si1)/2
(n/2)+1 n estsi pair
n est impair.
— Lavaleur
- La moyenne
de lades données
donnée qui de rang le
occupe n/2 et (n+1)/2
rang (n/2) +si1 nest
estpair.
impair
4.1.3 La moyenne
Moyenne : La moyenne est la valeur unique de devrait prendre chacune des données
d’une série pour que le nombre de données et la somme des valeurs de chaque donnée
soient préservés. Le symbole est µ pour la population et m pour l’échantillon.
Pn
i=1 xi pour un échantillon
Pour une population mx =
n
4.1.4 Asymétrie
Asymétrie positive : Des valeurs nettement plus grandes que les autres déplacent la
moyenne vers la droite (mo < md < m).
Asymétrie négative : Des valeurs nettement plus petites que les autres déplacent la
moyenne vers la gauche(m < md < mo).
Pour les échelles ordinales ou supérieures. Plus robuste que la variance. cas d'asymétrie
Écart interquartile : Mesure de dispersion qui correspond à l’écart entre Q3 et Q1
(4.3.2), soit l’écart entre les extrémité du groupe de données occupant le 50% de la série
statistique ordonnée. = montre ou sont 50% des données du centre
Pour échelles ordinales ou supérieures. ne représente rien pour variables qualitatives nominales
Quantiles : Valeurs qui divisent une série statistique ordonnée en plusieurs groupes com-
prenant sensiblement la même proportion de donnée.
Les plus couramment utilisés sont les quartiles, les quintiles, les déciles et les centiles.
Les quartiles : Les quartiles divisent une série statistique ordonnées en quatre groupe
comprenant chacun approximativement 25% des données de la série. Le symbole est
Q1 , Q2 , Q3 pour la population et q1 , q2 , q3 pour l’échantillon
25% des données sont inférieures à Q1 .
50% des données sont inférieures à Q2 (= Médiane).
75% des données sont inférieures Q3 .
Pour les échelles d’intervalles ou supérieures. Score z : Mesure de position qui indique à
combien d’écarts-type (4.2.2) au dessus ou au dessous de la moyenne se situe une donnée.
on enlève la moyenne au score = bouger la moyenne à 0
souvent entre -3 et 3
sans unités
xi − mx
zi =
série traduite en score z aura tjrs m=0 et s=1 sx
4.4 Le boxplot
Boxplot : Représentation graphique qui résume la distribution d’une variable quantitative
continue.
Un boxplot se compose de 4 partie principales :
— Une boîte, qui représente l’écart interquartile (4.2.3).
— Une ligne (ou un point), dans la boîte, qui représente la médiane (Q2 ). Des mous-
taches, qui représentent une distance correspondant à, au maximum, 1.5 fois l’écart
interquartile en partant des bords de la boîte.
Indices Informent sur Exemples
De tendance centrale Ce qui est typique des données Mode, médiane, moyenne
De dispersion La variabilité des donnéées Étendue, variance/écarttype,
écart interquartile
De position Situer les données les unes par rapport aux autres Rangs, quantiles, score z,
boxplot
Maud Dennebouy 14 sur 30
IMAD B1 - semestre d’automne 2021-2022
Pas de valeur précise → on parlera plutôt d’un intervalle contenu entre deux valeurs.
La probabilité d’un événement est la proportion de la surface correspondante à l’intervalle
par rapport à la surface totale de la densité de probabilité.
Densité de probabilité : Fonction qui permet de représenter une loi de probabilité sous
forme d’intégrales. Sa représentation graphique se lit comme l’air sous la courbe.
6 L’inférence statistique
Inférer = prise de décision concernant une hypothèse, extraire le résultat d'un échantillon et le
généraliser sur une population
6.1 Statistique inférentielle
H0 : Hypothèse nulle, pas d'effet, va à l'encontre de ce qu'on veut montrer
On calculealternative,
H1: Hypothèse la distribution
effet d’échantillonnage théorique (dépend du type de test qui est fait
par le chercheur.
P-valeur : Comparaison de t par rapport à la distribution théorique sous H0 → Proba-
bilité sous HO d’obtenir un score égal à la valeur test t ou supérieur.→ p-valeur est la
probabilité d’obtenir un résultat aussi ou plus extrême que celui observé si H0 était vraie
(dans la population). ="Admettons que H0 est vraie, quelle est la proba d'obtenir à nouveau un
résultat auss ou plus extrême que celui observé"
Hypothèse orientée : Unilatérales gauche/droite, directionnelles.
Hypothèse non orientée : Bilatérales, non directionnelles.
Seuil : Détermine ce qui est extrême ou pas. Erreur de type 1 qu'on se permet. 5% de chances de se tromper
quand onMaud Dennebouy
rejette 16 sur
H0, donc de faire un faux positif. P-val quantifie le risque qu'on prend pour dire30qu'il y a une
diff alors qu'il n'y en a pas
16 sur 30
IMAD B1 - semestre d’automne 2021-2022
6.2 Procédure
1) on calcule
6.2 laProcédure
distribution d'échantillonnage théorique sous H0 (dépend du type de test)
--> il existe une distribution pour chaque test
2) on obtient
1. score
Définirde test
« extrême » : choisir le seuil de significativité (α).
3) on compare la valeur de test à la distribution théorique pour définir si score est rare
2. Opérationnaliser
---> position de t détermine l’hypothèse
la probabilitéde recherche
sous H0 pour
d'avoirobtenir H1 . égal ou sup a t
un score
4) P-val nous donne la probabilité sous H0 d'obtenir ce score
3. Formuler l’hypothèse nulle H0 correspondante à H1 .
5) on compare la P-val à un seuil de significativité
6) P-val < seuil ==> la
4. Définir onstatistique
rejette H0de test.
5. Obtenir la distribution d’échantillonnage de la statistique de test.
Attention
Les erreurs 6.
de Trouver
type 1 sont plus importantes
la p-valeur car plus difficiles à corriger, plus coûteuses. On doit
de test vt calculée.
protéger l'H0 et avoir assez de preuves pour la rejeter.
7. Comparer
H0 ne sera jamais la p-valeur
acceptée, AUCUNEde vt HYPOTHESE
avec α et prendre
NEune décision.
PEUT ETRE PROUVEE VRAIE ON NE
PEUT QUE LA REFUTER
6.3 Issue d’un test statistique
"La vérité"
Décision H0 pas H0
Rejet de H0 Erreur de Type I Puissance : Rejet correct
Pr = α Pr = 1 − β
Non rejet de H0 Non rejet correct Erreur de Type II
Pr = 1 − α Pr = β
Dans le cas d’une seule variable qualitative. Le test du khi carré d’ajustement teste l’équi-
fréquence des modalités d’une variable qualitative.
= équifréquence
H0 suppose que toutes les modalités ont la même fréquence. Le test consiste à comparer
les fréquences observée (O) avec les fréquences attendues
espérées (E) si H0 était correcte.
avec ddl = nb de modalités - 1
Si H0 est probable, O - E = 0
(O − E)2
χ2 =
X
Si H0 est peu probable, O - E = 0
E
avec ddl= nombre de modalités - 1
Dans le cas de deux variables qualitatives. Le test du khi carré d’indépendance teste
l’association entre les modalités de deux variables qualitatives.
H0 suppose que les modalités des deux variables qualitatives ne sont pas en lien. → H0
s’attend à obtenir que les fréquences observées soient plus ou moins égales aux fréquences
Le test consiste à comparer les fréquences observées (O) avec les fréquences espérées (E) sous H0
(O − E)2
χ2 =
X
E
avec ddl = (L − 1) × (C − 1) où L = nombre de lignes et C = nombre de colonnes
7.3.1 Le ω de Cohen
7.4 Conditions d’application des tests ==> Pour que le test soit valable il faut qu'il
puisse s'adapter à la distribution
— Indépendance des observations : les observations analysées sont indépendantes.
Le total général du tableau doit correspondre au nombre total des observations
analysées. = Observations ne peuvent pas venir des mêmes individus
— Les fréquences attendues ne doivent pas être petites : du point de vue
empirique, Ei,j ≥ 5.
— Inclusion des non-occurrences : Toute réponse (positive et négative) doit être
incluse dans tableau à analyser. Ceci implique que, souvent, au lieu de considérer
Pour l’échantillon : Pn
i=1 (xi − mx )(yi − my )
sx,y = = position simultanées des x et y en fonction de
n−1 leurs moyennes
Pour les petits échantillons. La corrélation ajustée (raj ) est une estimation relativement
Plus l'échantillon est petit plus l'estimation de la corrélation de la
non biaisée de ρ (corrélation de la population). population à patir de l'échantillon sera biaisée
s
2
aj (1 − rx,y )(n − 1)
rx,y = 1−
n−2
8.5 Fisher’s r to z
Comparer une corrélation à un autre chiffre que 0
1 1+r
z
r = ln
2 1−r
rz − ρzH0
z= s
1
n−3
Démarche :
1 1+r
z z
1. Trouver r grâce à la formule r = ln , où r est la corrélation à comparer.
2 1−r
!
zH0 zH0 1 1+ρ
2. Trouver ρ grâce à la formule ρ = ln , où ρ est la valeur à laquelle
2 1−ρ
on souhaite comparer notre corrélation.
3. Trouver n, le nombre d’observations
rz − ρzH0
4. Trouver z grâce à la formule z = q 1 .
n−3
5. Trouver la p-valeur à l’aide de la table de score z.
Démarche :
1 1+r
1. Trouver r1z et r2z z
grâce à la formule r = ln , où r est une des corrélations
2 1−r
à comparer. = faire la transformation r to z pour les deux groupes
2. Trouver n1 et n2 , les nombres d’observations
r1z − r2z
3. Trouver z grâce à la formule z = q
1
.
n1 −3
+ n12
4. Trouver la p-valeur à l’aide de la table de score z.
— Transforme les scores, peut donc être utilisé comme estimateur robuste de la corré-
lation de Pearson.
Le coefficient de corrélation de Spearman rSp est utilisé dans plusieurs cas de figure :
1. Si les conditions d’application pour la corrélation de Pearson sont largement violée
(on fait appel dans ce cas à une estimation dite robuste). Les conditions d’application
pour la corrélation de Pearson sont : ==> écart en r et rspearman est un indicateur pour savoir si le nuage est
problématique
— Linéarité de la relation
— Pas de valeurs extrêmes dans le nuage de points
2. Pour détecter des relations monotones quelque soit leur forme précise (exponentielle,
puissance).
Monotonie : Une fonction qui est constamment croissante ou constamment dé-
croissante sur un intervalle est dite monotone. La linéarité n’est pas nécessaire pour
lien entre x et y est
la monotonie. Monotonie: si X augmente alors Y augmente, pattern peut changer
Linéarité: si X augment alors Y augment d'autant, constamment parfaitement monotone si
rspearman = 1
3. Si les données représentes des rangs.
La corrélation de Spearman se calcul de la même manière que la corrélation de Pearson
mais sur les rangs.
9 Régression linéaire
9.1 Droite de régression linéaire
La droite de régression linéaire est une droite de prédiction → prédire y selon x.
Cette droite de prédiction sera construite sur la base d’une étude mesurant le lien ente y
et x dans un échantillon, autrement dit en mesurant chez les sujet leur score sur x et sur
on crée un lien sur la base d'un échantillon qui permet de
y, afin d’inférer un lien pour la population.prédire le score d'un individu de la population
Pour l’échantillon (ri = résidus, erreur possible de prédiction) :
yi = b0 + b1 xi + ri
yipred = b0 + b1 xi
donc
ri = yi − yipred
b0 = my − b1 mx
sx,y
b1 =
s2x
Postulats :
— X∼N (=variable d'intérêt suit la loi normale)
— Tous les xi sont indépendants (=valeurs obtenues sur les sujets n'ont pas de lien)
Calcul : Test t avec ddl =n − 1
mx − µh0
t= s
√
n
On utilise le d de Cohen pour calculer la taille d’effet : = différence de moyenne en unités d'écart-type
mx − µH0
d=
sx
m x − m x2
t = s 12
sP s2
+ P
n1 n2
avec ddl= n1 + n2 − 2
Postulats :
— (X1 − X2 ) ∼ N
— Indépendance entre les paires x1 , x2 (=dépendance par paire d'individus)
— ρX1 ,X2 ̸= O
Calcul : Test t de Student à un échantillon sur scores de différences (D) :
m D − µH 0
t= s où mD = mx1 − mx2
s2D
n
H0: score de différence est nul = score ne change pas après
Avec ddl =n − 1 manipulation
H1: score de différence est non nul = score change après manipulation
A Chevauchées 11
ANOVA 26, 27 Horizontales 11
Appariement systématique 7 Verticales 11
Association 19 À bâtons 11
Asymétrie 12 À secteurs 10
Négative 12 Linéaire 10
Positive 12 Diffusion de traitement 8
Attentes expérimentales 8 Distribution normale 15
Attribution aléatoire 7 Centrée réduite 16
Droite de régression linéaire 24
B
Biais d’échantillonage 4 E
Boxplot 14 Écart interquartile 13
Écart-type 13
C Échantillon 4
Coefficient Échelle 10
de Corrélation linéaire 19 d’Intervalles 10
de Détermination 25 Nominale 10
Ajusté 25 Ordinale 10
Phi 23 de Rapport 10
de Régression 24 Effet de retest 8
Compensation par le chercheur 8 Espérées 18
Compétition compensatoire 8 Étendue 13
Continuité 5 Événement 15
Contre-balancement 9
F
Corrélation 19, 20
Fisher’s r to z 20
Ajustée 20
Bisériale de points 22 G
de Pearson 19 Groupe
de Spearman 21 Expérimental 7
Covariance 20 Contrôle 7
D H
d de Cohen 26 Histoire 8
Démarche scientifique 4 Hypothèse 5
Démoralisation avec ressentiment 8 Non orientée 16
Densité de probabilité 15 Opérationnalisation de l’hypothèse 5
Diagramme Orientée 16
À bandes rectangulaires 10 Réfutable 5
28
IMAD B1 - semestre d’automne 2021-2022
I Simple 7
Inférence statistique 16 À groupes indépendant 7
Instrumentation 8, 9 À mesures répétées 8
Intercept 24 Plan quasi-expérimental 9
Population 4
K
Positionnement théorique 5
Khi carré 17
Probabilité 15
L Procédé
Loi Du double aveugle 8
Additive des probabilités 15 Du simple aveugle 8
Normale 15 Q
Quantile 14
M
Quartile 14
Maturation 8
Médiane 12 R
Mesures Rang 14
de Dispersion 13 Rapport de cotes 23
de Tendance centrale 11, 12 Réalisation 15
Méthode scientifique 4 Recension des écrits 5
Mode 11 Redéfinition 5
Monotonie 22 Régression
Mortalité expérimentale 9 Linéaire 24
Moyenne 12 Statistique vers la moyenne 9
N S
Non-équivalence 8 Score z 14
Sélection 8
O Statistique inférentielle 16
Opérationnalisation 5
T
Des variables 5
t de Student 20, 26
Du cadre théorique 5
À deux échantillons appariés. 27
Opposition 5
À deux échantillons non appariés. 26
P À un échantillon 26
P-valeur 16 Tableau
Pente 24 À double entrée 11
Phi de Cramér 18, 23 De fréquences 10, 11
Pie chart 10 Tau de Kendall 22
Placebo 8 Test
Plan corrélationnel 9 d’Ajustement 17, 18
Plan expérimental 7 d’Indépendance 17
Factoriel 9 Théorie 5
U Provoquées 7
Unité statistique 4 Parasite 7, 8
Qualitative 10
V Nominale 10
Variable 6, 10, 11 Ordinale 10, 12
Aléatoire 15 Quantitative 10, 12
Dépendante 7 Continue 10
Indépendante 6 Discrète 10, 11
Invoquées 7 Variance 13