Vous êtes sur la page 1sur 30

Introduction à la méthodologie et aux analyses de

données
Maud Dennebouy

2021

Table des matières


1 Démarche scientifique 4
1.1 Méthode scientifique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Les étapes de la démarche scientifique . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Circonscrire l’objet de recherche . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Construire l’objet de recherche . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Construire les objets d’observation . . . . . . . . . . . . . . . . . . 6
1.2.4 Analyser les objets d’observation . . . . . . . . . . . . . . . . . . . 6
1.3 Les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Plans expérimentaux 7
2.1 Le plan expérimental simple . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Le plan expérimental simple à groupes indépendants . . . . . . . . 7
2.1.2 Le plan expérimental à mesures répétées . . . . . . . . . . . . . . . 8
2.2 Plan expérimental factoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Plan quasi-expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Plan non-expérimental ou corrélationnel . . . . . . . . . . . . . . . . . . . 9
2.5 Choisir le plan expérimental . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Types de variables et représentation 10


3.1 Types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.1 Les variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1.2 Les variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Les échelles de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Traitement des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3.1 Traitement d’une variable qualitative . . . . . . . . . . . . . . . . . 10
3.3.2 Traitement d’une variable quantitative discrète avec peu de valeurs 11

1
IMAD B1 - semestre d’automne 2021-2022

3.3.3 Traitement d’une variable quantitative discrète avec beaucoup de


valeurs ou continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3.4 Traitement de deux (ou plusieurs) variables avec peu de modalités
ou de valeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3.5 Traitement de deux variables avec beaucoup de modalités ou de
valeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Tendance centrale, dispersion et position 11


4.1 Les mesures de tendance centrale . . . . . . . . . . . . . . . . . . . . . . . 11
4.1.1 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.1.2 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.1.3 La moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.1.4 Asymétrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.1.5 Quelle mesure de tendance centrale utiliser ? . . . . . . . . . . . . . 12
4.2 Les mesures de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2.2 La variance et l’écart-type . . . . . . . . . . . . . . . . . . . . . . . 13
4.2.3 L’écart interquartile . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3 Les mesures de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3.1 Les rangs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3.2 Les quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3.3 Le score z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.4 Le boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5 Introduction aux probabilités et loi normale 15


5.1 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.2 Estimation des probabilités selon le type de variable . . . . . . . . . . . . . 15
5.2.1 Probabilité des variables aléatoires non continues . . . . . . . . . . 15
5.2.2 Probabilité des variables aléatoires continues . . . . . . . . . . . . . 15
5.3 La distribution normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.3.1 La distribution normale centrée réduite . . . . . . . . . . . . . . . . 16
5.4 Marche à suivre conseillée lors de résolution d’exercices . . . . . . . . . . . 16

6 L’inférence statistique 16
6.1 Statistique inférentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6.2 Procédure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.3 Issue d’un test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

7 Les test d’ajustement et d’indépendance du Khi Carré de Pearson 17


7.1 Le test d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
7.2 Le test d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

Maud Dennebouy 2 sur 30


IMAD B1 - semestre d’automne 2021-2022

7.2.1 Calcul des espérées . . . . . . . . . . . . . . . . . . . . . . . . . . . 18


7.3 La taille d’effet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
7.3.1 Le ω de Cohen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
7.3.2 Le phi de Cramér (ϕc ) . . . . . . . . . . . . . . . . . . . . . . . . . 18
7.4 Conditions d’application des tests . . . . . . . . . . . . . . . . . . . . . . . 18

8 Corrélations et mesures d’association 19


8.1 Principe général de la corrélation de Pearson . . . . . . . . . . . . . . . . . 19
8.2 Compréhension graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
8.3 Calcul mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
8.3.1 Calculer la corrélation à partir des scores bruts . . . . . . . . . . . 20
8.3.2 La corrélation ajustée pour estimer ρ . . . . . . . . . . . . . . . . . 20
8.4 L’inférence statistique dans la corrélation . . . . . . . . . . . . . . . . . . . 20
8.5 Fisher’s r to z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
8.5.1 Comparer une corrélation à un autre chiffre que 0 . . . . . . . . . . 21
8.5.2 Comparer deux corrélations entre elles . . . . . . . . . . . . . . . . 21
8.6 Le coefficient de corrélation de Spearman . . . . . . . . . . . . . . . . . . . 21
8.7 Le tau de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
8.8 Corrélation bisériale de points rbp . . . . . . . . . . . . . . . . . . . . . . . 22
8.9 Coefficient Phi Φ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
8.10 Phi de Cramér Φc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
8.11 Rapport de cotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
8.12 Quelle mesure d’association utiliser ? . . . . . . . . . . . . . . . . . . . . . 24

9 Régression linéaire 24
9.1 Droite de régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . 24
9.1.1 Comment estimer la droite de régression linéaire . . . . . . . . . . . 24
9.1.2 Interprétation des coefficients de régression . . . . . . . . . . . . . . 24
9.2 Les postulats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
9.3 La taille d’effet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

10 Introduction à la comparaison de moyenne : les tests t de Student et


l’ANOVA 26
10.1 Le test t de Student à un échantillon . . . . . . . . . . . . . . . . . . . . . 26
10.2 Le test t de Student à deux échantillons non appariés . . . . . . . . . . . . 26
10.3 Le test t de Student à deux échantillons appariés . . . . . . . . . . . . . . 27
10.4 Les cas de plus de 2 groupes : ANOVA . . . . . . . . . . . . . . . . . . . . 27

Index 28

Maud Dennebouy 3 sur 30


IMAD B1 - semestre d’automne 2021-2022

1 Démarche scientifique
1.1 Méthode scientifique
Méthode scientifique : Démarche logique d’une science, c’est-à-dire l’ensemble des
moyens mis en œuvre afin de répondre à une question. Il s’agit d’un procédé explicite
et reproductible, d’une série de règles à observer dans l’étude d’un problème précis.
Toute méthode recourt à des procédures ou à des techniques rigoureuses de collecte d’in-
formation.

Population : Ensemble de tous les individus, de tous les objets ou de tous les groupes,
c’est-à-dire de toutes les unités statistiques sur lesquelles on peut effectuer des mesures
ou sur lesquelles porte une recherche, et duquel on peut prélever un échantillon.

Échantillon : Sous-ensemble d’une population formée des éléments de cette population


(les unités statistiques prélevées et analysées ou observées).

Unité statistique : Élément de la population étudiée, sur lequel on mesure une variable.

Biais d’échantillonage : Échantillonage biaisé non représentatif.

1.2 Les étapes de la démarche scientifique


1. Circonscrire l’objet de recherche
— Reconnaître les connaissances actuelles
— Intégrer notre recherche dans les connaissances actuelles
2. Construire l’objet de recherche
— Adopter un cadre théorique
— Formuler une hypothèse
— Opérationnaliser l’hypothèse
3. Construire les objets d’observation
— Quoi, qui, comment et quand observer ?
4. Analyser les objets d’observation
— Préparation des données
— Application du/des modèle(s) analytique(s)
— Interprétation des résultats

Maud Dennebouy 4 sur 30


IMAD B1 - semestre d’automne 2021-2022

1.2.1 Circonscrire l’objet de recherche

Recension des écrits : Cerner l’état des connaissances actuelles sur le sujet d’intérêt.
→ permet de pouvoir appréhender les différentes théories existantes concernant l’objet de
recherche.

1.2.2 Construire l’objet de recherche

Théorie : Ensemble de théorèmes et de lois systématiquement organisés, soumis à une


vérification expérimentale, et qui vise à établir la vérité d’un système scientifique
Parcimonie: Expliquer le + possible avec le - possible. Fort élément de prédiction avec peu d'éléments prédictifs
Précision exactitude, savoir ce qu'on exprime dans théorie en pouvant se tromper
Testabilité: On ne prouve pas qu'on a raison mais qu'on a peu de chance d'avoir tord
Positionnement théorique : Trois choix qui dépendent de l’hypothèse proposée et
testée :
— Continuité. On adopte un cadre théorique pour comprendre la réalité.
→ L’objectif sera de développer ou de reproduire des connaissances conformes aux
prédictions de la théorie.
— Redéfinition. On adopte un cadre théorique pour comprendre la réalité.
→ L’objectif sera de la modifier.
— Opposition. On n’adopte pas de cadre théorique existant.
→ L’objectif sera de proposer une nouvelle théorie, ou d’en intégrer plusieurs exis-
tantes afin d’en parvenir à une nouvelle.

Hypothèse :
— Prédiction émise par le chercheur quant aux résultats de sa recherche.
— Réponse provisoire à la question de départ qui est issue de la théorie dans une
démarche scientifique.
Une hypothèse scientifique doit être réfutable, c’est-à-dire qu’elle doit permettre des
énoncés qui la contredisent.

Opérationnalisation :
— Concrétiser
Désigne le processus
ce que l'on de concrétisation
veut de ce queprécis
étudier en phénomène l’on &veut étudier scientifiquement.
observable
— Étape intermédiaire et essentielle entre l’hypothèse et le travail empirique d’analyse
où l’on spécifie ce que nous allons analyser précisément pour vérifier notre hypothèse.
Opérationnalisation du cadre théorique : Traduire une théorie abstraite et une hypothèse
générale en phénomènes concrets et précis que l’on peut expérimenter.
Opérationnalisation des variables : C’est le passage entre les variables théoriques (concepts)
et variables à mesure (indicateurs)

= passer de concept théorique à qqch d'observable en définissant les indicateurs

Maud Dennebouy 5 sur 30


IMAD B1 - semestre d’automne 2021-2022

1.2.3 Construire les objets d’observation

Quoi observer ?
Quel indicateur choisir parmi la population d’indicateurs ?
Au moins un indicateur comme variable dépendante et un autre comme variable indépen-
dante.
Qui observer ?
Quelle est la population d’intérêt ? A qui veut-on généraliser ?
Choisir un échantillon d’unité d’observation.
Comment observer ?
Quelle est la meilleure manière d’observer l’échantillon pour mesurer les variables d’inté-
rêt ?
Quel est le rôle du chercheur durant la récolte des données ?
Quand observer ?
À quel moment faut-il observer l’échantillon ?
Observation unique vs mesures répétées.

1.2.4 Analyser les objets d’observation

1. Préparation des données


2. Application du/des modèle(s) analytiques(s)
(a) Première étape : Description des données
→ Contrôler les erreurs et les valeurs aberrantes, synthétiser l’information,
mettre à jour les relations simples entre les variables.
(b) Deuxième étape : Analyse des données
→ Choisir le modèle mathématique d’analyse en fonction de l’hypothèse théo-
rique initiale et du plan de recherche empirique utilisé pour recueillir les don-
nées.
3. Interprétation des résultats
→ Comparer les résultats avec l’attente initiale et les preuves scientifiques existantes.
Confirmer ou infirmer l’hypothèse initiale.

1.3 Les variables


Variables : Une variable est un élément de l’hypothèse à laquelle on peut attribuer di-
verses valeurs (ou modalités) et qui, comme son nom l’indique, varie. Une quantité ou
fonction qui peut prendre un ensemble de valeur données. On l’oppose à une constante,
qui est une quantité qui prend une seule valeur.

Variable indépendante - VI
Variable dont l’effet est au centre de l’hypothèse de recherche. Ses valeurs/modalités sont

Maud Dennebouy 6 sur 30


IMAD B1 - semestre d’automne 2021-2022

décidées par le chercheur.


VI invoquées : Les VI invoquées sont des caractéristiques naturelles, inhérentes au
participant, qui ne peuvent pas être manipulées par le chercheur.
VI provoquées : Les VI provoquées sont manipulées par le chercheur, qui décide
quelle sera la VI et ses modalités attribuées au participants.

Variable dépendante - VD
Variable d’intérêt soumise aux conséquences de la VI. Elle représente l’objet de recherche
et est mesurée par le chercheur.

Variable parasite : Variable qui compromet les conclusions de l’expérience scientifique


et qui invalide le lien VI → VD

2 Plans expérimentaux
Pour monterscientifique
L’expérience une expérience permettant
va nécessiter un plan d’établir
expérimental clairement la présenceprécise,
précis: méthodologie ou l’absence claire,
qui peut être répliquée, non équivoque, réaliste.
d’une relation de cause à effet entre une VI et une VD, le chercheur doit concevoir un
En sciences humaines, il existe des difficultés qui ont conséquences sur plan expérimental, (par
plan expérimental.
exemple: Problèmes éthiques, Difficulté d’isolation, “Troisième variable”, Variables non manipulables (variables sujet), Complexité de l’être
humain, “Généralisabilité” souvent limitée

2.1 Le plan expérimental simple Groupe expérimental & groupe témoin, 1 seul variable indépendante

Plan expérimental simple : Agencement des situations auxquelles seront exposés les
participants du groupe expérimental et ceux du groupe témoin (de contrôle) afin d’établir
les effets d’une seule variable indépendante sur les participants.

2.1.1 Le plan expérimental simple à groupes indépendants


= 1 échantillon séparé en 2 groupes
Groupe expérimental : Groupe de participants soumis à la situation expérimentale.
Groupe contrôle : Groupe de participants qui ne sont pas soumis à la situation expé-
rimentale et dont les résultats servent de base de comparaison pour évaluer les résultats
du groupe expérimental.

Deux façons de répartir les participants dans les deux groupes :


Attribution aléatoire :Les variables parasites ne sont pas connues. Les partici-
pants sont attribués à un des deux groupes aléatoirement par l’expérimentateur
Appariement systématique : Les variables parasites sont connues. Les partici-
pants sont attribués à un des deux groupes selon leurs valeurs sur la variable parasite
connue. L’expérimentateur “minimise” l’effet de la variable parasite en égalisant ses effets
dans les deux groupes. Ex: variable parasite d'âge
Biais de sélection: Groupes sont différents sur Vd non pas à cause du traitement mais déjà à la base

Pour avoir confiance dans le lien VI ---> Vd il faut que:


- les deux groupes soient équivalents - pas de biais de sélection
- Pas de facteur de confusion qui puisse donner une explication alternative des changements de la VD
Maud Dennebouy 7 sur 30
IMAD B1 - semestre d’automne 2021-2022
Précautions méthodologies
Placebo : A pour objectif d’équilibrer les deux groupes au niveau de l’effet purement
psychologique du traitement.
Procédé du simple aveugle : Moyen de contrer les variables parasites qui consiste
à s’assurer que les participants ignorent à quel groupe (expérimental ou contrôle) ils
appartiennent.
Procédé du double aveugle : Moyen de contrer les variables parasites qui consiste à
s’assurer que le chercheur comme les participants ignorent à quel groupe (expérimental
ou contrôle) appartiennent ces derniers. (-->Si chercheur ne sait pas quel grp est qui il ne peut pas influencer
les groupes par son comportement conscient/inconscient)

Variables parasites possibles


— Non-équivalence :des
nongroupes
similitudededes
participants.
groupes de participants
— Sélection : gens
Formation naturelle desegroupes
qui se ressemblent mettentqui ne sontformation
ensemble, pas équivalents.
naturelle de grp non-équivalents

— Instrumentation : Changement ou inadéquation des techniques de mesure qui


influencent la VD. = utiliser un matériel différent d'un groupe à l'autre
— Attentes expérimentales : Tendance des sujets ou des expérimentateurs à rendre
les résultats conformes à l’hypothèse.
— Compensation par le chercheur : Le chercheur
Chercheur veut d'aider
a envie égalisergrplatémoin
performance des
par empathie,
deuxégaliser
veut groupesla en aidant le des
performance groupe
deuxcontrôle.
groupes
— Compétition compensatoire : Le groupe contrôle
sur-performance obtientcontrôle
du groupe une performance élevée
(=vengeance)
pour composer le manque de traitement.
— Diffusion de traitement : Le groupe contrôle connaît le traitement et imite ses
effets.
— Démoralisation avec ressentiment : Le groupe contrôle apprend les avantages du
traitement et par conséquent sa performance empire, ce qui augmente les différences
entre les deux groupes.

2.1.2 Le plan expérimental à mesures répétées

Plan expérimental simple à mesures répétées : Comparer les même groupes de


personnes exposées aux deux niveaux de la VI (présence vs absence). Prétest - Posttest
1 groupe dans 2 conditions, les sujets sont leur propre contrôle (ne marche pas pour tester effets de variables sujets)

Variables parasites possibles


— Histoire : Tout événement majeur et externe qui a influencé de la VD durant
l’expérience scientifique.
— Maturation : Tout événement mineur et interne qui évolue avec le temps et in-
fluence la VD durant l’expérience scientifique.
— Effet de retest : Des administrations précédentes du test (ou plus généralement
de la mesure) influencent les réponses actuelles à ce même test.

Maud Dennebouy 8 sur 30


IMAD B1 - semestre d’automne 2021-2022

— Instrumentation : Changements ou inadéquation des techniques de mesure qui


influences la VD.
— Mortalité expérimentale : L’échantillon observé diminue de taille au cours de
l’expérience.
— Régression statistique vers la moyenne :Lorsque Groupes (surtout
le test si extrêmes)
est réalisé formés
plusieurs fois, ceux
sur
quila base dans
étaient de tests ont tendance
les extrêmes à devenir
s'équilibrent, moinsvers
retournent extrêmes avec des administrations
la moyenne

répétées du test.

Contre-balancement : Présentation des différentes modalités de la VI dans des ordres


différents à des sous-groupes différents de participants.pour éviter les effets de retest.

2.2 Plan expérimental factoriel Plusieurs VI simultanées

Plan expérimental factoriel : Agencement des situations auxquelles seront exposés


les participants du groupe expérimental et ceux du groupe témoin afin d’établir les ef-
fets de plus d’une variable indépendante sur les participants dans le cadre d’une seule
expérimentation.
EX:
- Diff de statut socioéconomique selon l'âge --> âge = non manipulable
2.3 Plan quasi-expérimental - Diff homme/femme reconnaissance visage familiers --> on ne peut pas créer visages familiers
- Lien entre durée grossesse & dépression post -partum --> étique: on ne peut pas manipuler la
durée de grossesse
Plan quasi-expérimental : Quand la VI ne peut pas être manipulée par le chercher,
l’attribution complètement aléatoire aux groupes expérimental et contrôle est impossible.
Néanmoins, il est possible que le chercheur contrôle suffisamment bien l’environnement
de l’expérience pour isoler le lien entre la VI et la VD.

2.4 Plan non-expérimental ou corrélationnel aucune variable manipulée


trop / pas assez de V.I
Plan corrélationnel : Quand aucune variable d’intérêt ne peut être manipulée par le
chercheur, il est impossible d’attribuer aléatoirement les participants à des groupes d’ana-
lyse. Le chercheur s’intéresse uniquement à observer des liens possibles entre les différentes
variables mesurées.

2.5 Choisir le plan expérimental

Maud Dennebouy 9 sur 30


IMAD B1 - semestre d’automne 2021-2022

3 Types de variables et représentation


3.1 Types de variables
3.1.1 Les variables qualitatives = faite de modalités exhaustives & mutuellement exclusives

Une variable est qualitative si ses différentes formes sont des catégories ou des attributs.
Variable qualitative nominale : Variable qualitative dont les modalités ne peuvent
pas être ordonnées.
Variable qualitative ordinale : variable qualitative dont les modalités peuvent
être ordonnées

3.1.2 Les variables quantitatives

Une variable est quantitative si la caractéristique observée s’exprime sous la forme d’une
valeur numérique.
Variable quantitative discrète : Variable quantitative qui ne peut pas, en théorie,
couvrir toutes les valeurs d’un intervalle.
Variable quantitative continue : Variable quantitative qui peut, en théorie, cou-
vrir toutes les valeurs d’un intervalle.

3.2 Les échelles de mesure Toujours utiliser l'échelle la + puissante disponible


Permet de
Échelle ÉchelleDef nominale : Échelle de mesure qui attribue des codes arbitraires distincts Opérations
aux possibles
Nominale ladifférentes
plus faible, Attribue codes
formes d’une variable. Ne sert qu'à distinguer les modalités de la variable,
arbitraires aux formes d'une Aucune
arbitraire
Échelle
variable ordinale : Échelle de mesure qui classe selon une hiérarchie les différentes formes
Ordinale Classe
d’uneselon hiérarchie les diff
variable. On ne peut pas interpréter les écarts, distingue &
formes d'une variable, Addition
ordonne ces formes
Échelle d’intervalles : Échelle de mesure caractérisée par la présence d’une unité de
intervalles Unité de mesure
mesure relatif. & comparer les valeurs, évaluer les écarts Addition,
normalisée et d’un zéro Distinguer
normalisée & zéro relatif identiques soustraction
Échelle de rapport : Échelle de mesure caractérisée par la présence d’un zéro absolu.
Rapport La plus précise/puissante, Présence Tout
de 0 absolu +, -, x, /

3.3 Traitement des variables


3.3.1 Traitement d’une variable qualitative

— Tableau de fréquences : Les données sont groupées dans un tableau de fréquences


selon leur modalité. Présente les fréquences des modalités
— Tableau avec fréquences absolues -->Nombre exact de sujets
— Tableau avec fréquences relatives -->Nombre relativement à 100 (proportion/pourcentage)
— Diagramme à secteurs (Pie chart)
— Diagramme linéaire
— Diagramme à bandes rectangulaires

Maud Dennebouy 10 sur 30


IMAD B1 - semestre d’automne 2021-2022

— Diagramme à bandes rectangulaires horizontales


— Diagramme à bandes rectangulaires verticales
— Diagramme à bandes rectangulaires chevauchées

3.3.2 Traitement d’une variable quantitative discrète avec peu de valeurs

— Tableau de fréquences Les données sont groupées dans un tableau de fréquences


selon leur valeur.
— Diagramme à bâtons

3.3.3 Traitement d’une variable quantitative discrète avec beaucoup de va-


leurs ou continue

— Tableau de fréquences : Les données sont groupées par classes de même ampli-
tude.
— Histogramme

3.3.4 Traitement de deux (ou plusieurs) variables avec peu de modalités ou


de valeurs
column pourcent: parmis (variable colonne) combien font (variable ligne)
— Tableau à double entrée ==> row percent: parmis (variable ligne) combien font (variable colonne)

— Diagramme à bandes rectangulaires chevauchées

3.3.5 Traitement de deux variables avec beaucoup de modalités ou de valeurs

— Diagramme de dispersion
--> nuage de points donne le lien entre les 2 variables

4 Tendance centrale, dispersion et position


Résumer une distribution = donner des indicateurs qui permettent de refaire le graphique sans le voir
4.1 Les mesures de tendance centrale
Différents indicateurs
Mesures de tendance centrale : Expriment qui saisissent
ce qui est typique ce qui est typique des
des données.
données, utilisés pour décrire / caractériser une distribution entière de données sur une variable
4.1.1 Le mode = valeur la plus fréquente (seul indice indiquant la majorité)

Mode : Le mode est représenté par la modalité ou la valeur la plus fréquente. Le symbole
est M o pour la population et mo pour l’échantillon. Le mode est le centre de concentration
des données.
Une distribution peut être unimodale / bimodale / amodale.
Si les données d'une série statistiques sont groupées on parle de classe modale

Ex: dans la série A,B,C,C,D,B,C,C,D,C,B,B,A,D,C,C,C,B,A,C,C,B,D,C,B,C,B,C,C,C (il y a 4 modalités possibles)


Mode de la variable = C / Fréquence du mode = 15
même échelle que la variable
Maud Dennebouy 11 sur 30
IMAD B1 - semestre d’automne 2021-2022

4.1.2 La médiane = position ou on a 50% avant et 50% après

Médiane : La médiane est la mesure de tendance centrale qui divise une série statistique
ordonnée en deux groupes comptant chacun environ (parfois exactement) 50% des don-
nées. La médiane est le centre de position. Le symbole est M d pour la population et md
pour l’échantillon. ! médiane = valeur du rang, pas numéro du rang ! (même unité que la modalité)

Procédure
Il faut !d’abord classer les données en ordre croissant.!n observations n = nb de rangs
— Pour une variable qualitative ordinale
— La modalité de la donnée qui occupe le rang n/2 si n est pair.
— La modalité de la donnée qui occupe le rang (n + 1)/2 si n est impair.
— Pour une variable quantitative discrète ou continue
— Lamoyenne
- La valeur dedes
la données
donnée qui
de occupe
rang n/2leetrang (n +si1)/2
(n/2)+1 n estsi pair
n est impair.
— Lavaleur
- La moyenne
de lades données
donnée qui de rang le
occupe n/2 et (n+1)/2
rang (n/2) +si1 nest
estpair.
impair

4.1.3 La moyenne

Moyenne : La moyenne est la valeur unique de devrait prendre chacune des données
d’une série pour que le nombre de données et la somme des valeurs de chaque donnée
soient préservés. Le symbole est µ pour la population et m pour l’échantillon.
Pn
i=1 xi pour un échantillon
Pour une population mx =
n

4.1.4 Asymétrie

Asymétrie positive : Des valeurs nettement plus grandes que les autres déplacent la
moyenne vers la droite (mo < md < m).
Asymétrie négative : Des valeurs nettement plus petites que les autres déplacent la
moyenne vers la gauche(m < md < mo).

moyenne < médiane moyenne > médiane

4.1.5 Quelle mesure de tendance centrale utiliser ?


Restrictions dues à l'échelle de mesure
saut de ligne
Echelle mesure de tendance centrale
Nominale mode
Ordinale mode, médiane
Maud Dennebouy
D'intervalles mode, médiane, moyenne 12 sur 30
De rapports mode, médiane, moyenne
IMAD B1 - semestre d’automne 2021-2022
si symétrique: moyenne
si asymétrique: médiane/mode (plus robuste)

Médiane: Variables quantitatives dont les distributions sont fortement


asymétriques & unimodales, Quand la moyenne s'éloigne de la
médiane
Mode: distributions multimodales, ne pas utiliser quand unimodale ou
symétrique
Moyenne: très sensible aux points extrêmes, pour statistiques
inférentielles, quand proche de médiane

4.2 Les mesures de dispersion


Mesures de dispersion :: Quantifient l’étalement
Améliorent la descriptioneten
laquantifiant
variabilité l'étalement,
des donnéesla variabilité,
le degré d'homogénéité et de concentration des données.
4.2.1 L’étendue

Pour les échelles ordinales ou supérieures, non robuste.


Pour données non groupées Pour données groupées
ex = xmax − xmin

4.2.2 La variance et l’écart-type

Pour les échelles d’intervalles ou supérieures asymétrie influence variance/écart type


Variance : La variance correspond à la moyenne des carrés des écarts des valeurs des
données par rapport à la moyenne (Xi − µX )2 de la série. Elle caractérise l’écart entre les
valeurs des données et le centre d’équilibre de la série, c’est-à-dire la moyenne. Le symbole
est σ 2 pour la population et s2 pour l’échantillon. pas interprétable, ne s'exprime pas dans l'échelle
des variables (au carré)
Pn
− mx )2
i=1 (xi
s2x = pour un échantillon
n−1
= Std.Dev sur statistica
Écart-type : racine carrée de la variance. Le symbole pour la population est σ et s pour
l’échantillon. Plus simple à interpréter, même unités que la variable

s = s2
==> Plus l'écart-type est faible plus les données sont concentrées autour de la moyenne

4.2.3 L’écart interquartile

Pour les échelles ordinales ou supérieures. Plus robuste que la variance. cas d'asymétrie
Écart interquartile : Mesure de dispersion qui correspond à l’écart entre Q3 et Q1
(4.3.2), soit l’écart entre les extrémité du groupe de données occupant le 50% de la série
statistique ordonnée. = montre ou sont 50% des données du centre

Maud Dennebouy 13 sur 30

==> Priviléger les indices les plus simples à interpréter


IMAD B1 - semestre d’automne 2021-2022

4.3 Les mesures de position


Mesures de position : Permettent de situer les données les unes par rapport aux autres.

4.3.1 Les rangs

Pour les échelles ordinales ou supérieures.


Rang : Position d’une donnée dans une série statistique ordonnée

4.3.2 Les quantiles

Pour échelles ordinales ou supérieures. ne représente rien pour variables qualitatives nominales
Quantiles : Valeurs qui divisent une série statistique ordonnée en plusieurs groupes com-
prenant sensiblement la même proportion de donnée.
Les plus couramment utilisés sont les quartiles, les quintiles, les déciles et les centiles.

Les quartiles : Les quartiles divisent une série statistique ordonnées en quatre groupe
comprenant chacun approximativement 25% des données de la série. Le symbole est
Q1 , Q2 , Q3 pour la population et q1 , q2 , q3 pour l’échantillon
25% des données sont inférieures à Q1 .
50% des données sont inférieures à Q2 (= Médiane).
75% des données sont inférieures Q3 .

4.3.3 Le score z = score standardisé/centré-réduit

Pour les échelles d’intervalles ou supérieures. Score z : Mesure de position qui indique à
combien d’écarts-type (4.2.2) au dessus ou au dessous de la moyenne se situe une donnée.
on enlève la moyenne au score = bouger la moyenne à 0
souvent entre -3 et 3
sans unités
xi − mx
zi =
série traduite en score z aura tjrs m=0 et s=1 sx

4.4 Le boxplot
Boxplot : Représentation graphique qui résume la distribution d’une variable quantitative
continue.
Un boxplot se compose de 4 partie principales :
— Une boîte, qui représente l’écart interquartile (4.2.3).
— Une ligne (ou un point), dans la boîte, qui représente la médiane (Q2 ). Des mous-
taches, qui représentent une distance correspondant à, au maximum, 1.5 fois l’écart
interquartile en partant des bords de la boîte.
Indices Informent sur Exemples

De tendance centrale Ce qui est typique des données Mode, médiane, moyenne
De dispersion La variabilité des donnéées Étendue, variance/écarttype,
écart interquartile
De position Situer les données les unes par rapport aux autres Rangs, quantiles, score z,
boxplot
Maud Dennebouy 14 sur 30
IMAD B1 - semestre d’automne 2021-2022

5 Introduction aux probabilités et loi normale


5.1 Probabilité
Probabilité : Rapport du nombre des cas favorables à la réalisation d’un événement
aléatoire au nombre total des cas possibles.
Variable aléatoire (X) : Variable dont les modalités ou valeurs sont déterminées par le
résultat d’une expérience.
Réalisation (x) : Résultat possible d’une variable aléatoire.
Événement : Réalisation d’intérêt d’une variable aléatoire à laquelle on associe une
probabilité. (→ Quel est la probabilité que événement ?)
⇒ Chaque événement a une probabilité bornée entre 0 et 1.
Deux (ou plus) événements sont indépendants lorsque l’occurrence de l’un n’a pas d’in-
fluence sur l’occurrence de l’autre.
Deux (ou plus) événements sont mutuellement exclusifs lorsqu’ils ne peuvent pas se
produire simultanément.
Loi additive des probabilités : Si A et B sont deux événement mutuellement exclusif,
P(A ou B) = P(A) + P(B).
Deux (ou plus) événements sont exhaustifs s’ils incluent toutes les issues de la variable
aléatoire en question.
⇒ La somme des probabilités de tous les événements indépendants, mutuellement
exclusifs et exhaustifs est 1.

5.2 Estimation des probabilités selon le type de variable


5.2.1 Probabilité des variables aléatoires non continues

Un événement peut être représenté par une modalité ou valeur précise.


La probabilité d’un événement est égale à la fréquence relative de cette modalité ou valeur.
= pourcentage d'apparition

5.2.2 Probabilité des variables aléatoires continues

Pas de valeur précise → on parlera plutôt d’un intervalle contenu entre deux valeurs.
La probabilité d’un événement est la proportion de la surface correspondante à l’intervalle
par rapport à la surface totale de la densité de probabilité.
Densité de probabilité : Fonction qui permet de représenter une loi de probabilité sous
forme d’intégrales. Sa représentation graphique se lit comme l’air sous la courbe.

5.3 La distribution normale


Loi normale : Expression mathématique d’une courbe normale dont
(ou la
courbe
forme de Laplace-à
ressemble
une cloche. Toute loi normale est déterminée par sa moyenne et son écart-type.
Gauss) dont la forme ressemble à une cloche. La moyenne, le mode et la médiane d’une
Décrit bcp de phénomènes naturels. Pour calculer une probabilité d'un évènement
d'une variable continue, il faut connaître sa densité de probabilité & estimer la
surface occupée par l'intervalle d'intérêt, ce qui est difficile à obtenir. Beaucoup de
Maud Dennebouy 15 sur 30
IMAD B1 - semestre d’automne 2021-2022
variables continues ont des densités proportionnelles à celle de la loi
n o r m a l esoumise
variable , o n d i tà qlau ' eloi
l l enormale
s s o n t ncoïncident.
oramlemen Lat dloi
i r snormale
t r i b u é e spermet
. O n p edeu t décrire
c o n n a îdet r enom-
la probabilité liée à une position particulière sur la distribution car on
breux
c o n n phénomènes
a î t l a d e n s i tnaturels
é d e p r ou o b aproduits
b i l i t é a spar
s o cl’activité
i é e a u phumaine.
o s i t i o n s Elle
s u r est
la dd’usage
i s t r i b ucourant
tion en
n o r m a l e
inférence statistique. Toute loi normale est déterminée par sa moyenne et son écart-type.

La courbe normale possède plusieurs propriétés caractéristiques intéressantes :


— Elle est entièrement déterminée par sa moyenne (µ) et son écart-type (σ). Il existe
donc une loi normale pour chaque valeur de µ et de σ.
— L’aire entre une courbe normale et l’axe des abscisses vaut toujours 1.
— Densité en forme de cloche, symétrique autour de la moyenne µ.
— Puisque la courbe normale est symétrique, l’aire de la surface sous la courbe à droite
ou à gauche de la moyenne vaut 0,5.
— Étendue entre −∞ et ∞, mais concentration de la probabilité autour de µ.

5.3.1 La distribution normale centrée réduite

Distribution normale centrée réduite : Distribution normale centrée en 0 avec une


variance de 1.
" Si la variable n’est pas distribuée normalement, le fait de la standardiser ne la rend
pas normale !

5.4 Marche à suivre conseillée lors de résolution d’exercices


1. Dessiner une courbe normale
2. Localiser la moyenne
3. Localiser l’endroit approximatif du score
4. Hachurer la surface qu’on cherche à estimer
5. Employer la table pour trouver la probabilité
On ne prouve jamais qu'on a raison mais que l'inverse est peu probable. c'est pas psk on rejette H0 que H1 est vraie

6 L’inférence statistique
Inférer = prise de décision concernant une hypothèse, extraire le résultat d'un échantillon et le
généraliser sur une population
6.1 Statistique inférentielle
H0 : Hypothèse nulle, pas d'effet, va à l'encontre de ce qu'on veut montrer
On calculealternative,
H1: Hypothèse la distribution
effet d’échantillonnage théorique (dépend du type de test qui est fait
par le chercheur.
P-valeur : Comparaison de t par rapport à la distribution théorique sous H0 → Proba-
bilité sous HO d’obtenir un score égal à la valeur test t ou supérieur.→ p-valeur est la
probabilité d’obtenir un résultat aussi ou plus extrême que celui observé si H0 était vraie
(dans la population). ="Admettons que H0 est vraie, quelle est la proba d'obtenir à nouveau un
résultat auss ou plus extrême que celui observé"
Hypothèse orientée : Unilatérales gauche/droite, directionnelles.
Hypothèse non orientée : Bilatérales, non directionnelles.
Seuil : Détermine ce qui est extrême ou pas. Erreur de type 1 qu'on se permet. 5% de chances de se tromper
quand onMaud Dennebouy
rejette 16 sur
H0, donc de faire un faux positif. P-val quantifie le risque qu'on prend pour dire30qu'il y a une
diff alors qu'il n'y en a pas
16 sur 30
IMAD B1 - semestre d’automne 2021-2022
6.2 Procédure
1) on calcule
6.2 laProcédure
distribution d'échantillonnage théorique sous H0 (dépend du type de test)
--> il existe une distribution pour chaque test
2) on obtient
1. score
Définirde test
« extrême » : choisir le seuil de significativité (α).
3) on compare la valeur de test à la distribution théorique pour définir si score est rare
2. Opérationnaliser
---> position de t détermine l’hypothèse
la probabilitéde recherche
sous H0 pour
d'avoirobtenir H1 . égal ou sup a t
un score
4) P-val nous donne la probabilité sous H0 d'obtenir ce score
3. Formuler l’hypothèse nulle H0 correspondante à H1 .
5) on compare la P-val à un seuil de significativité
6) P-val < seuil ==> la
4. Définir onstatistique
rejette H0de test.
5. Obtenir la distribution d’échantillonnage de la statistique de test.
Attention
Les erreurs 6.
de Trouver
type 1 sont plus importantes
la p-valeur car plus difficiles à corriger, plus coûteuses. On doit
de test vt calculée.
protéger l'H0 et avoir assez de preuves pour la rejeter.
7. Comparer
H0 ne sera jamais la p-valeur
acceptée, AUCUNEde vt HYPOTHESE
avec α et prendre
NEune décision.
PEUT ETRE PROUVEE VRAIE ON NE
PEUT QUE LA REFUTER
6.3 Issue d’un test statistique
"La vérité"
Décision H0 pas H0
Rejet de H0 Erreur de Type I Puissance : Rejet correct
Pr = α Pr = 1 − β
Non rejet de H0 Non rejet correct Erreur de Type II
Pr = 1 − α Pr = β

7 Les test d’ajustement et d’indépendance du Khi


Carré de Pearson
==> quell est la probabilité d'avoir observé les effectifs des différentes modalités dans notre échantillon si dans la poopulation il y avait
équifréquence des modalités ?
7.1 Le test d’ajustement = Test d'homogénité (à quel point notre échantillon est homogène par
rapport aux modalités)

Dans le cas d’une seule variable qualitative. Le test du khi carré d’ajustement teste l’équi-
fréquence des modalités d’une variable qualitative.
= équifréquence
H0 suppose que toutes les modalités ont la même fréquence. Le test consiste à comparer
les fréquences observée (O) avec les fréquences attendues
espérées (E) si H0 était correcte.
avec ddl = nb de modalités - 1
Si H0 est probable, O - E = 0
(O − E)2
χ2 =
X
Si H0 est peu probable, O - E = 0
E
avec ddl= nombre de modalités - 1

7.2 Le test d’indépendance = association

Dans le cas de deux variables qualitatives. Le test du khi carré d’indépendance teste
l’association entre les modalités de deux variables qualitatives.
H0 suppose que les modalités des deux variables qualitatives ne sont pas en lien. → H0
s’attend à obtenir que les fréquences observées soient plus ou moins égales aux fréquences
Le test consiste à comparer les fréquences observées (O) avec les fréquences espérées (E) sous H0

Maud Dennebouy 17 sur 30


IMAD B1 - semestre d’automne 2021-2022

attendues s’il n’y avait pas de lien.

(O − E)2
χ2 =
X
E
avec ddl = (L − 1) × (C − 1) où L = nombre de lignes et C = nombre de colonnes

7.2.1 Calcul des fréquences


espérées espérées (= si pas de lien)

Totaux marginaux Li et Cj , et total général N . Li: total de la ligne


Cj: total de la colonne
Li × Cj N = total d'observations
Ei,j =
N

7.3 La taille d’effet


La taille d'effet sert à quantifier la force d'un résultat statistique
La taille
Pour pouvoird’effet sert àlaquantifier
interpréter la force d’un
force des résultats, résultat statistique.
on transforme:

7.3.1 Le ω de Cohen

Pour le test d’ajustement. s


χ2
ω=
n
où n est le nombre d’observations.

7.3.2 Le phi de Cramér (ϕc )

Pour le test d’indépendance.


v
χ2
u
u
ϕc = t où q = min(L, C) : valeur min entre Lignes & Colonnes
n(q − 1)

→ plus phi est grand plus l’effet est fort.

7.4 Conditions d’application des tests ==> Pour que le test soit valable il faut qu'il
puisse s'adapter à la distribution
— Indépendance des observations : les observations analysées sont indépendantes.
Le total général du tableau doit correspondre au nombre total des observations
analysées. = Observations ne peuvent pas venir des mêmes individus
— Les fréquences attendues ne doivent pas être petites : du point de vue
empirique, Ei,j ≥ 5.
— Inclusion des non-occurrences : Toute réponse (positive et négative) doit être
incluse dans tableau à analyser. Ceci implique que, souvent, au lieu de considérer

Maud Dennebouy 18 sur 30


IMAD B1 - semestre d’automne 2021-2022

une seule variable et d’appliquer un test d’ajustement du χ2 , il faut considérer égaler


une deuxième variable (pos./neg.) et appliquer un test d’indépendance du χ2 .

8 Corrélations et mesures d’association


= Résumer l'info des points en créant un lien entre x et y
Corrélation : pour des variables quantitatives et qualitatives ordinales.
Association : pour des variables qualitatives nominales

8.1 Principe général de la corrélation de Pearson


Coefficient de corrélation linéaire : Mesure de la force de la relation linéaire entre
deux variables quantitatives continues ou discrètes avec beaucoup de valeurs.

r est la statistique estimée grâce à l’échantillon.


ρ est le paramètre de population.
r constitue une estimation biaisée de ρ

La corrélation varie entre -1 et 1 : Liens


- positif: si x augmente alors y augmente
• ≈ −1 : forte relation linéaire négative - négatif: si x augmente alors y diminue
- unifactoriel: un facteur prédit l'autre directement
• ≈ 0 : pas de relation linéaire - plurifactoriel: il faut plusieurs facteurs pour en prédire un autre
• ≈ 1 : forte relation linéaire positive
Points importants
• La corrélation ne dit rien
montre surmais
un lien la causalité
pas une causalité ==> corrélation de x en fct de
y // y en fct de x est la même
• La corrélation ne dit rien sur la moyenne
• La corrélation se base sur une relation linéaire
• Une paire de variables génère une seule corrélation mais la même corrélation peut
être générée par un nombre infini de paires de variables
• La corrélation de Pearson est applicable aux variables quantitatives. D’autres types
de corrélation et mesures d’association existent pour d’autres types de données

8.2 Compréhension graphique


Chaque
saut de point
lignedu graphique donne une quantité positive/négative. On en fait la somme pour avoir le
sens de la corrélation. ==> Corrélation: somme de quantités que les points apportent selon s'il sont
au dessus/en dessous de la moyenne

Maud Dennebouy 19 sur 30


IMAD B1 - semestre d’automne 2021-2022

8.3 Calcul mathématique


8.3.1 Calculer la corrélation à partir des scores bruts

Covariance : La covariance représente la même information que la corrélation mais elle


n’est pas limitée dans sa valeur (pas forcément entre -1 et 1).
Calculer à partir des scores Covariance
Calculer à partir des scores bruts sx,y standardisés à partir de scores standardisés:
Population Échantillon rx,y =
sx sy

Pour l’échantillon : Pn
i=1 (xi − mx )(yi − my )
sx,y = = position simultanées des x et y en fonction de
n−1 leurs moyennes

La corrélation est une covariance standardisée.

8.3.2 La corrélation ajustée pour estimer ρ

Pour les petits échantillons. La corrélation ajustée (raj ) est une estimation relativement
Plus l'échantillon est petit plus l'estimation de la corrélation de la
non biaisée de ρ (corrélation de la population). population à patir de l'échantillon sera biaisée
s
2
aj (1 − rx,y )(n − 1)
rx,y = 1−
n−2

8.4 L’inférence statistique dans la corrélation


Dans le student
Loi de cas de laavec
corrélation,
ddl = sous
n − 2.H0 cette statistique suit la Loi de student avec ddl = n - 2.

r n−2
t= √ ∼ St(n − 2)
1 − r2

8.5 Fisher’s r to z
Comparer une corrélation à un autre chiffre que 0
1 1+r
 
z
r = ln
2 1−r

Maud Dennebouy 20 sur 30


IMAD B1 - semestre d’automne 2021-2022

Pour n ≥ 20, Fisher a montré que la distribution! d’échantillonnage de rz est approxima-


1 1+ρ 1
tivement normale, de moyenne ρz = ln et de variance .
2 1−ρ n−3
Pour tester H0 : ρ = ρzH0 , on utilise la statistique standardisée (→ score z)

rz − ρzH0
z= s
1
n−3

8.5.1 Comparer une corrélation à un autre chiffre que 0

Démarche :
1 1+r
 
z z
1. Trouver r grâce à la formule r = ln , où r est la corrélation à comparer.
2 1−r
!
zH0 zH0 1 1+ρ
2. Trouver ρ grâce à la formule ρ = ln , où ρ est la valeur à laquelle
2 1−ρ
on souhaite comparer notre corrélation.
3. Trouver n, le nombre d’observations
rz − ρzH0
4. Trouver z grâce à la formule z = q 1 .
n−3
5. Trouver la p-valeur à l’aide de la table de score z.

8.5.2 Comparer deux corrélations entre elles

Démarche :
1 1+r
 
1. Trouver r1z et r2z z
grâce à la formule r = ln , où r est une des corrélations
2 1−r
à comparer. = faire la transformation r to z pour les deux groupes
2. Trouver n1 et n2 , les nombres d’observations
r1z − r2z
3. Trouver z grâce à la formule z = q
1
.
n1 −3
+ n12
4. Trouver la p-valeur à l’aide de la table de score z.

8.6 Le coefficient de corrélation de Spearman


Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s’il existe
une relation entre le rang des observations pour deux variables X et Y.
— −1 ≤ rSp ≤ 1
— L’interprétation est la même que pour la corrélation de Pearson
— Pour les données qualitatives ordinales ou quantitatives = données ordonnées
— Peut mettre en évidence des relations non-linéaires lorsqu’elles sont positives ou
négatives

Maud Dennebouy 21 sur 30


IMAD B1 - semestre d’automne 2021-2022

— Transforme les scores, peut donc être utilisé comme estimateur robuste de la corré-
lation de Pearson.
Le coefficient de corrélation de Spearman rSp est utilisé dans plusieurs cas de figure :
1. Si les conditions d’application pour la corrélation de Pearson sont largement violée
(on fait appel dans ce cas à une estimation dite robuste). Les conditions d’application
pour la corrélation de Pearson sont : ==> écart en r et rspearman est un indicateur pour savoir si le nuage est
problématique
— Linéarité de la relation
— Pas de valeurs extrêmes dans le nuage de points
2. Pour détecter des relations monotones quelque soit leur forme précise (exponentielle,
puissance).
Monotonie : Une fonction qui est constamment croissante ou constamment dé-
croissante sur un intervalle est dite monotone. La linéarité n’est pas nécessaire pour
lien entre x et y est
la monotonie. Monotonie: si X augmente alors Y augmente, pattern peut changer
Linéarité: si X augment alors Y augment d'autant, constamment parfaitement monotone si
rspearman = 1
3. Si les données représentes des rangs.
La corrélation de Spearman se calcul de la même manière que la corrélation de Pearson
mais sur les rangs.

8.7 Le tau de Kendall


Le tau de Kendall (rτ ) est une mesure d’association basée su rle nombre de concordances
(c) est de discordances (d) dans des paires d’observations. Comme Spearman, c’est une
mesure d’association pour des données de rangs.
La concordance a lieu lorsque les paires d’observation varient ensemble et la discordance
lorsque les paires d’observations varient de manière différente.
Même si la valeur du tau de Kendall est comprise en 1 et -1 et que 0 indique une absence
de lien, il ne faut pas l’interpréter comme / comparer avec une corrélation. Calcul :
s'il n'y a pas d'ex aequo:
c d
rτ = − = proportion de c − proportion de d
c+d c+d S'il y a + de concordances --> tau élevé
S'il y a + de discordances --> tau faible

8.8 Corrélation bisériale de points rbp


La corrélation bisériale de point rbp est utilisée entre une variable quantitative continue
(ou quantitatives discrète avec beaucoup de valeurs) et une variables dichotomique (avec
seulement deux valeurs).
Calcul :
1. Coder la variable dichotomique (0 et 1) pour la rendre muette
2. Calculer rPearson entre la variable muette et la variable quantitative. On obtient le
coefficient de corrélation bisériale de point rbp .
Interprétation :

Maud Dennebouy 22 sur 30


IMAD B1 - semestre d’automne 2021-2022

— La valeur de la corrélation bisériale de points est toujours comprise entre -1 et 1.


— Attention à l’interprétation du signe, car il est totalement dépendant du codage de
la variable dichotomique.
2
— Le coefficient rbp est interprété comme le coefficient rPearson . Ainsi rbp est le pour-
centage de variance expliquée de la variable continue par la variable dichotomique.

8.9 Coefficient Phi Φ


Le coefficient Phi Φ est utilisé entre deux variables dichotomiques (avec seulement deux
valeurs). Compris entre -1 et 1, le signe n'est pas interprété car dépend du codage des deux variables
1. Coder les 2 variables dichotomiques (0 et 1) pour les rendre muettes.
2. Utiliser la corrélation de Pearson entre ces 2 variables muettes. On obtient le coef-
ficient Φ.
Pour tester la significativité de , on applique le test d'indépendance du de Pearson

8.10 Phi de Cramér Φc


Le coefficient Φ ne s’applique qu’aux tableau 2x2 (ou variables dichotomiques).
La généralisation aux tableaux LxC se fait par le Φ de Cramér, aussi noté Φc . cf. 7.3.2.
Meilleure mesure d'association entre 2 variables qualitatives nominales ou ordinales

8.11 Rapport de cotes


Dans certains domaines (en particulier en médecine), le rapport de cotes est très souvent
utilisé comme mesure d’association car il est interprétable en terme de risque, de sus-
ceptibilité. Particulière adapté si une modalité a de faibles fréquences, tout en étant la
modalité d’intérêt.
p1 (1 − p2 )
RCp1 ,p2 =
p2 (1 − p1 )
Où p1 et p2 sont les probabilités associées à chaque modalité. Le rapport de cotes équivaut
à dire « Il y a RCp1 ,p2 plus de chance que la modalité associée a p1 se produise plutôt que
la modalité associée a p2 . ».

Maud Dennebouy 23 sur 30


IMAD B1 - semestre d’automne 2021-2022

8.12 Quelle mesure d’association utiliser ?

9 Régression linéaire
9.1 Droite de régression linéaire
La droite de régression linéaire est une droite de prédiction → prédire y selon x.
Cette droite de prédiction sera construite sur la base d’une étude mesurant le lien ente y
et x dans un échantillon, autrement dit en mesurant chez les sujet leur score sur x et sur
on crée un lien sur la base d'un échantillon qui permet de
y, afin d’inférer un lien pour la population.prédire le score d'un individu de la population
Pour l’échantillon (ri = résidus, erreur possible de prédiction) :

yi = b0 + b1 xi + ri

9.1.1 Comment estimer la droite de régression linéaire

Sachant que la prédiction parfaite est :

yipred = b0 + b1 xi

donc
ri = yi − yipred

Pour construire la meilleure estimation de la droite de régression linéaire, statistica mini-


mise les résidus (en faisant en sorte que la somme des résidus au carré soit la plus faible
possible)

9.1.2 Interprétation des coefficients de régression

b0 est l’intercept, et représente la meilleure prédiction de y pour un individu avec x = 0.


b1 est la pente, et représente le changement attendu de y pour un changement d’une
unité de x.

Maud Dennebouy 24 sur 30


IMAD B1 - semestre d’automne 2021-2022

La meilleure estimation des coefficients de régression est :

b0 = my − b1 mx
sx,y
b1 =
s2x

9.2 Les postulats


1. Postulat de linéarité
2. Postulat sur les résidus
Il faut que ri ∼ N (0; σ 2 ). Autrement dit il faut que :
— Les résidus soient distribués (approximativement) normalement.
— Les résidus soient centrés en 0
— La variance des résidus soit constante pour toute valeur du prédicteur.
3. Le prédicteur doit être mesuré sans erreur (au pire erreur aléatoire)

9.3 La taille d’effet


Comme taille d’effet de cette prédiction nous utilisons le coefficient de détermination (R2 ).
Le R2 mesure la proportion de variance de y expliquée par sa relation avec x.
ssexp
R2 =
ssexp + ssres

On peut dire que « x explique (R2 × 100)% de la variance de y.


Lorsque l’on a peu de sujets, et/ou plusieurs prédicteurs dans notre regression linéaire,
on peut utiliser le coefficient de détermination ajusté qui permet de voir si le R2 est trop
biaisé par l’un ou l’autre de ses paramètres :
!
2∗ 2 n−1
R = 1 − (1 − R )
n−p−1

Où n est la taille de l’échantillon et p le nombre de paramètres (2 dans la RLS).

Maud Dennebouy 25 sur 30


IMAD B1 - semestre d’automne 2021-2022

10 Introduction à la comparaison de moyenne : les


tests t de Student et l’ANOVA
ANOVA :C’est un acronyme anglais pour décrire l’ANalyse Of VAriance. On va parler
d’analyse de la variance pour comparer des moyennes entre elles.

10.1 Le test t de Student à un échantillon


On veut comparer mx à une valeur précise mais on ne connaît pas σx2 .

Postulats :
— X∼N (=variable d'intérêt suit la loi normale)

— Tous les xi sont indépendants (=valeurs obtenues sur les sujets n'ont pas de lien)
Calcul : Test t avec ddl =n − 1
mx − µh0
t= s

n
On utilise le d de Cohen pour calculer la taille d’effet : = différence de moyenne en unités d'écart-type

mx − µH0
d=
sx

le d de Cohen est une différence de moyenne en unité d’écart-type.

10.2 Le test t de Student à deux échantillons non appariés


On veut comparer la moyenne d’un échantillon (mx1 ) à la moyenne d’un autre échantillon
indépendant (mx2 ). n1 n’est pas obligé d’être égal à n2 .
==> 2 groupes sont des échantillons indépendants, sujet appartient soit à une modalité soit à l'autre
Postulats :
— X1 ∼ N et X2 ∼ N
— Tous les x1i et x2i sont indépendants
2 2
— Homogénéité de la variance : σX 1
= σX 2
(contrôler graphiquement/test de Levene
dans statistica)
Calcul : Nous pondérons(faisons la moyenne) les deux estimations s2x1 et s2x2 pour obtenir
s2P , l’estimation combinée de la variance (pooled variance) et on obtient la formule du test
t de Student à 2 échantillons non appariés tel que :

m x − m x2
t = s 12
sP s2
+ P
n1 n2

avec ddl= n1 + n2 − 2

Maud Dennebouy 26 sur 30


IMAD B1 - semestre d’automne 2021-2022

10.3 Le test t de Student à deux échantillons appariés


On veut comparer la moyenne d’un échantillon (mx ) dans deux conditions différentes
(plan expérimental simple à mesure répétées). → On viole le postulat d’indépendance.

Postulats :
— (X1 − X2 ) ∼ N
— Indépendance entre les paires x1 , x2 (=dépendance par paire d'individus)
— ρX1 ,X2 ̸= O
Calcul : Test t de Student à un échantillon sur scores de différences (D) :

m D − µH 0
t= s où mD = mx1 − mx2
s2D
n
H0: score de différence est nul = score ne change pas après
Avec ddl =n − 1 manipulation
H1: score de différence est non nul = score change après manipulation

10.4 Les cas de plus de 2 groupes : ANOVA


Le test t de Student compare uniquement 2 groupes/conditions. Si plus de 2 groupes
sont présents le test t de Student est généralisé dans l’Analyse de variance (ANOVA).
L’ANOVA simple (à un facteur - one-way ANOVA) à 2 groupes est donc équivalente au
test t de Student
Les test t de Student analysent la différence entre les moyennes de 2 groupes (appariés ou
non appariés) et la relativisent par rapport à la variabilité dans chaque groupe. L’ANOVA
généralise ce principe.
L’ANOVA est utilisée pour analyser une variable quantitative continue :
— En fonction d’un critère de catégorisation avec plus que 2 classes (une VI qualitative
à plus que 2 modalités) ⇒ ANOVA simple
— En fonction de plusieurs critère de catégorisation considérés simultanément (plu-
sieurs VIs qualitatives croisées) ⇒ ANOVA factorielle
utilise la statistique F: variance des moyennes / moyenne des variances

Maud Dennebouy 27 sur 30


Index

A Chevauchées 11
ANOVA 26, 27 Horizontales 11
Appariement systématique 7 Verticales 11
Association 19 À bâtons 11
Asymétrie 12 À secteurs 10
Négative 12 Linéaire 10
Positive 12 Diffusion de traitement 8
Attentes expérimentales 8 Distribution normale 15
Attribution aléatoire 7 Centrée réduite 16
Droite de régression linéaire 24
B
Biais d’échantillonage 4 E
Boxplot 14 Écart interquartile 13
Écart-type 13
C Échantillon 4
Coefficient Échelle 10
de Corrélation linéaire 19 d’Intervalles 10
de Détermination 25 Nominale 10
Ajusté 25 Ordinale 10
Phi 23 de Rapport 10
de Régression 24 Effet de retest 8
Compensation par le chercheur 8 Espérées 18
Compétition compensatoire 8 Étendue 13
Continuité 5 Événement 15
Contre-balancement 9
F
Corrélation 19, 20
Fisher’s r to z 20
Ajustée 20
Bisériale de points 22 G
de Pearson 19 Groupe
de Spearman 21 Expérimental 7
Covariance 20 Contrôle 7

D H
d de Cohen 26 Histoire 8
Démarche scientifique 4 Hypothèse 5
Démoralisation avec ressentiment 8 Non orientée 16
Densité de probabilité 15 Opérationnalisation de l’hypothèse 5
Diagramme Orientée 16
À bandes rectangulaires 10 Réfutable 5

28
IMAD B1 - semestre d’automne 2021-2022

I Simple 7
Inférence statistique 16 À groupes indépendant 7
Instrumentation 8, 9 À mesures répétées 8
Intercept 24 Plan quasi-expérimental 9
Population 4
K
Positionnement théorique 5
Khi carré 17
Probabilité 15
L Procédé
Loi Du double aveugle 8
Additive des probabilités 15 Du simple aveugle 8
Normale 15 Q
Quantile 14
M
Quartile 14
Maturation 8
Médiane 12 R
Mesures Rang 14
de Dispersion 13 Rapport de cotes 23
de Tendance centrale 11, 12 Réalisation 15
Méthode scientifique 4 Recension des écrits 5
Mode 11 Redéfinition 5
Monotonie 22 Régression
Mortalité expérimentale 9 Linéaire 24
Moyenne 12 Statistique vers la moyenne 9

N S
Non-équivalence 8 Score z 14
Sélection 8
O Statistique inférentielle 16
Opérationnalisation 5
T
Des variables 5
t de Student 20, 26
Du cadre théorique 5
À deux échantillons appariés. 27
Opposition 5
À deux échantillons non appariés. 26
P À un échantillon 26
P-valeur 16 Tableau
Pente 24 À double entrée 11
Phi de Cramér 18, 23 De fréquences 10, 11
Pie chart 10 Tau de Kendall 22
Placebo 8 Test
Plan corrélationnel 9 d’Ajustement 17, 18
Plan expérimental 7 d’Indépendance 17
Factoriel 9 Théorie 5

Maud Dennebouy 29 sur 30


IMAD B1 - semestre d’automne 2021-2022

U Provoquées 7
Unité statistique 4 Parasite 7, 8
Qualitative 10
V Nominale 10
Variable 6, 10, 11 Ordinale 10, 12
Aléatoire 15 Quantitative 10, 12
Dépendante 7 Continue 10
Indépendante 6 Discrète 10, 11
Invoquées 7 Variance 13

Maud Dennebouy 30 sur 30

Vous aimerez peut-être aussi