Vous êtes sur la page 1sur 103

Biostatistique – partie 2

1.1- Objectif et utilité


Analyses des données statistiques

Choix de la méthode d’analyse

Plus technique
Descriptive
-ANOVA
-Tri à plat/croisé
- Régression
- Analyse factorielle
- ect,

Rédaction du rapport élément


essentiel de la communication des
résultats

2
1.1- Objectif et utilité
Analyses des données statistiques

Trois types d’étude:


- Descriptives: données brutes pour créer des structures
décrivant les caractéristiques d’une population .
-Explicatives: transformer les données brutes en structures explicant
les relations de causalité entre 2 ou plusieurs variables .

- Prédictives: transformer les données brutes sur les


caractéristiques comportementales d’une population pour
créer des modèles prédisant certaines variables. modélisation

3
1.2- Stratégie d’analyse
Analyses des données statistiques

Univariée
Tris à plat, description de l’échantillon, recodage

Bivariée
Tris croisés, mesure d’association

Multivariée
Descriptive par groupes de variables
Explicative entre groupe de variables

4
NIVEAU 1 d’étude:
- Descriptives: données brutes pour créer des structures
décrivant les caractéristiques d’une population.

A- Description des données

1- Description d’une variable

2- Analyse ‘Bivariée’

3- Théorie des ‘Test statistiques’

5
2.1- Description d’une variable

Variable qualitative: effectifs, fréquences = tri à plat;

Analyse > Statistiques descriptives > Effectifs


Mode d'hébergement
Effectifs Pourcentage Pourcentage Pourcentage
valide cumulé
nr 16 2,9 2,9 2,9
Camping 113 20,5 20,5 23,4
Famille /
179 32,4 32,4 55,8
amis
Valide
Hôtel 104 18,8 18,8 74,6
Location
140 25,4 25,4 100,0
/ gîte
Total 552 100,0 100,0

Description simple des variables quantitatives


6
Variable quantitative:
Tendance centrale: moyenne, médiane, mode;
Dispersion: étendue, Variance, écart-type, coefficient de variation;
Distribution: asymétrie, aplatissement;
Graphiques: histogramme, boites à moustaches;

7
2.2- Analyse bivariée

Tris croisés (relations entre 2 variables ou plus).


Relations symétriques: mesurer la liaison entre 2 variables
et tester la signification.

Relations Dissymétriques: expliquer les variations d’une


variable dépendante par les variations d’une variable indépendante
( Régression, etc.).

8
D’une manière pratique
Gestion des données

•Discrétiser une variable continue dans Excel

•Echantillonner une distribution dans Excel

•Transformation de Johnson dans Excel

•Transformation Box-Cox dans Excel

•Tri croisé ou tableau de contingence dans Excel


D’une manière pratique
Statistiques descriptives

•Générateur de tableaux croisés dans Excel

•Moyenne, médiane, écart-type et autres statistiques dans Excel

•Test de Shapiro-Wilk et d'autres tests de normalité dans Excel

•Asymétrie et aplatissement d’une distribution dans Excel

•Calculer des quantiles / centiles avec Excel

•Tri à plat, mode & diagramme en bâtons sous Excel


D’une manière pratique
Visualisation des données

•Tableau croisé

•Boîtes à moustache - box plots - avec Excel

•Nuage de points - scatter plot - avec Excel

•Graphiques 3D pour tableaux croisés dans Excel


D’une manière pratique
Tests d'hypothèses

Tests paramétriques
•Tests t et z pour un échantillon dans
Excel

•Test t de Student pour deux


échantillons appariés

•Test t de Student sur deux


échantillons indépendants

•Test F de Fisher pour comparer 2


variances dans Excel

12
D’une manière pratique
Tests d'hypothèses
Tests des valeurs extrêmes

•Test de Dixon pour les valeurs


extrêmes

•Test de Grubbs pour les valeurs


extrêmes

•Test C de Cochran pour les


variances extrêmes

13
D’une manière pratique
Tests d'hypothèses
Tests de corrélation

•Kappa de Cohen : tutoriel dans Excel

•Coefficient de corrélation de
Pearson dans Excel

•Test du khi² et test exact de Fisher


dans Excel

14
Les tests paramétriques et non paramétriques

Tests d’hypothèses

Tests paramétriques Tests non paramétriques

Deux Deux
Échantillon Échantillon
échantillons échantillons
unique unique
ou plus ou plus
- Test t -Khi-deux
- Test z - Kolmogorov
- Smirnov
- Binomial

Échantillons Échantillons Échantillons Échantillons


indépendants appariés indépendants appariés

- Test t à 2 classes -Khi-deux -Khi-deux


- Extension du test t
- Test z - Mann - Signe
-Whitney - Wilcoxon
- Kolmogorov - McNemar
- Smirnov
15
Vue synoptique du cours
6. L’analyse de la variance
7. Corrélation et régression
8. Analyses des données

16
Nouvelles questions

⚫Imaginons le problème suivant:


◦ Les chats présentent 3 groupes sanguins (A, B et AB).
◦ On souhaite savoir si la concentration d’un anticorps
particulier dépend du groupe sanguin.
◦ De plus, le sexe pourrait avoir un effet sur cette
concentration, ce qu’on souhaite vérifier.
◦ En outre, l’effet éventuel du groupe sanguin pourrait ne pas
être le même chez les mâles et chez les femelles.
◦ Comment vérifier (tester) toutes ces hypothèses ?
Nouvelles questions

⚫L’approche statistique
◦ Dans les 3 questions posées, on veut tester la dépendance d’une
variable continue (la concentration) sur une ou plusieurs variables
discrètes (le groupe sanguin, le sexe ou leur combinaison)
◦ On peut mettre ces questions sous la forme d’hypothèses (nulles)
statistiques à tester
🞄 𝐻0: 𝜇Æ = 𝜇𝑏 = 𝜇Æ𝑏
🞄 𝐻0: 𝜇Æ|𝑆 = 𝜇𝑏|𝑆 = 𝜇Æ𝑏|𝑆
🞄 𝐻0′: 𝜇𝑀|𝐺𝑆 = 𝜇𝐹|𝐺𝑆
🞄 𝐻0′′ : 𝜇𝑀,Æ = 𝜇𝐹,Æ = 𝜇𝑀,𝑏 = 𝜇𝐹,𝑏 = 𝜇𝑀,Æ𝑏 = 𝜇𝐹,Æ𝑏
Nouvelles questions
⚫L’approche statistique (suite)
◦ Ces hypothèses nulles généralisent ce qui a été vu
précédemment (test de t) dans plusieurs
directions:
• 🞄 Comparaison de n (≥ 2) moyennes
Nouvelles questions
⚫L’approche statistique (suite)
◦ Ces hypothèses nulles généralisent ce qui a été vu
précédemment (test de t) dans plusieurs
directions:
• 🞄 Plusieurs effets testés simultanément
Nouvelles questions
⚫L’approche statistique (suite)
◦ Ces hypothèses nulles généralisent ce qui a été vu
précédemment (test de t) dans plusieurs
directions:
• 🞄 Interactions entre effets
Analyse de la variance

⚫Cette partie va traiter du premier problème (comparaison de


≥ 2 groupes) via une technique appelée « analyse de la variance à 1
critère » (ANOVA1)
⚫La partie suivante abordera les autres questions en utilisant des «
analyses de la variance à 2 critères (avec interaction) » (ANOVA2 -
ANOVA2h - ANOVA2i)
⚫Nous commençons donc avec le test de l’hypothèse nulle:

𝐻0: 𝜇1 = 𝜇2 = ⋯ = 𝜇𝐾

où 1 … 𝐾 correspondent à des conditions différentes, et 𝜇i est la moyenne d’un


caractère étudié correspondant à la condition i.
Principes de l’ANOVA ou l’analyse de la
variance

• L'analyse de la variance (ANOVA) est une méthode utilisée


pour partitionner la variance observée dans une variable
particulière en composantes attribuables à différentes
sources de variation.
• Elle utilise le même cadre conceptuel que la régression
linéaire (voir chapitre suivant) La principale différence vient
de la nature des variables explicatives : au lieu d'être
quantitatives, elles sont ici qualitatives. Dans l'ANOVA, les
variables explicatives sont généralement appelées facteurs.
Principes de l’ANOVA ou l’analyse de
la variance
• Dans tous les cas, l'hypothèse nulle de l'ANOVA est que
la variance de la variable dépendante ne varie pas en
fonction des modalités du ou des facteurs.
• Si l'hypothèse nulle ne peut être acceptée, nous pouvons
conclure que les facteurs influencent significativement
les valeurs de la variable dépendante.
• Vous ignorez si l'ANOVA est adaptée à vos données ?
Vous souhaitez savoir quand utiliser une ANOVA ?
Consultez le guide pour choisir le bon outil de
modélisation en fonction de votre situation
Analyse de la variance (1 critère)
⚫Revenons au problème relatif à la concentration d’anticorps chez le chat en
fonction du groupe sanguin
⚫L’hypothèse (nulle) que nous souhaitons tester est ici:

𝐻0: 𝜇Æ = 𝜇𝑏 = 𝜇Æ𝑏

𝜇Æ = 𝜇𝑏
qui pourrait aussi s’écrire: 𝐻0: {𝜇 = 𝜇
Æ Æ𝑏
◦ Remarque: la troisième égalité découle des 2 premières
⚫L’hypothèse alternative 𝐻1 est qu’au moins une des égalités est incorrecte.
Analyse de la variance (1 critère)
⚫Une fois l’hypothèse nulle établie, nous pouvons
récolter des données pour nous aider à accepter (ou
réfuter) celle-ci:

Groupes A b Ab

104 120 98

106 112 104

90 101 101

Moyennes 100 111 101 104


Analyse de la variance (1 critère)

⚫On constate que les moyennes d’échantillons sont


différentes, ce qui n’est pas suffisant pour en déduire
que les moyennes des populations correspondantes le
sont aussi:

Moyennes 100 111 102

⚫L’approche que nous allons prendre est basée sur l’idée


détaillée dans les diapositives suivantes.
⚫Nous commençons par détailler la notation utilisée.
Analyse de la variance (1 critère)

⚫Le premier indice donne le groupe, le second


identifie le numéro d’observation à l’intérieur du
groupe:
Groupes A b Ab

𝑌Æ1 𝑌𝑏1 𝑌Æ𝑏1

𝑌Æ2 𝑌𝑏2 𝑌Æ𝑏2

𝑌Æ3 𝑌𝑏3 𝑌Æ𝑏3

Moyennes 𝑌̅Æ. 𝑌̅𝑏. 𝑌̅Æ𝑏. 𝑌̅.


Analyse de la variance (1 critère)
⚫L’idée de base est la suivante:
◦ On suppose que les données de chaque groupe constituent un
échantillon extrait d’une population normale, chacune des
populations ayant la même variance. Formellement:

𝑌Æi ~𝑁 𝜇Æ, 𝜎 2 , 𝑌𝑏 i ~𝑁 𝜇𝑏 , 𝜎 2 , 𝑌Æ𝑏 i ~𝑁 𝜇Æ𝑏 , 𝜎 2

◦ Si 𝐻0 : 𝜇Æ = 𝜇𝑏 = 𝜇Æ𝑏 = 𝜇 est vraie, les distributions


correspondantes sont 𝑁 𝜇, 𝜎 2 et sont donc confondues, alors
qu’au moins une des distributions diffère des autres par sa
moyenne si 𝐻1 est vraie.
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante (suite):
◦ Graphiquement:

H0 H1
Analyse de la variance (1 critère)

⚫L’idée de base est la suivante (suite):


◦ Nous allons estimer la variance 𝜎 2 de 2 manières différentes.
◦ La première méthode est une estimation intra- groupe: on estime
la variance dans chaque groupe (elles sont supposées identiques),
et on fait une moyenne pondérée (par la taille du groupe) de ces
estimations. Formellement:

𝑛Æ− 1 ∗ 𝑠2 + 𝑛Æ𝑏 − 1 ∗ 𝑠2 + 𝑛𝑏 − 1 ∗ 𝑠2
2 Æ Æ𝑏 𝑏
𝑠i𝑛 𝑡𝑟 =
𝑛Æ− 1 + 𝑛Æ𝑏 − 1 + 𝑛𝑏 − 1
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante
(suite):
◦ Comme:
🞄 𝑠Æ =
2 i=1 𝐴i
où 𝑦Æi = 𝑌Æi− 𝑌̅Æ.
𝑛 −1
∑ 𝑛𝐴 𝑦 2
∑ 𝑛 𝐴 𝑏 𝑦 2𝐴 𝑏 i
2
🞄 𝑠Æ𝑏 = i=1
où 𝑦Æ𝑏i = 𝑌Æ𝑏i − 𝑌̅Æ𝑏.
𝑛 𝐴𝑏 −1

∑ 𝑛 𝑏 𝑦 2𝑏 i
🞄 𝑠𝑏2 = i=1 où 𝑦𝑏i = 𝑌𝑏i − 𝑌̅𝑏.
𝑛 𝑏 −1
🞄 𝑛 = 𝑛Æ + 𝑛Æ𝑏 + 𝑛𝑏 et 𝑛𝐺 = # 𝑔𝑟o𝑢𝑝e𝑠 = 3

𝑛 𝐴𝑏
∑ 𝑛 𝐴 𝑦 𝐴2 i+∑ 𝑦2 𝑛
+∑i =𝑏 𝑦 𝑏2
◦ 𝑠i𝑛
2
𝑡𝑟 =
i=1
i =𝑛−𝑛 𝐴 𝑏 1 i
𝘎
1 i
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante (suite):
◦ La seconde méthode est une estimation inter
groupes: si 𝐻0 est vraie, chaque groupe peut être vu
comme un échantillon.
🞄 La moyenne de chaque échantillon (𝑌̅Æ.,𝑌̅Æ𝑏.,𝑌̅𝑏.)estime𝜇
2
🞄 La variance de ces moyennes estime 𝜎 , où n𝑛 est la taille
des échantillons.
Si les tailles des échantillons
diffèrent, il est aisé de montrer que:
𝑛𝘎
2 ∑i=1 𝑛 i ∗ 𝑌̅i.−𝑌̅..2
𝑠 i𝑛𝑡e𝑟 = 𝑛 𝘎 −1
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante (suite):
◦ Pour cette seconde méthode, si 𝐻0 est fausse:
🞄 Les moyennes de groupes estiment des valeurs différentes
(𝜇Æ, 𝜇Æ𝐵 e𝑡 𝜇𝑏 ), et auront donc tendance à être plus
différentes que quand 𝐻0 est vraie.
🞄 Autrement dit, la variance de ces moyennes aura tendance à
𝜎2
être supérieure à 𝑛
.
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante (suite):
◦ En résumé:
i𝑛 𝑡 𝑟 𝑎 i𝑛 𝑡 e𝑟
🞄 Si 𝐻0 est vraie, 𝑠2 et 𝑠2 estiment la même variance
(𝜎2). Le rapport de ces deux variances a donc une
distribution connue :
𝑠i2𝑛 t e r
~𝐹𝑛 𝘎 −1,𝑛−𝑛 𝘎
𝑠i2𝑛 t r

🞄 Si 𝐻0 est fausse, 𝑠2 < 𝑠2 en général, et donc:


i𝑛𝑡𝑟𝑎 i𝑛𝑡e𝑟

𝑠i2𝑛 t e
𝑠ir2𝑛 t r
> 𝐹𝑛 𝘎 −1,𝑛−𝑛 𝘎
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante (suite):
◦ On pourra donc faire la distinction entre 𝐻0 et 𝐻1 en
regardant la valeur de F calculée comme expliqué ci-
dessus:
🞄 On définit une valeur 𝐹𝑠e𝑢i𝑙 comme une valeur de F qu’on
excède par hasard qu’avec une probabilité 𝛼
🞄 Si 𝐹 < 𝐹𝑠e𝑢i𝑙, on accepte 𝐻0 puisqu’il n’y a pas d’évidence
d’une valeur « anormalement » élevée de F (à ce seuil)
🞄 Si 𝐹 > 𝐹𝑠e𝑢i𝑙, on rejette 𝐻0: la valeur de F semble
anormalement élevée, traduisant le fait que 𝑠 2i𝑛𝑡e𝑟 >>𝑠i𝑛𝑡𝑟𝑎
2
Analyse de la variance (1 critère)
Example ANOVA 1: XLSTAT
Les données correspondent à une expérience où 4 dentifrices ont été Dentifrice Blancheur
chacun testés sur 6 personnes afin que soit mesuré leur impact sur la T1
T1
16
17
blancheur des dents. Tous les patients utilisaient auparavant le même T1 17

dentifrice
T1 19
T1 21
T1 24
T2 18
nous cherchons ici à déterminer s'il existe une T2 20

différence significative entre les différents


T2 20
T2 21
dentifrices, et si tel est le cas, quel est le dentifrice Dentifrice T1
16
T2
18
T3
19
T4
20
T2 22
T2 23
le plus efficace. Nous sommes dans un cas 17 20 27 23 T3 19
17 20 28 24
d'ANOVA à un facteur (le type de dentifrice) 19 21 29 25
T3
T3
27
28
équilibrée puisque le nombre de répétitions est le 21
24
22
23
32
34
26
29
T3 29

même pour les différents groupes.


T3 32
T3 34
T4 20
T4 23
T4 24
T4 25
T4 26
T4 29
Analyse de la variance (1 critère)
•Sélectionner la commande XLSTAT / Modélisation / Analyse de la
Dentifri Blanche
ce ur

Variance (ANOVA). Une fois le bouton cliqué, la boîte de dialogue T1


T1
16
17
correspondant à l'ANOVA apparaît. T1
T1
17
19
T1 21
T1 24
T2 18
T2 20
T2 20
T2 21
T2 22
T2 23
T3 19
T1 T2 T3 T4 T3 27
Dentifrice
T3 28
16 18 19 20
T3 29
17 20 27 23 T3 32
17 20 28 24 T3 34
19 21 29 25 T4 20
21 22 32 26 T4 23
24 23 34 29 T4 24
T4 25
T4 26
T4 29
La partie pratique et l’interpretation des
résultats (Voir TD )
L’analyse de la variance a deux facteurs
• Une expérience

• Supposons l’experience suivante:


3 régimes sont testes sur des chiens de 4 races différentes. Un
chien de chaque race, choisi au hasard, est alloue a chacun
des 3 régimes, et le gain pondéral sur 2 mois est mesure.
L’analyse de la variance a deux facteurs
L’analyse de la variance a deux facteurs
L’analyse de la variance a deux facteurs
• Quelques réflexions sur l’experience:
Plusieurs questions peuvent être posées:
• Effet du régime ?
• Effet de la race ?
• L’effet du régime est-il le même pour toutes les
• races (interaction régime * race) ?
La partie pratique et l’interpretation des
résultats (Voir TD )
Vue synoptique du cours
6. L’analyse de la variance
7. Corrélation et régression
8. Analyses des données

48
1-Corrélation
1- 1-Concepts de base de la corrélation

Définition
• Une corrélation existe entre deux variables lorsque l'une d'elles est
liée à l'autre d'une manière ou d'une autre.
• pour visualiser l'association entre deux variables nous devrions
construire un graphique appelé nuage de points ou diagramme de
dispersion.
1- 1-Concepts de base de la corrélation

• Définition
• Un nuage de points (ou diagramme de dispersion) est un graphique
dans lequel les données d'échantillon appariées (x, y) sont tracées
avec un axe x horizontal et un axe y vertical.
• Chaque paire individuelle (x, y) est tracée comme un seul point.
1- 1-Concepts de base de la corrélation
• Coefficient de corrélation linéaire
Étant donné que les examens visuels des nuages de points sont largement
subjectifs, nous avons besoin de mesures plus objectives. Nous utilisons le
coefficient de corrélation linéaire r, qui est utile pour détecter des motifs
linéaires.
Définition:
Le coefficient de corrélation linéaire r mesure la force de l'association
linéaire entre les valeurs quantitatives x et y appariées dans un échantillon.
[Le coefficient de corrélation linéaire est parfois appelé coefficient de
corrélation du Pearson.
1- 1-Concepts de base de la corrélation
Test d'hypothèse de corrélation
Pour utiliser un test d'hypothèse formel pour déterminer s'il existe une
corrélation linéaire significative entre deux variables.
En Utilisant le test t:
Utilise la distribution t de Student avec une statistique de test ayant la
forme où désigne l'écart type de l'échantillon des valeurs r.
Les hypothèses
1- 1-Concepts de base de la corrélation
le critère de décision est de rejeter l'hypothèse nulle si la valeur
absolue de la statistique de test dépasse les valeurs critiques ;
❑le rejet signifie qu'il existe des preuves suffisantes pour soutenir
l'affirmation d'une corrélation linéaire entre les deux variables.
❑Si la valeur absolue de la statistique de test ne dépasse pas les
valeurs critiques, nous ne rejetons pas, c'est-à-dire qu'il n'y a pas
suffisamment de preuves pour conclure qu'il existe une corrélation
linéaire entre les deux variables.
Une autre méthode la statistique de test est r
Si H0 est rejeté, concluez qu'il existe une corrélation linéaire significative.
Si vous ne rejetez pas H0 , alors il n'y a pas de preuves suffisantes pour conclure qu'il existe une
corrélation linéaire.
1- 1-Concepts de base de la corrélation
• Tests unilatéraux :
• Des tests unilatéraux peuvent se produire avec une affirmation d'une
corrélation linéaire positive ou une affirmation d'une corrélation
linéaire négative. Dans de tels cas, les hypothèses seront comme
indiqué ici.
calculer le coefficient de corrélation de
Pearson sur XLSTAT
Les données représentent un échantillon
de clients d’une boutique de vente de
chaussures en ligne décrits par
différentes variables (par exemple le
montant de la facture, la pointure…).

L’objectif est d’étudier les corrélations entre le montant dépensé et les


diverses caractéristiques des clients. Nos données sont quantitatives
continues. Une option est donc de nous orienter vers le coefficient de
corrélation de Pearson. Un coefficient de corrélation mesure la force de la
liaison (positive ou négative) qui peut exister entre deux variables
quantitatives.
calculer le coefficient de corrélation
de Pearson sur XLSTAT
Nous testerons également la significativité des
corrélations et générer les sorties suivantes :
• Une matrice de corrélation pour visualiser l’ensemble
de coefficients de corrélations sous forme d’une matrice,
• Une matrice des nuages de points pour afficher les
nuages de points pour toutes les combinaisons
possibles de variables deux à deux.
Le coefficient de corrélation de Pearson se calcule
avec la formule suivante :
Comment interpréter la corrélation
?
• Plus sa valeur est proche de -1, plus fort est le lien négatif
entre les variables : quand l'une augmente, l'autre
diminue.
• Plus sa valeur est proche de 1, plus fort est le lien positif
entre les variables : les deux variables augmentent ou
diminuent simultanément.
Si le coefficient de corrélation est proche de 0, cela
signifie qu'il n'y a pas de lien entre les deux variables.
Comment tester la significativité ?
• Une statistique de test est calculée avec la formule ci-
dessous qui suit une distribution de Student à n-2
degrés de liberté.

Si ces valeurs dépassent les bornes définies par le seuil


alpha=0.05, alors l'hypothèse nulle est rejetée et le coefficient de
corrélation de Pearson est significativement différent de 0.
Paramétrer le calcul du coefficient de
corrélation de Pearson avec XLSTAT
• Voir TD
2- Régression
2-1-Concepts de base de la régression
L'équation de régression exprime une association entre x (appelée
variable indépendante, ou variable prédictive, ou variable explicative) et y
(appelée variable dépendante, ou variable de réponse). L'équation
typique d'une ligne droite
est exprimée sous la forme

où est l'ordonnée à l'origine et est la pente.


• La notation donnée montre que b0 et B1 sont des statistiques
d'échantillon utilisées pour estimer les paramètres de population et
nous utiliserons des données d'échantillons appariées pour estimer
l'équation de régression.
La différence entre régression et
corrélation
• La corrélation mesure l'intensité de la liaison entre des
variables, tandis que la régression analyse la relation
d'une variable par rapport à une ou plusieurs autres.
2-1-Concepts de base de la régression
Conditions
• l'équation de régression linéaire peut toujours être trouvée, mais les
exigences suivantes doivent être satisfaites lors des inférences sur la
ligne de régression
• 1- Pour L'échantillon de données doit être: appariées (x, y), aléatoire et
de données quantitatives. (Il est important que les données de
l'échantillon n'aient pas été collectées à l'aide d'une méthode
inappropriée, telle que l'utilisation d'un échantillon à réponse
volontaire.)
• 2. L'examen visuel du nuage de points doit suggérer que les points se
rapprochent d'un motif en ligne droite.
2-1-Concepts de base de la régression
Utilisation de l'équation de régression pour les prédictions
Les équations de régression sont souvent utiles pour prédire la valeur
d'une variable, étant donné une valeur particulière de l'autre variable.
❑Si la droite de régression correspond assez bien aux données, il est alors
logique d'utiliser son équation pour les prédictions, à condition de ne pas
dépasser la portée des valeurs disponibles.
❑C'est-à-dire, ne fondez pas les prédictions sur des valeurs qui dépassent
de loin les limites des données d'échantillon connues.
2-1-Concepts de base de la régression
• Nous devrions utiliser l'équation de la droite de régression pour les
prédictions uniquement si l'équation de régression est un bon modèle
pour les données.
• Pour être plus précis, nous ne devrions utiliser l'équation de
régression pour les prédictions que s'il existe une corrélation linéaire
significative. En l'absence d'une corrélation linéaire significative, nous
ne devrions pas utiliser l'équation de régression pour projeter ou
prédire ; au lieu de cela, notre meilleure estimation de la deuxième
variable est simplement sa moyenne d'échantillon.
2-2- Interprétation de l'équation de
régression
Changement marginal
• Nous pouvons utiliser l'équation de régression pour voir l'effet sur
une variable lorsque l'autre variable change d'un montant spécifique
• En travaillant avec deux variables liées par une équation de
régression, la variation marginale d'une variable est la quantité
qu'elle change lorsque l'autre variable change d'exactement une
unité.
• La pente dans l'équation de régression représente le changement
marginal de y qui se produit lorsque x change d'une unité.
2-2- Interprétation de l'équation de
régression
Valeurs aberrantes et points d'influence
• Une analyse de régression de corrélation de données bivariées (appariés)
doit inclure une enquête sur les valeurs aberrantes et les points influents,
définis comme suit.
Définition
• Dans un nuage de points, une valeur aberrante est un point éloigné des
autres points de données.
• Les données d'échantillons appariées peuvent inclure un ou plusieurs
points influents, qui sont des points qui affectent fortement le graphique
de la droite de régression.
• Une valeur aberrante est facile à identifier : examinez le nuage de points et
identifiez un point qui est loin des autres.
2-2- Interprétation de l'équation de
régression
• Les Résidus
l'équation de régression représente la ligne droite qui correspond « le
mieux » aux données. et le critère utilisé pour déterminer la ligne qui
est meilleure que toutes les autres est basé sur les distances verticales
entre les points de données d'origine et la ligne de régression
Pour un échantillon de données appariées (x, y), un résidu est la
différence entre une valeur y de l'échantillon observé et la valeur qui
est la valeur de y qui est prédite à l'aide de l'équation de régression.
2-2- Interprétation de l'équation de
régression
• Propriété des moindres carrés
• L'équation de régression représente la ligne qui correspond « le
mieux » aux points selon la propriété des moindres carrés suivante.
• Définition
• Une droite satisfait la propriété des moindres carrés si la somme des
carrés des résidus est la plus petite possible.
2-3- Intervalles de variation et de prédiction
• Variation expliquée et inexpliquée
• Nous avons utilisé le coefficient de corrélation linéaire r pour
déterminer s'il existe une corrélation linéaire significative entre deux
variables, notée x et y.
• la valeur de r peut également nous fournir des informations
supplémentaires sur la variation des points d'échantillon sur la ligne
de régression.
2-3- Intervalles de variation et de prédiction
• Exemple
• Nous commençons par un exemple de cas, qui conduit à une définition
importante (coefficient de détermination).
• Supposons que nous ayons une grande collection de données appariées, ce
qui donne les résultats suivants :
● Il existe une corrélation linéaire significative.
● L'équation de la droite de régression est
● La moyenne des valeurs y est donnée par
● L'une des paires d'échantillons de données est
● Le point (5, 13) est l'un des points sur la droite de régression, car la
substitution dans l'équation de régression donne
2-3- Intervalles de variation et de prédiction
• La figure montre que le point (5, 13) se
trouve sur la droite de régression, mais le
point (5, 19) provient de l'ensemble de
données d'origine et ne se trouve pas sur la
droite de régression car il ne satisfait pas
l'équation de régression.
2-3- Intervalles de variation et de prédiction
Supposons que nous ayons une collection de données appariées
contenant le point d'échantillon (x, y), c'est-à-dire la valeur prédite de y
(obtenue en utilisant l'équation de régression), et que la moyenne des
valeurs y de l'échantillon est y bar
L'écart total (par rapport à la moyenne) du point particulier (x, y) est la
distance verticale
qui est la distance entre le point (x, y) et la ligne horizontale passant
par la moyenne de l'échantillon
2-3- Intervalles de variation et de prédiction
• L'écart expliqué est la distance verticale
qui est la distance entre la valeur y prédite et la ligne horizontale
passant par la moyenne de l'échantillon
L'écart inexpliqué est la distance verticale
qui est la distance verticale entre le point (x, y) et la droite de
régression. (La distance est également appelée un résidu
2-3- Intervalles de variation et de prédiction
2-3- Intervalles de variation et de prédiction
• Le cas particulier peut être généralisé comme suit :
2-3- Intervalles de variation et de prédiction
Coefficient de détermination
• Le coefficient de détermination est le montant de la variation de y qui
est expliqué par la droite de régression. Il est calculé comme
2-4- Régression multiple
• Équation de régression multiple
• Une équation de régression multiple exprime une association linéaire
entre une variable dépendante y et deux ou plusieurs variables
indépendantes

• La forme générale d'une équation de régression multiple est


2-4- Régression multiple
• Exemple:
2-4- Régression multiple
• R2 Ajusté
• le coefficient de détermination multiple, qui est une mesure de
l'adéquation de l'équation de régression multiple aux données de
l'échantillon.
• Un ajustement parfait donnerait et un très bon ajustement aboutirait à
une valeur proche de 1. Un très mauvais ajustement aboutirait à une
valeur proche de 0.
• Le coefficient de détermination ajusté est le coefficient de
détermination multiple modifié pour tenir compte du nombre de
variables et de la taille de l'échantillon.
2-4- Régression multiple
Valeur P
• La valeur P est une mesure de la signification globale de l'équation de
régression multiple
• Si La valeur p est faible, cela indique que l'équation de régression
multiple a une bonne signification globale et est utilisable pour les
prédictions.
2-4- Régression multiple
• Trouver la meilleure équation de régression multiple (Voir TP)
Les limites de la régression linière
• La variable dépendante doit être continue,
• La régression linéaire est limitée aux relations linéaires
• La régression linéaire ne regarde que la moyenne de la variable
dépendante
• La régression linéaire est sensible aux valeurs aberrantes
• Les données doivent être indépendantes
2-5- Régression logistique
• La régression logistique est un modèle statistique permettant
d'étudier les relations entre un ensemble de variables qualitatives Xi
et une variable qualitative Y. Il s'agit d'un modèle linéaire généralisé
utilisant une fonction logistique comme fonction de lien
Régression logistique
• Utilisez la régression logistique pour modéliser:
▪ une variable qualitative binaire (2 modalités),
▪ ordinale (plus de deux modalités ordonnées)
▪ ou polytomique (plus de deux modalités)
en fonction de variables explicatives quantitatives ou
qualitatives.
Régression logistique
• Le principe du modèle de la régression logistique est
d'expliquer la survenance ou non d'un événement (la
variable dépendante notée Y) par le niveau de variables
explicatives (notées X).
• Par exemple, dans le domaine médical, on cherche à
évaluer à partir de quelle dose d'un médicament, un
patient sera guéri.
Modèles de la régression logistique
• Cas de la régression logistique pour des variables réponse
binomiales
• Dans le cas de la régression linéaire ordinaire, la variable
dépendante Y suit une loi normale N(μ,σ) où μ est une fonction
linéaire des variables explicatives.
• Pour la régression logistique binomiale, la variable dépendante,
aussi appelée variable réponse, suit une loi de Bernoulli de
paramètre p (p étant la probabilité pour que l'événement se
produise), lorsque l'expérience est répétée une fois, ou une loi
Binomiale(n, p) si l'expérience est répétée n fois (par exemple la
même dose est essayée sur n insectes). Dans le cas de la régression
logistique, le paramètre de probabilité p est une fonction d'une
combinaison linéaire des variables explicatives X.
Modèles de la régression logistique
Les fonctions les plus couramment utilisées pour relier la
probabilité p aux variables explicatives sont la fonction logistique
(on parle alors de modèle Logit) et la fonction de répartition de la
loi normale standard (on parle alors de modèle Probit).
Ces deux fonctions sont parfaitement symétriques et sigmoïdes.

Dans le modèle Logit, la probabilité de succès est évaluée dans la fonction F (z)

Il s'agit de la fonction de distribution cumulative logistique


standard.
Modèles de la régression logistique
• Dans le modèle Probit, la probabilité de succès est évaluée
dans la fonction G(z)

Il s'agit de la fonction de distribution cumulative normale standard.


Modèles de la régression logistique
• Dans la plupart des logiciels, le calcul des intervalles de
confiance sur les paramètres est comme pour la
régression linéaire basé une hypothèse de normalité des
paramètres.
• XLSTAT propose aussi la méthode alternative LR
( likelihood ratio ) introduite par Venzon et Moolgavkar
(1988). Cette méthode est plus fiable car elle ne
nécessite pas de supposer la normalité des
paramètres ; elle peut néanmoins ralentir les calculs car
elle est itérative.
Modèles de la régression logistique
• Cas de la régression logistique multinomiale
• Le principe de la régression logistique multinomiale est d'expliquer ou
de prédire une variable pouvant prendre J valeurs alternatives
(les J modalités de la variable), en fonction de variables explicatives. Le
cas binomial vu précédemment en est donc un cas particulier.
• Dans le cadre du modèle multinomial, une modalité de référence doit
être sélectionnée.
• Dans l'interface de XLSTAT elle est appelée « modalité témoin ».
Idéalement, on choisira ce qui correspond à la situation "de base" ou
"classique" ou "normale". Les coefficients estimés seront interprétés en
fonction de cette modalité de référence
• Le modèle proposé par XLSTAT pour relier la probabilité de survenance
d'un événement aux variables explicatives est le modèle logit qui est l'un
des quatre modèles proposés pour le cas binomial.
Modèles de la régression logistique
• Cas de la régression logistique ordinale
• Le principe de la régression logistique ordinale est
d'expliquer ou de prédire une variable pouvant
prendre J valeurs alternatives ordonnées (seul l'ordre
importe, pas les écarts), en fonction de variables
explicatives.
• La régression logistique binomiale est un cas particulier de la
régression logistique ordinale, correspondant au cas où J=2.
• XLSTAT permet d'utiliser deux modèles alternatifs pour
calculer les probabilités d'affectation aux modalités à partir
des variables explicatives : le modèle logit et le modèle prob
Modèles de la régression logistique
• Contrairement à la régression linéaire, une solution
analytique exacte n'existe pas. Il est donc nécessaire
d'utiliser un algorithme itératif. XLSTAT utilise un
algorithme de Newton-Raphson.
Résultats de la régression logistique
dans XLSTAT
• Voir TD
exemple que nous traitons ci-
dessous correspond à un cas
marketing dans lequel on cherche
à prédire la probabilité pour qu'un
client renouvelle son abonnement à
un service d'information en ligne.
La régression log-linéaire (Poisson)
• Principe de la régression log-linéaire
• La régression log-linéaire fait partie de la famille des
modèles linéaires généralisés. Elle est utilisée pour
modéliser la relation entre une variable de réponse et
une ou plusieurs variables explicatives, en supposant
que la variable de réponse s’écrit comme le logarithme
d'une fonction affine des variables explicatives.
La régression log-linéaire (Poisson)
• La méthode de régression log-linéaire la plus utilisée est
la régression de Poisson, elle permet de modéliser des
données de comptage.
• Contrairement à la régression linéaire, une solution
analytique exacte n'existe pas. Ainsi, un algorithme
itératif doit être utilisé. XLSTAT utilise un algorithme de
Newton-Raphson. S’il le souhaite, l'utilisateur peut
modifier le nombre maximal d'itérations et le seuil de
convergence.
Example TD

Les données à expliquer étant des données de


comptage, une régression log-linéaire avec une
distribution de Poisson doit être utilisée afin
d’expliquer et/ou de prédire le nombre de bourses
obtenues par un étudiant.
La régression des moindres carrés
partiels (PLS)
• La régression des moindres carrés partiels (PLS) est
souvent utilisée lorsqu'il y a beaucoup de variables
explicatives, éventuellement corrélées.
• La régression des moindres carrés partiels (PLS) est
une méthode de régression rapide, efficace et optimale
basée sur la covariance. Elle est recommandée dans les
cas de régression où le nombre de variables explicatives
est élevé, et où il est probable qu'il y ait multicolinéarité
entre les variables, c'est-à-dire que les variables
explicatives soient corrélées.
Qu'est-ce que la régression des
moindres carrés partiels ?
PLS est une méthode qui réduit les variables, utilisées pour
prédire, à un plus petit ensemble de prédicteurs. Ces
prédicteurs sont ensuite utilisés pour effectuer une régression.
• L'idée derrière la régression PLS est de créer, à partir d'un
tableau de n observations décrites par p variables, un
ensemble de h composantes avec les algorithmes PLS 1 et
PLS 2
• Certains programmes différencient PLS 1 de PLS 2. PLS
1 correspond au cas où il n'y a qu'une seule variable
dépendante . PLS 2 correspond au cas où il y a plusieurs
variables dépendantes .
Exempl TD
Pour plus d'exemple et
d'interprétation voir TP

Vous aimerez peut-être aussi