Académique Documents
Professionnel Documents
Culture Documents
OU DEUX VARIABLES
LPSP1209
INTRODUCTION
DESCRIPTION DU COURS
4 crédits, 22,5 heurs + 15heurs de TP.
Le cours PSP1209 fait suite au cours PSP1101 de première BAC de statistique descriptive et sera suivi en BAC 3 par un cours
de modélisation statistique. Il entretient des liens privilégiés avec les cours de psychométrie et de méthodologie de BAC2 qui
utilisent les statistiques.
Contenus du cours (matière) :
- Eléments de probabilité nécessaire pour comprendre et savoir utiliser les outils généraux d'inférence et de modélisation
statistique : calcul élémentaire de probabilité sur des événements, distributions de probabilité normale et binomiale et
dérivées, utilisation de tables, théorème central limite.
- Notions clefs de l'inférence statistique paramétrique : estimateur, distribution d'échantillonnage, intervalle de confiance
et test d'hypothèse, puissance de test et influence du choix de la taille d'échantillon
- Tests et intervalles de confiance sur une moyenne et une variance en population normale
- Tests d'hypothèse sur deux moyennes pour échantillons pairés et indépendants et sur 2 variances en populations normales
- Tests non paramétriques sur une ou deux mesures de position pour données pairées ou non pairées.
- Inférence sur un coefficient de corrélation, y compris corrélation partielle.
- Inférence sur une ou 2 variables catégorielles : test et intervalle de confiance sur une ou deux proportions, test chi carré
d'ajustement pour une ou 2 variables.
- Conditions d'application et validation des hypothèses sous-jacentes aux différents tests, qq plot.
- Méthodologie pour l'analyse statistique de données depuis le choix de la méthode, son application, sa validation, jusqu'à
l'interprétation des résultats obtenus
- Introduction au logiciel SPSS et utilisation dans des situations variées
Compétences visées :
Adopter une démarche systématique pour appliquer les outils d'analyse statistique descriptive et d'inférence à une et 2
variables dans des situations émanant de différents domaines d'application et/ou méthodes de recherche de la psychologie
et des sciences de l'éducation. Plus précisément au terme du cours l'étudiant sera capable de
- Reconnaître, pour une question de recherche posée, les méthodes statistiques adaptées aux données disponibles.
- Appliquer les méthodes à l'aide du logiciel de statistique SPSS et en valider les hypothèses sous-jacentes.
- Expliquer les résultats issus d'une analyse statistique des concepts fondamentaux à leur interprétation dans le contexte
de la recherche.
- Lire, critiquer et interpréter des résultats statistiques disponibles dans la littérature.
- Expliquer les concepts de probabilité indispensables en statistique et manipuler des probabilités et distribution de
probabilité de base.
- Transférer ces connaissances acquises dans les domaines d'activités du psychologue, logopède et pédagogue.
Activités du cours :
- Des cours magistraux en auditoire avec la titulaire du cours
- Des séances d'exercice de probabilité et inférence statistique par petits groupes
- Un auto-apprentissage à SPSS via la Plateforme informatique selt : des podcasts, des exercices de dril, des études de
cas et un autotest
- Des séances de TPs collectives facultatives d'intégration de la matière de bac 2 ou de révision de la matière de bac1
- Des exercices, simulations et autres activités pour vous aider à intégrer la matière par auto-apprentissage.
- Des forums pour interagir entre vous et avec l'équipe enseignante.
Évaluation
- Un examen écrit avec des questions à choix multiples et des questions ouvertes (15pts)
- Un test SPSS en salle informatique (5pts)
- Une évaluation continue de votre participation aux activités durant l'année (bonus 1pt)
VOUS DEVEZ AVOIR au moins 6/15 A L'EXAMEN ECRIT POUR RECEVOIR UNE COTE ≥10/20
Vous pouvez utiliser votre formulaire lors de l'examen écrit et du test SPSS et y prendre des notes selon les indications
données à la première page du formulaire.
| Valentine Isselée
MODULES
| Valentine Isselée
PROBABILITÉ
CHAPITRE 1 : INTRODUCTION
Modèle probabiliste Est utilisé pour décrire le phénomène d’intérêt pour la population.
Évènement Nombre des résultats possible dans Ω sans les résultats de l’événement.
complémentaire
𝑃𝑃(𝐴𝐴𝑐𝑐 ) = 1 − 𝑃𝑃(𝐴𝐴)
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)
Équiprobabilité On dit que des données sont équiprobable lorsque tous les éléments on la même
probabilité. On a la même chance d’avoir n’importe quel élément.
1
𝑃𝑃(1) = 𝑃𝑃(2) = 𝑃𝑃(3) = 𝑃𝑃(4) = 𝑃𝑃(5) = 𝑃𝑃(6) =
6
| Valentine Isselée
𝑛𝑛!
𝐶𝐶𝑛𝑛𝑚𝑚 =
𝑚𝑚! (𝑛𝑛 − 𝑚𝑚)!
0! = 1
1! = 0
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)
𝑃𝑃(𝐴𝐴 |𝐵𝐵) =
𝑃𝑃(𝐵𝐵)
⟺ 𝑃𝑃(𝐴𝐴|𝐵𝐵) = 𝑃𝑃(𝐵𝐵)
⟺ 𝑃𝑃(𝐵𝐵|𝐴𝐴) = 𝑃𝑃(𝐵𝐵)
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 0
Calcule de Quand il est plus facile de calculer une probabilité conditionnelle de deux
probabilités évènements que de calculer la probabilité d’un seul des deux évènements.
composées
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴|𝐵𝐵) . 𝑃𝑃(𝐵𝐵) =
Calcule de Quand on doit calculer une probabilité d’un évènement et qu’on connait les
probabilité probabilités conditionnelles : 𝑃𝑃(𝐴𝐴|𝐵𝐵) et 𝑃𝑃(𝐴𝐴|𝐵𝐵 𝑐𝑐 )
totales
𝑃𝑃(𝐴𝐴) = 𝑃𝑃(𝐴𝐴|𝐵𝐵) . 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐴𝐴|𝐵𝐵 𝑐𝑐 ) . 𝑃𝑃(𝐵𝐵 𝑐𝑐 )
| Valentine Isselée
Très utilisé dans le domaine de diagnostic médical : B = patient avec maladie et A= test de
dépistage avec résultat positif.
Lois classiques Il existe une infinité de variables aléatoires possibles et donc une infinité de
distributions de probabilité pour les caractériser. Mais il existe un petit nombre de
distributions qui sont très utilisées dans un grand nombre d’applications. Ces
distributions de probabilité très courantes sont définies systématiquement pour
faciliter leur utilisation dans les applications. On les définit par leur distribution, leur
moyenne et leur variance. Pour certaines, des tables de calcule de probabilité sont
disponibles.
| Valentine Isselée
1
𝑃𝑃(𝑋𝑋 = 𝑥𝑥) =
𝑘𝑘
Une expérience aléatoire de Bernoulli est une XP aléatoire qui peut avoir
seulement 2 résultats possibles : un évènement donné « échoue » ou « réussit ». Le
résultat est donc noté 0 si échec et 1 si réussite.
Bernoulli → Le schéma de Bernoulli est une XP aléatoire qui consiste à exécuter un certain nombre de fois (n)
une XP de Bernoulli et qui répond aux conditions suivantes :
Binomial
- La probabilité d’avoir un succès reste la même tout au long de l’XP
- Les XP ou essais sont indépendants (le résultat d’un essai n’influence pas le résultat du
suivant).
Une variable aléatoire Binomial consiste au nombre d’XP réussies dans un schéma de Bernoulli.
Une variable aléatoire Binomial est définie comme le nombre de réussites dans n
expériences de Bernoulli exécutées suivant un schéma de Bernoulli à « n » essais ou
par la somme de « n » variables aléatoires de Bernoulli indépendantes.
𝑛𝑛!
𝑃𝑃(𝑋𝑋 = 𝑥𝑥) = 𝐶𝐶𝑛𝑛𝑥𝑥 𝜋𝜋 𝑥𝑥 (1 − 𝜋𝜋)𝑛𝑛−𝑥𝑥 = . 𝜋𝜋 𝑥𝑥 (1 − 𝜋𝜋)𝑛𝑛−𝑥𝑥
𝑥𝑥! . (𝑛𝑛 − 𝑥𝑥)!
1
𝑃𝑃(𝑋𝑋 = 𝑥𝑥) = 𝑓𝑓(𝑥𝑥) =
(𝑏𝑏 − 𝑎𝑎)
Exemple : temps d’attente d’un bus qui passe toute les 20 min.
Espérance et Espérance :
variance de → 𝐸𝐸(𝑎𝑎 + 𝑏𝑏𝑏𝑏) = 𝑎𝑎 + 𝑏𝑏 . 𝐸𝐸(𝑋𝑋)
combinaison de → 𝐸𝐸(𝑋𝑋1 + 𝑋𝑋2 + 𝑋𝑋3 + ⋯ + 𝑋𝑋𝑛𝑛 ) = 𝐸𝐸(𝑋𝑋1 ) + 𝐸𝐸(𝑋𝑋2 ) + 𝐸𝐸(𝑋𝑋3 ) + ⋯ 𝐸𝐸(𝑋𝑋𝑛𝑛 )
v. a. quelconques
Variance :
→ 𝑉𝑉(𝑎𝑎 + 𝑏𝑏𝑏𝑏) = 𝑏𝑏 2 𝑉𝑉(𝑋𝑋)
→ 𝑉𝑉(𝑋𝑋1 + 𝑋𝑋2 + ⋯ + 𝑋𝑋𝑛𝑛 ) = 𝑉𝑉(𝑋𝑋1 ) + 𝑉𝑉(𝑋𝑋2 ) + ⋯ 𝑉𝑉(𝑋𝑋𝑛𝑛 ) SI les v. a. sont
indépendantes !
Approximation Une varaible aléatoire binomiale 𝐵𝐵𝐵𝐵 (𝑛𝑛; 𝜋𝜋) est la somme de « n » v. a.
d’une binomiale indépendantes de Bernoulli de paramètre « π ». C’est-à-dire de moyenne π et de
par une normale
variance π(1-π).
(Théorème
centrale limite Le théorème central limite peut être appliqué pour affirmer qu’une v. a. Binomiale
appliqué à la ressemble à une Normale quand « n » est grand :
variable
Si n est suffisamment grand, une v. a. X de distribution binomiale 𝑋𝑋~𝐵𝐵𝐵𝐵(𝑛𝑛; 𝜋𝜋) suit
aléatoire
approximativement une distribution Normale :
Binomiale)
𝑋𝑋𝑁𝑁𝑜𝑜𝑟𝑟𝑟𝑟 de moyenne 𝑛𝑛𝑛𝑛 et de variance 𝑛𝑛𝑛𝑛(1 − 𝜋𝜋) : 𝑋𝑋𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 ~𝑁𝑁�𝑛𝑛𝑛𝑛 ; 𝑛𝑛𝑛𝑛(1 − 𝜋𝜋)�
Le TCL peut s’utiliser pour faire des calcules sur des v. a. Binomiales quand les
tables ne sont pas disponibles (n est trop grand) mais il faut faire une correction
de continuité :
𝑥𝑥 + 0,5 − 𝑛𝑛𝑛𝑛
𝑃𝑃(𝑋𝑋𝐵𝐵𝐵𝐵 ≤ 𝑥𝑥) ≅ 𝑃𝑃(𝑋𝑋𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 ≤ 𝑥𝑥 + 0,5) = 𝑃𝑃 �𝑍𝑍 ≤ �
�𝑛𝑛𝑛𝑛(1 − 𝜋𝜋)
Lois En inférence statistique on suppose le plus souvent la normalité des données et des
formules comme les statistiques de tests font intervenir des transformations parfois
compliquées de ces normales. Des nouvelles lois de probabilités sont utilisées pour
manipuler des statistiques. Des tables statistiques existent pour les quantiles de ces
lois. :
- Chi² : Quand on traite un somme de N(0;1) au carré
- Student : Quand on divise une N(0;1) par la racine Khi-carré
- Fischer : Quand on fait le rapport entre 2 v.a. Chi-carré
| Valentine Isselée
INFÉRENCE STATISTIQUE
CHAPITRE 1 : PRINCIPES DE L’INFÉRENCE STATISTIQUE
La statistique descriptive : propose des outils pour organiser, décrire, représenter et résumer utilement l’information disponible
dans un ensemble de données à l’aide de graphiques et d’indices numériques et mettre en évidence les informations importantes.
Les probabilités : désignent une branche des mathématiques qui fournit un formalisme et des outils de calcul pour analyser des
phénomènes aléatoires. Elles permettent d’écrire des « modèles probabilistes » pour les variables observées sur les populations
d’intérêt et les manipuler.
L’inférence Elle propose des outils pour répondre à des questions concernant une population
statistique à partir des résultats sur un échantillon provenant de cette population. Elle
comprend 3 concepts clé : l’estimation, les intervalles de confiance, les tests
d’hypothèses. Le but de l’inférence statistique est de tenter de tirer des
conclusions concernant la population à partir des résultats obtenus sur
l’échantillon et de mesurer, par calcul de probabilités, le degré d’incertitude
attaché à ces conclusions.
Intervalle de À pour but d’indiquer, sur base d’une estimation, dans quel intervalle se trouve
confiance la « vraie » valeur d’un paramètre de la population, ceci en associant un certain
degré de confiance à l’intervalle proposé. L’intervalle se base sur la distribution
d’échantillonnage de la v.a. et sa largeur dépend de cette distribution et d’un
degré de confiance choisie (svt 95%). Nous avons vu 5 IC :
→ 1 variable QT Normale X∼N(µ ;σ²) : IC sur une moyenne µ à σ² connu
→ 1 variable QT Normale X∼N(µ ;σ²) : IC sur une moyenne µ à σ² inconnu
→ 1 variable QT Normale X∼N(µ ;σ²) : IC sur une variance σ²
→ 1 variable QL et 1 variable de comptage associée Binomiale (k=2) ou
multinomiale (k≥2) : IC sur 1 proportion en gd échantillon (Xobs et (n-Xobs) ≥5)
→ 2 variables QT VD : IC sur un coefficient de corrélation ρ.
Niveau de confiance Un IC à un certain niveau de confiance (généralement 95%) : pour 95% des
échantillons tirés, l’intervalle comprendra la « vrai » moyenne.
| Valentine Isselée
Test d’hypothèse Un test d’hypothèse a pour but de répondre à une question concernant la
population à partir des données disponibles dans un échantillon.
La méthode utilisée est un règle de décision qui détermine, sur base des valeurs
de X1, X2, ... Xn S’il faut « accepter » ou « rejeter » l’hypothèse (répondre oui ou
non à une question). Nous avons vu 19 tests :
• 2 variables QL
→ Test Z de comparaison de 2 proportions (grp indépendants et gd
échantillons)
→ Test χ² d’homogénéité des proportions d’1 variable QL VD sur les niveaux
d’1 variable VI
→ Test χ² de Pearson d’indépendance de 2 variables QL VD (lien |e| grp)
• 2 variables QT VD
→ Test t de nullité d’un coefficient de corrélation
| Valentine Isselée
Hypothèse H0 et Il faut écrire la question sous forme d’hypothèses à tester avant de faire un test.
H1
On met dans H1 ce qu’on veut prouver.
Unilatéral
H0 : µ ≥ µ0 On rejette à gauche
H0 : µ = µ0 On rejette et on
répartit le risque des 2
Bilatéral
H1 : µ ≠ µ0
cotés
P-valeur = P(Z>|Zobs|)
Cela fonctionne plus ou moins comme cela pour tous les tests avec p-valeur et
seuil critique. (C’est le principe).
Seuil critique Quand on fait les tests « à la main », on calcule un seuil de rejet pour
l’observation (Zobs) au-delà duquel H0 est « rejeté ».
Méthode ou l’on choisit un seuil critique au-delà du quel l’observation (Zobs) a une
petite probabilité α de tomber si H0 est vrai et on décide de rejeter H0 au-delà
de ce seuil.
Le seuil critique est le percentile 1-α de la Z∼N(0;1) : P(Zobs > seuil critique H0)
=α
Test numéro
Concept/ Explication
test/ IC
Quand les données sont Normale les meilleurs estimateurs de µ et σ² sont la moyenne
arithmétique (𝑋𝑋�) et la variance d’échantillon (𝑠𝑠²). Ils sont sans biais et les plus précis
possibles.
IC
Question : Quelles valeurs donner à µmin et µmax pour assurer que
𝑃𝑃�µ𝑚𝑚𝑚𝑚𝑚𝑚 < µ < µ𝑚𝑚𝑚𝑚𝑚𝑚 � = 1 − α = ⋯ % où 1-α est le niveau de
Décision :
Si le µéchant appartient à l’IC de ... % : NRH0 donc il y a ...% de
chance que mon IC contienne la valeur de µ.
Si le µéchant n’appartient pas à l’IC de ...% : RH0 donc il y a ...% de
chance que mon IC ne contienne pas la valeur de µ.
| Valentine Isselée
Décision et interprétation :
Si le σ²échant appartient à l’IC de ... % : NRH0 donc il y a ...% de
chance que mon IC contienne la valeur de σ².
Si le σéchant n’appartient pas à l’IC de ...% : RH0 donc il y a ...% de
chance que mon IC ne contienne pas la valeur de σ².
Question : Est-ce-que en moyenne, les individus de mon échantillon
ont une résultat [différente ; plus grande ; plus petite] que la
population (connaissant σ²) ? Avec un risque α.
= ≠
Hypothèse → H0 : µ � ≤ � µ0 et H1 : µ �>� µ0
≥ <
𝑋𝑋� − µ0
𝑧𝑧𝑜𝑜𝑜𝑜𝑜𝑜 = σ
√𝑛𝑛
Test sur Test Z : σ² F5
une σ² Calculer χ²n-1 en fonction des hypo (avec risque α) et comparer χ²n-1 avec χ²obs en 3
fonction du dessin :
Si NRH0 → Les données n’ont pas permis de montrer que la variance des résultats
des individus de mon échantillon est [différente ; plus grande ; plus petite] que la
population avec un risque d’erreur α.
Si RH0 → Les données ont permis de montrer que la variance des résultats des
individus de mon échantillon est [différente ; plus grande ; plus petite] que la
population avec un risque d’erreur α.
| Valentine Isselée
Un QQ plot consiste à comparer les données observées aux données qu’on devrait avoir
si elles suivaient « parfaitement » une distribution normale. Les valeurs observées et
« idéales » sont représentées sur un graphe X-Y qui soit montrer une tendance linéaire en
cas de normalité.
Q-Q Plots
Si les données sont alignées à la droite représentant les données idéales cela signifie que
c’est une normale.
Distribution t de Ressemble à la distribution d’une Z∼N(0 ;1) mais à des « queues » plus épaisses.
Student On l’utilise, en inférence statistique sur des
Distribution χ² Ressemble à la distribution d’une Z∼N(0 ;1) mais la moyenne est plus sur la gauche.
La distribution Chi-carré est utilisée pour faire de
l’inférence sur des sommes de carrées de variables
normales indépendantes. C’est le cas pour les
variances s² mais aussi pour les tests d’ajustement χ².
La distribution χ² dépend d’un paramètre, le degré
de liberté, qui est fonction du nombre de termes indépendants dans la somme des
carrés concernées.
| Valentine Isselée
Décision et interprétation : 7
de µ supposée
égale Calculer tdl en fonction des hypo (avec risque α) et comparer tdl avec
tobs en fonction du dessin :
Si NRH0 → Les données n’ont pas permis de montrer qu’en moyenne,
les individus de mon échantillon ont un résultat moyen [différente ;
plus grande ; plus petite] que l’autre groupe/ qu’avec l’autre
condition avec un risque d’erreur α.
Si RH0 → Les données ont permis de montrer qu’en moyenne, les
individus de mon échantillon ont un résultat moyen [différente ; plus
grande ; plus petite] que l’autre groupe/ qu’avec l’autre condition
avec un risque d’erreur α.
| Valentine Isselée
Levene
Décision et interprétation :
Calculer tdl en fonction des hypo (avec risque α) et comparer tdl avec tobs en fonction
du dessin :
Si NRH0 → Les données n’ont pas permis de montrer qu’en moyenne, on observe
une [stabilisation, différence, augmentation, diminution] significative sur mon
échantillon. Avec un risque d’erreur α.
Si RH0 → Les données ont permis de montrer qu’en moyenne on observe une
[stabilisation, différence, augmentation, diminution] significative sur mon
échantillon. Avec un risque d’erreur α.
| Valentine Isselée
Un QQ plot consiste à comparer les données observées aux données qu’on devrait avoir
si elles suivaient « parfaitement » une distribution normale. Les valeurs observées et
« idéales » sont représentées sur un graphe X-Y qui soit montrer une tendance linéaire en
cas de normalité.
Q-Q Plots
Si les données sont alignées à la droite représentant les données idéales cela signifie que
c’est une normale.
Correspond à la page F6 du formulaire : Une variable quantitative (et v.a. de comptage associée
binomiale (k=2) ou multinomiale (k ≥ 2))
Les tests et IC sur les paramètres d’un Normale ont des hypothèses sous-jacentes, elles supposent que :
- Une variable qualitative/catégorielle à k valeurs possibles sur n individus.
- Xi est le nombre d’individus observé dans la catégorie i.
- Les individus sont indépendants et représente un échantillon aléatoire de la population d’intérêt.
Soit X une 𝐵𝐵𝐵𝐵(𝑛𝑛; π) ou π est inconnu et Xobs est le nombre de réussites d’une XP
observée sur un échantillon de n individus.
La probabilité ou proportion de π s’exprime naturellement par :
𝑋𝑋𝑜𝑜𝑜𝑜𝑜𝑜
𝑝𝑝 = 𝜋𝜋� =
Estimation sur une 𝑛𝑛
Distribution d’échantillonnage de l’estimateur : valable uniquement en grand
proportion et
distribution échantillon : 𝑛𝑛π ≥ 5 et 𝑛𝑛(1 − π) ≥ 5
d’échantillonnage 𝑋𝑋~𝐵𝐵𝐵𝐵(𝑛𝑛 ; 𝜋𝜋) ~ 𝐴𝐴 𝑁𝑁�𝑛𝑛𝑛𝑛 ; 𝑛𝑛𝑛𝑛(1 − 𝜋𝜋)� 𝜋𝜋� = 𝑋𝑋𝑜𝑜𝑜𝑜𝑜𝑜 ~𝐴𝐴 𝜋𝜋(1 − 𝜋𝜋)
𝑁𝑁 �𝜋𝜋 ; �
𝑛𝑛 𝑛𝑛
⇓ ⇓
𝑛𝑛 𝑛𝑛²
| Valentine Isselée
Question : Est-ce que ..% des individus ont répondu « A » ? Avec un risque α.
Question : Est-ce que ..% des individus ont répondu « A » ? Avec un risque α.
Variable d’intérêt : X = nmb de réussite sur n XP : X∼Bi(n ;π), π inconnu
= ≠
≤
Hypothèse → H0 : π � � π0(=pourcentage voulu) et H1 : π �>� π0(=pourcentage voulu)
≥ <
𝑋𝑋𝑜𝑜𝑜𝑜𝑜𝑜 − 𝑛𝑛 . 𝜋𝜋0
𝑍𝑍𝑜𝑜𝑜𝑜𝑜𝑜 = F6
�𝑛𝑛 . 𝜋𝜋0 . (1 − 𝜋𝜋0 )
5
Règle de décision et interprétation :
Calculer Z en fonction des hypothèses (avec le risque α) et comparé Z avec
Zobs en fonction du dessin :
Si NRH0 → Les données n’ont pas permis de monter significativement que ...%
de mon échantillon ont répondu « A ». Avec un risque d’erreur α.
Si RH0 → Les données ont permis de montrer significativement que ...% de
mon échantillon ont répondu « A ». Avec un risque d’erreur α.
| Valentine Isselée
Test d’hypothèses
Vérification des hypothèse sous-jacentes : nπi ≥ 5
sur 1 vecteur de
F6
proportions : 𝑘𝑘
(𝑋𝑋𝑖𝑖 − 𝑛𝑛𝜋𝜋𝑖𝑖0 )²
𝑘𝑘
(𝑂𝑂𝑂𝑂𝑠𝑠𝑖𝑖 − 𝐴𝐴𝐴𝐴𝑡𝑡𝑖𝑖 )2 6
χ2𝑜𝑜𝑜𝑜𝑜𝑜 = � =�
𝑛𝑛𝜋𝜋𝑖𝑖0 𝐴𝐴𝐴𝐴𝑡𝑡𝑖𝑖
K≥2 (n grand) 𝑖𝑖=1 𝑖𝑖=1
Note : quand l’XP n’a que 2 résultats possibles, le test d’ajustement χ² est
équivalent au test sur une proportion.
| Valentine Isselée
Principe : comparer les valeurs observées aux valeur attendues dans chaque
Test χ² paire de catégories sous l’hypothèse d’indépendance. F9
d’indépendance 18
Hypothèse H0 : W est indépendant de Y ; H1 : W n’est pas indépendant de Y
�ij ≥ 5
Condition d’application : toutes les valeurs attendues : nπ
χ2𝑜𝑜𝑜𝑜𝑜𝑜
𝑉𝑉 = �
𝑛𝑛(𝑡𝑡 − 1)
F1
Plus le V est proche de 0 ⇒ plus proportions semblables donc pas de lien.
Test non- Désavantage : test moins puissant qu’un test paramétrique quand les données
paramétriques suivent effectivement une distribution Normale : permettent moins facilement de
mettre en évidence un effet quand il est présent.
Principe : les tests non paramétriques présentés ici travaillent, pour la plupart, sur
des rangs plutôt que sur les données originales.
rangs. 10
//
5. Pour faire le test à la main, calculer la statistique WT comme suit :
Remplace test
Si : 𝑛𝑛𝑊𝑊 = 𝑛𝑛1 → 𝑊𝑊𝑇𝑇 = 𝑊𝑊
paramétrique de
𝑛𝑛1 +𝑛𝑛2 +1
comparaison des µ Si : 𝑛𝑛𝑊𝑊 = 𝑛𝑛2 → 𝑊𝑊𝑇𝑇 = 𝑊𝑊 − (𝑛𝑛2 − 𝑛𝑛1 ) . 2
de 2 grp
indépendants (7 Règle de décision :
et 8) Rejeter H0 si 𝑊𝑊𝑇𝑇 est plus petit ou égal à la valeur donnée ds table de Wilcoxon :
𝛼𝛼
- Test bilatérale : prendre table (n1,n2) avec seuil : 2
11
Règle de décision :
Rejeter H0 si 𝑊𝑊𝑇𝑇 est ≤ à la valeur donnée ds table de Wilcoxon (=Wcritique) :
𝛼𝛼
- Test bilatérale : prendre table (n1,n2) avec seuil : 2
Quand n1 et n2 sont grd (>25), la somme des rangs peut être considérée comme
une distribution normale quand H0 est vrai ! On peut dans ce cas prendre comme
statistique de test 𝑍𝑍𝑜𝑜𝑜𝑜𝑜𝑜 et pas 𝑊𝑊𝑇𝑇 et regarder non pas dans la table de wilcoxon
α
mais dans la table des Normal avec α ou 2 :
𝑛𝑛1 (𝑛𝑛1 + 𝑛𝑛2 + 1)
𝑊𝑊𝑠𝑠 −
𝑍𝑍𝑜𝑜𝑜𝑜𝑜𝑜 = 2
�𝑛𝑛1 𝑛𝑛2 (𝑛𝑛1 + 𝑛𝑛2 + 1)
12
tendances comparer en fct de l’hypothèse. Attention : prendre le seuil critique à la 1ère ligne !
centrales
Test des rangs de Wilcoxon de comparaison de 2 tendances centrales pour
d’une
données pairées (grand échantillon)
variable QT = ≠
sur données Hypothèse → H0 : C1 � ≤ � C2 et H1 : C1 �>� C2
≥ <
pairées
Statistique de test :
// 1. Calculer les ≠ entre les couples de données : 𝐷𝐷𝑖𝑖 = 𝑋𝑋2𝑖𝑖 − 𝑋𝑋1𝑖𝑖
2. Calculer les rangs des différences prises en valeurs absolue
Remplace test
paramétrique de 3. Calculer les sommes des rangs :
→ 𝑇𝑇 + = rangs correspondants à une différence Positive F8
comparaison des
→ 𝑇𝑇 − = rangs correspondants à une différence Négative
µ pour données 14
pairées (12) α
Règle de décision : Rechercher seuil critique en fonction de n et α ou 2 et le
comparer en fct de l’hypothèse. Attention : prendre le seuil critique à la 1ère ligne !
Quand n est grd (>25), la stat de test peut être considérée comme une distribution
normale quand H0 est vrai ! Dans ce cas on calcule la statistique de test :
𝑛𝑛(𝑛𝑛 − 1)
𝑇𝑇 − −
𝑍𝑍𝑜𝑜𝑜𝑜𝑜𝑜 = 4
�𝑛𝑛(𝑛𝑛 + 1)(2𝑛𝑛 + 1)
24
15
But : comparer les valeurs centrales de données pairées observées sur 1
variable QT sous 2 conditions
Différence avec le test de Wilcoxon ? Le test de signe est moins puissant que
le test de Wilcoxon car le test de Wilcoxon est + capable de voir une
différence quand il y en a une que le test de signe. Il faut utiliser de préférence
le test de Wilcoxon !
= ≠
Test de signe Hypothèse → H0 : C1 � ≤ � C2 et H1 : C1 �>� C2
≥ <
C’est important de faire des graphique (graphique X Y) en plus que des calcul
car présence d’autres facteurs de variation : domaine couvert, non linéaire,
données pouvant être séparée, ...
Distribution d’échantillonnage de 𝑟𝑟 :
Si ρ est proche de 0 on peut dire que la distribution de ρ ce rapproche de la
distribution t de Student → Test de nulité
Si ρ est différent de 0, la distribution de r n’est pas connue mais on peut
montrer que via une transformation, r est approximativement une Normale
quand n est grand → IC
| Valentine Isselée
Étapes de calcul :
1. Transformation de 𝑟𝑟 en 𝑟𝑟 ′ à partir de la table (T17) ou par la formule :
1 + 𝑟𝑟
𝑟𝑟 ′ = 0,5 ln � �
1 − 𝑟𝑟
IC sur un
2. Calcul d’un IC sur 𝜌𝜌′ F9
intervalle de
IC sur ρ′ : �ρ′𝑚𝑚 ; ρ′𝑀𝑀 � = �𝑟𝑟 ′ +⁄− 𝑍𝑍1−𝛼𝛼
1 E
corrélation �
2 √𝑛𝑛−3
Décision :
Si le 𝑟𝑟 appartient à l’IC de ... % : NRH0 donc il y a ...% de chance que mon IC
contienne la valeur de ρ.
Si le 𝑟𝑟 n’appartient pas à l’IC de ...% : RH0 donc il y a ...% de chance que mon
IC ne contienne pas la valeur de ρ.
| Valentine Isselée
Question : Y-a-t-il une corrélation significative entre ces 2 variable ? Est-ce que
ρ ce rapproche de 0 ou s’en éloigne ?
= ≠
Hypothèses : → H0 : ρ � ≤ � 0 et H1 : ρ �>� 0
≥ <
𝑟𝑟√𝑛𝑛 − 2
𝑡𝑡𝑜𝑜𝑜𝑜𝑜𝑜 =
Test de nullité �1 − 𝑟𝑟²
d’un Décision et interprétation : F9
coefficient de Calculer tdl en fonction des hypo (avec risque α) et comparer tdl avec tobs en 19
corrélation fonction du dessin :
Si NRH0 → Les données n’ont pas permis de montrer qu’il y a bien une corrélation
significative entre les 2 variable. Avec un risque d’erreur α.
Si RH0 → Les données ont permis de montrer qu’il y a bien une corrélation
significative entre les 2 variable. Avec un risque d’erreur α.
Notes :
𝑟𝑟 = 0 → 𝑡𝑡𝑜𝑜𝑜𝑜𝑜𝑜 = 0 Si r se rapproche de 0 = RH0
Si r se rapproche de +/-1 = NRH0
𝑟𝑟 = 1 → 𝑡𝑡𝑜𝑜𝑜𝑜𝑜𝑜 = +∞
En fonction de la valeur (positif ou négatif)
𝑟𝑟 = −1 → 𝑡𝑡𝑜𝑜𝑜𝑜𝑜𝑜 = −∞
de r = rejet à gauche ou à droit
| Valentine Isselée
Correspond à la page F10 du formulaire : Supplément : Calcul de la puissance d’un test sur 1 ou 2
moyenne(s) en population normale
Test d’hypothèse : risques liés au test
d’hypothèse : Le risque ou probabilité liée est α qui est choisi donc connu et contrôlé. 10
risques liés au Erreur de type 2 : « accepter » H0 quand H1 est vrai
test F7
Le risque lié est β qui est inconnu et peut parfois être très grand
11
C’est pour cette raison qu’on n’accepte pas H0 mais on « ne rejette pas H0 »
| Valentine Isselée
Facteur qui Si 𝜇𝜇1 − 𝜇𝜇0 augmente, β diminue (à α fixé) → plus µ1 est éloigné de µ0, plus le
puissance 𝜎𝜎
La largeur de la distribution de 𝑋𝑋� dépend de → si σ diminue, β diminue et
√𝑛𝑛
Des tables existent pour calculer une puissance pour les tests sur 1 et 2
moyennes. Pour les autres test des logiciels ou abaques sont disponibles.