Fiche Stats M1

Chapitre 1 : Comparaison d’échantillon
Tests Comparaison de 2 échantillons indépendants

Contexte o 2 populations P1 et P2 de taille N1 et N2 inconnue
o 2 variables (…) quantitatives continues
- X quantitative dans P1
- Y quantitative dans P2
o 2 échantillons indépendants :
- E1 issu de P1 de taille n1
- E2 issu de P2 de taille n2
Comparaison de 2 distribution quantitatives, celle de de X et de Y
Tests :
- Test paramétrique : comparaison de 2 moyennes, échantillons indépendants
o Condition : X et Y normales dans P1 et P2 (de même variance) ou taille échantillon ≥ 30
- Test non paramétrique : Wilcoxon-Mann-Whitney
o Condition : X et Y = même caractère quantitatif continu
Hypothèses de tests Pour un test non paramétrique :
Hypothèse nulle (Ho) : X et Y ont la même distribution
Hypothèse alternative (H1) : 3 possibilités :
1. les valeurs de X sont globalement plus faibles que celles de Y
- la distribution de X se situe à gauche de celle de Y
- X  Y (unilatérale gauche)
2. Les valeurs de X sont globalement plus élevées que celles de Y
- La distribution de X se situe à droite de Y
- X  Y (unilatérale droite)
3. Les valeurs sont X sont globalement différentes de celles de Y
- La distribution de X est différente de celle de Y
- X  / Y (bilatérale)
Seuil de risque  = 5%
Vérification de la Sur jamovi : vérification visuelle de l’histogramme et vérifier avec la statistique de test de Shapiro -Wilk ou Anderson-Darling
normalité - Mesure des écart des observations à Ho
+ symétrie - On redonne le contexte : population, variable, échantillons de la mesure, hypothèses (suit loi normale, ne suit pas) =
(toujours bilatérale)
- Statistique de test : Test de Shapiro Wilk : W(obs) = … et  (obs) = … et  = 5%
- Conclusion à donner : il existe un écart significatif à la normalité du (variable) dans P au risque max  = 5% et au risque
minimum (obs) = …%
 permet de définir si utilisation de test paramétrique ou non paramétrique
Vérification de la symétrie :
- Coefficient d’asymétrie : (coeff asymétrie) / erreur standard
- Doit être compris entre -2 et 2 pour = symétrie
Statistique de test Statistique de test basé sur les rangs

 Ranger l’ensemble des valeurs de X et Y  n1 + n2 = n valeurs
La somme de tous les rangs de 1 à n vaut n (n + 1) / 2 et pour les valeurs ex aequo on calcule leur rang moyen (rangs non entiers)
Variables quantitatives discrètes avec Ux + Uy = n1*n2
Sous H0 : X  Y, Ux et Uy suivent la même loi discrète symétrique de moyenne n1*n2(n + 1) /2 et H1 : (choisir l’hypothèse)
Conditions : X et Y mesurent le même caractère quantitatif continu
Degré de Règle de décision : si  (obs) <  on rejette Ho et on valide H1 au risque  = 5% et au risque d’erreur de 2nd espèce 
signitfication inconnu
/ p- valeur Sinon inverse
2 types de calcul (ces 2 valeurs sont directement données par jamovi):

- Calcul exact (table de Mann-Whitney) à partir de la loi de U = min (Ux, Uy)
i.  (obs) = P Ho (U ≤ u (obs)) = … < ou >  = 5%  règle de décision
- Approximation normale de U (table de la loi normale centrée réduite) à partir de la moyenne de l’écart-type de U
i. Condition = n1 et n2 ≥ 8 et même prise de décision
Décision – conclusion Faire conclusion avec en reprenant les variables et ce qu’on compare selon l’hypothèse H1 sans oublier le risque  et beta
Tests Comparaison de 2 échantillons appariés

Contexte
2 types de cas :
1. Cas 1
Population constituée de couples de taille N inconnue
2 variables mesurant le même caractère quantitatif (continu)
- X quantitative pour le premier individu du couple dans P
- Y quantitative pour le 2ème individu du couple dans P
Un échantillon de couples issu de P de taille n’ = …
2. Cas 2
Une population P constitués d’individus de taille N inconnue
2 variables, mesures répétées du même caractère quantitatif (continu)
- X quantitative pour la première mesure dans P
- Y quantitative pour 2ème mesure dans P
Un échantillon d’individus de taille n’ =
Variable étudiée différence D = X-Y ou Y-X
Vérification de la
normalité Test de normalité de la différence D et coefficient de symétrie
+ symétrie
Statistique de test Test paramétrique
- Test de Student + condition = D normale dans P
- Approximation normale + condition = n’ ≥ 30
Tests non paramétrique Pour hypothèse
Test du signe = test de comparaison de la médiane de D à 0 - Ho : D = 0 et H1 : D … 0 (dans le même sens que X)
Condition = D variable quantitative continue - Ho : p = 0,5 et H1 : p > ou < ou ≠ 0,5
Sur jamovi = test binomial : décision avec (obs) ou
approximation par Khi-deux (pour n ≥ 30) et on divise  (obs) p+ proportion de signes + et p- de signes –
par 2 car chi est bilatéral quand H1 est unilatérale Calcul de la fréquence de signes + dans E, f (obs) = s (obs) / n
F = fréquence et s = nb de signes dans E
Test de Wilcoxon Ranger les valeurs absolues de D avec V+ rang + et V- rang –

Comparaison de la différence de D à O V+ + V- = n(n+1)/2
Test des signes et des rangs Ho : X  Y et donc V+ et V- ont la même loi discrète symétrique
Condition : D quantitative et symétrique dans P H1 : idem mais avec inversion en précisant de quel côté V+ (cf
hypo)
Conclusion avec p-valeur
Chapitre 2 : Tests d’indépendance entre 2 variables quantitatives
Tests Test paramétrique du coefficient de corrélation linéaire / linéaire orientée / non linéaire
Contexte
Une population P d’individus ou de couples de taille N inconnue
2 variables X et Y quantitatives (donne le nom)
Un échantillon d’individus ou de couples issus de P de taille n =
OU
2 échantillon appariés de mesure X et Y de même taille n, faite sur les mêmes individus ou couple
Coefficient de
corrélation -1 <  (X, Y) < 1
 > 0 = liaison positive  X et Y varient dans le même sens
 < 0 = liaison négative  X et Y varient dans des sens contraires
 = 0  indépendance des 2 variables ou liaison non linéaire
Condition
Echantillon ≥ 30
Vérification des nuages de points : doivent être homogènes autour de droite de régression
Si homogène et linéaire appliquer Spearman
Si non linéaire appliquer Pearson
Statistique de test Test de corrélation Test de corrélation orienté

Le coefficient de corrélation est :  (x, y) = Le coefficient de corrélation est :  (x, y) =
Hypothèses Hypothèses
NE PAS OUBLIER - Ho : X et Y sont indépendantes dans la population P - Ho : X et Y sont indépendantes dans la population P
D’UTILISER - H1 : X et Y sont liées dans la population P (bilat) - H1 : X et Y sont liées positivement / négativement
PEARSON SI NON dans la population P (unilat D (si +) et G (si -)
LINÉAIRE La statistique de test T suit par approximation une loi de Student
(n-2) [jamovi = rapport de significativité] Si  est négatif alors qu’hypo positif et inversement on peut
conclure directement !
p-valeur bilat ;  (obs) =  règle de décision
La statistique de test T suit par approximation une loi de Student
la p-valeur bilat peut être donnée directement par jamovi si choix (n-2) [jamovi = rapport de significativité]
de bonne hippo sinon divisé par 2
Chapitre 3 : Modèle de régression linéaire
Tests Modèle de régression linéaire simple
Contexte
Une population P d’individus ou de couples de taille N inconnue
2 variables X et Y quantitatives avec Y continue
Un échantillon d’individus ou de couples issus de P de taille n = …
OU
2 échantillon appariés de mesure X et Y de même taille n, faite sur les mêmes individus ou couple
ON souhaite exprimer Y en fonction de X : Y  f(X)

Une variable à expliquer ou dépendante Y
Une variable explicative ou indépendante X
Modèle de régression linéaire Où

Yi : score … de l’étudiant i
Xi : score … de l’étudiant i
i : erreur de l’étudiant i
Pour tout individu i
Et 2 coefficients :
Yi = bo + b1 Xi + i bo : terme constant, ordonnée à l’origine de la pente
b1 : pente de la droite, coefficient directeur (variation de y pour
une variation de x à une unité)
Conditions
Les Yi sont indépendants 2 à 2
Linéarité du nuage de point
Dispersion homogène (même variance) = homoscédasticité au niveau du nuage de point
Y gaussien ou grand échantillon (30) : avec Shapiro wilk
Validation à postériori Sur les estimations des erreurs = résidus
Ajustement du modèle 2 échantillons…

Donner estimation des coefficients et en déduire l’équation de la droite
Estimer la qualité globale de l’ajustement du modèle : R2 = r (x, y)2 et faire une conclusion
Décomposition de la variabilité
totale de Y (SCT) SCT = (n-1) s2y* (ddl = n-1)
SCE (somme des carrés expliqués) = … (ddl = 1)
Sur jamovi : ds régression, SCR (somme des carrés résiduels) = … (ddl = n-2)
coefficient mod et cocher test
ANOVA
Estimation des erreurs Valeur prévue pour l’individu i ajusté par la droite : (donner la droite y)
Résidus pour l’individu i : i^ = ei = yi – y^i
Sur jamovi ds menu
régressioin : sauvegarder et
cocher valeurs prédites et
résidus
Chapitre 4 : Comparaison de plusieurs échantillons indépendants – Modèle d’ANOVA à 1 facteur

Tests Modèle d’ANOVA à 1 facteurs
Contexte
Une population P d’individus de taille N inconnue
2 variables :
- Y : variable à expliquer ou dépendante quantitative
- X : variable explicative ou indépendante qualitative à k modalités ou facteur à k niveaux
Un échantillon d’individus issu de P, de taille n = …
On définit k sous population de Pj associée aux k de X
- Les k variables Yj correspondantes, mesurant le même caractère quantitatif Yj quantitative de moyenne j et d’écart-type
j inconnus dans Pj
- Les k échantillons indépendants Ej issu de Pj de taille nj = …
Comparaison globale de k moyennes 1, 2, 3, k sur k échantillons indépendants
Définition du modèle Modèle d’analyse de variance à un facteur pour la variable à
expliquer Y :
Pour tous individus de l’échantillon,
Yij = j + ij
Coefficient de
corrélation -1 <  (X, Y) < 1
 > 0 = liaison positive  X et Y varient dans le même sens
 < 0 = liaison négative  X et Y varient dans des sens contraires
 = 0  indépendance des 2 variables ou liaison non linéaire
Condition
Echantillon ≥ 30
Vérification des nuages de points : doivent être homogènes autour de droite de régression
Si homogène et linéaire appliquer Spearman
Si non linéaire appliquer Pearson
Statistique de test Test de corrélation Test de corrélation orienté

Le coefficient de corrélation est :  (x, y) = Le coefficient de corrélation est :  (x, y) =
Hypothèses Hypothèses
NE PAS OUBLIER - Ho : X et Y sont indépendantes dans la population P - Ho : X et Y sont indépendantes dans la population P
D’UTILISER - H1 : X et Y sont liées dans la population P (bilat) - H1 : X et Y sont liées positivement / négativement
PEARSON SI NON dans la population P (unilat D (si +) et G (si -)
LINÉAIRE La statistique de test T suit par approximation une loi de Student
(n-2) [jamovi = rapport de significativité] Si  est négatif alors qu’hypo positif et inversement on peut
conclure directement !
La statistique de test T suit par approximation une loi de Student
la p-valeur bilat peut être donnée directement par jamovi si choix (n-2) [jamovi = rapport de significativité]
de bonne hippo sinon divisé par 2

Fiche Stats M1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Fiche Stats M1

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 1 : Comparaison d’échantillon

Tests Comparaison de 2 échantillons indépendants

Statistique de test Statistique de test basé sur les rangs

Conditions : X et Y mesurent le même caractère quantitatif continu

2 types de calcul (ces 2 valeurs sont directement données par jamovi):

Tests Comparaison de 2 échantillons appariés

Variable étudiée différence D = X-Y ou Y-X

Test de Wilcoxon Ranger les valeurs absolues de D avec V+ rang + et V- rang –

Statistique de test Test de corrélation Test de corrélation orienté

ON souhaite exprimer Y en fonction de X : Y  f(X)

Modèle de régression linéaire Où

Validation à postériori Sur les estimations des erreurs = résidus

Ajustement du modèle 2 échantillons…

Chapitre 4 : Comparaison de plusieurs échantillons indépendants – Modèle d’ANOVA à 1 facteur

Statistique de test Test de corrélation Test de corrélation orienté

Vous aimerez peut-être aussi