Académique Documents
Professionnel Documents
Culture Documents
Stat Student
Stat Student
1.1. Populations:
La population réfère à l'intégralité des individus ou
organisations répondant à un certain nombre de caractères
communs (hommes âgés entre 30 et 40 ans, p.e.).
Une population peut être de faible effectif (hommes ayant mis le
pied sur la lune), ou au contraire (la plupart du temps) de grand
effectif (sujets sportifs de niveau international). Dès lors, il est
impossible physiquement de les réunir dans une étude unique,
aussi ambitieuse soit-elle. Il faut donc procéder à un découpage
de cette population, c'est-à-dire à la définition d'un échantillon.
Ex:
N
∑ Xi
µ = i =1
N représente le calcul de la moyenne d'une population
de N sujets
n
∑ Xi
X = i =1
n représente le calcul de la moyenne d'un échantillon
de n sujets
∑ ( Xi − X ) = 0
2.2.2. Médiane.
Le concept de moyenne n'a de sens que pour échelles
d'intervalles, proportionnelles et de rapport.
La tendance centrale d'une distribution de variables ordinales
est représentée par la médiane. La médiane est définie comme
la valeur de la variable telle que 50% des observations lui
soient inférieures et 50% lui soient supérieures, en d'autres
termes, la valeur étant au milieu d'une série de données
ordonnées.
Lorsque ne nombre total d'observation est impair, le définition
de la médiane ne pose pas de problème: le rang médian est
égal à :
M=X(n+1)/2
Principe:
• additionner les rangs des ex-æquo
• diviser par le nombre d'ex-æquo
• affecter ce résultat aux ex-æquo
2.2.3. Le mode.
En ce qui concerne les échelles nominales, c'est-à-dire les
données de numération, ni la moyenne ni la médiane ne sont
accessibles.
Le mode est défini comme la catégorie pour laquelle
l'effectif est le plus grand (ou comme la valeur la plus
fréquemment attribuée).
Le mode n'a vraiment de sens que si une catégorie présente un
effectif nettement supérieur aux autres.
On peut noter enfin que le mode est lié à la conception des
classes: il suffit par fois de subdiviser la classe modale en deux
sous-classes pour que le mode ne se trouve plus dans l'une
d'entre elles.
σ² = ∑
( Xi − X )²
N
Cette formule présente l'inconvénient majeur de procéder à une
exponentiation d'erreurs dues aux arrondis successifs des
écarts à la moyenne. Pour supprimer ce biais, on utilise une
autre expression, sachant que:
∑ ( Xi − X )² = ∑ ( Xi ² − 2 XiX + X ²)
En développant les X comme étant la somme des Xi/N, en
factorisant et en simplifiant, on en arrive à l'expression suivante:
( ∑ Xi )²
∑ Xi² −
σ² = N
N
( ∑ Xi )²
∑ Xi² −
s² = n
n −1
n
p( s ) = π s (1 − π )n− s
s
n n!
=
avec le coefficient binomial s s!( n − s )!
et π = probabilité de succès à chaque épreuve
et n = nombre d'épreuves
Coefficient de skewness:
m3
g1 = ( Xi − X ) 2 ( Xi − X )3
m3 = ∑
m2 3/2 , avec 2 ∑
m =
n et n
Quand la distribution est normale, g1≈0.
Coefficient de Kurtosis:
m
g2 = 4 − 3 ( Xi − X ) 4
m4 = ∑
m2 2 , avec n
Quand la distribution est normale, g2≈0.
théorique
X =2,8 s=2,1
Xi − X
z=
s
Exemples:
- z=1,50 la table indique p=0,134
La table IV est unilatérale, donc :
- si l’on souhaite connaître le % de la distribution située à
l’extérieur de –z et +z ⇒ les probabilités doivent être multipliées
par 2; pour z=1,5 cette valeur est 0,067x2=0,134
- si l’on souhaite connaître le % de la distribution compris
entre –z et +z ⇒ 1 – (2 x valeur lue dans la table), pour z=1,5
cette valeur est 1 – 0,134 = 0,866.
σ
E=
On montre que N
N E
16 3.57
25 2.86
100 1.43
Exemples:
N=25 et α=0,05 t=2,064
N=40 et α=0,01 t=2,708
π (1 − π ) / n
où π est la proportion dans la population parente.
XA − XB
t=
2 2
sp sp
+
nA nB
La statistique t représente en fait le rapport entre la variance
véritable (différence véritable entre les moyennes) et la
variance d'erreur (c'est-à-dire la variation autour de la
moyenne). S'il n'existe pas de différence réelle entre les
groupes, alors la variance véritable et la variance d'erreur sont
équivalentes. le rapport sera alors proche de 1.
Lorsque t est significatif, on en déduit que la variance véritable
est supérieure à la variance d'erreur (à un risque α d’autant
plus petit que t est grand)
Pratiquement, le t est significatif (rejet de H0) quand le t calculé
est supérieur au t critique lu dans la table.
6.2.3. U de Mann-Whitney :
Position du problème: même principe que t de Student pour
échantillons indépendants lorsque :
- soit les variables sont de nature non métrique (éch.
ordinale)
- soit leur distribution n’est pas normale
Etapes du test :
1. soient 2 groupes 1 et 2 , d’effectifs respectifs n1 et n2
Score : 6 8 9 10 11 13 15
Groupe : 2 2 1 2 1 2 1
Rang : 1 2 3 4 5 6 7
Description de la procédure :
1. construction d’une table de contingence. Les groupes sont
représentés en colonne, les catégories prises par la variable
dépendante en lignes.
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 39
principe de notation : chaque effectif observé de la ième
catégorie (de la VD) et du jème groupe est noté nij
Groupe
variable 1 2 total ligne
modalité 1 n11 n12 L1
modalité 2 n21 n22 L2
modalité 3 n31 n32 L3
Total colonne C1 C2 N
N = effectif total soit la somme de tous les nij
L iC j
Eij =
N
Par exemple, dans notre tableau,
L1 × C1
E11 = N
4. Prise de décision :
pour un nombre de ddl = (l-1).(c-1) on lit le Χ²critique dans la
table, au risque α=0,05.
Si Χ²calculé est supérieur ou égal au Χ²critique, H0 est rejetée
b=
∑ ( X − X )( Y − Y )
∑ ( X − X )²
REMARQUE:
l'ANOVA n'est pas une analyse, mais une famille d'analyse qui
dépend de la complexité du plan expérimental. Ici seule
l'ANOVA à un facteur étudié est abordée.
EXEMPLE:
5 groupes de sujets sont soumis à un apprentissage différent
(A1=démonstration, A2=explication et analyse, A3=réalisation
d'un exercice et correction personnalisée). A l'issue de cet
apprentissage, le nombre d'erreurs sur une tâche donnée est
mesuré.
- VI ou facteur étudié= modalité d'apprentissage,
- VD= nombre d'erreurs (E)
- H0=la modalité d'apprentissage ne joue aucun rôle
sur le nombre d'erreurs obtenues sur la tâche motrice soit
E A1=E A2=E A3
PROCEDURE:
On considère que :
k=nombre de groupes expérimentaux
i=numéro du groupe concerné d'effectif ni
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 45
j=numéro d'une donnée dans un groupe i donné, Xij= jème
valeur du ième groupe
N=nombre total de sujets, soit la somme de tous les ni
Il n'est pas nécessaire que tous les ni soient égaux, mais
l'analyse est plus puissance quand les ni sont très proches. De
plus, les comparaisons multiples sont plus simples quand les ni
sont identiques.
k
SCE entre les groupes (SCE groupes) = ∑ni(Xi − X)²
i =1
avec ddlgroupes=k-1
et enfin:
ni k
SCE intra groupes (SCE des erreurs) = ∑ ∑(Xij − Xi)²
i =1 j =1
avec ddl des erreurs = N-k
Etapes de calcul:
ETAPE 1: calcul d'un terme d'erreur C puis des SCE :
k ni
SCEtotaux = ∑ ∑ Xij2 −C
i =1j =1
avec ddltotaux=N-1
2
ni
∑ Xij
k
j =1 )−C
SCEgroupes= (∑
i =1 ni
avec ddlgroupes=k-1
Comme la SCEtotaux=SCEgroupes+SCEerreurs
SCEerreurs= SCEtotaux - SCEgroupes
avec ddlerreurs= ddltotaux - ddlgroupes
CMgroupes= SCEgroupes
dd lgroupes
et
CMerreurs= SCEerreurs
ddlerreurs
ETAPE 3: calcul du F :
F= CMgroupes
CMerreurs
ETAPE 4: décision
COMPARAISONS MULTIPLES:
Un des tests de comparaisons multiples les plus utilisés est
celui de Tukey:
Principe de calcul:
Pour k groupes, il est possible de faire en tout k.(k-1)/2
comparaisons 2 à 2 différentes.
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 48
A chaque fois, le principe utilisé sera le même:
- calcul d'une erreur standard SE:
SE= CMerreurs
n
où n=nombre des sujets dans chaque groupe
(si n est différents selon les groupes,
un autre calcul doit être utilisé)
- calcul de la valeur q (qui sera utilisée pour tester l'égalité
des 2 moyennes comparées):
q= X1− X2
SE
- décision: si la valeur q calculée est supérieure ou égale à la
valeur critique q de la table, l'hypothèse nulle X1= X2 sera
rejetée.
Le qcritique est lu dans une table spécifique à la ligne
ν=ddlerreurs et à la colonne correspondant à la valeur k
(nombre de groupes).
NB: le calcul est assez rapide, puisque pour toutes les
comparaisons deux à deux la valeur SE est la même, ainsi
que le qcritique.