Vous êtes sur la page 1sur 49

Les statistiques

1. Notion de population et d'échantillon:


En statistiques, la volonté principale est de pouvoir décrire et
d'analyser des données relatives à des phénomènes qui vont
être caractérisés par des données.
Le problème de l'utilisation ultérieure de ces caractéristiques,
sera de savoir si elle sont bien transférables et généralisables à
un groupe plus élargi, alors qu'elles sont issues en fait la
plupart du temps, d'un sous ensemble réduit de ce groupe.
Cela renvoie à une notion essentielle en statistique: la
population et l'échantillon.

1.1. Populations:
La population réfère à l'intégralité des individus ou
organisations répondant à un certain nombre de caractères
communs (hommes âgés entre 30 et 40 ans, p.e.).
Une population peut être de faible effectif (hommes ayant mis le
pied sur la lune), ou au contraire (la plupart du temps) de grand
effectif (sujets sportifs de niveau international). Dès lors, il est
impossible physiquement de les réunir dans une étude unique,
aussi ambitieuse soit-elle. Il faut donc procéder à un découpage
de cette population, c'est-à-dire à la définition d'un échantillon.

1.2. Echantillon issu d'une population:


Un échantillon sera défini comme étant un sous-ensemble (à
priori représentatif) d'une population. Les caractéristiques
devront être les mêmes pour que celle de la population dont
l'échantillon sera issu.
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 1
La plupart du temps un échantillon type n'existe pas et
l'expérimentateur devra alors opérer des choix difficiles et
délicats afin que l'échantillon soit représentatif de la population.
Dans le cas inverse, les conclusions des descriptions ne
pourront être considérées valides que pour l'échantillon, c'est-à-
dire que toute généralisation devient impossible donc l'étude
perd toute sa raison d'être (p.e. enquête d'opinion). Dans
certains cas, des principes peuvent être édictés (code INSEE),
sinon l'expérimentateur aura recours à un échantillon tiré au
hasard (random sample).

1.3. Echantillon tiré au hasard:


S'il existe un grand nombre de moyens de soustraire un
échantillon, la validité de la généralisation dépend des choix
méthodologiques. Dans un tirage au sort, la règle de base
consiste à respecter deux conditions:
a)chaque membre de la population à une égalité de
chance d'être choisi
b)chaque choix est indépendant des autres
En pratique, ces conditions ne peuvent être respectées que s'il
est possible d'attribuer un nombre à chaque sujet, puis d'opérer
un tirage au sort, ou par l'utilisation de tables de tirage au sort .
Il est très souvent impossible d'opérer strictement à de tels
tirages au sort. Il convient alors de connaître et de définir des
règles de sélection sur des critères les plus objectifs possibles
et en tout état de cause basés sur des connaissances
précises permettant de caractériser l'échantillon et de
répartir les sujets testés dans des groupes distincts (le cas
échéant) après tirage au sort. Toutes les possibilités de biais

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 2


pouvant rendre une sélection non indépendante doivent donc
être soigneusement examinées.
Quand le tri au hasard est possible : il s’agit de randomisation
SINON on peut recourir à des techniques comme l’appariement
(sur un certain nombre de variables).

2. Les statistiques descriptives

2.1. Notions de paramètres et de statistiques:


Lorsque l'on cherche à réduire une information pour mieux la
comprendre, on est amené à utiliser deux notions
fondamentales: la mesure de la tendance centrale (moyenne ou
médiane) et la dispersion autour de cette tendance centrale
(range, écart-type…). Ces deux notions sont appelées
paramètres.
Une statistique renvoie plus globalement à toute estimation d'un
ou plusieurs paramètres concernant une population et a été
proposé pour la première fois par Fisher en 1925. Par
extrapolation, on a appelé les statistiques toutes les procédures
permettant d'exprimer des paramètres ou d'en étudier leur
comportement dans des situations spécifiques.
Comme nous l'avons vu plus haut, la sélection d'un échantillon
idéal n'existe que très rarement. C'est pourquoi, il faut admettre
que les paramètres issus de plusieurs échantillons d'une même
population peuvent présenter des variations (taille des étudiants
de la moitié d'un amphi, p.e.). Cela renvoie à la notion
d'intervalle de confiance d'un paramètre statistique et appelle
quelques remarques:

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 3


* la nécessité de recruter autant de sujets possibles afin de
minimiser les sous-estimations et les sur-estimations par
l'obtention d'une moyenne stable sur le long terme
* si un paramètre est obtenu sur un échantillon réduit, sa
représentativité devra être discutée au regard de valeurs de
références (si celles-ci existent)
* un paramètre statistique sera d'autant plus consistent et
fiable que l'échantillon sera suffisamment grand.
En statistique, par convention, les lettres grecques sont
utilisées pour exprimer des paramètres sur des populations, et
les lettres romaines pour les paramètres d'échantillons.

Ex:
N
∑ Xi
µ = i =1
N représente le calcul de la moyenne d'une population
de N sujets

n
∑ Xi
X = i =1
n représente le calcul de la moyenne d'un échantillon
de n sujets

2.2. Les méthodes de mesure de la tendance centrale:


2.2.1. Moyennes:
La valeur centrale qui résume au mieux une distribution de
données de scores est la moyenne arithmétique:

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 4


n
∑ Xi
X = i =1 X=
∑x
n ou plus simplement: N

La moyenne a une propriété fondamentale: la somme des


écarts à la moyenne est nulle:

∑ ( Xi − X ) = 0

Autres expressions de moyennes:


- la moyenne géométrique, définie comme la racine
nième du produit des n valeurs, ces dernières étant toutes
strictement positives,
n
Xg = n X 1 X 2 X 3.... Xn = n ∏ Xi
i =1
Cette moyenne est utilisée :
a)quand on veut calculer la tendance centrale de ratios et
qu'il est souhaité leur donner le même poids
b)quand on veut moyenner des changements exprimés en
pourcentage

- la moyenne harmonique, définie comme l'inverse de la


moyenne arithmétique des inverses des n valeurs, ces
dernières étant toutes strictement positives.
1 n
XH = =
1 1 1
∑ ∑
n Xi Xi
Cette moyenne est utilisée quand on veut moyenner des taux
(rare).
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 5
Lorsque l'on souhaite calculer une moyenne arithmétique plus
rapidement, il est possible de passer par un tableau de
fréquences et la moyenne est calculée ainsi:
k
∑ fiXi
X = i =1
n
où k = nombre de classes différentes.

2.2.2. Médiane.
Le concept de moyenne n'a de sens que pour échelles
d'intervalles, proportionnelles et de rapport.
La tendance centrale d'une distribution de variables ordinales
est représentée par la médiane. La médiane est définie comme
la valeur de la variable telle que 50% des observations lui
soient inférieures et 50% lui soient supérieures, en d'autres
termes, la valeur étant au milieu d'une série de données
ordonnées.
Lorsque ne nombre total d'observation est impair, le définition
de la médiane ne pose pas de problème: le rang médian est
égal à :
M=X(n+1)/2

Dans le cas d'effectif pair, la médiane est définie par la valeur à


mi-chemin entre les valeurs des deux rangs concernés. Par
exemple, si n=10, X(n+1)/2=X5.5 . On prend donc les valeurs du 5°
et du 6° rang, puis on en fait la moyenne.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 6


Comment traiter le problème des rangs ex-æquo?

Principe:
• additionner les rangs des ex-æquo
• diviser par le nombre d'ex-æquo
• affecter ce résultat aux ex-æquo

Xi Rang sans Rang avec


traitement des ex- traitement des ex-
æquo æquo
12 1 1
14 2 2
16 3 (3+4+5)/3=4
16 4 4
16 5 4
18 6 6
19 7 7
25 8 (8+9)/2=8.5
25 9 8.5
32 10 10

Vérification: le dernier rang est toujours égal à n (sauf si ex-


æquo présents au dernier rang).

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 7


UNITE : l’unité de la médiane est la même que celle des
données de base
INCONVENIENT DE LA MEDIANE : elle donne moins
d’informations que la moyenne, car elle ne prend pas en
compte la valeur des variables, mais leur rang.
AVANTAGE DE LA MEDIANE :
1. des mesures extrêmes (hautes ou basses) affecteront
peu la médiane, alors que leur influence sur la
moyenne serait très importante. La médiane est
qualifiée de statistique résistante
2. lors de répartitions éloignées de la normale, la médiane
est une statistique de tendance centrale
méthodologiquement plus juste et plus pertinente.

2.2.3. Le mode.
En ce qui concerne les échelles nominales, c'est-à-dire les
données de numération, ni la moyenne ni la médiane ne sont
accessibles.
Le mode est défini comme la catégorie pour laquelle
l'effectif est le plus grand (ou comme la valeur la plus
fréquemment attribuée).
Le mode n'a vraiment de sens que si une catégorie présente un
effectif nettement supérieur aux autres.
On peut noter enfin que le mode est lié à la conception des
classes: il suffit par fois de subdiviser la classe modale en deux
sous-classes pour que le mode ne se trouve plus dans l'une
d'entre elles.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 8


Exercice exemple E3: Mode= 4; remarque: ici le calcul du
mode est peu pertinent (cf observation précédente)

2.2.4. Positions relatives du mode, de la médiane et de


la moyenne:
La compréhension des différences entre ces valeurs est
importante car leur position respectives vont dépendre de la
répartition des effectifs.
Si l'on considère les 3 cas suivants:
En haut, la distribution est unimodale et symétrique.
Moyenne, médiane et mode sont confondus.
Dans le cas a), la distribution est décalée vers la droite (la
plupart des sujets ont des valeurs basses). La médiane et
le mode ne peuvent pas coïncider car lorsqu'on se trouve
sur le mode, il reste trop d'observations à droite du
sommet (le mode) pour que celui-ci divise la population en
deux effectifs égaux. La médiane est donc nettement à
droite du mode.
Position de la moyenne (point d'équilibre de la
distribution): si on considère que le point d'équilibre de la
répartition se situe sur la médiane, on fait une erreur, car
les valeurs se trouvant sur la partie droite de la distribution
sont plus éloignées de la médiane que celles situées à
gauche. Elles vont donc exercer une force plus importante
du coté droit. La moyenne est donc située à droite de la
médiane [partie b) de la figure].

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 9


POURQUOI? La médiane intègre seulement des effectifs
(50% d'un coté, 50% de l'autre), la moyenne intègre la
valeur de chaque variable, donc son poids relatif au point
d'équilibre.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 10


2.2.5. Comment choisir l'expression la plus appropriée
de la tendance centrale?
Il n'existe pas vraiment de loi absolue. Tout dépend des
distributions étudiées.

Voir la figure suivante.

Le mode se situe proche du 0: donc il existe une très forte


proportion d'individus ayant aucun revenu.
La plus grosse masse de revenus se situe dans une fourchette
de 2000 à 20 000 $. Cette information n'est donc pas
perceptible à travers le mode. Il est fort probable que cette
seule information ne permettrait pas de rendre compte de
l'évolution du revenu des américains entre deux périodes, pour
peu que l'effectif le plus fort soit toujours proche de zéro.
Le mode n'a ici aucune utilité

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 11


La médiane est proche de 8000$. Son utilité est immédiatement
plus perceptible: 50% des américains gagnent plus et autant
gagnent moins. Elle permet donc de dégager un profil "type" de
l'américain moyen. Elle a en outre un autre avantage, c'est sa
stabilité. En effet, si les revenus les plus élevés augmentaient
fortement, comme ils sont aussi les moins nombreux, ils ne
modifieront pratiquement pas la médiane.
La moyenne est proche des 10000$. Chaque dollar gagné par
un riche ou un pauvre comptera de façon égale dans le calcul
de la moyenne et pèsera d'un poids égal. C'est à la fois
l'avantage et l'inconvénient de la moyenne:
Avantage: elle permet notamment de calculer très
rapidement la richesse totale (valeur moyenne fois nombre
d'individus)
Inconvénient: moins pertinente pour mesurer le revenu
"type" car la moyenne sera fortement influencée par de
fortes variations des faibles ou très hauts revenus (alors
que la "classe moyenne" ne verra pas ses revenus être
modifiés). Elle manque donc de stabilité
EN RESUME: cet exemple montre bien que le mode est la
valeur centrale la plus simple à calculer, mais aussi la plus
mauvaise. La médiane fournit l'indication la plus typique de la
majorité des individus. La moyenne est la seule à tenir compte
de la totalité des observations et de leur poids relatif. C'est la
raison pour laquelle elle est si souvent utilisée, mais
L'objectif poursuivi dans l'analyse descriptive des données
reste un élément déterminant de choix entre moyenne et
médiane.
De plus, la représentation de l’histogramme des
distribution est toujours riche d’informations.
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 12
ENFIN: ne pas oublier que certaines variables ne permettent
pas le calcul pertinent d'une moyenne (variables qualitatives
issues d'échelles ordinales)

2.3. Les mesures de dispersion et de diversité :

La seule mesure de la tendance centrale est insuffisante pour


rendre compte de façon synthétique d'une distribution de
données.
Il faut donc ajouter la notion de dispersion ou mesure de la
variabilité, qui donne une indication précise de la nature des
variations des données autour de la tendance centrale.
C'est une valeur qui préciser utilement la perception des
données (groupe homogène = petite dispersion autour de la
tendance centrale; groupe hétérogène = grande dispersion
autour de la tendance centrale)
Ici encore, plusieurs expressions existent mais ne fournissent
pas les mêmes indications

2.3.1. Intervalle de variation (Range)


Il s'agit de la différence entre la plus petite et la plus grande
valeur.
Range = Xn-X1
Cet indice, s'il donne un ordre d'idée sur l'écart maximal, n'est
pas capable de rendre compte de la dispersion réelle des notes
autour de la tendance centrale.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 13


2.3.2. Variance, écart type et erreur standard de la
moyenne
Une des façons les plus démonstratives de calculer la
dispersion est d'inclure dans une formule une expression des
écarts à la moyenne.
Comme par définition la somme des écarts à la moyenne est
nulle, il est communément utilisé en statistique une valeur au
carré de ces écarts, appelée Somme de carré des écarts (SCE)
SCE = ∑ ( Xi − X )²

Pour raisonner sur un seul groupe, cette estimation serait


suffisante.
Par contre, la comparaison de groupes d'effectifs différents
poserait problème, car la SCE serait probablement plus grande,
mais uniquement à cause d'un effectif plus élevé.
C'est pourquoi on a alors recours au calcul de la variance, qui
est en fait la SCE normalisée par rapport à l'effectif du groupe
(variance d'une population = sigma minuscule ou σ²,
variance d'un échantillon = s²)

σ² = ∑
( Xi − X )²
N
Cette formule présente l'inconvénient majeur de procéder à une
exponentiation d'erreurs dues aux arrondis successifs des
écarts à la moyenne. Pour supprimer ce biais, on utilise une
autre expression, sachant que:
∑ ( Xi − X )² = ∑ ( Xi ² − 2 XiX + X ²)
En développant les X comme étant la somme des Xi/N, en
factorisant et en simplifiant, on en arrive à l'expression suivante:

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 14


( ∑ Xi )²
∑ Xi ² −
N
On a donc une expression plus simple et plus juste de la
variance:

( ∑ Xi )²
∑ Xi² −
σ² = N
N

Une variance calculée sur un échantillon n'est qu'une


estimation de la variance d'une population parente. Les
statisticiens ont pu démontrer que la meilleure estimation de la
variance pour un échantillon d'effectif n peut être obtenue ainsi:

( ∑ Xi )²
∑ Xi² −
s² = n
n −1

n-1 représente le nombre de degrés de liberté de la variable,


c'est-à-dire qu'il suffit que n-1 valeurs soient connues pour la
détermination de la nième valeur.

En pratique, l'écart type ( s ² ou s) est souvent beaucoup plus


utilisé que la variance car il possède de meilleures qualités
dans les calculs de probabilités.
D'autre part, l'écart type a l'avantage d'être une mesure de
distance (ou d'intervalle, cf. P1), alors que la variance est une
mesure d'intervalle au carré. Une grandeur peut donc être
comparée à son écart type, mais pas à sa variance.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 15


Par définition, l'écart type :
* P1: Prendra la même unité que la variable mesurée
* P2: Ne peut être que positif
* P3: Sera nul si toutes les valeurs individuelles sont les
mêmes
* P4: Sera d'autant plus grand que les valeurs s'écartent
souvent de la moyenne et de façon importante
Une autre propriété importante à connaître est que :
si une distribution est normale (Gaussienne), 95% des
éléments de l'échantillon sont compris dans un intervalle
de 2 déviations standards autour de la moyenne.

Une variante de l'écart type (ou déviation standard, DS ou SD)


est représenté par l'erreur standard de la moyenne (ou SEM).
Son calcul est très simple:
s
SEM =
n
Son intérêt est de compenser l'effet d'un effectif sur la valeur de
l'écart type.
En effet, plus n est grand plus s tend à augmenter. Si l'on veut
comparer des groupes de tailles très différentes, on a alors
intérêt à utiliser le SEM.

2.3.3. Coefficient de variation:


Aussi appelé coefficient de variabilité, il correspond à
l'expression de l'écart type ramené à la moyenne.
s
CV =
X

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 16


Puisque s et X ont la même unité, CV n'aura aucune unité. Par
commodité, il est souvent multiplié par 100 pour être exprimé
sous forme d'un pourcentage.
L'intérêt majeur de cette expression est de s'affranchir de l'unité
de la variabilité pour se centrer sur son importance relative (la
variabilité de la taille est-elle aussi importante que la variabilité
du poids?).
Par exemple, un s=100 sur une moyenne de 10000
exprimera la même variabilité relative qu'un s=1 sur une
moyenne de 100, soit 1%.
Sa compréhension est immédiate, c'est-à-dire que la valeur de
l'écart type représente 1% de la moyenne.
ATTENTION: il n'est pas possible de calculer un CV sur des
données issues d'échelles d'intervalle.
Ex: avec échantillon B de exercice E2, calculer le CV. Réponse:
CV=0.089 ou 8,9%

2.3.4. La dispersion mesurée avec les quantiles :


Avec les variables ordinales, il est impossible d'exprimer la
dispersion des données autour de la tendance centrale avec le
calcul de l'écart type.
De plus, l'utilisation des quantiles peut permettre une
expression très synthétique des résultats.
Les quantiles sont des valeurs cibles qui jalonnent une
distribution.
Si on divise une distribution en 10 intervalles, on parle de
déciles.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 17


Si on divise une distribution en 4 intervalles, on parle de
quartiles, …etc.
Cela signifie que 10% de l'effectif est compris dans chaque
décile, et que 25% de l'effectif est compris dans chaque
quartile.
Les quartiles sont très souvent utilisés car ils résument assez
bien une distribution de données en quatre intervalles
regroupant chacun 25% de l'échantillon. On distingue alors par
définition:
- le premier quartile (Q1) ou quartile inférieur
- le second quartile (Q2, en fait = la médiane)
- le troisième quartile (Q3) ou quartile supérieur

Plus concrètement, les quartiles sont calculés comme suit:


Q1=X(n+1)/4
Q2=médiane soit X(n+1)/2
Q3=Xn+1-(indice de X pour Q1)
Pour simplifier, si l'indice du quantile n'est pas un entier, il est
systématiquement arrondi à l'entier supérieur.

A partir de là, on peut calculer l'étendue interquartile ou


dispersion centrale interquartile (interquartile range) par la
formule:
EIQ = Q3-Q1
ou encore la déviation quartile = (Q3-Q1)/2
L'utilisation des quartiles, déciles ou percentiles est
extrêmement répandue dans la standardisation des tests, car
elle permet notamment de situer très rapidement un sujet au
sein d'une population parente: par exemple, une personne
pesant 80 kg et mesurant 1,80 m est-elle plus grande que
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 18
lourde ou plus lourde que grande (par rapport à une population
donnée)?
D'autres utilisations sont aussi très répandues, comme en
pharmacologie (dose létale 50=deuxième quartile ou 50°
percentile = dose pour laquelle une drogue tue 50% des
animaux testés).

L'utilisation des quartiles a donné également naissance à une


technique graphique très synthétique: le "box-plot" ou "boîte à
moustaches", qui donne, à la fois, une excellente idée de la
tendance centrale, de la dispersion et des valeurs extrêmes.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 19


2.3.5. Indices de diversité:
Dans le cas d'échelles nominales, il est impossible d'utiliser des
valeurs comme moyenne ou médiane, écart type ou quantiles.
La notion de dispersion sera donc remplacée par celle de
diversité, c'est-à-dire, la distribution des observations dans les
différentes catégories.
Les calculs d'indices de diversité sont basés sur la théorie de
l'information, à partir du principe suivant:
quand il existe une forte diversité, la notion de synonyme est
incertaine.
en d'autres termes,
la précision d'une prédiction sera inversement proportionnelle à
la diversité rencontrée.

Dans un ensemble de données issues d'une échelle nominale,


considéré comme étant un échantillon randomisé, l'expression
de la diversité est obtenue par le calcul de l'index de Shannon :
k
n log n − ∑ fi log fi
H' = i =1
n
où,
k = nombre de catégories différentes
fi = nombre d'observations dans la catégorie i
n = nombre total d'observations
H' sera d'autant plus petit que la diversité est grande.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 20


Quand les nombres de catégories sont égaux, il n'y a pas de
problème concernant l'utilisation de l'index de Shannon.
Cependant, la valeur de H' est affectée non seulement par la
distribution des données mais aussi par le nombre total de
catégories.
C'est pourquoi il est préférable d'utiliser dans ces cas là une
expression de H' ramenée à sa valeur maximale (quand il
n'existe aucune diversité), soit un indice de diversité relative :
H'
J' =
H' max
avec H'max = log k
rappel: k étant le nombre de catégories différentes

J' prend donc la valeur d'un pourcentage, avec :


si J'=1 ⇔ aucune diversité
si J' Ô ⇔ diversité Ò
J' est appelé indice de régularité (evenness) et renvoie à la
notion d'homogénéité.
A l'inverse, l'hétérogénéité est appréciée par la grandeur 1-J'.

3. Distribution des échantillons :


On appelle distribution, la répartition des effectifs sur chacun
des niveaux de la mesure.
Dans le cas des données de scores, on répartit les effectifs sur
des intervalles de mesures. On représente graphiquement les
distributions par des courbes de fréquences. Ces distributions
peuvent être symétriques, modérément dissymétriques,
biaisées à gauche ou à droite, en J ou en L, ou bi modales (cf
chapitre précédent).
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 21
Couramment, les statisticiens modélisent leurs distributions en
fonctions binomiales ou normales.
Le modèle binomial et le modèle normal renvoient à peu près à
la même réalité (distributions symétriques autour de la
moyenne), mais différence principale :
modèle binomial : concerne des variations discrètes
modèle normal : concerne des variations continues.
Intérêt de ces modèles: ces distributions possèdent des
propriétés mathématiques puissantes qui sous-tendent les tests
statistiques.

3.1. La distribution binomiale :


L'exemple classique d'une variable binomiale est :
NOMBRE DE FACES OBTENUES EN PLUSIEURS JETS D'1
PIECE.
En fait, ces variables sont très nombreuses. Les variables
binomiales répondent aux hypothèses de base suivantes:
1. on suppose n épreuves (jets de pièces, tirages au
sort…)
2. à chaque épreuve un événement (désiré) se produit ou
non. S'il survient, on parle de succès, sinon d'échec. Leurs
probabilités ne changent pas d'une épreuve à l'autre
3. on suppose que les épreuves sont statistiquement
indépendantes.
Donc S (nombre de succès en n épreuves) est appelé variable
binomiale.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 22


Exemples de variables binomiales

Epreuve Succès Echec n S


Jet d'une pièce face pile nombre de jets nombre total de
équilibrée "face"
naissance d'un fille garçon nombre d'enfants nombre total de
enfant dans une fille dans la
famille famille
choix d'une vrai faux nombre de nombre de
réponse parmi 4 questions posées réponses
proposées correctes
tirage au sort de noire blanche nombre de tirages nombre de
boules de boules noires
couleur tirées

le nombre de succès peut prendre n+1 valeurs, comprises entre


0 et n.
Quand il existe des effectifs inégaux à l'intérieur des sous-
ensembles, la nature de la distribution peut varier.
Par exemple, si on tire au sort des boules blanches et noires de
proportions respectives p et q, la distribution binomiale :
- sera symétrique si p=q=1/2
- se rapprochera de la symétrie si n est suffisamment
grand
- La moyenne de la distribution sera donnée par:
m = n×q
- La variance de la distribution sera donnée par:
s = n× p×q

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 23


Lorsque la loi binomiale peut être appliquée, il est aisé de
calculer la probabilité d'un événement particulier [p(s)] en
utilisant la formule:

n
p( s ) =  π s (1 − π )n− s
 s
n n!
  =
avec le coefficient binomial  s  s!( n − s )!
et π = probabilité de succès à chaque épreuve
et n = nombre d'épreuves

3.2. La distribution normale :


Appelée aussi loi ou courbe de Gauss (mathématicien
Allemand de la fin du XVIII° siècle).
C'est une des lois les plus répandues et les plus utiles, car
beaucoup de variables aléatoires, comme les erreurs de
mesure, se répartissent selon la loi normale.

C'est une distribution symétrique, centrée sur sa moyenne et


présentant deux points d'inflexion symétriques. L'allure de cette
distribution ressemble à une cloche.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 24


Comme ce schéma l'indique, cette distribution est totalement
définie par sa moyenne et son écart type.
Une variable sera dite "normale" si elle se distribue de telle
sorte que les fréquences d'apparition des différents scores
possibles suivent une loi normale.

3.2.1. Les tests de normalité :


La solution la plus simple consiste à calculer un indice
d'asymétrie (coefficient de skewness) et d'aplatissement
(coefficient de kurtosis)

Coefficient de skewness:
m3
g1 = ( Xi − X ) 2 ( Xi − X )3
m3 = ∑
m2 3/2 , avec 2 ∑
m =
n et n
Quand la distribution est normale, g1≈0.

Coefficient de Kurtosis:
m
g2 = 4 − 3 ( Xi − X ) 4
m4 = ∑
m2 2 , avec n
Quand la distribution est normale, g2≈0.

On peut aussi, si un doute persiste, utiliser le test de


Kolmogorov-Smirnov.
Son principe est basé sur la comparaison des fréquences
cumulées observées aux fréquences cumulées théoriques,
calculées à partir de la table de la loi normale.
Principe de réalisation:
- on ordonne les données

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 25


- on calcule les fréquences correspondant à chaque
niveau de score
- on calcule les fréquences cumulées correspondant à
chaque niveau de score
- on calcule les scores Z correspondant à chaque score,
sachant que
Xi − X
Z=
s
- on reporte pour chaque niveau (en fonction de la valeur
absolue de Z) la fréquence cumulée théorique en utilisant
la table de la loi normale.
Attention: quand le signe du z change, la fréquence lue
dans la table doit être déterminée par symétrie par rapport
à 1, c'est-à-dire que la valeur lue dans la table est
soustraite de 1.
- on calcule les différences entre fréquences cumulées
observées et théoriques
- la valeur du coefficient de Komogorov-Smirnov
correspond à la différence absolue maximale entre
fréquence cumulée théorique et observée.
La table de Kolmogorov-Smirnov donne la différence
maximale théorique acceptable, en fonction de l'effectif de
l'échantillon.
Tant que la différence maximale observée est inférieure à
la valeur critique de la table (DiffTh, pour α=0,05) la
normalité de la distribution est considérée comme VRAIE.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 26


exemple :
Score Effectifs Fréquence Fréquence z Fréquence Différence
cumulée cumulée valeur absolue

théorique

0 2 0,2 0,2 -1,33 0,092 0,108


1 2 0,2 0,4 -0,86 0,195 0,205
2 0 0,0 0,4 -0,38 0,352 0,048
3 1 0,1 0,5 0,10 0,54 0,04
4 2 0,2 0,7 0,57 0,716 0,016
5 3 0,3 1,0 1,05 0,853 0,147

X =2,8 s=2,1

ici, la différence maximale (Diffmax)=0,205;


pour n=10 et α=0,05, Diffth=0,409
comme ici Diffmax<Diffth, cette distribution peut donc être
considérée comme normale.

3.3. La loi normale centrée réduite :


Si l'on transforme une distribution en retranchant sa moyenne
et en divisant par son écart-type, on obtiendra une nouvelle
distribution, de moyenne 0 et d'écart-type 1: c'est une
distribution centrée réduite.

Xi − X
z=
s

Une telle transformation permet par exemple de comparer des


distributions en s'affranchissant des unités de mesure.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 27


La loi normale réduite a des propriétés très importantes.
En effet, sa distribution permet d'établir des correspondances
entre les abscisses (les différentes valeurs de z) et les aires
délimitées par ces abscisses.

La table fait correspondre à chaque valeur de z l'aire extérieure


à z ⇔ pourcentage de la distribution située au delà de cette
valeur ⇔ probabilité de trouver une valeur supérieure à z.

Exemples:
- z=1,50 la table indique p=0,134
La table IV est unilatérale, donc :
- si l’on souhaite connaître le % de la distribution située à
l’extérieur de –z et +z ⇒ les probabilités doivent être multipliées
par 2; pour z=1,5 cette valeur est 0,067x2=0,134
- si l’on souhaite connaître le % de la distribution compris
entre –z et +z ⇒ 1 – (2 x valeur lue dans la table), pour z=1,5
cette valeur est 1 – 0,134 = 0,866.

Ceci signifie que 13,4% de la distribution des z est située en


dehors de l'intervalle (-1,5;1,5). Ou encore : 100-13,4=86,6%
de la distribution sont situés entre -1,5 et 1,5. Ou encore :
(86,6)/2= 43,3% de la distribution des z est situé entre 0 et 1,5.

La table peut être utilisée à l'inverse:


Quelle est la valeur z pour que 10% de la distribution soit
supérieure à z, ou inférieure à –z ?

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 28


Pour p=0,10 (attention, 0,05 si table unilatérale), la table
indique z=1,65.

INTERET: la table normale réduite est à la base de la plupart


des procédures statistiques.

Quelques valeurs remarquables de z:

% (in) p' (out) z


90 .10 1.65
95 .05 1.96
99 .01 2.56

4. Limites de confiance de la moyenne d'un échantillon:


Un échantillon est toujours considéré comme extrait d'une
population parente.
Il n'en est pas l'image parfaite. Il existe une erreur due à
l'échantillonnage.
Tous les paramètres calculés (i.e. moyenne, écart-type) ne sont
que des estimations de ceux de la population parente.

D'où la question: quelle confiance accorder à la valeur d'un


paramètre calculé sur un échantillon ?

4.1. Population parente à paramètres connus:

Soit une population parente de moyenne µ=49,5 et σ=14,3.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 29


De cette population on extrait au hasard des échantillons de
taille N.
Les différentes moyennes obtenues constituent un échantillon
de moyenne, d'une population parente des échantillons de 25
mesures, de moyenne m=M, et d'écart-type E. E est appelé
erreur-type.

σ
E=
On montre que N

E est d'autant plus petit que N est élevé:

N E
16 3.57
25 2.86
100 1.43

4.2. Population parente à paramètres inconnus:

On ne connaît que les paramètres de l'échantillon. Quelle


confiance accorder à cette estimation?

Les limites de confiance de la moyenne de l'échantillon sont

L1= X -t(s/√N) et L2= X +t(s/√N)

t est le t de Student, donné par une table spécifique. t dépend


du seuil de probabilité choisi, et du nombre de degrés de liberté
de l'échantillon

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 30


dans ce cas, ddl=N-1

Exemples:
N=25 et α=0,05 t=2,064
N=40 et α=0,01 t=2,708

5. Intervalle de confiance d'une proportion :


Les intervalles de confiance pour les proportions est assez
semblable à celui des moyennes.
Pour les calculer, on utilise la formule appropriée de
l'approximation normale pour les proportions, qui définit que
l'écart type de l'échantillonnage est :

π (1 − π ) / n
où π est la proportion dans la population parente.

Par conséquent, l'intervalle de confiance à 95% d'une


proportion P obtenue sur un échantillon donné de taille n sera
compris entre deux valeurs π1 et π2 :
π1 = P - 1,96 π (1 − π ) / n
π2 = P + 1,96 π (1 − π ) / n
Le problème est que la valeur π est par définition inconnue.
Il faut donc substituer à π la valeur P de l'échantillon. Cette
procédure introduit évidemment une source d'erreur, mais il est
démontrable mathématiquement que celle-ci tend vers 0 quand
n augmente.
C'est pourquoi cette formule ne peut être utilisée que pour
des effectifs importants

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 31


Par conséquent, l'intervalle de confiance à 95% d'une
proportion P est:
P ± 1,96 P(1 − P ) / n
Nota: le même calcul est possible au risque de 99% en remplaçant 1,96
(z pour un risque 0,05) par 2,56 (z pour un risque à 0,01; cf paragraphe
3.3) ou toute autre valeur correspondante de z au risque désiré.

6. Statistiques inférentielles ou explicatives :


6.1. inférence, risques statistiques :
Notion d’inférence statistique : un des buts majeurs des
statistiques est de réaliser des inférences, c’est-à-dire tirer des
conclusions sur des populations, à partir de l’examem d’un
échantillon de cette population. En d’autres termes, cela revient
à généraliser un résultat.
Lors des chapitres précédents, le principe de l’inférence
statistique a déjà été utilisé (p.e. confrontation d’une moyenne
obtenue par rapport à une moyenne prévue)
Méthode :
• on pose d’abord une hypothèse nulle (notée H0) qui
exprime l’absence de toute différence ou de tout effet
expérimental (selon les cas)
• on calcule une valeur statistique dépendant du type de
question posée (différence entre 2 moyennes, entre n
moyennes, liaisons entre variables, tester des répartitions
entre variables…etc.), de la nature des variables à
analyser (variables dépendantes ou VD), de leur
distribution
• cette valeur calculée est ensuite comparée à une valeur
critique pour savoir si H0 doit être rejetée ou non.
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 32
• la valeur critique dépend toujours :
o de la taille de l’échantillon (qui détermine le nombre
de degrés de liberté),
o du risque d’erreur acceptable en cas de rejet de H0.
Ce risque est noté risque α ou risque de première
espèce ou encore risque de type I. Par convention, le
risque maximal acceptable en sciences
expérimentales est de 5% soit 0,05. Cela signifie qu’il
existe 5 chances sur 100 d’avoir rejeté H0 à tort. Par
conséquent, plus le risque α est petit, plus le rejet
d’H0 est « sûr »
• il existe cependant un risque lorsque H0 n’est pas rejetée.
En effet, H0 peut ne pas être rejetée alors qu’elle est
fausse. Ce risque est appelé risque β (risque de deuxième
espèce ou risque de type II). Ce risque présente les
caractéristiques suivantes :
o pour un effectif n donné, la valeur d’α a tendance à
être inversement proportionnelle à β
o la seule façon de réduire simultanément ces 2
risques est d’augmenter n
• souvent la lourdeur du calcul du risque β fait qu’il n’est
jamais pris en compte, cependant quand H0 n’est pas
rejetée, elle n’est pas forcément vraie. La prudence
impose donc :
o de travailler sur des effectifs suffisamment importants
o d’éviter des conclusions hâtives quand α est petit
mais supérieur à 0,05 (zone pour laquelle β est
souvent très élevé)

synthèse des risques statistiques encourus :


Statistiques – Master 1 Tronc commun – UE3 E1 – Page 33
si H0 est vraie si H0 est fausse
si H0 est rejetée risque α pas d’erreur
si H0 n’est pas rejetée pas d’erreur risque β

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 34


6.2. Comparaison de 2 moyennes
Problème général : déterminer si 2 moyennes sont différentes
ou non.
Tests réalisés : dépend de la nature des variables
dépendantes, de leur distribution et de la nature des moyennes
si VD métriques :
• 2 moyennes sur 2 groupes indépendants, avec
chaque distribution étant normale : t de Student
pour échantillons indépendants
• 2 moyennes issues du même groupe (mesures
répétées) avec distribution des différences
normale : t de Student pour séries appariées
si VD non métriques ou métriques et non normales (tests non
paramétriques utilisant par conséquent la notion de rangs)
• 2 moyennes sur 2 groupes indépendants : test de
Mann-Whitney
• 2 moyennes issues du même groupe (mesures
répétées) : test des rangs signés de Wilcoxon

6.2.1. t de Student pour échantillons indépendants


soient 2 groupes A et B d’effectifs nA et nB pouvant être
différents.
H0 : XA = XB
Le problème est donc de comparer les moyennes de deux
échantillons indépendants. L'hypothèse est que les deux
moyennes sont égales, donc que leur différence est voisine de
zéro.
Il serait possible de calculer les intervalles de confiance de
chaque moyenne, et de voir si les deux intervalles ont une
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 35
intersection non nulle. En pratique, il est plus simple de réaliser
un calcul statistique plus généralisable : le t de Student (pour
échantillons indépendants).

étapes de calcul de la statistique t :


1. calcul de la variance commune aux deux populations
définie comme étant la somme du carré des écarts des 2
échantillons divisée par la somme de leurs degrés de liberté:
2 SCEA + SCEB
sp =
νA + νB
où SCEA=somme du carré des écarts à la moyenne, soit
[ ∑ ( XiA − XA )² ]
et νA = ddlA = nA-1
2. calcul du t :

XA − XB
t=
2 2
sp sp
+
nA nB
La statistique t représente en fait le rapport entre la variance
véritable (différence véritable entre les moyennes) et la
variance d'erreur (c'est-à-dire la variation autour de la
moyenne). S'il n'existe pas de différence réelle entre les
groupes, alors la variance véritable et la variance d'erreur sont
équivalentes. le rapport sera alors proche de 1.
Lorsque t est significatif, on en déduit que la variance véritable
est supérieure à la variance d'erreur (à un risque α d’autant
plus petit que t est grand)
Pratiquement, le t est significatif (rejet de H0) quand le t calculé
est supérieur au t critique lu dans la table.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 36


6.2.2. t de Student pour échantillons appariés
Dans ce cas, les deux séries de mesures ne sont plus issues
de 2 groupes indépendants, mais du même échantillon
statistique testé dans des conditions différentes.
Le principe de ce test ne sera plus de comparer des différences
de moyennes, mais des moyennes de différences.
H0 : d = 0
Etapes de calcul du t :
1. calcul des différences ligne à ligne
2. calcul de la moyenne des différences ( d )
3. calcul de la valeur de t :
d
t=
SEMd
où SEMd représente l’erreur standard de la moyenne des
différences, soit :
sd
nd
4. décision : si le t calculé est supérieur au t lu dans la table
pour un ddl=nd-1, H0 est rejetée.

6.2.3. U de Mann-Whitney :
Position du problème: même principe que t de Student pour
échantillons indépendants lorsque :
- soit les variables sont de nature non métrique (éch.
ordinale)
- soit leur distribution n’est pas normale
Etapes du test :
1. soient 2 groupes 1 et 2 , d’effectifs respectifs n1 et n2

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 37


On ordonne les données des deux groupes, pour les classer
ensuite en fonction de leur rang :
ex : groupe 1 : 9 11 15
groupe 2 : 6 8 10 13

Score : 6 8 9 10 11 13 15
Groupe : 2 2 1 2 1 2 1
Rang : 1 2 3 4 5 6 7

2. La somme des rangs de chaque groupe est ensuite


calculée (notée R) :
R1 = 3 + 5 + 7 = 15
R2 = 1 + 2 + 4 + 6 = 13

3. Calcul des statistiques U1 et U2


n1( n1 + 1) n2( n2 + 1)
U1 = n1.n2 + − R1 U2 = n1.n2 + − R2
2 et 2
dans notre exemple : U1 = 12 + 6 - 15 = 3
U2 = 12 + 10 - 13 = 9

4. La plus grande des 2 valeurs U1 et U2 est appelée U de


Mann et Whitney et sera utilisée pour lire la table. Cette table
suppose que n1 est l’effectif du plus petit groupe. Pour un
risque α à 0,05 si le plus grand U calculé est supérieur ou
égal au Ucritique , alors H0 est rejetée.
Dans notre exemple : toute valeur supérieure ou égale à 12
entraînera un rejet de H0.
Ici Umax=9 ⇒ H0 n’est pas rejetée, on ne pas dire que ces
deux groupes sont significativement différents.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 38


6.2.4. Test des rangs signés de Wilcoxon :
Position du problème : même objectif que t de Student pour
échantillons appariés, pour variables ordinales ou métriques
mais quand la distribution des différences est non normale.
Procédure :
1. calcul des différences
2. classement des valeurs absolues de différences
3. affectation des rangs (sur les valeurs absolues)
4. application du signe du rang
5. calcul de la somme des rangs positifs (T+) et négatifs (T-)
6. H0 est rejetée si la plus petite des 2 valeurs T+ ou T- est
inférieure ou égale à la valeur critique de la table pour
n=nombre de différences non nulles et au risque α=0,05.

6.3. Test du chi² :


But : spécifier si deux groupes indépendants sont différents sur
des caractéristiques particulières, en se basant sur les
fréquences observées de celles-ci.
Avantage : le fait de raisonner sur des fréquences permet de
travailler sur des données obtenues sur des échelles de mesure
peu structurées telles que les échelles nominales.
H0 : il n’y a aucune différence entre les deux groupes, quant à
la répartition des effectifs observés dans chaque catégorie.

Description de la procédure :
1. construction d’une table de contingence. Les groupes sont
représentés en colonne, les catégories prises par la variable
dépendante en lignes.
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 39
principe de notation : chaque effectif observé de la ième
catégorie (de la VD) et du jème groupe est noté nij

Groupe
variable 1 2 total ligne
modalité 1 n11 n12 L1
modalité 2 n21 n22 L2
modalité 3 n31 n32 L3
Total colonne C1 C2 N
N = effectif total soit la somme de tous les nij

avec les effectifs totaux de la ième ligne étant :


c
Li = ∑ nij
j =1 avec c=nbre de colonnes
et les effectifs totaux de la jème colonne étant :
l
Cj = ∑ nij
avec l=nbre de lignes
i =1
par exemple, dans notre table :
L1=n11 + n12
et C1=n11 + n21 + n31

2. calcul des effectifs théoriques si H0 est vraie (identité de


répartition dans l’ensemble de la table de contingence)

L iC j
Eij =
N
Par exemple, dans notre tableau,
L1 × C1
E11 = N

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 40


3. calcul de la statistique Χ²
l c ( nij − Eij )²
Χ² = ∑ ∑
i =1 j =1 Eij
Il s’agit en fait de confronter les effectifs théoriques (Eij) et
observés (nij).

4. Prise de décision :
pour un nombre de ddl = (l-1).(c-1) on lit le Χ²critique dans la
table, au risque α=0,05.
Si Χ²calculé est supérieur ou égal au Χ²critique, H0 est rejetée

6.4. L'ajustement linéaire :


Il est parfois intéressant d'étudier l'évolution d'une variable en
fonction d'une autre, pour voir si la première est liée à la
seconde ou évolue indépendamment de la seconde. C'est ce
que les statisticiens appellent la régression.
Un des cas simples de ces études est représenté par une
liaison de type linéaire, c'est-à-dire obéissant à l'équation:
ˆ = a + bX
Y
où Ŷ correspond à une estimation calculée de Y, en fonction
d'une valeur de X.
a est appelée ordonnée à l'origine (valeur prise par Ŷ quand
X=0)
b est appelée pente de la relation (si b<0, la pente est
descendante, et plus la valeur absolue de b est grande, plus la
pente est raide). Elle représente la variation de Ŷ qui
accompagne la variation d'une unité de X.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 41


La question qui se pose est de calculer la meilleure droite de
régression, c'est-à-dire calculer les valeurs de a et de b.
Comme Ŷ est une valeur estimée à partir de l'équation de
régression, il existe pour tout X un écart entre Y (valeur réelle)
et Ŷ (valeur calculée), soit:
d = Y - Ŷ
Tout le problème consistera donc à trouver l'équation qui
minimisera les écarts obtenus entre toutes les valeurs Y et s
obtenus entre toutes les valeurs Y et Ŷ .
Il apparaît évident de vouloir donc minimiser la somme des
écarts. Toutefois, comme certains écarts seront positifs et
d'autres négatifs (la droite passera parfois au dessus ou au
dessous d'un point). Pour contourner ce problème, il est
convenu de prendre le carré de chaque écart, puis de minimiser
la somme des carrés des écarts, soit:
minimiser ∑ d² = ∑ ( Y − Y ˆ )²
C'est cette méthode qui est utilisée pour calculer une droite
unique, optimisée. Elle porte le nom de méthode des
moindres carrés.
A partir de cette méthode, on peut démontrer que :

b=
∑ ( X − X )( Y − Y )
∑ ( X − X )²

ayant calculé b, on peut trouver a par la formule:


a = Y − bX

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 42


Lorsque l'on a pu déterminer une droite de régression (calcul de
a et b), il est possible de déterminer pour toute valeur de X0 une
valeur estimée de Ŷ 0 en remplaçant X0 par sa valeur dans
l'équation.
Cependant, il faut être conscient que cette valeur calculée
n'étant qu'une estimation, elle est possède un écart type
permettant de définir un intervalle de confiance à 95%, calculé
comme suit :
1 ( X0 − X )²
Y 0 = ( a + bX0 ) ± t 0,05s + +1
n ∑ ( X − X )²
attention: ici la valeur du t au risque 0,05 doit être lu pour un
nombre de ddl=n-2
Remarque : si l'intervalle de confiance doit être défini à une
valeur différente de 95%, le t doit être remplacé par sa valeur
correspondante:
par exemple, pour 99%, on prend t0,01
pour 90%, on prend t0,10 …etc.
Avant de calculer cet intervalle de confiance, il faut pouvoir
calculer s nommé l'écart type résiduel :
ˆ )²
∑( Y − Y
s² =
n−2 puis s = s²

LIMITE DES CALCULS DE Ŷ :


Lorsque l'on estime une valeur de Y0 en utilisant des valeurs
observées de X0 (dans notre exemple entre 100 et 700) on
réalise une INTERPOLATION.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 43


Par contre, si on utilise une valeur X0 non observée (dans notre
exemple une dose d'engrais <100 ou >700) la procédure porte
le nom d'EXTRAPOLATION.
Il faut savoir que plus on s'écarte des valeurs observées de X,
plus le risque lié à l'extrapolation est grand. En pratique il faut
s'abstenir de toute extrapolation.

6.5. L'analyse de variance à un facteur étudié:


Lorsque plus de 2 échantillons sont à comparer, il n'est plus
possible d'utiliser les t de Student. Il faut alors recourir à
l'analyse de variance ou ANOVA.

La principe de l'ANOVA consiste à comparer les sources de


variations (les variances) dues au traitement expérimental
(variance entre les groupes) et dues à des termes d'erreurs
(variances à l'intérieur de chaque groupe pour tous les
groupes).
Le F de Fisher est en fait le rapport du carré moyen des écarts
entre les groupes (dû au traitement expérimental) sur le carré
moyen des erreurs (obtenues dans les groupes, donc non dues
au traitement expérimental).
L'ANOVA teste une H0 qui stipule l'égalité de toutes les
moyennes entre elles, soit X1= X2= X3=.....= Xn .
L'H0 sera rejetée dès que l'une au moins des moyennes sera
différente des autres. C'est pourquoi il convient (si H0 rejetée)
de réaliser ensuite des test de comparaisons multiples afin de
déterminer quelles sont les moyennes différentes et celles qui
ne le sont pas.
Donc, démarche en 2 temps:
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 44
- calcul du F pour déterminer si au moins une
moyenne est différente des autres (c'est à dire que le facteur
étudié [variable indépendante] a un effet sur la variable
mesurée [variable dépendante])
- tests multiples destinés à déterminer les moyennes
homogènes et différentes.

REMARQUE:
l'ANOVA n'est pas une analyse, mais une famille d'analyse qui
dépend de la complexité du plan expérimental. Ici seule
l'ANOVA à un facteur étudié est abordée.

EXEMPLE:
5 groupes de sujets sont soumis à un apprentissage différent
(A1=démonstration, A2=explication et analyse, A3=réalisation
d'un exercice et correction personnalisée). A l'issue de cet
apprentissage, le nombre d'erreurs sur une tâche donnée est
mesuré.
- VI ou facteur étudié= modalité d'apprentissage,
- VD= nombre d'erreurs (E)
- H0=la modalité d'apprentissage ne joue aucun rôle
sur le nombre d'erreurs obtenues sur la tâche motrice soit
E A1=E A2=E A3

PROCEDURE:
On considère que :
k=nombre de groupes expérimentaux
i=numéro du groupe concerné d'effectif ni
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 45
j=numéro d'une donnée dans un groupe i donné, Xij= jème
valeur du ième groupe
N=nombre total de sujets, soit la somme de tous les ni
Il n'est pas nécessaire que tous les ni soient égaux, mais
l'analyse est plus puissance quand les ni sont très proches. De
plus, les comparaisons multiples sont plus simples quand les ni
sont identiques.

Les formules théoriques (non utilisées) sont les suivantes:


k ni
SCE totaux = ∑∑(Xij − X)²
i =1j =1
avec ddltotaux=N-1

k
SCE entre les groupes (SCE groupes) = ∑ni(Xi − X)²
i =1
avec ddlgroupes=k-1

et enfin:
 ni k 
SCE intra groupes (SCE des erreurs) = ∑  ∑(Xij − Xi)²
i =1 j =1 
avec ddl des erreurs = N-k

En fait en pratique, pour éviter les erreurs d'arrondis


successives (cf chapitre sur calcul des variances) les formules
suivantes seront utilisées:

Etapes de calcul:
ETAPE 1: calcul d'un terme d'erreur C puis des SCE :

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 46


2
 k ni 
 ∑∑ Xij 
C=
 i =1j =1 
N

 k ni 
SCEtotaux =  ∑ ∑ Xij2 −C
 i =1j =1 
avec ddltotaux=N-1

2
 ni 
 ∑ Xij 
k 
 j =1  )−C
SCEgroupes= (∑
i =1 ni
avec ddlgroupes=k-1

Comme la SCEtotaux=SCEgroupes+SCEerreurs
SCEerreurs= SCEtotaux - SCEgroupes
avec ddlerreurs= ddltotaux - ddlgroupes

ETAPE 2: calcul des carrés moyens (CM) :

CMgroupes= SCEgroupes
dd lgroupes
et
CMerreurs= SCEerreurs
ddlerreurs

ETAPE 3: calcul du F :
F= CMgroupes
CMerreurs

ETAPE 4: décision

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 47


l'hypothèse nulle, postule l'égalité de toutes les moyennes entre
elles, soit:
H0: X1= X2= X3=......= Xi
Le F calculé est comparé au F critique de la table du F de
Fisher.
La valeur critique sera trouvée en croisant :
la colonne ν1 correspondant aux ddlgroupes (k-1)
la ligne ν2 correspondant aux ddlerreurs (N-k)
la valeur pour le risque alpha=0,05 sera choisie.
Ex: si on compare 4 groupes d'un effectif total de 20 sujets, la
valeur de la table est lue dans la colonne 3 et à la ligne 16
(soit Fcritique=3,24).
Si le Fcalculé est supérieur ou égal au Fcritique, H0 est rejetée.

Classiquement, les résultats de l'ANOVA sont représentés


ainsi:

Source de variance SCE ddl CM


Totale 2437,57 29
Groupes 2193,4 4 548,36
Erreurs 244,13 25 9,76
F = 56,2; p<0,05

COMPARAISONS MULTIPLES:
Un des tests de comparaisons multiples les plus utilisés est
celui de Tukey:

Principe de calcul:
Pour k groupes, il est possible de faire en tout k.(k-1)/2
comparaisons 2 à 2 différentes.
Statistiques – Master 1 Tronc commun – UE3 E1 – Page 48
A chaque fois, le principe utilisé sera le même:
- calcul d'une erreur standard SE:
SE= CMerreurs
n
où n=nombre des sujets dans chaque groupe
(si n est différents selon les groupes,
un autre calcul doit être utilisé)
- calcul de la valeur q (qui sera utilisée pour tester l'égalité
des 2 moyennes comparées):
q= X1− X2
SE
- décision: si la valeur q calculée est supérieure ou égale à la
valeur critique q de la table, l'hypothèse nulle X1= X2 sera
rejetée.
Le qcritique est lu dans une table spécifique à la ligne
ν=ddlerreurs et à la colonne correspondant à la valeur k
(nombre de groupes).
NB: le calcul est assez rapide, puisque pour toutes les
comparaisons deux à deux la valeur SE est la même, ainsi
que le qcritique.

Lorsque toutes les moyennes sont comparées 2 à 2, cela


permet ensuite de tirer une conclusion générale sur les groupes
significativement différents entre eux et ceux qui ne le sont pas.

Statistiques – Master 1 Tronc commun – UE3 E1 – Page 49

Vous aimerez peut-être aussi