Vous êtes sur la page 1sur 9

exposé de statistique

Membres du groupe :
 ASSENGONE – NTOUTOUME Jessica
 BIBANG Theresa Yolande
 BOUSSOUGOU MALAGA Kerry

Dirigé par :
Mr MOUNDJIEGOUT Tessa

SESSION 2020 - 2021


université omar bongo
Département de Psychologie Licence 2
CHAPITRE 1 : LA LOI NORMALE

La distribution normale est la distribution la plus importante en statistique. Aussi appelée


distribution de Laplace Gauss, elle est utilisée pour décrire exclusivement des variables
aléatoires continues. Sa fonction densité de probabilité de deux paramètres notés a
habituellement par les lettres grecque µ et δ qui sont des nombres réels avec δ › 0. La loi
normale fait appelle à une courbe symétrique centrée en elle-même :
P(x ‹ m) = px › m ; p(x ‹ a) = 1 – p(x › a)

CARACTÉRISTIQUES
Loi normale N (µ, δ)
Espérance Mathématiques µ
Variance Δ2
Ecart-type δ

Contrairement au distribution pour variables aléatoires discrètes où il est possible de


déterminer la probabilité pour un évènement élémentaire, dans le cas continu cette valeur est
nulle.
Le calcul de la probabilité d’évènement quelconque fait appel à un calcul d’intégrale effet, si
x est une variable continue la probabilité d’observer un élément x de x(Ώ) qui soit compris
b

dans l’intervalle [a ; b] est donnée par la formule : f(x) = P(a ≤ x ≤ b) = ∫ f ( x ) dx = F(b) – x.


a

LA LOI NORMALE CENTREE REDUITE N (0 ; 1)


La loi normale centrée réduite N (0 ; 1) sur R est la loi d’une fonction de densité de
1 −¿ t ¿ 2

probabilité f(t) = 2 .
√2 n e
Remarque : il faut connaitre la représentation graphique de cette fonction, savoir utiliser une
calculatrice ou un logiciel de mathématiques pour obtenir les différentes probabilités
recherchées.
+∞ 0 +∞

Noter que : ∫ f ( t ) dt=1 tel que : ∫ f ( t ) dt=∫ f ( t ) dt=0.5


−∞ −∞ 0
Exemple : soit x une variable aléatoire qui suit une loi normale N (3 ; Δ2 ). Déterminer Δ tel
que : P (x ≤ 2) = 0.4
x−3 2−3
P (x ≤ 2) = P ( ≤ )
σ σ
−1
= P (z ≤ ) = 0.4
σ
x−3
Z= suit une loi normale N (0.1
σ
1
≈ 0.253
σ
1
σ≈ =3.95
0.253

FONCTIONS LINEAIRES DE VARIABLES NORMALES


Etant données deux variables x1 et x2 indépendantes et suivant tous les deux des lois
normales et deux constantes a1 et a2, on peut montrer la fonction linéaire (a1.x1 + a2.x2) suit
elle-même une loi normale. Pour spécifier cette loi, il faut connaitre sa moyenne et sa
variance. Les propriétés générales (c’est-à-dire indépendantes des lois de probabilité en jeu)
des opérateurs espérance et variance permettent d’établir que :

E (a1.x1 + a2.x2) = a1.E(x1) + a2.E(x2)


Et que :
A3 (a1.x1+ a2.x2) = a13.σ2 (x1) + a23.σ3 (x2)
Cette propriété s’étend évidemment à une fonction linéaire d’un nombre quelconque de
variables indépendantes suivant des lois normales.

CHAPITRE 2 : STATISTIQUE PARAMETRIQUE


INTRODUCTION

Le test paramétrique est un test pour lequel on fait une hypothèse paramétrique sur la
distribution des données sous H0. La statistique repose sous l’hypothèse sous-jacente qu’il
existe une distribution normale de la variable et que la moyenne est connue ou supposée être
connue.
La variance de la population est calculée par l’échantillon. On suppose que les variables
d’intérêts, dans la population, sont mesurées sur une échelle d’intervalle.

COMMENT CHOISIR ?
Les tests paramétriques, quand leur utilisation est justifiée, sont en général plus puissants que
les tests non paramétriques. Elles reposent ce pendant sur l’hypothèse forte que l’échantillon
considéré est tiré d’une population suivant une distribution appartenant à une famille donner.
Il est possible de s’en affranchir pour des échantillons suffisamment grands en utilisant des
théorèmes asymptotiques tels que le théorème central imite.
Les tests paramétriques fonctionnent en supposant due les données que l’on a à disposition
suivent un type de la loi de distribution connue (en générale la loi normale). Pour calculer le
risque alpha du test statistique, il suffit de calculer la moyenne et l’écart-type de l’échantillon
afin d’accorder à la loi de distribution de l’échantillon.
La loi de distribution étant ainsi parfaitement connue, on peut calculer le risque alpha en se
basant sur les calculs théoriques de la loi gaussienne.
Ces tests sont en général très fins, mais ils ne nécessitent que les données suivent
effectivement la loi de distribution supposée. Ils sont en particuliers très sensibles aux valeurs
aberrants et ne sont pas conseillés si de valeurs aberrantes sont détectées.

DIFFERENTS TESTS PARAMETRIQUES


 Test de student
Le test de student est un test paramétrique. Comme tous les tests de ce type, son utilisation est
soumis à des conditions d’application ou d’hypothèse à priori sur la distribution des variables
dans les populations référence.
Rappel : l’application du test student (égalité des moyennes) sur deux groupes indépendant
suppose :
 La normalité des distributions parentes
 L’égalité des variances (homoscédasticité des résidus).
 Test de normalité d’une distribution
Variable numérique X défini sur une population. (x) : valeurs observer sur un échantillon de
taille n.

 Test de Kolmogorov-Smirnov et de Lilliefors


Echantillon : 8, 9, 9, 10, 10, 10, 11, 13, 14, 14
H0 : x est distribué selon une loi normale dans la population.
H1 : x n’est pas distribué selon une normale.

 Test de Shapiro-Wilk
Les statisticiens ont proposé un autre test, nettement plus puissant que les tests précédent : le
test de Shapiro-Wilk. Le calcul de la valeur observée de la statistique de test et de son niveau
de significativité est très fastidieux.

CHAPITRE 3 : STATISTIQUE NON PARAMETRIQUE

Le tes non paramétrique est un test ne nécessitant pas d’hypothèse sur la distribution des
données ; c’est-à-dire qu’il n’exige pas que la distribution de la population soit indiquée par
des paramètres spécifiques. Le test repose principalement sur les différences des médianes.
Par conséquent, il est également connu sous le nom de test sans distribution. Le test suppose
que les variables sont mesurées au niveau nominal ou ordinal. Il est utilisé lorsque les
variables indépendantes sont non métriques.

COMMENT CHOISIR ?
Les tests non paramétriques sont cependant a préféré dans de nombreux cas pratique pour
lesquels les tests paramétriques ne peuvent être utilisés sans violer les postulats dont ils
dépendent (notamment dans le cas d’échantillon trop petit c’est-à-dire par convention, quand
l’effectif de l’échantillon est inférieur à 30). Les données soient également parfois récupérées
sous forme de rang et non de données brutes. Seuls les tests non paramétriques sont alors
applicables.
Lorsque les données sont quantitatives, les tests non paramétriques transforment les valeurs en
rang. L’appellation « test de rang » est souvent rencontrer. Lorsque les données sont
quantitatives seuls les tests non paramétriques sont utilisables.

PRINCIPALES DIFFERENCES ENTRE LES TESTS


PARAMETRIQUES ET NON PARAMETRIQUES
Elles sont discutées dans les points suivants :
 Un test statistique dans lequel des hypothèses spécifiques sont formulées à propos du
paramètre de population, est appelé test paramétrique. Un test statistique utilisé dans le
cas des variables indépendantes non métriques est appelé test no paramétriques.
 Dans le test paramétrique, la statistique de test est basée sur la distribution. Par contre,
la statistique est arbitraire dans le cas de test non paramétrique.
 Dans le test paramétrique, il est supposé que la mesure des variables d’intérêts est
effectuée au niveau de l’intervalle ou du rapport. Contrairement au test non
paramétrique, dans lequel les variables d’intérêts sont mesurées sur une échelle
nominale ou ordinale.
 En général, la mesure de la tendance centrale dans le test paramétrique est moyenne,
tandis que dans le cas de test non paramétrique, elle est médiane.
 Le test paramétrique contient des informations complètes sur la population.
Inversement, dans le test non paramétrique, il n’existe aucune information sur la
population.
 L’applicabilité du test paramétrique s’applique uniquement aux variables, alors que le
test non paramétriques s’applique à la fois aux variables et aux attributs.
 Pour mesurer le degré d’association entre deux variables quantitatives, le coefficient
de corrélation de Pearson est utilisé dans le test paramétrique, tandis que la corrélation
de rang de Spearman est utilisée dans le test non paramétrique

CHPITRE 4 : LA CORRELATION DE PEARSON

LE CALCUL DE COEFFICIENT DE CORRELATION DE PEARSON


Le coefficient de corrélation Pearson permet d’analyser les relations linaires entre deux
variables continues. Une relation est dite linaire lorsqu’une modification de l’une des
variables est associée à une modification. Si l’on peut trouver une relation de la forme : y = ax
+ b, c’est-à-dire que le nuage de point peut s’ajuster correctement à une droite.
 Pour calculer ce coefficient il faut d’abord calculer la variance. La covariance est la
n
1
moyenne du produit des écarts à la moyenne. Cov (x, y) = ∑ ¿ ¿ ), yi - y ou
n t =1
n
1
Cov (x, y) = ( ∑ xi , yi , yi ¿ ¿ = ( x - y )
n t =1

NB : lorsque deux caractères sont standardisés, leur coefficient de corrélation est égal à leur
variance puisque leurs écart-type sont égaux à 1.

PROPRIETE ET INTERPRETATION DE (X, Y)


On peut démontrer que ce coefficient varie entre 1 et -1. Son interprétation est la suivante :
 Si r est proche de 0, il n’y a pas de relation linaire entre x et y.
 Si r est proche de -1, il existe une forte relation linaire négative entre x et y.
 Si r est proche de 1, il existe une forte relation linaire position entre x, y.
Le signe de r indique donc le sens de la relation tant dise que la valeur absolue r indique
l’intensité de la relation c’est-à-dire la capacité à prédire les valeurs de y en fonction de celle
de x.
Exemple : calcule de la corrélation linaire entre la taille des pieds et de l’intelligence de 10
enfants d’âge scolaire.
Enfant (i) Xi yi
A 31 50 -3 -26 78
B 31 55 -3 -21 63
C 32 52 -1 -24 48
D 33 56 -1 -20 20
E 33 63 -1 -13 13
F 34 65 0 -11 0
G 35 69 1 -7 7
H 36 90 2 14 28
I 37 110 3 54 10.2
J 38 150 4 74 29.6
Moyenne 34 76 0 0 64.1
Ecart-type 34 32

La covariance de x et y étant égal à 64,1, on obtient le coefficient de corrélation de x et y en


divisant la covariance par le produit de l’écart-type de x et de l’écart-type de y.
R (x y) – 64.1/(2.4 × 32) = 0.83
Nous sommes en présence d’une corrélation positive forte qui semble indiqué que r est une
relation linaire (de type (y = ax b) reliant le quotient intellectuel des enfants et la taille de
leurs pieds. Toutefois, le coefficient de corrélation ne nous indique pas :
 Si la relation observée est significative
 Si elle correspond à une relation de cause à effet contre les deux facteurs x et y étudié.
De plus l’importance de la corrélation linaire.

LIMITE DU COEFFICIENT DE PEARSON


En principe le coefficient de corrélation de Pearson n’est applicable que pour mesurer la
relation entre deux variables entre x et y ayant une distribution de type Gaussienne et ne
comportant pas de valeur exceptionnelle. Si ses conditions ne sont vérifiées (cas fréquent).
L’emploi de ce coefficient peut établir des conclusions erronée la présence ou l’absence d’une
relation.

CHAPITRE 5 : LA CORRELATION DE SPEARMAN

En statistique, la corrélation de Spearman (nommée d’après Charles Spearman) est étudiée


lorsque deux variables statistiques semblent corrélées sans que la relation entre les deux
variables soit de types affines. Elle consiste à trouver un coefficient de corrélation, non pas
entre les valeurs prises par les deux variables mais entres les rangs de ces valeurs. Elle permet
de repérer de corrélations monotones. Il faut également souligner que la corrélation de
Spearman utilise les rangs plutôt que les valeurs exactes. Cette corrélation est utilisée lorsque
les distributions des variables sont asymétriques.
Spearman corrélation de rang observation uni varié (Pearson) et bi varié (Spearman)
 Le rapport de corrélation indique qu’on dispose d’une distribution.
 Coefficient de corrélation de Spearman. Dans certaines situations psychologiques,
l’expérimentateur ne dispose pas d’une méthode satisfaisante pour attribuer une note
précise à un sujet mais s’il peut lui conférer un rang. Selon la popularité, le mérite on
dira pour que la popularité, de chance de responsabilité sont des données qui
s’expriment sous forme de rang, on sait alors qu’un individu est meilleur, moins bon
que l’autre pour mesurer le degré d’association entre deux variables, on dispose de
deux outils principaux.
Le coefficient de corrélation de Spearman
Il mesure le degré d’association ou de liaison entre deux caractères dont les associations sont
en rang. On désigne par ordre de xi et par rang de yi dix premiers sujets pour le caractère x et
son rang pour le caractère y.
Soit b – rang (xi) – rang (yi)
Exemple : supposons que pour les deux caractères xi et yi, les sujets obtiennent les mêmes
rangs dans ce cas on dira qu’il y a corrélation parfaite positive.
Sujet Rang x Rang y Di Di2
A 3 3 0 0
B 4 4 0 0
C 1 1 0 0
D 5 5 0 0
E 2 2 0 0
n=5 ∑ x =15 ∑ y=15 ∑ di=0 ∑ di2=0
n
1−6 ∑ di 2 1−6 × 0
Rs = 1=1 = 3
5 −5
=1
3
n −n
Sujet Rang (xi) Rang (yi) di Di2
1 2 3 -1 1
2 5 2 3 9
3 3 1 2 4
4 4 4 0 0
5 1 5 -4 16
6 6 6 0 0
n=6 ∑ 21 ∑ 21 0 ∑ di2=30

6 ×90 180
Rs = 1 - 3 = 210 = 1 – 0.85
6 −6

Rs = 0.15

Quelle valeur et quelle relation observe-t-on entre le r de Pearson et le r de Spearman ?


Lorsque le rs de Spearman ou le r de Pearson est égale à 1 ou -1 marque à une relation
parfaite et positive. On parle de corrélation T parfaite. Négative lorsque le rs est égale à -1.
Dans certains cas les scores sont présentés sous forme de rang tandis que d’autres il faut
transformer ses scores de manières à vérifier notre étude sur cette base.

CHAPITRE 6 : ANALYSE DE VARIANCE (ANOVA)

L’ANOVA est une méthode d’analyse qui permet d’envisager l’étude de la dépendance d’une
variable quantitative continue à une ou deux variables qualitatives.
Les variables qualitatives impliqués sont appelées facteurs et on peut s’intéresser aux effets
principaux de ses facteurs ainsi qu’à l’effet de leur interaction sur la variable quantitative
étudiée. On parle alors d’ANOVA à un ou deux facteurs et l’analyse est alors bi variée
lorsque un seul facteur est considéré, tandis qu’elle est multi variée lorsque deux facteurs sont
considérés. La variable quantitative est appelée variable dépendante notée (VD), les facteurs
sont les variables indépendantes notées (VI).
Exemple : la performance sportive à une épreuve étudiée en fonction du temps de repos
décliné en trois modalités : « mois de 6 h » ; « entre 6h et 8h » ; et « plus de 8h ».
Le facteur : temps de repos qui est une valeur qualitative pourrait expliquer la performance
sportive à une épreuve qui est la variable dépendante quantitative évaluée en nombre de point
ou bien en temps mis pour effectuer l’épreuve. Nous avons à faire ici à une Anova à un
facteur, analysant la dépendance ou non de la variable quantitative performance au facteur
qualitatif temps de repos. Il va s’agir d’établir si la dépendance étudiée est ou non
significative pour le facteur considéré. Sans vous expliquer dans le détail la théorie sous-
jacente de l’Anova, il faut tout de même savoir que nous allons tester si la moyenne de la
variable quantitative d’étude est ou non homogène sur l’ensemble des modalités prises par la
ou les variables qualitatives pour lesquelles elle a été calculée. Ce que l’on espère pour
montrer qu’une ou deux variables qualitatives influent sur la variable quantitative était
d’amener à rejeter l’hypothèse nulle H0 d’égalité des moyennes par l’analyse de la variance.
Le test d’hypothèse réalisé est un test f de Fisher qui permet de comparer la variance inter
échantillon à la variance intra échantillon. Le rapport de ses deux variances devra s’éloigner
assez fortement de 1 pour être conduit à rejeter l’hypothèse nulle : lorsque f ≥ 1 → ρvalue
≪ 0.05H0 rejetée (f = variance inter/variance intra). On essaye d’expliquer la cause de la
diversité des informations recueillies par l’analyse de leur variance.

Vous aimerez peut-être aussi