Vous êtes sur la page 1sur 36

Ouvrez le fichier ACP-IRIS.

stw
Nous cherchons à savoir si les
deux espèces d’iris ont une PW
différente.
H0: iris setosa = iris versicolor
H1: iris setosa ≠ iris versicolor
Parfois les données sont déjà arrangées (par exemple comme dans une feuille
de données), et chaque colonne ou variable du fichier représente un groupe :

La commande Test t pour des échantillons


indépendants du module Statistiques
Élémentaires peut également calculer des tests
t pour des données présentées de cette
manière. Sachez toutefois que cette disposition
(mise en forme) est rare et peu recommandée si
vous travaillez avec de gros fichiers de données
Sélectionnez vos variables (de classement = VI
inter‐sujet
et dépendante = VD ou mesure)
Box & Whisker Plot: PW
2,0

1,8

1,6

1,4

1,2

PW
1,0

0,8

0,6

0,4

0,2

0,0
setosa versicolor

Esp
Categ. Histogram: PW
40

35

30

25

20

No of obs
15

10

0
-0,2 0,2 0,6 1,0 1,4 1,8 -0,2 0,2 0,6 1,0 1,4 1,8
0,0 0,4 0,8 1,2 1,6 2,0 0,0 0,4 0,8 1,2 1,6 2,0

Esp: setosa Esp: versicolor


PW

 •T de Student.  •Ratio de F.
•Très hautement significatif •Très hautement significatif
•Donc rejette H0 •Donc les deux variances sont différentes
•Les deux moyennes ne sont pas identiques
Tester l’homogénéité des
variances avec:
•Test de Levene : Pour chaque
variable dépendante, une analyse de
variance est réalisée sur les écarts
absolus des valeurs aux moyennes des
groupes respectifs. Si le test de
Levene est statistiquement
significatif,l'hypothèse d'homogénéité
des variances doit être rejetée
 Test de Brown & Forsythe : Au
lieu de réaliser une ANOVA sur les
écarts à la moyenne, ce test effectue
cette analyse sur les écarts aux
médianes de groupes. Ce test est plus
robuste que le test de Levene.
Test t : deux échantillons indépendants, par variables
Dans certains cas, les données à comparer résident en 2 colonnes
Par exemple, les données de pression systolique des hommes
seraient dans une colonne et celles des femmes dans une autre
colonne. Dans ce cas, il faut employer le test t par variables.
Test t : deux échantillons appariés (dépendants)

 Il est assez fréquent, lors de la phase de la planification d’une étude


statistique, que l’on prévoit mesurer et caractériser à plusieurs
reprises les mêmes unités statistiques. Par exemple, une variable
spécifique est mesurée à deux reprises dans le temps sur les mêmes
unités expérimentales et, on veut savoir si cette variable présente
une différence significative dans le temps. On peut facilement
imaginer qu’une portion non négligeable de cette différence est
attribuable aux unités statistiques qui généralement présentent un
certain degré d’hétérogénéité. Dans ce cas, le test t est basé sur la
différence entre la variable mesurée au temps 1 et la variable
correspondante mesurée au temps 2. Les deux échantillons de
valeurs observées sont dépendants ou appariés car les mêmes unités
statistiques sont présentent dans les deux échantillons de valeurs. La
mise en œuvre du test t pour échantillons appariés est illustrée dans
l’exemple suivant
Test t : deux échantillons appariés (dépendants)
Test t : comparer une moyenne à un
standard (un échantillon)
 Illustrons avec un exemple tiré du fichier «data_iris_2sp_apparies.xls » .
Répondons à la question : les setosa dont la longueur de pétales est inférieure
à 1cm ont elles une longueurs des sépales de 3 cm ou moins tel que prévu
selon les normes ?

!
DÉCOMPOSITIONS et ANOVA à 1 FACTEUR de
CLASSIFICATION
 Cette procédure fait le calcul de statistiques descriptives d’une
variable de réponse mesurée sur plusieurs groupes définis par
d’autres variables du fichier, par exemple, des catégories d’age.
On veut ainsi comparer la distribution d’une réponse selon les
groupes. Cette analyse est typiquement de nature exploratoire
mais elle peut aussi être de nature inférentielle afin de savoir si
des différences significatives réelles existent entre les groupes.
Pour répondre à cette question on fait appel à l’analyse de la
variance dont le sigle ANOVA signifie ANalysis Of VAriance.
Celle méthode d’analyse compte parmi les méthodes les plus utiles
et les plus employées de l’analyse statistique des données. Le
module Statistiques Élémentaires présente le cas le plus simple
de cette analyse avec un seul facteur de classification. Les
modules ANOVA et MODÈLES LINÉAIRES présentent des
procédures pour traiter des cas de données ayant plusieurs
variables de classement.
DÉCOMPOSITIONS et ANOVA à 1 FACTEUR de
CLASSIFICATION
DÉCOMPOSITIONS et ANOVA à 1 FACTEUR de
CLASSIFICATION
DÉCOMPOSITIONS et ANOVA à 1 FACTEUR de
CLASSIFICATION

Plot of Means and Conf. Intervals (95,00%)


SL
7,0

6,5

6,0

Values

5,5

5,0

4,5
setosa versicolor virginica
Esp
Tests non‐paramétriques :
Tests non‐paramétriques :
Si les conditions d’application du T de Student ne sont pas remplies
Tests non‐paramétriques :
Analyse en Composante Principale (ACP)
 L’Analyse en Composante Principale (ACP) fait partie des
analyses descriptives multivariées. Le but de cette analyse est
de résumer le maximum d’informations possibles en en
perdant le moins possible pour :
• Faciliter l’interprétation d’un grand nombre de données
initiales
• Donner plus de sens aux données réduites

 L’ACP permet donc de réduire des tableaux de grandes tailles


en un petit nombre de variables (2 ou 3 généralement) tout
en conservant un maximum d’information. Les variables de
départ sont dites ‘métriques’.
La démarche à suivre sous S
La démarche à suivre sous S

 On choisit les
variables qui nous
paraissent les mieux
adaptées à l’analyse
en les sélectionnant
dans la partie de
droite puis en
cliquant sur OK.
 Six boites de
dialogue d’options
s’offrent maintenant
à nous : que nous
allons maintenant
examiner une à une.
Analyse des résultats

 Analyser les résultats d’une ACP, c’est répondre à


trois questions :
1. Les données sont-elles factorisables ?
2. Combien de facteurs retenir ?
3. Comment interpréter les résultats ?
1. Les données sont-elles factorisables ?
 Pour répondre à cette question, dans un premier temps, il
convient d’observer la matrice des corrélations (« Correlation
Matrix »). Si plusieurs variables sont corrélées (> 0.5), la
factorisation est possible. Si non, la factorisation n’a pas de
sens et n’est donc pas conseillée.
2. Combien de facteurs retenir ?
 Trois règles sont applicables :
 • 1ere règle : la règle de Kaiser qui veut qu’on ne retienne que
les facteurs aux valeurs propres supérieures à 1.
 • 2eme règle : on choisit le nombre d’axe en fonction de la
restitution minimale d’information que l’on souhaite. Par
exemple, on veut que le modèle restitue au moins 80% de
l’information.
Pour ces deux premières règles, on examine le tableau « Total
Variance Explained ».
2. Combien de facteurs retenir ?
 3eme méthode : le « Scree-test » ou test du coude. On observe le graphique
des valeurs propres et on ne retient que les valeurs qui se trouvent à gauche
du point d’inflexion. Graphiquement, on part des composants qui apportent le
moins d’information (qui se trouvent à droite), on relie par une droite les
points presque alignés et on ne retient que les axes qui sont au dessus de
cette ligne. 5,5

5,0 95,78%

4,5

4,0

3,5
Dans notre exemple,
3,0
nous ne retenons que les
Eigenvalue

2,5
deux premiers axes.
2,0

1,5

1,0

0,5
3,03%
,93% ,22% ,03%
0,0

-0,5
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0

Eigenvalue number
3. Interprétation des résultats
 C’est la phase la plus délicate de l’analyse. On donne un sens à
un axe grâce à une recherche lexicale (ou recherche de mots) à
partir des coordonnées des variables et des individus. Ce sont
les éléments extrêmes qui concourent à l’élaboration des axes.

 Dans notre exemple, ce sont les variables « …… » et « ….. » qui


 concoure le plus à la construction de l’axe 1.
3. Interprétation des résultats
 Il faut également tenir compte du positionnement de chaque
variable sur chaque axe : les variables à éliminer sont les
variables qui sont

• Soit proches du centre sur l’ensemble des axes retenus.


• Soit au milieu d’un quart de cercle sur les axes retenus.
• Soit les variables qui forment un axe à elles toute seule.
GRAPHIQUES
 STATISTICA offre une grande variété de représentations
graphiques pour tous les besoins et des outils très
développés pour les éditer en totalité et les personnaliser
selon les préférences de l’utilisateur. Tous Les modules et
leurs procédures associées disposent de graphiques
contextuels pour accentuer et visualiser l’interprétation de
l’analyse. La production d’un graphique est fonction des
données à visualiser et de la méthode de le spécifier :
graphiques intégrés à une feuille, graphiques d’un bloc de la
feuille, graphiques à partir du menu de la barre principale
de STATISTICA.
GRAPHIQUES
 GRAPHIQUES DE LA FEUILLE DE DONNÉES
Chaque feuille de données ainsi que les résultats accompagnant
presque toutes les analyse possèdent des graphiques intégrés.
Ces graphiques sont accessibles avec un seul clic de souris :
bouton spécifique des options prévues de l’analyse ou par des
raccourcis en activant le bouton droit de la souris.
 Les GRAPHIQUES DE LA FEUILLE
DE DONNÉES offre les graphiques
le plus souvent demandés comme
les histogrammes, les nuages de
points, etc. La sélection de la
variable dépend de la position du
curseur dans la feuille active. Les
graphiques ont un format
prédéfini que l’on peut éditer à
volonté en cliquant sur toute
portion du graphique. Les
sélections du sous menu de la
forme demande de préciser une
deuxième variable
dépendamment de la position du
curseur.
GRAPHIQUES D’UN BLOC DE LA FEUILLE DE
DONNÉES

22

20

18

16

14

12

10

2
poids an
GRAPHIQUES DE LA BARRE DE MENU

Vous aimerez peut-être aussi