Vous êtes sur la page 1sur 28

Rseau et scurit informatique Base de donnes Programmation avance Intelligence artificielle Systme d'exploitation avanc Gnie logiciel Analyse

numrique Analyse financire Analyse de donnes Comptabilit analytique d'exploitation conomie gnrale Droit informatique anglais TIC JAVA

3 3 3 3 3 3 2 2 2 2 2 1 1 1

ANOVA et ACP: comparaison Le principe de l'ACP est de rechercher les facteurs qui rendent le mieux compte des donnes. Ils forment un systme d'axes orthogonaux tel que la variance le long des axes est maximale. Dans le cas de l'ANOVA, on simplifie les calculs en dfinissant soi mme les facteurs et ensuite on calcule la variance pour chaque facteur. Evidemment, en pratiquant de cette faon, on perd de l'information puisque l'on ne conserve pas l'information sur la rpartition des points, on dispose seulement des valeurs des variances. Cette similitude entre les deux mthodes se traduit par une distribution identique des valeurs propres et des variances.
Prsentation de la mthode ANOVA

Pour mieux comprendre ce qu'est une analyse de variance, prenons l'exemple d'un auteur qui veut absolument conserver l'ensemble de ces rsultats et les publier et un diteur dont la principale proccupation est de gcher le moins possible de papier. Prenons l'exemple d'un tableau de chiffres, la mthode ANOVA permet de trancher entre les deux protagonistes prcdents, en rsolvant le problme de savoir si cela vaut la peine de garder ce tableau de chiffres. Dans ce contexte, il faut aussi savoir qu'un tableau de chiffre ne peut tre publi que si l'on est capable de le commenter. Si l'on considre le tableau de donnes initiales sur l'orge qui est 3D, il est clair que l'on ne sait pas le commenter. Une solution est de se limiter 2D, en dcomposant le tableau initial en sous tableaux de dimension infrieure. Dcomposition en sous tableaux Le tableau de donnes initiales contient 60 donnes, avec un cart type de 27,5 qui montre que toutes les cases ne sont pas homognes ce qui mrite de regarder plus en dtails les sous tableaux. Par exemple, on peut construire la tableau ligne x lieu comme ci-dessous: Lign 1 e Man 16 churi 1, a 7 18 Svan 7, sota 7 20 Velv 0, et 1 19 Trebi 6, 9 18 Peatl 2, and 5 Total 92 2 8, 2 3 4 5 6 15 4, 6 14 3, 8 14 6, 3 19 3, 6 19 0, 1 82 8, Tot al1 11 32, 7 10 93, 6 11 90, 2 14 18, 4 12 30, 5

16 24 18 21 5, 7,0 5,4 8,7 3 13 25 18 18 8, 7,5 2,4 3,3 9 16 26 19 22 5, 2,9 4,9 0,2 8 15 33 27 26 1, 9,2 1,2 6,3 2 18 25 21 20 4, 3,8 9,2 0,5 4 13 10 10 80 60, 53, 89, 5,

9 4

6 4

Le premier commentaire que l'on peut faire sur ce tableau en regardant les sommes des lignes et des colonnes (total1 et total2), c'est que toutes les lignes n'ont pas le mme rendement et que selon les lieux les rendements diffrent aussi. Le second commentaire concerne la distribution des donnes. Si elle est homogne, les tableaux 1D suffisent et les seules informations pertinentes conserver pour l'diteur, ce sont les deux tableaux Total1 et Total2. Par contre, si cela est htrogne, c'est dire que certaines lignes sont meilleures sur certains lieux, comment quantifier cette information 2D ? C'est l qu'intervient la mthode ANOVA propose par Fisher ( Mather K. - Analyse statistique en biologie . ACTA Editions GAUTHIER-VILLARS , PARIS 1965). En effet, Fisher a cr et propos une mesure objective de cette information 2D, en plus des informations contenues dans les tableaux 1D. Cette mesure permet de quantifier la part d'information contenue dans le tableau 2D, et de rpondre ainsi si l'on revient l'exemple de dpart la question que se pose notre diteur de savoir si oui ou non il doit publier l'intgralit des rsultats que lui prsentent l'auteur ou si les tableaux 1D suffisent.

La mthode ANOVA Le critre objectif qui nous intresse est la variance dont la formule est la suivante:

Avec:

La variance correspond une mesure de l'information moyenne contenue dans les donnes (moyenne car on divise la quantit d'information totale (SC) par le nombre de dgrs de libert). Il faut retenir aussi que dans un tableau de donnes: SC total= SC lignes + SC colonnes + SC rsiduel avec SC rsiduel qui quantifie l'information spcifique au tableau > 1D. Lorsque l'on recherche la variablit rsiduelle, il suffit donc de calculer: SC rsiduel=SCtotal-SCcolonnes-SClignes.

Les diffrentes situations Sortons provisoirement de notre exemple sur l'orge sur lequel nous reviendrons, et intressons nous aux diffrents cas qui peuvent se prsenter lorsque l'on analyse les sommes des carrs des carts (SC). Dans le logiciel Excel, on bnficie d'une fonction SOMME.CARRES.ECARTS() qui nous permet dans le fichier exemple d'observer les diffrents cas qui peuvent se prsenter: Notons tout d'abord que chaque case de tableaux contient la somme des carrs divise par le nombre d'observations qui sont additionnes. cas1: SC rsiduel = 0 (minimal), toute l'information est contenue dans les tableaux 1D, conserver les tableaux 2D n'apporte rien. cas2: SCrsiduel = 12 (maximal), toute l'information est en 2D, l'information contenue dans les tableaux 1D est nulle. cas3: SC rsiduel >0, impossible de trancher entre le bruit (variabilit lie au hasard) ou un vritable effet biologique des facteurs entre eux. La variabilit rsiduelle calcule peut tre due soit un bruit de fond soit un phnomne biologique (ce phnomne introduisant une intraction entre les 2 facteurs). Pour trancher entre les 2, la seule solution est de repoduire l'exprience de nombreuses fois afin de vrifier si la variabilit se fait toujours dans le mme sens. Si le biais se fait toujours de faon identique, on pourra conclure que ce n'est pas li au hasard. On retiendra que chaque fois que l'on veut mettre en vidence une intraction entre deux facteurs, il faut montrer que c'est reproductible donc refaire l'exprience X fois. Le cas des donnes de Mather Revenons maintenant sur l'analyse des donnes disponibles sur l'orge. Comme on l' a dj explicit, le tableau 3D tant inexploitable tel que, on dcompose ce tableau en sous tableaux de dimensions infrieurs. Dans le fichier Orge.xls, vous trouvez la description de tous les tableaux 2D et 1D que l'on peut construire partir des donnes initiales. Les diffrentes informations calcules partir de ces tableaux 1D et 2D sont prsentes cidessous: ANOVA Ligne Lieu Anne Ligne x Lieu Ligne x Anne Anne x Lieu Total Lgende: Carrs: somme des carrs des carts la moyenne (SC) totaux ddl (degr de libert): correspond au nombre de termes utiliss dans le calcul de SC -1. Intraction: somme des carrs des carts la moyenne rsiduel (SC rsiduel) ddl: degr de libert rsiduel Variance: variance rsiduelle normalise c'est dire Intraction (SC rsiduel) / ddl rsiduel Ce critre donne une mesure de l'information moyenne contenue dans chaque cas du tableau. Carrs 5310,0 21 220,9 3798,5 30 963,9 9400,3 31 913,3 44 732,4 ddl 4 5 1 29 9 11 59 Intraction 5310,0 21 220,9 3798,5 4433,0 291,8 6893,9 2784,2 ddl 4 5 1 20 4 5 20 Variance 1327,5 4244,2 3798,5 221,7 73,0 1378,8 139,2 F 9,5 30,5 27,3 1,6 0,5 9,9 p-value 0, 000175 0, 000000 0,000041 0,153252 1,00000 0, 000070

F: valeur de la variable de Fisher: cette mesure permet d'valuer la part d'information dans notre tableau de dpart. Une petite explication s'impose. L'information totale contenue dans les donnes initiales peut se dcomposer en 3 termes: information 1D+ information 2D + information rsiduelle 3D. Sachant que l'on a admis au dpart que le tableau 3D de dpart tait inexploitable, alors par extrapolation on peut dire que l'information rsiduelle 3D est ngligeable. Ainsi, pour tout autre tableau de dimension infrieure, on pourra considrer qu'une information infrieure cette information rsiduelle 3D est elle aussi ngligeable. La variable F correspond la comparaison entre l'information en cours d'analyse et l'information rsiduelle ngligeable, ici information 3D. F = variance que l'on analyse/ variance rsiduelle 3D. Sur la base de la valeur de F, on va pouvoir prendre la dcision de garder ou non une information. Si F est infrieur 1, cela veut dire que la variance tudie est ngligeable, donc on ne conservera pas l'information concerne Si F trs suprieur 1, cela veut dire que la variance tudie est largement au dessus de ce qui est ngligeable donc on conservera l'information concerne. Si F proche de 1, on utilisera la loi de Fisher qui donne la probablit pour obtenir une telle valeur par hasard (p-value). Le choix de conserver ou non notre information se fera alors sur la base de la p-value. Plus cette probabilit est faible, moins notre rsultat est li au hasard et plus notre information est pertinente. Nous allons voir dans la partie suivante comment utiliser le logiciel GeneANOVA dans ce contexte d'analyse de variance Analyse de variance: utilisation de GeneANOVA 1- Utilisation de geneANOVA sur les donnes de Mather Le fichier de donnes sur lequel nous travaillons est orge.txt. Les diffrentes tapes pour raliser une analyse de variance (ANOVA) avec geneANOVA - Cration d'un design: c'est une nouveaut par rapport l'ACP et cette tape est absoluement indispensable pour indiquer au programme comment structurer les sous tableaux. Les donnes initiales sont vues comme un flot linaire de chiffres et pour que l'analyse de variance puisse se faire correctement, il faut fournir les informations ncessaires la cration de tous les sous tableaux de dimension infrieure. Dans l'exemple des donnes sur l'orge, les diffrentes informations fournir sont rsumes dans le fichier orge.design. Pour plus de dtails pour un premier contact avec le logiciel, la cration de ce design sur l'orge est prsente dans le fichier creation_design_orge.htm. - Les rsultats sont prsents et discuts dans le fichier resultat_anova_orge.htm. 2-Utilisation de GeneANOVA sur les donnes du transcriptome: Prcedemment, nous avons prsent le choix des donnes sur l'orge (travail de Mather) par le fait que le tableau de donnes prsentait la mme structure logique que les donnes du transcriptome. Tout ce que nous venons de vous expliquer sur la mthode ANOVA va donc s'appliquer de ce fait au donnes du transcriptome. Concernant le choix du logiciel pour faire le travail, tous les calculs pourraient tre fait dans Excel, mais nous avons notre disposition GeneANOVA qui est totalement ddi l'analyse du transcriptome, donc profitons en !!

Les donnes sur lesquelles nous allons travailler sont celles dj utilises pour la prsentation de l'ACP (voir plan_experience.htm) sur le mtabolisme de la mthionine chez B. Subtilis. Les diffrentes tapes pour faire une analyse de variance sur des donnes du transcriptome: - Pour les mmes raisons que pour l'ACP, il faut pralablement traiter l'information par une transformation linaire qui visent centrer rduire les donnes. - Cration d'un design: vous le trouverez dcrit en cliquant ici. - Choix entre ANOVA globale et locale: ANOVA globale: dans notre exemple, on choisira un ordre d'intraction de 3 (cela correspond aux tableaux 3D). D' autre part, les seuls tableaux pertinents sont ceux qui contiennent le facteur gne. ANOVA locale: on pourra faire 4107 analyses de variance. Pour un gne donn j (une ligne), on aura l'quation suivante:

SCtotale,j = SC soufre,j + SC jour,j +SC rna,j + SC double,j + SC rsiduel,j

- Les rsultats obtenus sont prsents et discuts dans le fichier: resultat_anova_subtilis.htm.

Reprsentation graphique ANOVA locale Le graphique fourni par geneANOVA a pour abcisse la variance normalise (soufre/totale) et pour ordonne log(p-value). Les points (gnes) les plus intressants seront ceux qui ont la fois une p-value significative (p-value tend vers 0 donc log(pvalue) tend vers -infini) et une variance normalise leve (part importante du soufre dans la variance totale). Exemple de graphique gne soufre o le meilleur gne candidat pour l'analyse de l'effet soufre est encadr en rouge.

Analyse des donnes par voisinage: Deux angles d'approche peuvent tre utiliss: - on repre un gne d'intrt et on regarde sur le graphique quels sont les autres gnes dans son voisinage proche. Peut-on alors trouver un lien biologique (prsent dans un mme opron, actif dans une mme chane mtabolique, situ dans la mme rgion chromosomique, ...) entre le gne d'intrt et ses plus proches voisins ? - on prend un groupe de gnes ayant un lien biologique (cf ci-dessus) et on regarde sur le graphique comment sont situs ces gnes. Sont-ils groups dans le mme secteur ou au contraire totalement disperss ? Ce second angle d'approche est celui privilgi dans le travail sur le mtabolisme de l'arginine propos dans l'article, o les diffrents gnes de la chane du mtabolisme de l'arginine sont tudis. Dans le mme esprit, les gnes de 3 oprons de B.subtilis ont t tudis dans l'article (figure 8).

Le cas des plans d'exprience incomplets ou comment trater les rptitions dans le cas de mesures non apparailles Cette partie vise mettre en garde les personnes qui souhaitent faire de l'analyse de variance sans avoir pralablement vrifi que leur plan d'exprience est complet. Dans la mesure ou la mthode ANOVA ncessite la cration d'un design, cela sous entend obligatoirement d'avoir des chiffres mettre dans toutes les cases de tous les sous tableaux. L'exemple qui illustre cette difficult porte sur l'exprience des plateformes prsentes dans la partie plan_experience. Dans cette exprience, si l'on veut analyser l'effet du facteur dpot, cela ne va pas tre possible. En effet, les diffrentes membranes tant faites sur des sites diffrents, il n'y a aucune cohrence permettant de retrouver un biais systmatique (il n'y a pas de raison priori pour que le dpot 1 de la condition AX se comporte de faon identique au dpot 1 dans la condition BX). Comment traiter l'information dans ce genre de situation ? - Possibilit 1: on peut tre tent d'additionner 1 et 2 et traiter uniquement les autres facteurs en repartant d'un tableau rduit. Ce serait une erreur car en effectuant cela on perd des ddl donc de l'information. A B C D E F G x y - Possibilit 2: on peut analyser malgr tout le tableau complet de dpart mais en n' identifiant pas le facteur dpot lors de l'entre des paramtres dans l'analyse de variance. Dans ce cas, l'information lie ce facteur passe dans le bruit. Les meilleurs rsultats pour traiter cette situation des mesures non appareilles consiste donc faire une analyse du tableau complt sans rentrer le facteur litigieux dans la liste des facteurs.

Considrons un caractre plusieurs modalits que lon observe sur plusieurs chantillons. Ces chantillons peuvent tre :

Des chantillons selon le sexe (hommes et femmes). Des chantillons par tranche dge Des chantillons reprsentatifs de rgions

Question :

Est-ce que les diffrences qui pourraient tre observes entre les diffrents chantillons sont dues aux seules fluctuations dchantillonnage ou bien existe-t-il une diffrence rellement significative entre les chantillons ?

Dans le 1er cas, les chantillons sont comparables, il y a indpendance entre le caractre et lchantillon. Dans le 2me cas, la diffrence est relle et suppose un lien entre le caractre et lchantillon. On peut, par exemple citer le cas dune rponse diffrente selon le sexe ou selon lge ou selon tout autre paramtre Pour voir des exemples, aller la section "tlchargement"

Tests paramtriques et non paramtriques : avantages et inconvnients * Un test paramtrique requiert un modle fortes contraintes (normalit des distributions, galit des variances). Les hypothses seront d'autant plus difficiles vrifier que les effectifs tudis seront rduits.

* Un test non paramtrique peut tre ralis sans conditions pralables sur les paramtres de la population dont a t extrait l'chantillon. Cependant, les chantillons considrs doivent tre alatoires et simples (individus ayant la mme probabilit dy tre prlevs et de faon indpendante les uns des autres) Avantages des tests non paramtriques 1. Leur emploi se justifie lorsque les conditions d'applications des autres mthodes ne sont pas satisfaites, mme aprs d'ventuelles transformations de variables. 2. Les probabilits issues des tests non paramtriques sont des probabilits exactes, quelle que soit la forme de la distribution de la population dont est tir l'chantillon. 3. Pour des chantillons de taille trs faible (jusqu' n = 6), la seule possibilit est l'utilisation d'un test non paramtrique, sauf si la nature exacte de la distribution de la population est prcisment connue. Ceci permet une diminution du cot ou du temps ncessaire la collecte des informations. 4. Il existe des tests non paramtriques permettant de traiter des chantillons composs partir d'observations provenant de populations diffrentes. De telles donnes ne peuvent tre traites par les tests paramtriques sans faire des hypothses irralistes. 5. Seuls des tests non paramtriques existent qui permettent le traitement de donnes qualitatives (exprimes en rangs, en chelle ordinale ou donnes nominales). 6. Les tests non paramtriques sont plus faciles apprendre et appliquer que les tests paramtriques. Leur relative simplicit rsulte souvent du remplacement des valeurs observes soit par des variables alternatives, indiquant l'appartenance l'une ou l'autre classe d'observation, soit par les rangs, c'est-dire les numros d'ordre des valeurs observes ranges par ordre croissant. C'est ainsi que la mdiane est gnralement prfre la moyenne, comme paramtre de position. Dsavantages des tests non paramtriques 1. Les tests paramtriques, quand leurs conditions sont remplies, sont plus puissants que les tests non paramtriques.

2. Un second inconvnient rside dans la difficult a trouver la description des tests et de leurs tables de
valeurs significatives, surtout en langue franaise. Heureusement, les niveaux de significativit sont donns directement par les logiciels statistiques courants (PASW, Statistica...).

Hypothse nulle et hypothse alternative C'est la premire tape de toute procdure statistique. Considrons la comparaison de 2 chantillons A et B, l'hypothse nulle H0 est une hypothse de non diffrence : il n'y a pas de diffrence significative entre les chantillons A et B.

L'hypothse nulle est formule, en gnral, de faon tre rejete; ce qui revient dire que ce sera l'hypothse alternative H1 qui prvaudra : il y a une diffrence significative entre les chantillons A et B.

Supposons que nous voulions tester laffirmation selon laquelle deux groupes spcifiques de plantes diffrent par leur vitesse de croissance. Cette prdiction sera une hypothse de recherche que nous formulons en hypothse alternative H1 : la vitesse de croissance des deux populations est diffrente, alors que H0 sera formule comme suit : "La vitesse de croissance pour les deux populations est la mme". Nous avons : H0 : m1 = m2 H1 : m1 m2 Test unilatral, test bilatral La nature de l'hypothse de recherche dtermine comment H1 doit tre formule : 1) Si lon suppose que les deux groupes diffrent simplement par leur moyenne : les tests statistiques seront bilatraux. 2) Au contraire, si lon suppose qu'un des groupes spcifis aura une moyenne suprieure (ou infrieure) celle de l'autre groupe : les tests applicables seront alors unilatraux.

Les Analyses Factorielles ACP et AFC Le traitement de tableaux complexes de donnes englobant un grand nombre de variables ncessite des mthodes plus labores que celles de la statistique univarie ou bivarie appeles analyses factorielles. Il sagit de choisir un type danalyse en vue de dcrire, structurer ou expliquer avec ou sans modlisation. Il sagit de dcrire un phnomne sans avoir da priori sur les rsultats qui peuvent apparatre. Exemple : Une population o chacun des sujets est caractris par un certain nombre de variables, toutes de mme importance et jouant toutes le mme rle.

Les deux types danalyse sont : 1) 2) Lanalyse en composantes principales (ACP) Lanalyse des correspondances (AFC),

Il sagit de synthtiser linformation en structurant la population par "groupes homognes". Les tableaux de dpart peuvent contenir tout type de donnes : qualitatives ou quantitatives ou les deux la fois. Il y a deux types de donnes : Donnes continues : taille, poids, ge, quantit de nourriture, taux dhormones, quantit de nitrates, valeurs

du pH, etc.

Donnes discrtes : effectifs, frquences

Les donnes qualitatives comme par exemple le sexe, avoir les yeux bleus, noirs ou gris, peuvent tre codes en chiffres valeurs arbitraires (1 pour le sexe masculin et 2 pour le sexe fminin.) Les variables quantitatives (continues ou discrtes) peuvent se transformer en variables qualitatives (cours de 1re anne). Nous obtenons une relation dordre entre les nombres.

On peut, par exemple, crer des tableaux type "absence/prsence" dun caractre (cods 0 et 1), des tableaux complets avec plusieurs modalits pour chaque variable etc Les variables quantitatives continues peuvent tre conserves telles quelles.

Pour une ACP, les variables doivent obligatoirement tre disposes en colonnes et les observations en lignes, alors que pour une AFC, cela est indiffrent. Lintrt majeur de ces analyses est de fournir une mthode de reprsentation dune population dcrite par un ensemble de caractres dont les modalits sont quantitatives pour une ACP, ou qualitatives pour une AFC.

3) Principe de lanalyse factorielle :


Toute analyse factorielle consiste recoder des donnes, puis oprer une simplification de ces donnes par ajustement matriciel. Il sagit donc de passer dun trs vaste tableau de donnes un tableau plus petit (rsum du tableau initial)

4) Etapes dune analyse factorielle :


Une premire tape consiste construire un nuage de points dans un espace n dimensions. La deuxime tape consiste dterminer des sous-espaces sur lesquels on pourra projeter le nuage de

points sans trop le dformer. Afin de dgager les principales tendances, on procde des ajustements linaires successifs du nuage initial pour dterminer laxe qui restitue au mieux la forme gomtrique et massique du nuage (1er axe dinertie). On dtermine ensuite le plan qui restitue au mieux la proximit entre points et ainsi de suite pour les dimensions 3, 4, et suprieures (ce traitement mathmatique complexe, qui comporte la diagonalisation de matrices pour la recherche des axes privilgis, en calculant les vecteurs propres et les valeurs propres de la matrice, se fait grce des logiciels spcialiss (SPSS, Minitab, Scilab, Statistica ).

5) Interprtation :
A laide des reprsentations graphiques, appuyes par les tableaux, on essaiera de : - Reprer des groupes dindividus, homognes vis--vis de lensemble des caractres - Rvler des diffrences entre individus ou groupe dindividus, relativement lensemble des caractres - Mettre en vidence des individus au comportement atypique (toujours vis--vis de lensemble des caractres). Ce comportement atypique peut tre d soit la prsence de donnes aberrantes soit dautres causes quil conviendra de dterminer - Condenser linformation qui permet de dcrire la position dun individu dans lensemble de la population.

Commentaire (1)
1. Anto - Le 14/09/2010 13:48 Bonjour, belle initiative. Ce genre de sites manque, peu de choses sont faites pour faciliter l'accs la statistique. Toutefois, je ne suis pas sr qu'un novice comprenne la nature de l'ACP ou de l'AFC aprs lecture de votre article... L'tude par calcul matriciel sur tableur est dsuet, c'est donc du ct des logiciels qu'il vous faut dcrire la procdure. Et... le site prconu, termes, vous bridera...

souche A31 Manchuria Svansota Velvet 119,7 Trebi 109,7 Peatland

A32 81 105,4 80,4 87,2 98,3

B31 80,7 82,3 150,7 191,5 84,2

B32 146,6 142 112,2 147,7 145,7

C31 100,4 115,5 78,4 131,3 108,1

C32 82,3 77,3 116,5 139,9 89,6

D31 103,1 105,1 124 140,8 129,6

D32 119,8 121,4 96,2 125,5 124,8

E31 98,9 61,9 69,1 89,3 75,7

E32 98,9 89 96,7 61,9 104,1

F31 66,4 49,9 78,9 101,8 80,3

F32 86,9 77,1 67,4 91,8 96

67,7 66,7 94,1

Utilisation de GeneANOVA: rsultats Les rsultats obtenus sur les donnes orge sont prsents dans la tableau ci-dessous:

Lgende: Somme des carrs: sommes des carrs des carts la moyenne totale DDL: nombre de degr de libert de l'information rsiduelle F: Variable de Fisher p-value: probabilit que la valeur de F ait t obtenue par hasard (plus cette probabilit est faible, plus la valeur de F est significative).

Colonne selection: on a la possibilit via les cases cocher ou dcocher de supprimer certaines lignes qui ne rentrerons alors plus dans les calculs. L'effet d'une supression de ligne dpend du rapport entre le bruit et le DDL de cette ligne. Par exemple, prenons l'effet ligne pour lequel nous avons une p-value de 0, 00018. Si vous supprimez la ligne 4 (ligne-anne), la p-value de l'effet ligne devient 0, 00005 ce qui est meilleur. On a diminu le bruit moyen par cellule, autrement dit le bruit/DDL. A l'inverse, si on supprime la ligne 5 (ligne-lieux), on obtient une p-value qui varie peu: 0, 00017 ce qui ne change pas grand chose. Enfin, si on supprime la ligne 6 (anne-lieux), on obtient une p-value de 0, 023 ce qui beaucoup moins bon. En conclusion, selon ce que l'on dcide de mettre dans le bruit (que l'on nglige), on peut faire varier la p-value. Globalement, on ne change pas son ordre de grandeur mais il faudra tre vigilant lors de l'emploi de seuil sur la p-value pour slectionner des rsultats significatifs.

Quelques exemples pratiques

Exemples tlcharger

Test dindpendance

Considrons un caractre plusieurs modalits que lon observe sur plusieurs chantillons. Ces chantillons peuvent tre :

Des chantillons selon le sexe (hommes et femmes). Des chantillons par tranche dge Des chantillons reprsentatifs de rgions

Question : Est-ce que les diffrences qui pourraient tre observes entre les diffrents chantillons sont dues aux seules fluctuations dchantillonnage ou bien existe-t-il une diffrence rellement significative entre les chantillons ?

Dans le 1er cas, les chantillons sont comparables, il y a indpendance entre le caractre et lchantillon. Dans le 2me cas, la diffrence est relle et suppose un lien entre le caractre et lchantillon. On peut, par exemple citer le cas dune rponse diffrente selon le sexe ou selon lge ou selon tout autre paramtre Pour voir des exemples, aller la section "tlchargement"

Tests paramtriques et non paramtriques : avantages et inconvnients * Un test paramtrique requiert un modle fortes contraintes (normalit des distributions, galit des variances). Les hypothses seront d'autant plus difficiles vrifier que les effectifs tudis seront rduits.

* Un test non paramtrique peut tre ralis sans conditions pralables sur les paramtres de la population dont a t extrait l'chantillon. Cependant, les chantillons considrs doivent tre alatoires et simples (individus ayant la mme probabilit dy tre prlevs et de faon indpendante les uns des autres) Avantages des tests non paramtriques 1. Leur emploi se justifie lorsque les conditions d'applications des autres mthodes ne sont pas satisfaites, mme aprs d'ventuelles transformations de variables. 2. Les probabilits issues des tests non paramtriques sont des probabilits exactes, quelle que soit la forme de la distribution de la population dont est tir l'chantillon. 3. Pour des chantillons de taille trs faible (jusqu' n = 6), la seule possibilit est l'utilisation d'un test non paramtrique, sauf si la nature exacte de la distribution de la population est prcisment connue. Ceci permet une diminution du cot ou du temps ncessaire la collecte des informations. 4. Il existe des tests non paramtriques permettant de traiter des chantillons composs partir d'observations provenant de populations diffrentes. De telles donnes ne peuvent tre traites par les tests paramtriques sans faire des hypothses irralistes. 5. Seuls des tests non paramtriques existent qui permettent le traitement de donnes qualitatives (exprimes en rangs, en chelle ordinale ou donnes nominales). 6. Les tests non paramtriques sont plus faciles apprendre et appliquer que les tests paramtriques. Leur relative simplicit rsulte souvent du remplacement des valeurs observes soit par des variables alternatives, indiquant l'appartenance l'une ou l'autre classe d'observation, soit par les rangs, c'est--dire les numros d'ordre des valeurs observes ranges par ordre croissant. C'est ainsi que la mdiane est gnralement prfre la moyenne, comme paramtre de position. Dsavantages des tests non paramtriques

1. Les tests paramtriques, quand leurs conditions sont remplies, sont plus puissants que les tests non paramtriques.
2. Un second inconvnient rside dans la difficult a trouver la description des

tests et de leurs tables de valeurs significatives, surtout en langue franaise. Heureusement, les niveaux de significativit sont donns directement par les logiciels statistiques courants (PASW, Statistica...). Hypothse nulle et hypothse alternative C'est la premire tape de toute procdure statistique. Considrons la comparaison de 2 chantillons A et B, l'hypothse nulle H0 est une hypothse de non diffrence : il n'y a pas de diffrence significative entre les chantillons A et B.

L'hypothse nulle est formule, en gnral, de faon tre rejete; ce qui revient dire que ce sera l'hypothse alternative H1 qui prvaudra : il y a une diffrence significative entre les chantillons A et B.

Supposons que nous voulions tester laffirmation selon laquelle deux groupes spcifiques de plantes diffrent par leur vitesse de croissance. Cette prdiction sera une hypothse de recherche que nous formulons en hypothse alternative H1 : la vitesse de croissance des deux populations est diffrente, alors que H0 sera formule comme suit : "La vitesse de croissance pour les deux populations est la mme". Nous avons : H0 : m1 = m2 H1 : m1 m2 Test unilatral, test bilatral La nature de l'hypothse de recherche dtermine comment H1 doit tre formule : 1) Si lon suppose que les deux groupes diffrent simplement par leur moyenne : les tests statistiques seront bilatraux. 2) Au contraire, si lon suppose qu'un des groupes spcifis aura une moyenne suprieure (ou infrieure) celle de l'autre groupe : les tests applicables seront alors unilatraux.

Les Analyses Factorielles ACP et AFC Le traitement de tableaux complexes de donnes englobant un grand nombre de variables ncessite des mthodes plus labores que celles de la statistique univarie ou bivarie appeles analyses factorielles. Il sagit de choisir un type danalyse en vue de dcrire, structurer ou expliquer avec ou sans modlisation. Il sagit de dcrire un phnomne sans avoir da priori sur les rsultats qui peuvent apparatre. Exemple : Une population o chacun des sujets est caractris par un certain nombre de variables, toutes de mme importance et jouant toutes le mme rle.

Les deux types danalyse sont : 1) 2) Lanalyse en composantes principales (ACP) Lanalyse des correspondances (AFC),

Il sagit de synthtiser linformation en structurant la population par "groupes homognes". Les tableaux de dpart peuvent contenir tout type de donnes : qualitatives ou quantitatives ou les deux la fois. Il y a deux types de donnes : Donnes continues : taille, poids, ge, quantit de nourriture, taux Donnes discrtes : effectifs, frquences dhormones, quantit de nitrates, valeurs du pH, etc.

Les donnes qualitatives comme par exemple le sexe, avoir les yeux bleus, noirs ou gris, peuvent tre codes en chiffres valeurs arbitraires (1 pour le sexe masculin et 2 pour le sexe fminin.) Les variables quantitatives (continues ou discrtes) peuvent se transformer en variables qualitatives (cours de 1re anne). Nous obtenons une relation dordre entre les nombres.

On peut, par exemple, crer des tableaux type "absence/prsence" dun caractre (cods 0 et 1), des tableaux complets avec plusieurs modalits pour chaque variable etc Les variables quantitatives continues peuvent tre conserves telles quelles.

Pour une ACP, les variables doivent obligatoirement tre disposes en colonnes et les observations en lignes, alors que pour une AFC, cela est indiffrent. Lintrt majeur de ces analyses est de fournir une mthode de reprsentation dune population dcrite par un ensemble de caractres dont les modalits sont quantitatives pour une ACP, ou qualitatives pour une AFC.

3) Principe de lanalyse factorielle :


Toute analyse factorielle consiste recoder des donnes, puis oprer une simplification de ces donnes par ajustement matriciel. Il sagit donc de passer dun trs vaste tableau de donnes un tableau plus petit (rsum du tableau initial)

4) Etapes dune analyse factorielle :


Une premire tape consiste construire un nuage de points dans un La deuxime tape consiste dterminer des sous-espaces sur lesquels on espace n dimensions. pourra projeter le nuage de points sans trop le dformer. Afin de dgager les principales tendances, on procde des ajustements linaires successifs du nuage initial pour dterminer laxe qui restitue au mieux la forme gomtrique et massique du nuage (1er axe dinertie). On dtermine ensuite le plan qui restitue au mieux la proximit entre points et ainsi de suite pour les dimensions 3, 4, et suprieures (ce traitement mathmatique complexe, qui comporte la diagonalisation de matrices pour la recherche des axes privilgis, en calculant les vecteurs propres et les valeurs propres de la matrice, se fait grce des logiciels spcialiss (SPSS, Minitab, Scilab, Statistica ).

5) Interprtation :
A laide des reprsentations graphiques, appuyes par les tableaux, on essaiera de : - Reprer des groupes dindividus, homognes vis--vis de lensemble des caractres - Rvler des diffrences entre individus ou groupe dindividus, relativement lensemble des caractres - Mettre en vidence des individus au comportement atypique (toujours vis--vis de lensemble des caractres). Ce comportement atypique peut tre d soit la prsence de donnes aberrantes soit dautres causes quil conviendra de dterminer - Condenser linformation qui permet de dcrire la position dun individu dans lensemble de la population.

Commentaire (1)
1. Anto - Le 14/09/2010 13:48 Bonjour, belle initiative. Ce genre de sites manque, peu de choses sont faites pour faciliter l'accs la statistique. Toutefois, je ne suis pas sr qu'un novice comprenne la nature de l'ACP ou de l'AFC aprs lecture de votre article... L'tude par calcul matriciel sur tableur est dsuet, c'est donc du ct des logiciels qu'il vous faut dcrire la procdure. Et... le site prconu, termes, vous bridera...