Vous êtes sur la page 1sur 26

Rsum MQ I 1re anne 2011/2012

Chapitre 1 : La gomatique
Gomatique : domaine mthodologique dans environn. inform. pour les sciences spatiales -> techniques et mthodes traitement numrique infos caractre spatial - fournisseurs : - statistique - cartographie - mensuration - tldtection, traitement images - photogrammtrie - analyse spatial - systmes d'info go. (SIG) - utilisateurs : - sciences Terre - go - sciences environn. Objet : tude proprits, phnomnes, interactions et dynamique dans biosphre En go : mthodes relatives l'analyse spa. des phnom. et leur interactions dans un enviro. informatis Go Gomatique humaine Buts analyse spat. : Inventorier (pass) DESCRIPTIF physique Comprendre (prsent) COMPRENDRE Prvenir (futur) PRVISIONNEL Go

Information : - thmatique (proprits des phno.) - gomtrique (distrib. dans l'espace des phno.) - temporelle (dynamique de l'espace et des proprits) Traitement : Amont Mthodes saisie Ralit (collecte infos) Aval Mthodes cartogra. Rsultats (reprs. graph. infos)

Mthodes ana. spat. Info spat. numrique Saisie :

Sources info : - mesures terrain - cartes - annuaires stat. - images - bases de donnes

- chantillons - mesures terrain - numrisation (tables, scanners,) Mise en forme : - rgionalisation (variogra., interpolat. spat.) - homognisation (projection, contenu spat., structure, format)

Reprsentation : - codage graph. info - adapter la nature du phno. - finalit : - interprt. de la distrib. spati. - hypothses pour l'ana. spat. Page 1

Rsum MQ I 1re anne 2011/2012 Mthodes analyse : - gomtrie (description entits, objets) - topologie (relations entre entits) - arrangement (organi. spat. entits) - proximit (loignements entre entits) - accessibilit (accs aux entits) - dynamique (mvmts dans espace) Modlisation espace (niveaux) : - surface plane isotrope - surface gauche isotrope - surface gauche anisotrope - volume gauche anisotrope Buts gomatique : valuer -> formaliser -> structurer dmarches de ana. spat. harmoniser mthodes spat. harmonisation : - intgration (dvelop. mthodes) - interdisciplinarit (plate-forme mthodo. commune pour problmatique spat.) Questions chapitre 1 : 1. Quels sont les 8 fournisseurs de la gomatique ? 2. Quelles sont les 3 tches de lanalyse spatiale (tapes de lexploitation de linformation numrique)? 3. Quelles sont les mthodes de saisie (3) et de mise en forme (2) de linformation ? 4. Citez 5 sources de linformation 5. Quelles sont les 6 proprits de lespace ? 6. Quels sont les 4 niveaux de complexits dun modle ? 7. Quelles sont les tches de la gomatique ? Rponses chapitre 1 : 1. stat, carto, analyse spatiale, modlisation, SIG, photogrammtrie, mensuration, tldtection 2. Inventorier (descriptif, pass), comprendre (processus, prsent), prvoir (prvisionnel, futur) 3. Saisie : Echantillonnage, acquisition sur terrain, num / Mise en forme : Rgionalisation, homognisation 4. Mesures de terrain, annuaires statistiques, cartes thmatiques, images ariennes, donnes numrises 5. Gomtrie, topologie, arrangement, proximit, accessibilit, dynamique 6. Surface plane isotrope, gauche isotrope, gauche anisotrope, volume gauche anisotrope 7. Dvelopper, adapter et intgrer des mthodologies pour lanalyse spatiale.

Page 2

Rsum MQ I 1re anne 2011/2012

Chapitre 2 : exploration donnes


Ralit tudie sous forme dinformation Observation : lment, entit, objet de la ralit dont on dcrit les caractristiques Proprit : caractristique que possde une observation pour une thmatique donne Phnomne : aspect de la ralit tudier (thmatique) ex. : mtorologie Variable : information collecte sur le phnomne (numrique ou autre) Phnomne exprim par plusieurs variables : mto Nominal (soleil, pluie, neige), ordinal (classes de couverture, qualificatif), cardinal (numrique) Information numrique = codage (combinaison de signes) et langage (nombre, signe, unit de mesure) Nature de linformation : - mesure : acquisition par instruments de mesure (pluviomtrie, temprature, recensement) - drive : issue dun calcul dune combinaison dinformations mesures (pente, dbit rivire, orientation) - interprte : information enrichie par un expert (units de sol, de vgtation, dhabitat, cologiques) Information acquise : Problme de slection de la meilleure source disponible , qualit de linfo, pass/prsent Information acqurir : Problme dchantillonnage, prsent/futur Origine des sources : institutions publiques / prives, relevs de terrain Types de sources : mesures de terrain, annuaires statistiques, cartes thmatiques, images ariennes Forme : - info analogique : code dans un langage textuel, graphique, sur un support analogique (papier, film,...) exige un recodage numrique - info numrique : directement exploitable par des mthodes quantitatives besoin de disposer de la mta-information et de connatre le format de stockage informatique Codage numrique Caractristiques de la proprit : - valeur du nombre (ex. : 23) - signe attach au nombre (+/-) - unit de mesure relative (%, rang) ou fixe (habitants, C) Proprits : 3 niveaux de richesse de contenu informatif - nominal : indentification, diffrentiation des proprits (valeurs limites) (fort, Genve,) - ordinal : indentification, hirarchisation des proprits (valeurs limites) (moyen, 3me, fort,) - cardinal : indentification, hirarchisation des proprits et quantification des intervalles, valeurs continues ou pseudo-continues (valeurs nombreuses, infinies), nombre

Page 3

Rsum MQ I 1re anne 2011/2012 Contenu des informations Nominal Indentification diffrentiation Ordinal Identification, hirarchisation sans quantification des rapports >,<,=, Oprations logiques Mdiane, quantile Discrte Cardinal Indentification, hirarchisation mais en fonction de la quantification >, <,=, , +, -, x, / Oprations logiques et arithmtiques Moyenne, variance, corrlation, Discrte et continue

Oprations possibles

Statistiques associes

=, Quelques oprations logiques Mode, amplitude, comptage Valeurs discrtes

Mta-information : complte le contenu informatif des donnes, complment indispensable Dimension de linformation : - thmatique : proprits des phnomnes mesures sur les observations (commune, objet,) - gomtrique : distribution de ces proprits mesures dans lespace (localisation,) - temporelle : distribution de ces proprits mesures dans le temps exprime lvolution (mesures diffrents moments) Spatiale : (thmatique + gomtrique) commune localise avec proprits thmatiques Spatio-temporelle : (thmatique + gomtrique + temporelle) (recensement, lieu, volution,) Typologie des units dobservation - identifies : liste dobservations (sans organisation) - localises dans lespace : par des variables spatiales (coordonnes x, y par exemple) - positionnes dans le temps : liste squentielle (srie chronologique) Mthodes quantitatives font appel des oprations logiques, arithmtiques et statistiques Statistique : domaine des maths appliques qui sintresse linterprtation des donnes numriques finalits : explorer, dcrire, synthtiser, infrer, comparer, modliser les phnomnes en 3D linformation collecte nexprime quune portion de la ralit : La ralit contient un nombre important, voire infini dobjets et de proprits dans les 3D La population statistique est lensemble de tous les individus dune mme nature (tudiants, langues,) Linformation sur la ralit est compose dune slection limite dobjets de la ralit Lchantillon statistique est un sous-ensemble dindividus tirs de la population but : reprsentativit Statistique descriptive : description et synthse des proprits de lchantillon exploration de donne Statistique infrentielle : relation entre chantillons modlisation de distribution Analyses statistiques : (pas vu en cours) Caractriser (indicateur de position/dispersion), synthtiser (indice/analyse factorielle), grouper (classification/comparaison : test paramtrique ou non), choisir (moy. pondre/ analyse multicritre), dcrire, lier (corrlation : nominal/ordinal/cardinal), modliser

Page 4

Rsum MQ I 1re anne 2011/2012 Finalit : Synthse (graphique et numrique) : distribution de chaque variable (tendance centrale, dispersion) Mise en relation de phnomne : corrlation, diagramme bivari Mise en relation de groupes dobservations : comparaison de groupe Formulation dhypothse danalyse : hypothse vrifie par des tests Variable 1(nom) Observation 1 (nom) Observation 2 Variable 2 Nom des variables et des observations mta-information

Outils d'exploration : descripteurs numriques et graphiques, univaris et bivaris Descripteurs numriques univaris : rsument l'aspect du comportement d'une variable des niveaux de mesure diffrents o aspect du comportement (indices de ) : 1. tendance centrale (position) 2. variabilit (dispersion) 3. forme (distribution) o niveau mesure : nominal catgories (comptage, frquence, ex. : nom d'un district) ordinal classes (ordre, squence, ex. : classement par nbre d'hab.) cardinal contiuum (position, intervalle, ex. : nbre d'hab.) 1. Tendance centrale : indiquent la position centrale de lensemble des valeurs sur lchelle de mesure o nominal : mode dterminer la catgorie avec la + grande frquence o ordinal : mdiane valeur partage observations en 2 groupes de mme taille si n est pair : n/2 si n est impair : ((n-1)/2) +1 o cardinal : moyenne valeur o se situe le centre de gravit (moyenne arithmtique) x (somme des obs.)/n Note : la mdiane et le mode sont + robustes que la moyenne moins sensibles aux valeurs extrmes 2. Variabilit : indiquent limportance de la dispersion des valeurs en rfrence leur indice de tendance centrale respectif o nominal : diversit nombre de valeurs (catgories) diffrentes sur lensemble des observations o ordinal : interquartile diffrence des valeurs (limites) partageant lensemble des observations en 2 sous-ensembles de mme taille autour de la mdiane dterminer les 3 valeurs partageant les observations en 4 groupes de mme taille o cardinal : cart-type carts moyens la moyenne de lensemble des observations = o autre indices : amplitude, cart-moyen, variabilit relative, coefficient de variation Note : la variance, donc lcart-type sont trs sensibles aux valeurs extrmes

Page 5

Rsum MQ I 1re anne 2011/2012 3. Forme : dcrivent la forme de distribution des valeurs de rfrence la moyenne, par rapport une forme de distribution spcifique : la distribution normale o concernent avant tout le niveau cardinal car : la position de rfrence est la moyenne la variable est suppose continue o les 2 indices sont : la symtrie voir si on a une bonne rpartition de chaque ct de la tend. centr.

relation entre valeurs de la mdiane et la moyenne gx = 3(xmoy xmd) / sx varie entre -3 et 3 / interprtation semblable skx la voussure ou aplatissement courbe montrant la dispersion par rap. moy

rapport entre lcart-moyen et lcart-type akx = Mdx / s valeur de rfrence dun talement normal 0,7979 / interprtation semblable kx

Descripteurs graphiques univaris : rsument certains aspects du comportement dune variable dans lensemble des observations considres identifier ce que lon veut reprsenter (rsum graphique des proprits, comportements des observation) o aspect du comportement : distribution des frquences des proprits thmatique volution des proprits temporel distribution des proprits dans lespace gomtrique sont complmentaires aux descr. num. univaris : avant de rsumer graphique., on doit classer les donnes produire des frquences, synthtiser : un graphique trop riche empche une bonne comprhension Classement des donnes num. est li la richesse de linfo : o niveau de mesure : nominal (catgories -> catgories) classement si catgories trop nombreuses ordinal (classes -> classes) classement si classes trop nombreuses cardinal (continuum -> classes) classement indispensable car diversit des valeurs mesures trop grande o Tableau de frquences frquences absolues (comptage des valeurs) ou relatives (proportion des valeurs) frquences simples (liste des valeurs ou des proportions) frquences cumules (addition successive des frqu. simples pour les i ranges en ordre croissant / proprit : somme de fi = 1 ou 100%) o Dmarche : dfinir le nbre de classes produire et les limites des intervalles de classes

Page 6

Rsum MQ I 1re anne 2011/2012 o Mthodes : indpendantes (neutres) dcoupage en intervalles rguliers statistiques : en units de dispersion autour de la tendance centrale en intervalles de probabilit dapparition des valeurs en frquences rgulires comparatives intervalles prdfinis par un dcoupage de rfrence Dfinition du nbre de classes finalit : entre 7 et 15 / formule de Brooks et Huntsberger Intervalles en unit de dispersion : choix des indicateurs : mdiane et unit de quartile (souvent le quartile) moyenne et unit dcart-type (souvent 1 .-t.) classe centrale est centre autour de lindicateur de position nbre dintervalles (de classes) indp. de la taille de lchantillon li au dtail de dispersion souhait Intervalle prdfinis : en rapport des classes prdfinies produire les mmes classes/catgories que la rfrence comparer les diff. de frquences entre les 2 chantillons dcrire lvolution des frquences dans le temps ex. : constituer des classes de localits partir de leur population ou daltitude partir de laltitude Graphique de frquence : reprsenter la frquence des observ. par catgories ou classes o nature du graphique lie au niveau de mesure nominal btons (bar chart) ou circulaire (camembert, pie chart) ordinal histogramme, polygones de frquence Graphique thmatique : o ordinal ou cardinal boxplot (bote moustache) : reprsente la position de la mdiane par rapport aux quartiles et au max. et min. Graphique temporel : reprsente lvolution des valeurs dune ou plus. obs. dans le temps Graphique spatiaux : bidimensionnel reprs. la distrib. des valeurs dobs. dans lespace

o o

o o

Descripteur spatiaux Rsument certains aspects de la distribution spatiale des units dobservations ainsi que leur proprit. Dimension gomtrique : Espace plan euclidien (gomtrie, topologie) Dimension spatiale : Espace gauche isotrope ou anisotrope Dimension spatio-temporelle : Dynamique spatiale

On a 2 distributions selon la nature de lentit. 1. Discontinue (discrte). Pour des entits ponctuelles, linaires, zonales 2. Continu. Pour des entits dites Surface (modlis par une multitude de points ou de zones (maille) arranges rgulirement Les descripteurs Spatiaux Globaux : rsument la distribution de lensemble des entits. Les descripteurs Spatiaux dentit : rsument les proprits (souvent gomtriques) de chacune des entits spatiales. Page 7

Rsum MQ I 1re anne 2011/2012 Attention : les descripteurs spatiaux peuvent tre organiss selon leur degr de complexit, les composantes spatiales et les dimensions traites. Descripteur spatiaux lmentaires : voir dia 2-107 - objets ponctuels li la gomtrie (indice de position, de dispersion, darrangement) - objets ponctuels li lespace (indice pondr de position, pondr de dispersion) Indice de position Formule dia 2-108 et ex dia 2-109: 1. Concerne le centre moyen (lieux de coordonnes (xmoyen ; ymoyen) 2. Centre mdian (lieux de coordonnes (xmed ;ymed) Indice de dispersion Formule dia 2-110 et ex dia 2-111-112 : 1. Ecart-type en x et y 2. Interquartile en x et y 3. Distance standard de Bachi = dispersion par rapport au centre moyen Indice darrangement et indice R du plus proche voisin Dia 2-113 et 2-114 - Lindice R, compare une distribution de points observs une distribution thorique alatoire. Si R = 1 on a distribution alatoire et plus elle est proche de2,1419 plus la distribution est rgulire. 0<R<2,1419 Indice spatiaux pondrs : les proprits gomtriques (position, dispersion, zones dinfluence) sont pondrs par la proprit thmatique de chacune des observations. Ex : TP sur la distribution des cadeaux et le nbre denfant dans chaque maison. 1ere fois, les maisons sont une unit. 2eme fois certaine maison ont plus de poids car elles contiennent 2, 3, voir 5 enfant. Voir dia 2-116 118 A la dia 2-119 vous pouvez observer dautres descripteurs spatiaux pour vos connaissances personnelles Descripteur numriques bivaris rsument certains aspects de la relation de comportement entre 2 variables 1. Existe-il une similitude entre ? 2. Quel est la force de cette similitude ? (on parle de lien fort ou faible) 3. La relation est-elle inverse ou directe ? (si lune augmente lautre augment ou si lune augmente lautre diminue ?) Ex : dia 2-122 Selon le niveau, on parle de : - nominal -> association - ordinal -> relations de rangs - cardinal -> relation dintervalles (linaire) Attention : si lon fait une corrlation entre un niveau cardinal et ordinal, ce sont les lois appliqu au niveau le plus bas qui priment.

Page 8

Rsum MQ I 1re anne 2011/2012 Descripteur et test de la relation consiste : 1. dcrire et analyse la relation 2. vrification de la signification statistique de ces relations -> afin de gnraliser, puis de modliser

Corrlation et Rgression :
le coefficient de Corrlation admet lexistence, dcrit la force et le sens dune relation au niveau de lchantillon des observations. La corrlation exprime une similitude de comportement entre 2 variables et non pas un lien logique ou une causalit La fonction de Rgression est une fonction linaire ou polynomiale permettant de modliser la relation de dpendance dune variable y par rapport une variable x. Dans le but de la gnraliser et de lappliquer toute la population. La rgression est utilis si lon suppose quil existe une dpendance, une relation statistique et que 2 variables sont de niveau cardinal. Elle est donc utile pour valuer des valeurs y non mesures, et prdire des valeurs (ce quon nomme extrapolation ou prvision)

1. La corrlation au niveau nominal reprsente la correspondance entre les proprits dune variables et dune autres Pour cela, on cre un tableau de contingence (frquence) voir dia 2-129 Une fois le tableau cre (et que lon a vu quil y avait une relation, On peut utiliser le Coefficient dassociation (V de Cramer) -> bas sur lindice Chii-carr (chi-deux) entre 0 et 1, indpendant du nombre de proprit et la taille de lchantillon. Voir dia 2-130 133, Si le V de Cramer est proche de 0 -> la relation est nul ou nexiste pas. Si elle est environ ou = 1 -> la relation est dite parfaite ou trs lev. Malgr tout, pour 0 il est possible de retrouver 2 fois la mme valeur, mais cela nimplique aucune corrlation (cest plutt la chance). 2. Corrlation au niveau ordinal : utilise le Rho de Spearman (Dia 2-135) qui mesure la similitude des valeurs (Rang) de chaque observation pour les 2 variables. La corrlation est normalise dans lintervalle de -1 1. O 1 indique une relation directe ou si lun est lev lautre aussi ET o -1 indique une relation inverse ou si lun est lev lautre est bas Finalement, si Rs (Rho de Spearman) = 0 la relation est nul et si elle est = 1 ou -1 elle est parfaite (voir dia 2135 137) 3. La corrlation au niveau cardinal : prend en compte la hirarchie des valeurs et lintervalles les sparant. Se base sur le Coefficient de R de Pearson qui mesure la similitude des intervalles de valeur de chaque observation entre 2 variables. Normalis entre -1 et 1 (identique ordinal) Remarque et commentaire (Ex et calcul, dia 2-139 148) : 1. une relation forte mais non-linaire est considre faible 2. les valeurs extrmes peuvent rendre forte une corrlation qui est en fait faible 3. a. Le calcul + le graphique permet dobtenir le bon rsultat b. Il est parfois judicieux dutiliser la place, le coefficient de rang de Spearman Analyse de la chane de dpendance : cest une dmarche dexploration permettant de mettre en vidence lorganisation des relations entre les variables

Page 9

Rsum MQ I 1re anne 2011/2012 Etape de la dmarche: Cette technique est base sur la matrice des corrlations entre un ensemble de variables: 1. tablir la matrice de corrlation (Spearman, Pearson), 2. extraire, pour chacune des variables, la plus forte corrlation positive (signification), 3. lister les couples de variables retenus, avec la valeur du coefficient, 4. extraire de cette liste les paires rciproques, elles constituent les noyaux des groupes (produire un organigramme), 5. attribuer les variables restantes aux groupes constitus en fonction de leur relation dominante, 6 complter lorganigramme en indiquant les relations ngatives fortes entre les groupes (entre leur noyau). Ex : voir dia 2-150 et 2-151 Questions chapitre 2 : 1. Quelle est la diffrence entre un phnomne et une variable ? 2. Quelles sont les 3 formes de langage ? 3. Quelles sont les 3 natures et les 2 formes de linformation ? 4. Quels sont les 3 niveaux (ou chelles) de mesure ? Et les 2 combinaisons ? 5. Citez 6 buts des mthodes quantitatives et de la statistique 6. Quelle est la diffrence entre la ralit et linformation et comment passer de lune lautre ? 7. Quel sont les 2 niveaux de la statistique ? 8. Quels sont les 7 types danalyse statistiques ? Dcrivez-les brivement. 9. Quels sont les finalits de lexploration des donnes ? 10. Quelle est la diffrence entre un descripteur univari et bivari 11. Citez un indice de tendance centrale et de variabilit pour chaque niveau de mesure et 2 indices de forme 12. Quelle est la dmarche et les mthodes de classement ? 13. Citez 9 Descripteurs spatiaux numriques. 14. Quelle est la diffrence entre la corrlation et la rgression ? 15. Citez un outil de corrlation pour chaque niveau de mesure avec leurs composantes 16. Explicitez les tapes de dmarche pour la cration dune chane de dpendance Rponses chapitre 2 : 1. Phnomne = aspect de la ralit tudier (Exemple : Climat) Variable = Information collecte sur le phnomne (Exemple : Temprature, humidit, ) 2. Langage textuel, numrique et graphique 3. Nature : Mesure, drive, interprte / Forme : analogique (recodage exig), numrique 4. Niveau nominal, ordinal, cardinal / Combinaison : Dimension spatiale (thm+gom) et spatio-temp (les 3) 5. Explorer, dcrire, synthtiser, infrer, comparer, modliser, les phnomnes de la ralit dans les 3 dim 6. Ralit : nbre important, voire infini dobjets, reprsente un ensemble complet de la population Information : nbre limit, reprsente un chantillon (= sous-ensemble) de la population Ralit => information : Echantillonnage / Info => infrence 7. Statistique descriptive (exploration de donnes) et stat infrentielle (relation pop-ch, modlisation) 8. Au niv des entits : Caractriser (pos et variabilit), synthtiser (indices), grouper(classement, test), choisir Au niveau des phn : Dcrire (indicateurs stat, graph), Lier (corrl, chane de dp), modliser (rgression) 9. Dcrire, rsumer (synthse), mettre en relations des info, formuler des hyp danalyse. 10. Univari : dcrit une distribution de valeurs / Bivari : Dcrit une relation entre variables 11. Tendance centrale : Mode (nominal), Mdiane (ordinal), Moyenne (cardinal) Variabilit : Diversit (nominal), Interquartile (ordinal), Ecart-type (cardinal) Forme : Symtrie (sk>0 => valeurs + en dessous), voussure (K>3 => pointu) Page 10

Rsum MQ I 1re anne 2011/2012 12. Dmarche : 1. Dfinir le nbre de classes 2. Dfinir les limites de classe Mthodes : Indpendantes (intervalles rguliers), statistiques, comparative (ex : prendre une autre distrib) 13. Position (centre moyen (pondr), centre mdian), Dispersion (cart-type et interquartile en X et Y, distance standard de Bachi (pondre)), Arrangement (type de distribution), indice R du + proche voisin 14. Corr : force du lien entre deux variables (ch) / Rgr : Dpendance entre deux variable (gnralisation) 15. Nom (Par association): V de Cramer (table de conting, Chi-carr avec effectifs obs et tho, norm de 0 1) Ord (Corrl par Rang) : Rho de Spearman (non-paramtrique, normalis entre -1 et 1, diff des rangs, n>20) Card (reldintervalles) : R de Pearson (paramtrique, sensible, normalis entre -1 et 1, covar et cart type) 1. Matrice de corrl, 2. + forte corrl, 3. Couples, 4. Supp rciproques, 5. Var restantes, 6. Rel ngatives

Chapitre 3 : acquisitions des donnes


En bleu : remarque perso et explication En gras : les mots importants ou les nouveaux thmes, pour marquer une sparation 1. Introduction Rappel : La ralit ne peut studier quau travers dune information (variables numriques) Cette ralit est dcrite au travers dun processus de simplification et dchantillonnage. La simplification consiste : Slectionner des phnomnes (pertinent, utile) et certains de leur aspect (variables) Simplification de la description des units dobservations (objets spatiaux)

Echantillonnage consiste : Slectionner un certain nombre dobservations Slectionner une priode et des moments particuliers (= chelle de temps, date)

Le processus dacquisition comprend plusieurs tapes : 1. 2. 3. 4. 5. Choix de la source dinformation (documents rels ou terrain) Slection des observations (dfinition procdure dchantillonnage) Saisie de linformation (instruments analogiques ou numriques) Conversion (ou traduction) numrique de linformation (si la saisie tait analogique) Mise en forme de linformation (selon les dimensions thmatique, gom., temps.)

Lintroduction se termine sur des rappels de linformation (ch. 2.2), des processus de traitement et du contexte de saisie (graphs).

Page 11

Rsum MQ I 1re anne 2011/2012 2. Echantillonnage Dfinition : Processus de slection reprsentative dun nombre limit dobservations partir dun ensemble vaste, voir infini. (Cest un sous-ensemble : population, choix de la taille) Pourquoi chantillonner : 1. Impossibilit ou grande difficult dobtenir la totalit de la population 2. Minimiser les cots financiers, humains, de temps ncessaire la rcolte de linformation. avoir un chantillon reprsentatif La dmarche est conditionne par : le modle de la ralit (finalit, richesse, hypothse, qualit) l'info disponible (la source, le type et la qualit) la dimension (thma., gom., temporelle) les instruments de saisie, d'acquisition (types, contraintes)

La procdure se partage en 2 grandes tapes : 1. Identifier les observations, soit dfinir la population, la taille de lchantillon et la mthode dchantillonnage 2. Saisir les proprits des phnomnes soit dfinir la procdure dacquisition, raliser un chantillon test (afin dobtenir la taille optimale et mette jour les problmes) et raliser un chantillon de donnes satisfaisant. Mthode (tape 1 de la procdure dchantillonnage) Il existe selon le contexte dacquisition, 4 mthodes : 1. Echantillonnage alatoire simple : Tirage au sort (hasard) des N observations de lchantillon. Echantillon idale (trs reprsentatif), car chaque individus peut tre choisis et la slection dun individu ne modifie pas la chance des autres. Avantage : tirage indpendant et alatoire. Lordre des observations ninfluence pas la qualit. Cest la mthode la plus sre. Contraintes : mthodes souvent longue et fastidieuse. La srie de nombre ne doit pas sortir de lintervalle de la liste dobservation. Dure trouver llment de dpart. 2. Echantillonnage systmatique simple : Slection par intervalles rguliers des N observations faisant parti de la population. Afin de couvrir de manire homogne lensemble de la liste mais cela sans hasard . Calcul : I (intervalle) = P (Population)/ N (taille de lchantillon constituer). Le hasard provient uniquement du faite quon doive choisir le premier lment ensuite on applique lintervalle. Avantage : Mthodes simples raliser Contraintes : lintervalle influence donc beaucoup le choix. Il faut faire attention aux populations sous forme cycliques car on pourrait tre pouss ne choisir quune seule reprsentation. En fait, il faut simaginer une fonction sinus avec une priode (t) et si notre intervalle ne prend que les valeurs lev on va se dire par exemple avec le chmage que tous va mal car on croira quil est toujours trs haut. Alors il faut tre capable de reconnaitre la courbe et de choisir un intervalle reprsentant le milieu lensemble des lments.

Page 12

Rsum MQ I 1re anne 2011/2012 3. Echantillonnage stratifi alatoire ou systmatique : consiste faire des sous-groupes lintrieur de la population. Dans le cas o lon souhaite mettre un accent particulier sur une partie de la pop. Cette tape vient avant ltape de lchantillonnage. La technique consiste donc subdiviser la pop en m groupe puis dans chacun des groupes dappliquer la rgle dchantillonnage alatoire ou systmatique. Avantage : Permet de pondr la reprsentativit de chaque groupe. Contrainte : Il faut possder les infos de basent pour ce permettre un regroupement. Et la liste doit rendre compte de limportance des diffrentes strates (groupes). Ex : Slectionner N tudiant de lUNIFR en respectant la proportionnalit : de leur appartenance une facult, de leur sexe et de leur langue maternelle. Echantillonnage temporelle : consiste adapter les mthodes gnrales dchantillonnage au cas de la dimension temporelle. O les observations = les moments (instants) auxquels les mesures ont t effectues et les variables = les phnomnes mesurs chacun des moments. Attention : Il faut utiliser des mesures dintervalle rgulier afin demployer lchantillonnage simple systmatique. Echantillonnage spatial : Dans un premier temps, il faut adapter les techniques dchantillonnage un contexte bidimensionnel (x ;y). Les observations sont soit des entits ponctuelles soit linaires ou zonales. Pour faciliter ltude, on prtend souvent que lobjet une entit ponctuelle. Voir dia 3-25 et 3-26 rappel de la distribution spatiale possible (ch. 2). Une observation cest une coordonn x, une coordonn y ou plusieurs de chaque pour une ligne ou une zone. Dans un chantillonnage spatiale nous pouvons aussi appliquer les mthodes systmatique en choisissant dabord un point(x;y) au hasard puis de dfinir un intervalle. Mais il est aussi possible de stratifi lespace comme dans la dia 3-30 qui spare notre zone en 3 groupe reprsentant 2 strates (fort et prairie). 3. Instruments dacquisition (cette partie n'a pas t vue en cours) Dfinition : Instruments et procdures permettant la mesure, la saisie et la numrisation des donnes Ils existent des instruments de mesure : p.ex. : observateur, thodolite (lunette d'archi), thermomtre et sonde) pour mesurer des lments de la ralit sous forme physique, chimique ou lectrique

Mais aussi des instruments de stockage (enregistrer sur support les donnes collectes): p. ex. : la transcription alphanumrique, graphique, magntique, optique ou la mmoire solide

Du point de vue gomtrique, lon parle de thodolite et de rcepteur GPS, alors que du point de vue thmatique et temporelle on peut obtenir les infos laide dinstruments comme les pluviomtres, les anmomtres, les thermomtres radiomtre etc voir dia 3-35. Pour les dias 3-36 3-42, on nous dit que nous pouvons saisir des donnes numriques de manire : Manuelle (grce un clavier) ce qui concerne un nombre dobjet limit, qui permet un choix de la structure et du format libre et qui se fait laide dun diteur de texte ou tableur (ex : excel). Pour obtenir finalement des coordonnes et attributs des objets (qui compltent les coordonnes)

Page 13

Rsum MQ I 1re anne 2011/2012 Semi-automatique (avec une table numriser) ce qui implique de convertir les coordonnes table en coordonnes cartographique (gorfrence), et dutiliser un logiciel de numrisation spcifique. Pour obtenir finalement des coordonnes et identificateurs des objets. Automatique (grce un scanneur ou une camra) production d'une image numrique trs prcise. Cest aussi moins couteux quune table.

Questions chapitre 3 : 1. Quels sont les 2 processus de ralisation dun modle de la ralit ? 2. Quelles sont les 5 tapes du processus dacquisition de linformation ? 3. Quels sont les 4 lments qui conditionnent un chantillonnage ? 4. Quelle est la procdure dchantillonnage ? 5. Citez 5 mthodes dchantillonnage. 6. Quels sont les 5 types de distribution spatiale ? 7. Quels sont les 4 procdures de saisie numrique de linformation ? Rponses chapitre 3 : 1. Simplification (slect des phnom., variables et units dobserv.) et chantillonnage (slect. des obs. et des priodes) 2. Choix des sources et des observations (ch.), saisie de linfo, conversion numrique, mise en forme 3. Modle dfini (qualit, richesse, finalits), info dispo, dimension de linfo, instruments 4. Etape 1 : slection de lchantillon (dfinir la pop, la taille de lch et la mthode dch) Etape 2 : extraction des proprits (dfinir la procdure dacquisition, ch test, saisie de linfo) 5. Alatoire simple, systmatique simple, stratifi, temporel et spatial (simple, systmatique ou stratifi) 6. Group, alatoire, systmatique (traverses, courbes de niveau, rgulier) Manuelle (Clavier), semi-automatique (table numriser), automatique (scanneur, camra), BDG existante Chapitre 4 : Distributions thoriques Intro -La dmarche dinfrence : passer dune connaissance spcifique des observations (chantillons) celle plus gnrale de la ralit (population) dmarche inverse de lchantillonnage. -Echantillonnage : ralit chantillon (production dinformation) collecte dinfos -Infrence : chantillon (particulier) population (gnral) gnralisation -But de linfrence : - gnraliser les interprtations faites sur lchantillon - mettre en relation le comportement spcifique dun chantillon avec celui plus gnrale du phnomne (comparaison) - mettre en relation le comportement spcifique de 2 ou plusieurs chantillons (comparaison) -Le modle de comportement du phnomne est dcrit comme une distribution thorique de ses proprits simplification de la ralit -La distribution thorique dcrit la probabilit dapparition de chacune des proprits que peut prendre le phnomne (fonction de probabilit discrte ou continue) - Si lchantillon est reprsentatif de sa population, son comportement devrait correspondre celui de la population, mais avec une certaine incertitude. Page 14

Rsum MQ I 1re anne 2011/2012 - Une distribution thorique des probabilits dcrit, par une fonction discrte ou continue, la probabilit dapparition des proprits dun phnomne. La proprit dun phnomne peut tre le rsultat dune combinaison dvnements (ex. : 7 peut tre obtenu par une combinaison multiple de jets de 2 ds). Une distribution thorique est aussi appele loi de distribution des probabilits (loi discrte, proprits finies / loi continue, proprits infinies) - Lobjectif de la construction de ces lois de distribution de probabilits produire une rfrence de comportement dun phnomne : loi de distribution alatoire (apparition = hasard), loi de distribution spcifique (modliser lapparition spcifique et connue des proprits dun phnomne par un modle) -Rappel de notions de probabilits : proba. dapparition dun vnement est le rapport entre le nbre dapparition de cet vnement divis par le nbre dapparitions totales. Ensemble des vnements : S= {E1, E2}, p(E2)= , q = probabilit complmentaire. p(S)= p(E1)+p(E2)=1 . + le nbre dessais est grand, + on sapproche de la probabilit (frquence relative) Combinaisons dvnements : Incompatibles : 3 ensembles dvnements nont pas dlments communs ex. : roi ou As ou 10 de cur) Compatible : 2 ensembles dvnements ont un lment en commun ex. : roi ou trfle roi de trfle 4/36 + 9/36 1/36 = 12/36 Indpendants : 2x faces en 2 lancs ralisation du premier vnement naffecte pas la probabilit de ralisation du second, combinaison de leur probabilit = leur produit. Dpendant : tirer 2 billes noires en 2 tirages sans remise (2 noires et 3 blanches : pour 2 billes noires : 2/5 x la somme des probabilits par embranchement doit tre = 1 (Soit X une variable continue avec une distribution de probabilit connue, la probabilit quune valeur xi se situe dans lintervalle AB est dfinie par le rapport entre la surface de cet intervalle sous la courbe et laire totale sous la courbe.) Discrte, discontinue = nombre limit Finalit loi binomiale : crer une distribution thorique alatoire aux mmes caractristiques que celles observes sur lchantillon gnraliser et vrifier si la distribution observe est alatoire ou non Dfinition exprimentale de cette loi : ex. : probabilit nombre de face en lanant 3 pices chaque lanc p(face) = et son complmentaire q(face) = p(pile) (indpendants) Nbre de variables X {0,1,2,3} et nbre de cas possibles = 8 Ck = n! k ! (n-k) ! (0! = 1) Ex. : on fore 12 puits dans la rgion. On a 20% de chance de trouver du ptrole. Quelle sont nos probabilits de trouver 3 puits avec du ptrole ? Paramtres : p = 20%, q = 80%, n = 12, k = 3 Page 15 coefficients binomiaux = Ck = Cn-k

Rsum MQ I 1re anne 2011/2012 Calcul : p(3) = [12/3] x p3xq9 =220x0.008x0.134=0.236 Gnralisation : p(k) = [n/k] x pk* x pn-k p(3) = [12/3]*p3*q9 Peu utilis en Gographie, on prfre la Loi de Poisson qui dcrit le comportement du nombre d'vnements se produisant dans un laps de temps fix, si ces vnements se produisent avec une frquence moyenne connue et indpendamment du temps coul depuis l'vnement prcdent. p(k)= (k/k !)*e- moyenne dapparition de lvnement, = nbre total de succs / nbre total dessais k le nombre succs : k 0, 1, 2, n e = 2.718 Paramtres : Moyenne de la distribution thorique : - = n*p Variance de la distribution thorique : - 2= n*p= Ex. : nbre de dcs mensuels de moutons rsultant dune maladie rare sur une priode de 200 mois. La distribution mensuelle de ces dcs correspond-t-elle une distribution alatoire ? Paramtres : k = 1, 2, 3, 4 Nb de dcs (k) = 122 dcs / 200 mois= 0.61

Nb de mois avec k Frquence Probabilit Effectif thorique dcs (ek) relative : ek/200 thorique (pk) (pk)* 200 2 22 0.11 0.101 22 Similitude presque parfaite entre les effectifs observs et les effectifs thoriques produits par une distribution alatoire suivant la loi de Poisson. Distributions alatoires continues Pour de nombreux phnomnes, le Nb dvnements peut tre lev, voire infini. Il sagit donc de dfinir la probabilit dapparition de lensemble de ces valeurs. Dmarche : dfinir des lois de distribution alatoire permettant de dfinir la probabilit dapparition dun intervalle de valeurs et non pas de chacune des valeurs possibles. La loi de distribution alatoire continue la plus utilise est la loi normale de Gauss et sa driv (loi normale centre-rduite) Loi normale f(x) : f(x) : 1/ (racine de 2pie) * e (-1/2*((X-u)/())^2 (avec u moyenne, cart-type, e=2,7182) Les paramtres sont Mu (Moyenne de la distribution thorique soit lesprance mathmatique proprit qui a la plus grande chance dapparatre) et 2 (unit de dispersion soit la variance). Ex 1 Taille : Sous forme graphique (histogramme), on peut comparer des donnes alatoires avec la distribution thorique mais on saperoit quil faut un nombre trs lev dobservation (dia4-41 ex :500 observations) pour percevoir une certaine normalit. (dia 4-42 tableau de comparaison avec un nombre diff. dobservation) Page 16

Rsum MQ I 1re anne 2011/2012 on voit que plus il y dobservation plus on se rapproche de la moyenne thorique et de mme avec lcart-type Ex 2 Groupement : Pour une distribution de 100 observations en diffrentes classe (7_11_15) la configuration varie fortement donc cela prouve encore une fois que la normalit reprsenter au travers dun histogramme nest pas une chose 100% correcte. A retenir : La loi normale est un modle simple de distribution alatoire thorique qui est bas sur 2 paramtres, la moyenne et lcart-type (variabilit). Le fait que la symtrie de distribution soit autour de la moyenne reprsente une des caractristiques majeures. La contrainte est le fait quil existe une infinit de combinaison (moyenne_cart-type), pour viter cela on utilise la loi normale standardis. Loi normale centre rduite - standardise Formule : f(x) = (1/(racine de 2pi)*e-1/2(x)^2 (avec u moyenne 0,
cart-type =1 et e = 2.7182)

Les paramtres sont Mu 0 (moyenne) et 2 =1(variabilit) Le but : produire des rgles de distribution et une table de distribution des probabilits Processus : dfinir des rgles, cest--dire des intervalles en utilisant lcart-type. Ex : la moyenne est 0, le reste des valeurs vont se trouver principalement dans un intervalle de 1 cart-type, puis une partie plus petite des valeurs vont se trouver dans un intervalle de deux cart-type et cela jusk 3 cart-type. Au-del on prtend quil nait plus de valeur.

Une fois le calcul effectu, on peut se rfrer aux tables de distribution fournie dans tous les manuels de statistiques. (voir tp6 exercice 4) La standardisation des valeurs seffectue selon la formule suivante : Zi = (Xi-Xmoy)/Sx. Ceci permettra donc dappliquer la loi normale standardise.

La probabilit p(z<-1.38) = 0.084, cette valeur provient de la table des probabilit puis il font fois 100 pour les 100 ans. Mais a cest plus de lordre du TP que de lexam (je pense ) A retenir en plus : Le X tant modifi attention linterprtation, il est souhaitable de se limiter des fonctions simples ! Il est ncessaire que la distribution originelle X soit unimodale pour que cela produise une distribution normale. Page 17

Rsum MQ I 1re anne 2011/2012

Comment vrifier la normalit ? 1. vrification visuel avec par exemple la droite de Henri ou la superposition de la courbe normale sur le diagramme 2. Descripteur statistique, Xmoy et Xmd doivent tre trs proche ou semblable. Ou encore lindice skx doit tre proche ou gale 0 3. Test du chi-deux, comparaison du x2 avec la valeur critique pour un risque donne (dans les questions suivantes, il nous est juste demand de les citer) Complment de comprhension Explication du processus de la loi normale centre rduite standardis 1. Ne pas confondre F(x) et la probabilit. F(x) correspond au diffrent point sur la courbe et ne servent rien dans notre processus pour dfinir la probabilit. La probabilit correspond un rapport entre lintervalle dfini et la surface totale sous la courbe. 2. La premire chose pour utiliser cette loi, cest que la fonction rsultant de nos observations forme une courbe dite normale. Pour vrifier si elle est normale on a plusieurs moyens. La droite de Henri (ancienne mthode), la superposition de la courbe normale sur un diagramme (peut ne pas tre 100% fiable, car le nombre de classe utiliser dans les histogrammes fait que la prcision va varier et tout peut tre modifi), ou encore des donnes statistiques comme le fait que le Xmoy et Xmd doivent tre proche ou semblable, ou que lindice de symtrie skx soit proche ou gale 0. Finalement il reste le test chi-deux que nous ne connaissons pas encore. 3. Si il savre que la courbe ne soit pas normale, il existe la possibilit de la modifier, en utilisant des fonctions (comme logarithme) que lon peut trouver dans des formulaire daide, la courbe pour la rendre normale. !!!lors de lanalyse il ne faudra pas oublier de transformer les valeurs obtenu comme elle devrait tre la base, avant la transformation !!! 4. Mnt on appele la loi normale centre rduite car - Centre correspond au fait que lon dplace la moyenne vers 0 - Rduite car on rend la fonction plus simple utilis et on rduit lcart-type la valeur de 1 Formule : f(x) = (1/(racine de 2pi)*e-1/2(x)^2 (avec u = moyenne 0, cart-type =1 et e = 2.7182) 5. Lorsque lon reprsente la courbe de la loi normale, on indique et utilise gnrale les valeurs allant de 0 +-3 cart-type, car de +-1 on a 68% des valeurs qui risque de ce trouver dans lintervalle, que pour +-2 on a dj 95,45% et que pour +-3 on a 99,75% soit presque 100%. Ceci veut dire que plus loin, p.ex. partir de +-4 cart-type, il ne reste que 0.25% ce distribuer jusqu linfini. 6. Voil. Mnt si on utilise un exemple pour continuer, il est possible de lire et dutiliser les intervalles pour dfinir personnellement le pourcentage de probabilit. Alors si on regarde le schma suivant :

Page 18

Rsum MQ I 1re anne 2011/2012 Il faut savoir que la valeur totale (maximun) = 1 soit 100%. Un autre exemple que sur le schmas : Si on cherche obtenir lintervalle aprs lcart-type +1 on a alors : 1 (100%) (tout ce qui se trouve gauche de x 1 ) soit 0.841 qui est obtenu laide du tableau de la dia 4-48 ce qui fait : 1-0.841 = 0.159 soit 15.9%. Ceci veut dire quon a 15.9% de chance quune valeur quelconque se trouve dans un intervalle partant de x 1 et linfini. 7. Mnt il est possible dutiliser des lments prdfini en travaillant avec la formule Z F(x) qui correspond la normalisation prcdemment pratiqu. La formule : Zi = (Xi Xmoy) / Sx O : Xi = toute les valeurs de notre chantillon (on doit alors faire la manipulation pour chaque X), Xmoy correspond la moyenne de lchantillon obtenu avec SPSS et Sx lcart-type. 8. Avec lexemple donn, on a N observations 80 qui correspond une moyenne de 866.5 mm et un cart-type de 120.71mm. LA formule consiste donc faire (700-866.5)/120.71 = -1.38. !!! le 700 correspond une valeur personnel dfini afin de rpondre une question du type quel est la probabilit danne quil y ait moins de 700 mm en un an de pluie. !!! La valeur obtenu est une probabilit de -1.38 et si nous utilisons les tableaux de donnes que nous avons dans divers documents scientifiques, nous pouvons constater que cela correspond une valeur de 0.084 qui multiplier par 100 pour le nombre danne totale correspond 8.4 annes. 9. Le deuxime exemple consiste faire linverse. On a 90% qui est la valeur objective. Ceci correspond sur un tableau la ligne 1.2 et la colonne 0.08 soit 1.28 et on utilise la formule dans lautre sens. (1.28 * 120.71) 866,5 = 1021mm. Donc quel est la quantit qui dans 90% des cas nest pas dpasser, cest 1021 mm / an Questions chapitre 4 : 1. 2. 3. 4. 5. Quelle est la dmarche de dfinition dune distribution thorique alatoire discrte Quels sont les deux lois de distribution discrte ? Et leurs paramtres ? Quels sont les deux lois de distribution continues ? Et leurs paramtres ? Quelles sont les contraintes dune normalisation de distribution ? Quels sont les outils de vrification de la normalit ?

Rponses chapitre 4 : 1. 2. 3. 4. 5. 1. Choisir une loi adapte, 2. Dterminer les paramtres 3. Comparer ou gnraliser les distributions Loi bin (Moy (n*p) et var (n*p*q)), Loi de poisson (Moy (Mu) = n*p (seul utile car Var = moy mu) ) Loi normale (de Gauss) (moy Mu et Var) et loi normale centre-rduite (moy=0 et Sig=1) Lunit est modifie, distrib de base doit tre unimodale, se limiter es fct simples (ou changer doutil) Graphique (droite de Henri, superposition des courbes) stat (moy md, indice de symtrie 0), Chi-deux

Page 19

Rsum MQ I 1re anne 2011/2012

Chapitre 5 : intervalles de confiance et tests statistiques


Intervalle de confiance : mesure de lincertitude lie lestim. de param. dune population partir dindices calculs sur un chantillon o la vraie valeur du param. se situe lint. de cet intervalle (dfini sur la base de lchantillon) o la taille de lchant. influence lamplitude (la largeur ) de cet intervalle o la prsence de la valeur du param. lint. dun inter. est exprime en termes de probabilit o lvaluation dun param. de pop. partir dun chant. est entache dune incertitude o en calculant cet indice (ex. : moy., .-type,) sur un grd nbre dchant. tirs de la mme popu., on constaterait que sa distribution suit un loi normale o + la taille de lchan. est grande, + lestim. du para. est prcise (interv. de confiance rduit) o les chant. sont extraits de la popu. dune faon alatoire o la distribution des valeurs du phnomne, au niveau de la popu., suit une loi normale o lincerti. de lvaluat. du param. peut tre dtermine partir des caractrist. de lchant. : sa taille n la dispersion de ses valeurs sx (cart-type) rsumes par lerreur standard (SE) o on admet que la distrib. des val. moy. obtenues pour chacun de ces chant. est dfinie par :

o on admet donc que la vraie valeur du para. dterminer est dans lintervalle donn pour une probabilit dfinie :

o Erreur standard de la moyenne :

o Erreur standard de lcart-type :

Dterminer la taille de lchantillon : o pour valuer SE, ncessaire de constituer un 1er chantillonnage appel pr-chantillon petite taille on suppose que variabilit s est la mme que celle de lchant. final Page 20

Rsum MQ I 1re anne 2011/2012 o ex : pr-ch. sur 21 individus propose : n = 21, moy. = 22.0, Sx 3.0 et SE 3/21 0.65 vraie moy. pour proba de 95% et donc entre 20.73 et 23.27 on souhaite SEmoy 0.25 (ou intervalle denv. 0.5 autour moyenne) comme SEmoy s/n n = (s/SE)2 la taille n de lchant. produire sera donc : n = (3/0.25)2 = 144 observations la validit de ce raisonnement repose sur hypothses relativement svres : normalit de la distrib. de la popu. chantillonnage alatoire variabilit de tous les chan. est suppose constante moy. et .-type du pr-chan. et de lchant. final sont supposs semblables SE est aussi dfinie par dautres indices Tests statistiques : Les 2 chant. proviennent-ils dune mme popu. ? ou Les diffrences dge observes proviennent-elles de lchantillonnag ou de diffrences relles au niveau de la population ? ou Les diffrences sont-elles statistiquement significatives ? il faut tester ces diffrences ! Finalit des tests : o ils vrifient quoi sont dues les diffrences : lchantillonnage elles sont donc statistiquement non significatives lappartenance des popu. diffrentes, statistiquement significatives distinction entre diffrences relles et alatoires o permettent de comparer groupes (chantillons) dans les 3D : thmat. : des groupes dobs. spati. : des rgions, groupes dobjets spatiaux temp. : des priodes o permettent de comparer un chant. une popu. chant. est-il extrait dune popu. donne ? popu. : dfinie par paramtres prcis chant. : dfini par indices entachs dincertitude 4 composantes des tests : o 1. hypothses du test (2 hypoth. : soit nulle H0 -> rejeter, soit hypothse alternative H1) o 2. risque derreur (choix du risque derreur daccepter la conclusion du test) o 3. degrs de libert (influence de la taille de lchan. sur incertitude de la dcision) o 4. types de tests (paramtriques ou non) 1. hypothse du test : o hypot. nulle H0 postule que la diffrence tester (entre indices et/ou paramtre) nest quapparente, donc non significative, H0 : diffrence = 0 o hypot. alternative H1 postule que la diff. tester (...) est relle, donc significative, hypot. bilatrale : H1 : diffrence 0 Page 21

Rsum MQ I 1re anne 2011/2012 hypot. unilatrales : H1 : diffrence < 0 ou > 0 2. risque derreur : o risque quon est daccord de prendre pour rejeter H0 : accepter que diff. soit non significat. o choix du risque de rejeter H0 alors quelle est vraie o but : calculer la proba. que H0 soit vraie -> si cette proba. est faible (sous un seuil) -> rejete o risque derreur : seuil choisi pour rejeter H0 (proba. H0 vraie < )

o + est petit (risque erreur faible), + diffrence doit tre importante pour tre juge signific. o choix du risque dpend des consquences de la dcision (ex : mto 5-20% mais scurit construction dun btiment, risque sera trs faible) o existe un 2me type erreur que lon peut commettre dans le cadre des tests : celui accepter H0 alors quelle nest pas vraie on lappelle risque derreur mais on ne lvalue pas car on admet que les 2 hypothses sont de vraies alternatives 3. degr de libert : o + chant. est grand, + valu. des param. est proche de sa vraie valeur test svre o valeur degr libert est souvent lexpression de la taille de ou des chant. considr(s). DF = n par avec n = taille chant. et par = nbre de param. inconnus (gnral. 1 ou 2) 4. test paramtrique : test paramtrique : o font rfrence la loi normale o on garantit que variable, phnom., se situe sur chelle cardinale, continue test non paramtrique : o pas exigence sur nature distribution o cardinal, ordinal et mme normal Utilisation des tests statistiques : 1. poser problme (ex. : pleut-il + l que ici ?) 2. formuler hypothse scientifique (ex. : il pleut en moy. + l que ici) 3. choisir info pertinente dans le 3D (ex. : th. : prcip. annu., spa. : sites, temp. : 30 ans) 4. saisir et stocker info (ex. : variable cardinale) 5. explorer donnes (ex. : choisir indicat. pertinents (moy., variance)) 6. choisir test pertinent (ex. : test param. de comparaison des moyennes (t de Student)) 7. appliquer le test (ex. : non rejet H0 : moy. pas diffrentes / rejet H0 : moy diffrentes) 8. poursuivre analyse en fct rsultats test

Page 22

Rsum MQ I 1re anne 2011/2012 Tests paramtriques o variable cardinale et distrib. normale ( et 2), un ou plusieurs chant. avec une popul. o comparaison de 2 variances (test F de Fischer) et de 2 moyennes (test t de Student) nb : si plusieurs chant. analyse de variance (test F de Fischer)

Page 23

Rsum MQ I 1re anne 2011/2012

o Tous les chantillons appartiennent-ils la mme population ? Les variations du phnomne lintrieur de chacun des chantillons sont-elles diffrentes des variations entre chantillons ? si diff. pas significative tous ces chantill. peuvent provenir de la mme population si diff. significative au - 1 de ces chant. ne provient pas de la mme pop. il faut ensuite comparer les chant. 2 2 pour avoir une comparaison + dtaille cette dmarche est appele Analyse de variances , ralise laide du test F, mais plus pour comparer 2 variances mais 2 ou plusieurs chantillons o Analyse de variance : H0 : diffrences de variabilits pas significatives / H1 : elles le sont les k chantil. sont distribus normalement et la pop. parente est suppose normale stat. F : Fobs = (+ grande variance) / (+ petite variance) on utilise 2 variances (on compare la variabilit) : une lintrieur de lchantillon (sw2), une entre les chantillons (sB2) degr de libert pour sw2 : DFintra : N-k, pour sB2 : DFinter : k-1 rejeter H0 pour un risque derreur choisi si Fobs > Fcrit plus les chant. sont grands, plus ils se rapprochent de la ralit

Tests non paramtriques (on devrait les prfrer aux autres car ils sont + flexibles) : o comparaison de distributions : une observe et une thorique (nominal, ordinal) o comparaison de 2 chantil. : leur frquence (nomi. ou ordi.), leur tendance centrale (ordin.) o comparaison de plusi. chant. : leur frqu. (nom. ou ord.), leurs rangs relatifs (ordinal) o Tests : nominal : test du Chi-deux (ou Chi-carr) et test de Kolmogorov-Smirnov ordinal : teste U de Mann-Whitney et test de Kruskal-Wallis - rduction de niveau si la variable originelle est cardinale o comparaison de plusi. chant. (>2) : test de Krus.-Wal. et test du Chi-deux Page 24

Rsum MQ I 1re anne 2011/2012

(Chi-deux)

obs

ici, k est pas le nbre dchantillons mais le nbre de classes

o regardez les exemples dans les dia...

o regardez les exemples dans les dia...

Questions chapitre 5 : 1. Quest-ce quun intervalle de confiance ? 2. Quelles sont les hypothses dutilisation dun intervalle de confiance ? 3. Quels sont les deux types derreur standard ? Comment dterminer la taille de lchantillon produire ? 4. Quel est le but dun test statistique ? 5. Quelles sont les 4 composantes dun test statistique ? 6. Quelles sont les 8 tapes de la dmarche dutilisation des tests statistiques 7. Quel est le contexte dutilisation des tests paramtriques ? 8. Quel est le contexte dutilisation des tests non-paramtriques ? 9. Dcrivez comment procder si on a des donnes X et que lon utilise telle loi Y. Lerreur est-elle significat. ?

Page 25

Rsum MQ I 1re anne 2011/2012 Rponses chapitre 5 : 1. Mesure de lincertitude lie lestim de param dune pop partir des indices calculs sur un ch 2. ch alatoires, loi normale, variabilit constante, moy cart-type, Lincertitude est dtermine par lerreur standard (la taille de lch et cart-type) 3. Sur la moy (S / Sqrt(n)) ou sur lcart type (S / Sqrt(2n)) taille : Pr-chantillon => ES souhait => on isole n 4. Vrifier si les diff sont relles (significatives) ou alatoires (non sign), comparer des ch ou ech/pop 5. Hypothse (H0 rejeter et H1), risque derreur, degr de lib, type de test 6. 1. Poser le problme, 2. hypothse, 3. choix de linfo pertinente, 4. stocker linfo, 5. explorer les donnes (choix des indicateurs), 6. choix dun test pertinent, 7. appliquer le test, 8. poursuivre lanalyse 7. Distrib norm (seul 2 param), var card, comp : ch-pop / ch-ch, variance (F de Fisher), moy (t de Student) 8. Distrib et variable quelconque, comparaison : ch-pop / ch-ch, Nom (Chi2, Kolmogorov-Smirnov), Ord (U de Mann-Witney, Kruskal-Wallis), plusieurs ch (Kruskal-Wallis, Chi2 (effectif obs 0 et thoriques)) 9. Cf. Exemples du chapitre 5 pour savoir comment procder

Contexte de saisie numrique : 1. Information collecter 2. Information disponible 3. Terrain 4. Documents analogiques 5. Fichiers numriques 6. Acquisition (Instr de mes) 7. Observations, mesures 8. Lecture (Instr de lecture) 9. Numrisation (Instr de num) 10. Lecture (Instr de lecture) 11. Info numrique (3 dim) Relation contenu / oprateur 1. Identification, diffrenciation 2. Ident, hirarchisation sans quantification des rapports 3. Ident, hirarchisation, mais en fct de la quantification 4. (qques opr logiques) 5. < > (oprations logiques) 6. < > + - * / (logiq + arithm) 7. Mode, amplitude, comptage 8. Mdiane, quantile 9. Moy, variance, corrlation, 10. Valeurs discrtes 11. Valeurs discrtes et continues

Page 26