Vous êtes sur la page 1sur 5

ECOLE POLYTECHNIQUE

TRAITEMENT STATISTIQUE DES DONNEES GEOLOGIQUES COURS GLQ3402

(Version 2.5; 2000)

par Denis Marcotte

Introduction

1. INTRODUCTION ...................................................................................................................................................2 1.1 OBJECTIFS DE L'ANALYSE DES DONNES .............................................................................................................2 1.2 PLACE DU COURS DANS LA FORMATION DE L'INGNIEUR GOLOGUE; OBJECTIFS .................................................2 1.3 PRINCIPALES STATISTIQUES DUN CHANTILLON..................................................................................................3 1.4 PRINCIPAUX PARAMTRES DUNE POPULATION ....................................................................................................4

Introduction

1. INTRODUCTION
Au niveau du contenu thorique, ce cours se veut un complment au cours de statistique 327. Le cours 327 traitait surtout des aspects monovariables (mesures de tendance centrale et de dispersion, tude des distributions et tests d'hypothses) et bivariables (corrlations et rgression linaire). Le cours 7.431 porte sur les techniques multivariables d'analyse des donnes (rgression linaire multiple, analyse en composantes principales, analyse discriminante et classifications). Les applications illustrant ces mthodes couvrent diffrents domaines du gnie gologique: exploration gochimique, gologie applique au gnie civil, donnes gophysiques et autres. Le point de vue gomtrique et descriptif de ces mthodes est favoris par rapport une optique plus statistique et infrentielle.

1.1 Objectifs de l'analyse des donnes


L'ingnieur gologue est souvent confront des masses considrables de donnes. La plupart du temps plusieurs variables (attributs, caractres) ont t mesures pour chaque observation. L'tude individuelle de ces variables, bien qu'essentielle, ne permet pas de retirer toute l'information dsire de ce tableau de donnes. Les mthodes bivariables, en particulier les diagrammes binaires (scatterplots en anglais), sont dj beaucoup plus riches d'informations puisqu'elles permettent d'tablir des relations entre les variables. Les mthodes multivariables vont un peu plus loin et cherchent les relations simultanes entre plusieurs variables. Ces mthodes ne sont pas le propre des ingnieurs gologues; elles peuvent servir analyser les donnes de toute provenance. Elles ont t dveloppes tout au long du 20e sicle par des statisticiens et des chercheurs provenant surtout des domaines suivants: sciences sociales, psychologie, sciences biologiques et agriculture. L'analyse des donnes vise donc essentiellement dcrire les liens entre les variables et les observations de notre matrice de donne. Plus prcisment, voici une srie de questions auxquelles ces mthodes tenteront de fournir des rponses: i. ii. iii. iv. v. Peut-on prdire le comportement d'une variable partir d'une ou plusieurs autres variables (problme de rgression)? Quelle est la meilleure quation de prdiction? Peut-on identifier, voir interprter, des facteurs pouvant expliquer les variations observes dans les diffrentes variables (analyse factorielle)? Peut-on filtrer de nos donnes l'effet d des facteurs indsirables (analyse factorielle)? Peut-on identifier les diffrences existant entre divers groupes parmi nos donnes (analyse discriminante)? Comment utiliser ces diffrences pour prdire le groupe auquel appartient une nouvelle observation? Quelles sont les observations (ou les variables) ayant des ressemblances au niveau de leur comportement (classification automatique)?

En gologie, contrairement plusieurs autres domaines, ces variables sont habituellement mesures en un point prcis de l'espace. Certaines de ces variables peuvent tre autocorrles spatialement (rappelez-vous vos notions de gostatistique acquises en gologie minire) de sorte que l'chantillon ne peut tre considr comme tant constitu d'observations indpendantes d'une mme population. Cet tat de fait impose la ncessit de prcautions supplmentaires lors du prlvement de l'chantillon. En effet si l'on veut que les descriptions de notre chantillon aient quelque pertinence que ce soit en regard de la population, il conviendra d'obtenir un chantillon spatialement le plus homogne possible. On vitera en particulier les sur-reprsentations de zones gographiques, de types de roches, etc...Signalons au passage que d'autres mthodes (e.g. gostatistique) permettent l'tude des variables spatialement dpendantes. Ces mthodes sont encore du domaine de la recherche et dpassent le cadre de ce cours.

1.2 Place du cours dans la formation de l'ingnieur gologue; objectifs

Introduction

Ce cours vise fournir les principaux outils multivariables ncessaires l'ingnieur gologue pour sa pratique professionnelle ou pour ses tudes gradues, la matire vue au cours n'tant reprise dans aucun autre cours gradu du dpartement. Ce cours utilise les notions vues au cours 327 et au cours d'algbre linaire (105). L'tudiant devrait pouvoir comprendre les articles scientifiques de son domaine utilisant ces mthodes. Il devrait matriser les notions thoriques suffisamment pour pouvoir utiliser de faon claire les logiciels d'analyse multivariable disponibles commercialement. Il devrait clairement percevoir les buts de chaque mthode. A partir d'un problme concret, il devrait pouvoir dterminer quelles sont les mthodes d'analyse les plus appropries. Il devrait galement comprendre les hypothses et les limites propres chaque mthode. Le cours fournit galement l'tudiant l'occasion d'apprendre un logiciel de programmation extrmement puissant: MATLAB. Ce logiciel, d'usage trs gnral, lui sera d'une grande utilit tout au long de sa carrire professionnelle.

1.3 Principales statistiques dun chantillon


Mesures de tendance centrale: Moyenne arithmtique:

x=
Moyenne gomtrique (G) :

1 xi n
1 n

Log (G ) = Moyenne harmonique (H) :

log( xi )

1 1 1 = H n xi
Mode Valeur la plus frquente (habituellement sur un histogramme pour des variables continues) Mdiane Valeur centrale de lchantillon

Mesures de dispersion Variance

s2 =
ou

1 1 2 (xi x ) 2 = xi 2 nx n1 n1
$2 =

(n 1) 2 s n

cart-type

cart inter- quartile Diffrence, dans la srie ordonne, entre lobservation correspondant au 75e percentile (3e quartile) et lobservation correspondant au 25e percentile (1er quartile).

s = s2

Introduction

1.4 Principaux paramtres dune population


Mesures de tendance centrale:

Moyenne ou esprance mathmatique:

=E[X] Mode Valeur la plus probable, i.e. x0 est le mode de f(x) la fonction de densit, si f(x0)=max(f(x)) Mdiane Valeur centrale de lchantillon, i.e x0 est la mdiane si F(x0)=0.50, o F(x) est la fonction de rpartition.

Mesures de dispersion

Variance

2 = E[(X-)2] = E[X2]-2

cart-type

= 2
cart inter-quartile F-1(0.75)-F-1(0.25)

o F-1(p) est la fonction inverse de la fonction de rpartition.

Vous aimerez peut-être aussi