Académique Documents
Professionnel Documents
Culture Documents
Introduction
1. INTRODUCTION ...................................................................................................................................................2 1.1 OBJECTIFS DE L'ANALYSE DES DONNES .............................................................................................................2 1.2 PLACE DU COURS DANS LA FORMATION DE L'INGNIEUR GOLOGUE; OBJECTIFS .................................................2 1.3 PRINCIPALES STATISTIQUES DUN CHANTILLON..................................................................................................3 1.4 PRINCIPAUX PARAMTRES DUNE POPULATION ....................................................................................................4
Introduction
1. INTRODUCTION
Au niveau du contenu thorique, ce cours se veut un complment au cours de statistique 327. Le cours 327 traitait surtout des aspects monovariables (mesures de tendance centrale et de dispersion, tude des distributions et tests d'hypothses) et bivariables (corrlations et rgression linaire). Le cours 7.431 porte sur les techniques multivariables d'analyse des donnes (rgression linaire multiple, analyse en composantes principales, analyse discriminante et classifications). Les applications illustrant ces mthodes couvrent diffrents domaines du gnie gologique: exploration gochimique, gologie applique au gnie civil, donnes gophysiques et autres. Le point de vue gomtrique et descriptif de ces mthodes est favoris par rapport une optique plus statistique et infrentielle.
En gologie, contrairement plusieurs autres domaines, ces variables sont habituellement mesures en un point prcis de l'espace. Certaines de ces variables peuvent tre autocorrles spatialement (rappelez-vous vos notions de gostatistique acquises en gologie minire) de sorte que l'chantillon ne peut tre considr comme tant constitu d'observations indpendantes d'une mme population. Cet tat de fait impose la ncessit de prcautions supplmentaires lors du prlvement de l'chantillon. En effet si l'on veut que les descriptions de notre chantillon aient quelque pertinence que ce soit en regard de la population, il conviendra d'obtenir un chantillon spatialement le plus homogne possible. On vitera en particulier les sur-reprsentations de zones gographiques, de types de roches, etc...Signalons au passage que d'autres mthodes (e.g. gostatistique) permettent l'tude des variables spatialement dpendantes. Ces mthodes sont encore du domaine de la recherche et dpassent le cadre de ce cours.
Introduction
Ce cours vise fournir les principaux outils multivariables ncessaires l'ingnieur gologue pour sa pratique professionnelle ou pour ses tudes gradues, la matire vue au cours n'tant reprise dans aucun autre cours gradu du dpartement. Ce cours utilise les notions vues au cours 327 et au cours d'algbre linaire (105). L'tudiant devrait pouvoir comprendre les articles scientifiques de son domaine utilisant ces mthodes. Il devrait matriser les notions thoriques suffisamment pour pouvoir utiliser de faon claire les logiciels d'analyse multivariable disponibles commercialement. Il devrait clairement percevoir les buts de chaque mthode. A partir d'un problme concret, il devrait pouvoir dterminer quelles sont les mthodes d'analyse les plus appropries. Il devrait galement comprendre les hypothses et les limites propres chaque mthode. Le cours fournit galement l'tudiant l'occasion d'apprendre un logiciel de programmation extrmement puissant: MATLAB. Ce logiciel, d'usage trs gnral, lui sera d'une grande utilit tout au long de sa carrire professionnelle.
x=
Moyenne gomtrique (G) :
1 xi n
1 n
log( xi )
1 1 1 = H n xi
Mode Valeur la plus frquente (habituellement sur un histogramme pour des variables continues) Mdiane Valeur centrale de lchantillon
s2 =
ou
1 1 2 (xi x ) 2 = xi 2 nx n1 n1
$2 =
(n 1) 2 s n
cart-type
cart inter- quartile Diffrence, dans la srie ordonne, entre lobservation correspondant au 75e percentile (3e quartile) et lobservation correspondant au 25e percentile (1er quartile).
s = s2
Introduction
=E[X] Mode Valeur la plus probable, i.e. x0 est le mode de f(x) la fonction de densit, si f(x0)=max(f(x)) Mdiane Valeur centrale de lchantillon, i.e x0 est la mdiane si F(x0)=0.50, o F(x) est la fonction de rpartition.
Mesures de dispersion
Variance
2 = E[(X-)2] = E[X2]-2
cart-type
= 2
cart inter-quartile F-1(0.75)-F-1(0.25)